Hemos actualizado nuestro Política de privacidad para aclarar cómo usamos sus datos personales.

Usamos cookies para brindarle una mejor experiencia. Puede leer nuestro Política de cookies aquí.

Publicidad
lista

7 desafíos de datos en las ciencias biológicas

lista

7 desafíos de datos en las ciencias biológicas

El análisis y el almacenamiento de datos se está convirtiendo cada vez más en una de las principales preocupaciones de los laboratorios de las ciencias biológicas. El tiempo, el costo y la complejidad de la administración de datos han superado el costo y la velocidad de la generación de datos como los principales cuellos de botella. Todos los cuales plantean desafíos importantes paralos científicos cuyo trabajo es darle sentido a todo. Aquí reunimos 7 de los mayores desafíos de datos que enfrentan los científicos en este momento.


Almacenarlo todo


Los equipos de laboratorio modernos producen órdenes de magnitudes más de datos que los sistemas de vanguardia de hace unos pocos años. Desde la secuenciación de datos hasta la información de la estructura química, existe un flujo cada vez mayor de instrumentos, métodos, aplicaciones y requisitos reglamentarios con uso intensivo de datos.


Considere esto, la cantidad de datos generados por la investigación genómica por día se duplica cada 7 meses.1 Estos datos sin procesar requieren costosos computadores de alta gama para procesar y presentan el desafío del almacenamiento de datos. Las soluciones tradicionales de almacenamiento físico son típicamentepreferidos, pero son costosos y voluminosos. El almacenamiento en la nube está ganando terreno, pero incluso con los avances en la reducción de la información, el costo del archivo de datos aún puede ser costoso. Y, con muchas industrias que trabajan bajo regulaciones estrictas, a menudo no es suficiente simplemente almacenar los datos queEn su lugar, grandes cantidades de datos y metadatos deben mantenerse de forma segura durante años para garantizar una reproducibilidad completa.


estandarización de datos


La ciencia moderna depende de un enfoque integrado, que reúne a enormes equipos de expertos y los recursos a los que tienen acceso de todo el mundo. Este enfoque colaborativo permite a los investigadores abordar grandes proyectos, pero también presenta enormes desafíos. Diferentes instrumentos producen diferentes datos ydiferentes científicos registran los datos de diferentes maneras. Sin la estandarización, algo tan simple como registrar a un paciente como "Mujer" o simplemente con una "F" podría hacer imposible el análisis de datos. Ahora, escale ese tipo de pequeña inconsistencia en todos los datosnecesario para hacer algo así como una solicitud de aprobación de medicamentos: ¡el potencial de heterogeneidad es más que enorme!


Estos problemas solo se ven agravados por la falta de formatos de datos estandarizados, identificadores y estándares de datos internos laxos. No podemos olvidar el hecho de que muchos laboratorios todavía se están moviendo lentamente hacia el siglo XXI, haciendo la transición de sus sistemas de registro de datos de los sistemas tradicionales basados ​​en papel.en el mundo digital.


Disponibilidad de datos


En cualquier proyecto dado, podría tener CRO, coordinadores, científicos, pacientes y una gran cantidad de otras personas generando datos, todo lo cual podría ser clave para su investigación. Esto presenta desafíos cuando se está preparando para la auditoría,tomar una decisión importante sobre la dirección de su investigación o preparar una publicación. ¿Cómo puede estar seguro de que todos los datos que necesita están disponibles?


Lo más probable es que todos estos datos estén guardados en múltiples sistemas administrados por varias personas. En pocas palabras, ¡sus datos están por todos lados! Solo mire este ejemplo, el proyecto de 100,000 genomas tiene como objetivo secuenciar 100,000 genomas humanos en solo 5 años.Están contribuyendo 13 grupos regionales de servicios de salud, compuestos por miles de profesionales de la salud que luego dependen de múltiples socios para la secuenciación, el análisis y el almacenamiento. Desde aquí es fácil ver cómo, con tanta gente involucrada, la disponibilidad de datos se convierte en unadesafío masivo.


falta de propiedad de los datos


Considere esto, ¿quién es el responsable final de los datos que produce su empresa o laboratorio? Muchos laboratorios se enfrentan a utilizar los datos más recientes que pueden encontrar, ya que simplemente no hay nadie con la comprensión necesaria para garantizar que los datos más relevantes estén disponibles. Esa persona tambiénnecesita estar seguro de que los datos de varias fuentes son precisos y confiables. Si no se selecciona, es imposible saber si sus resultados valen algo.


La propiedad también se relaciona naturalmente con la PI y si los datos deben ser de acceso abierto. Las actitudes sobre el intercambio libre de datos varían ampliamente en la comunidad científica. En algunos campos, como la genómica, el intercambio de datos es completamente normal. Muchos investigadores comparten sus hallazgos en tiempo real, accesible para cualquier persona. Desafortunadamente, a menudo no hay acuerdos formales dentro de estos campos abiertos, lo que resulta en una falta de infraestructura técnica o soporte. Otras comunidades luchan con la accesibilidad de los datos, protegiéndolos detrás de muros de pago o simplemente no compartiéndolos todos. Muchos argumentan queesto frena directamente el progreso científico, ¡un argumento que no es probable que desaparezca pronto!


seguridad


La comunidad científica se enfrenta a varios desafíos importantes en la seguridad de los datos. Dado que los datos electrónicos son uno de los activos más valiosos para cualquier organización, se debe gestionar el acceso no autorizado. También se deben cumplir las regulaciones cada vez más estrictas sobre las leyes de privacidad y la trazabilidad de los datos.El problema es, ¿cómo se pueden negociar estos problemas mientras se fomenta un enfoque colaborativo y se promueve la accesibilidad de los datos?


Sin duda, es un desafío que la comunidad científica debe abordar. Hasta ahora ha habido un impacto limitado. Sin embargo, un estudio de 2013 ha demostrado que es posible volver a identificar a los participantes de la investigación utilizando datos genómicos "desidentificados" de fácil acceso junto con bases de datos genealógicasy registros públicos. 3 Da miedo teniendo en cuenta que estos datos podrían usarse para el robo de identidad, el chantaje, el marketing de salud dirigido e incluso para aumentar su seguro en función de las enfermedades a las que está predispuesto.


Falta de bioinformáticos

Muchos argumentan que los esfuerzos para atraer científicos a la bioinformática no se han priorizado durante años. Lo que lleva quizás al mayor desafío de todos, encontrar personas con las habilidades y la experiencia para obtener resultados a partir de datos sin procesar. Un problema claro es la falta histórica deuna trayectoria profesional definida para un bioinformático. La comunidad científica todavía tiene un largo camino por recorrer para proporcionar recompensas por compartir sus habilidades en una gama de proyectos multidisciplinarios en constante evolución. Durante la última década, muchos institutos han puesto en marcha instalaciones básicas de bioinformática para reforzar sus limitadasexperiencia en datos. Pero, incluso con estas instalaciones centrales, surgen nuevos desafíos. Por ejemplo, un grupo descubrió que durante un período de 18 meses el 79% de las técnicas se aplicaron a menos del 20% de los proyectos.4 Básicamente, esto significa que la mayoría de los investigadoresllegó al equipo de bioinformática en busca de un análisis completamente personalizado y a medida.


La falta de un mandato laboral claro, una trayectoria profesional y recompensas atractivas parecen contribuir al número cada vez mayor de puestos de bioinformática vacantes en todo el mundo. ¡Parece que tenemos que volver a la mesa de dibujo en este caso!


Clasificando el ruido


Entonces, ha superado todos los desafíos que hemos presentado hasta ahora y sus datos están listos para comenzar. ¿Pero por dónde empezar? Dentro de su gran pila de datos mezclados, necesita determinar qué es importante para sus objetivos específicos. Problemaes decir, a menudo es difícil definir lo que está buscando antes de verlo. Por lo tanto, su izquierda para examinar sus datos ruidosos tratando de detectar lo que es relevante. También es importante recordar que los datos que son inútiles para usted pueden ser críticos para la misiónalguien más. Además, en muchos campos, los experimentadores pueden generar nuevos datos más rápido de lo que los bioinformáticos pueden hacer predicciones informadas


Veamos un ejemplo, un estudio de microscopía electrónica de barrido en un milímetro cúbico de tejido cerebral genera alrededor de 2000 terabytes de datos.5 Un científico solo puede querer estudiar una estructura específica dentro de esa muestra de tejido. Requiere mucho tiempo y mucho espaciopor error. Especialmente cuando se llama a un bioinformático para que ayude como una ocurrencia tardía, por lo que no está involucrado en el diseño experimental.


Con todo eso en mente, es fácil ver por qué los macrodatos se han convertido en uno de los problemas más generalizados en la investigación científica. Y, sin algunos desarrollos serios en tecnología y cambios aún mayores en la forma en que pensamos sobre los datos en la industria,es uno que probablemente empeore.


Referencias


1. Stephens, ZD, Lee, SY, Faghri, F., Campbell, RH, Zhai, C., Efron, MJ, ... y Robinson, GE 2015. Big data: astronomical or genomical? PLoS Biol,13 7, e1002195.


2. Helvey, T., Mack, R., Avula, S. y Flook, P. 2004. Seguridad de datos en la investigación de las ciencias de la vida. Drug Discovery Today: BIOSILICO, 2 3, 97-103.


3. Gymrek, M., McGuire, AL, Golan, D., Halperin, E. y Erlich, Y., 2013. Identificación de genomas personales por inferencia de apellido. Science, 339 6117, págs. 321-324.


4. Nature Volume 520, Issue 7546, Comment Article. Core Services: Reward Bioinformaticians. Disponible en http://www.nature.com/news/core-services-reward-bioinformaticians-1.17251#/unique Consultado el 23 de abril de 2017.


5. Fuller, JC, Khoueiry, P., Dinkel, H., Forslund, K., Stamatakis, A., Barry, J., ... y Rajput, AM 2013. Mayores desafíos en bioinformática. Informes EMBO,14 4, 302-304.

Conozca al autor
Jack Rudd
Editor gerente
Publicidad