Hemos actualizado nuestro Política de privacidad para aclarar cómo usamos sus datos personales.

Usamos cookies para brindarle una mejor experiencia. Puede leer nuestro Política de cookies aquí.

Publicidad
lista

7 proyectos que están aprovechando el poder de Big Data

lista

7 proyectos que están aprovechando el poder de Big Data

Big data. Parece que la frase está en todas partes. Científicos de muchos campos han sido los primeros en adoptar big data en términos de producción, gestión y análisis. Un movimiento que ha sido impulsado por la rápida generación de datos científicos grandes y complejoscreados por instrumentos y dispositivos en laboratorios de todo el mundo. Los instrumentos cada vez más pequeños y más fácilmente disponibles son capaces de producir grandes cantidades de datos. Lo que deja a algunos preocupados de que este diluvio de datos pueda escalar fuera de control, lo que hace que sea demasiado difícil encontrar datos relevantes yderivar patrones y conocimientos significativos que resuelvan el problema en cuestión. Pero, ¿qué significa Big Data en el mundo real? ¿Quién está produciendo todos estos datos? Y, lo que es más importante, ¿qué están haciendo con ellos?


Esta lista reúne 7 proyectos enormes que están aprovechando el poder del big data para resolver grandes problemas en la ciencia.


1. Genómica amplia


Los investigadores del Broad Institute generan alrededor de 20 terabytes de datos de secuencia todos los días1 aproximadamente equivalente a más de 6.600 millones de tweets o 3.300 largometrajes en alta definición, lo que los convierte en el mayor productor de información genómica humana del mundo.Hasta la fecha, han procesado más de 1,5 millones de muestras de más de 1400 grupos en 50 condados2. Uno de los laboratorios principales de Broad, el laboratorio de Zhang de fama mundial, es pionero en el desarrollo y la aplicación de CRISPR-Cas9 y CRISPR-Cpf13. Para respaldar proyectos innovadores como este, Broad emplea un grupo de análisis y LIMS dedicado que desarrolla y mantiene una combinación personalizada de software personalizado y soluciones listas para usar.4. Después de años de depender del almacenamiento interno, Broad se ha asociadocon Google para aprovechar la esencialmente ilimitada Google Cloud Platform. Desde aquí, utilizan herramientas de código abierto basadas en Java, desarrolladas internamente, incluido su Genome Analysis Toolkit y Picard para el procesamiento de datos y análisislisis5,6.


2. Nestlé - Pruebas de calidad y seguridad alimentaria


Para Nestlé, la empresa de alimentos más grande del mundo, los macrodatos son un gran problema7. Hablando en "El futuro de la industria alimentaria" el año pasado, el profesor Guy Poppy explicó que la empresa lleva a cabo alrededor de 100 millones de pruebas analíticas cada año. Esto equivale aalrededor de 200.000 pruebas diarias a nivel de fábrica y alrededor de 10.000 resultados de seguridad realizados en laboratorios regionales por día8. Las pruebas se llevan a cabo para verificar que cada lote de cada producto que sale de la fábrica cumple con los estándares internos y externos, incluidos los compuestos nocivos o microorganismosen los materiales que utilizan, el entorno en el que operan y dentro del producto en sí. Solo los laboratorios regionales están a cargo de más de 950 personas, incluidos 30 expertos regionales y de grupo que trabajan en 25 laboratorios acreditados por ISO en países de todo el mundo9. Desde 2015 Nestléhan participado en un movimiento para mejorar el intercambio de big data entre empresas como ella y autoridades reguladoras como la FSA para permitir que la minería de datos rastree emeproblemas de seguridad alimentaria.


3. AstraZeneca - Secuenciación de 2 millones de genomas


El año pasado, AstraZeneca lanzó un esfuerzo masivo para recopilar secuencias del genoma y registros de salud de dos millones de personas durante la próxima década10. Menelas Pangalos, vicepresidente ejecutivo del programa de medicamentos innovadores de la compañía, declaró que esto costará “cientos de millones de dólares”. Continuó explicando que este proyecto por sí solo produciría alrededor de 5 petabytes de datos diciendo: "Si pones 5 petabytes en DVD, sería cuatro veces la altura del London Shard de 310 metros de altura". Gran parte de estos datosserá producido y gestionado por su socio, Human Longevity, cuyo objetivo final es secuenciar 10 millones de genomas humanos y emparejarlos con registros médicos. Impulsado por bioinformática mejorada, el objetivo de este proyecto es identificar secuencias genéticas raras que están asociadas con enfermedades yrespuesta al tratamiento.


4. EMBL-EBI - Archivo PRIDE


La base de datos PRoteomics IDEntifications PRIDE es un repositorio público centralizado que cumple con los estándares para datos proteómicos, incluidas las identificaciones de proteínas y péptidos, modificaciones postraduccionales y evidencia espectral de respaldo. Hablando en ISAS 2016 en Dortmund, Juan Antonio Vizcaino, ProteomicsEl líder del equipo en EMBL-EBI describió cómo el archivo se compone de más de 4.000 conjuntos de datos de más de 50 países e incluye datos producidos por más de 1.700 grupos11. En ese momento, esta base de datos, una de las muchas de las que EMBL es responsable, constaba de más de 560.000archivos que ocupan 225 terabytes de espacio de almacenamiento. Se envían alrededor de 150 nuevos conjuntos de datos cada mes, una tasa que solo aumentará11. Para agregar al desafío, más de la mitad de la base de datos se pone a disposición del público y los usuarios descargan 200 terabytes por valorde datos cada año.11 Actualmente, el EMBL-EBI funciona con una conexión a Internet de 20 Gbit,> 40.000 núcleos de CPU y tiene acceso a 70 Petabytes de almacenamiento12. DLas bases de datos como PRIDE están desempeñando un papel clave en el mapeo del proteoma humano al permitir que los investigadores accedan, descarguen y construyan sobre datos previamente publicados.Los proyectos actuales se centran en identificar aproximadamente el 75% de los espectros que normalmente no se identifican en cualquier experimento de especificación de masas proteómicas13.


5. Proyecto del cerebro humano


El programa insignia de HBP fue lanzado por el esquema de Tecnologías Futuras y Emergentes FET de la Comisión Europea en octubre de 2013, y está programado para funcionar durante diez años14. El proyecto tiene como objetivo construir una infraestructura de investigación científica basada en la tecnología de las comunicaciones de la información colaborativa para permitirinvestigadores de toda Europa para avanzar en el conocimiento en los campos de la neurociencia, la informática y la medicina relacionada con el cerebro. Los datos básicos que impulsan este proyecto se generan cortando cerebros humanos en varios miles de secciones de 60 micrómetros de espesor y escaneándolos utilizando imágenes de luz polarizada en 3D.Luego, los escáneres se recopilan para crear una reconstrucción digital en 3D de las fibras nerviosas individuales que eventualmente se combinarán a mayor escala para producir un mapa digital del cerebro humano. Cada segmento genera alrededor de 40 gigabytes de datos, lo que equivale a varios petabytes de datos sin procesar.para todo el cerebro15.


El proyecto se basa en cuatro infraestructuras informáticas de alto rendimiento. Una de las cuales, Cineca, la supercomputadora de análisis de datos masivos HBP, proporciona 2 Petaflop / s de potencia computacional al máximo rendimiento y 200 Terabytes de memoria principal, integrada con una instalación de almacenamiento masivo demás de 5 Petabytes de espacio de trabajo. Este sistema también se integrará con otra instalación de datos que proporcionará 5 Petabytes adicionales para un depósito de almacenamiento en disco en línea y 10 Petabytes adicionales para la conservación de datos a largo plazo16. La arquitectura del servicio ha sido cuidadosamente diseñada paraescale a millones de archivos y petabytes de datos, uniendo robustez y versatilidad.


6. NCI - Genomic Data Commons


Genomic Data Commons GDC, es un sistema de datos unificado que promueve el intercambio de datos genómicos y clínicos entre investigadores17. Una iniciativa del Instituto Nacional del Cáncer NCI, el GDC es un componente central del National Cancer Moonshot y elLa Iniciativa de Medicina de Precisión del Presidente PMI y se beneficia de los $ 70 millones asignados al NCI para liderar los esfuerzos en la genómica del cáncer como parte del PMI para Oncología. El GDC tiene como objetivo centralizar, estandarizar y hacer accesibles los datos de los programas del NCI a gran escala, como The CancerAtlas del genoma TCGA y su equivalente pediátrico, Investigación aplicada terapéuticamente para generar tratamientos efectivos TARGET 18,19. Juntos, TCGA y TARGET representan algunos de los conjuntos de datos de genómica del cáncer más grandes y completos del mundo, que comprenden más de dos petabytes dedatos un petabyte equivale a 223.000 DVD llenos de datos al máximo.


Además de esto, la GDC tiene la tarea de crear un proceso de envío de datos estandarizado, garantizar la calidad de los datos, armonizar grandes conjuntos de datos genómicos y proporcionar acceso seguro a los datos. También se han lanzado tres programas piloto de Cancer Genomics Cloud CGC para proporcionarinvestigadores del cáncer con acceso a datos genómicos y aprovechar el poder computacional elástico de la nube20. Esto elimina la necesidad de que los investigadores descarguen petabytes de datos y el costo y el tiempo prohibitivos requeridos para tales descargas. Los Cloud Pilots también permiten a los investigadores aprovecharalojado canalizaciones de análisis de vanguardia o para llevar sus propias herramientas a la nube. A través de la cooperación y la colaboración dentro y entre la academia, el gobierno y la industria privada, la GDC junto con la tecnología y las lecciones aprendidas de los pilotos de CGC continuarán mejorando la democratizaciónde datos sobre el cáncer y promover la misión del NCI.


7. Instituto Suizo de Bioinformática - VITAL-IT


El Instituto Suizo de Bioinformática SIB de la SIB, creado hace 18 años, tiene como objetivo fomentar la excelencia en la ciencia de datos para respaldar el progreso de la investigación biológica y la salud21. Compuesto por 750 científicos en 60 grupos repartidos por Suiza, suministran y mantienenmás de 150 bases de datos y plataformas de software de alta calidad para la comunidad mundial de investigación en ciencias de la vida. Dentro del SIB, un grupo más pequeño llamado VITAL-IT es responsable de brindar experiencia en almacenamiento y análisis de datos22. En los últimos 5 años, este grupo ha manejado másmás de 75 proyectos de investigación sobre una amplia gama de temas que van desde la ecología hasta la farmacodinámica, lo que ha dado como resultado que el grupo esté involucrado en más de 90 publicaciones hasta la fecha.


Para lograr esto, VITAL-IT aprovecha 7000 CPU y 7.5 petabytes de almacenamiento, ubicados en cinco sitios diferentes23. Utilizan esta infraestructura para archivar alrededor de 30 terabytes de secuenciación sin procesar, imágenes, serotipos y datos de comportamiento por semana. Además de esto, luego son responsables de archivar los resultados del análisis de estos datos, lo que generalmente equivale a 120 terabytes adicionales de datos cada semana. Todo esto se lleva a cabo al tiempo que permite el acceso de alta velocidad a todos sus datos para hasta 900,000 científicos y prueba el futuro de sus datos.almacenamiento para que se pueda acceder a él de forma fiable durante las próximas décadas23.


Patrocinado por :



Referencias


1. Broad Institute. Data Sciences. Disponible en http://www.broadinstitute.org/data-sciences Consultado el 25 de agosto de 2017.


2. Broad Institute. Genomics. Disponible en http://www.broadinstitute.org/genomics Consultado el 25 de agosto de 2017.


3. Broad Institute. Zhang Lab - Areas of Focus. Disponible en http://www.broadinstitute.org/zhang-lab/areas-focus Consultado el 25 de agosto de 2017.


4. Broad Institute. LIMS and Analytics. Disponible en http://www.broadinstitute.org/genomics/lims-and-analytics consultado el 25 de agosto de 2017.


5. Broad Institute. Genome Analysis Toolkit. Disponible en http://software.broadinstitute.org/gatk/ Consultado el 25 de agosto de 2017.


6. Broad Institute. Picard. Disponible en http://broadinstitute.github.io/picard/ Consultado el 25 de agosto de 2017.


7. Forbes. Nestlé encabeza la lista de las empresas de alimentos y bebidas más grandes del mundo. Disponible en http://www.forbes.com/pictures/gimf45klj/nestle-tops-the-list-of/#70bb04924398 consultado el 25 de agosto.2017.


8. Nestlé. Cómo Nestlé garantiza los alimentos seguros: nuestros estándares globales. Disponible en http://www.nestle.com/asset-library/documents/about_us/ask-nestle/nestle-ensures-safe-food-lead.pdf Consultado el 25 de agosto de 2017.


9. Nestlé. Seguridad alimentaria en Nestlé que combina previsión, vigilancia y normas armonizadas. Disponible en http://www.nestle.com/asset-library/documents/investors/nis-2013-vevey/john-obrien-randd-food-safety.pdf Consultado el 25 de agosto de 2017.


10. Ledford, H. 2016. AstraZeneca lanza un proyecto para secuenciar 2 millones de genomas. Nature, 532 7600, 427.


11. EMBL - European Bioinformatics Institute. Proteómica y la tendencia del “big data”: desafíos y nuevas posibilidades Charla en ISAS Dortmund. Disponible en http://www.slideshare.net/JuanAntonioVizcaino/proteomics-and-the-big-data-trend-challenge-and-new-possibilitites-talk-at-isas-dortmund consultado el 25 de agosto de 2017.


12. EMBL-EBI. Archivo europeo de fenomas del genoma del Instituto Europeo de Bioinformática. Disponible en http://www.turing-gateway.cam.ac.uk/sites/default/files/asset/doc/1609/Helen-parkinson.pdf Consultado el 25 de agosto de 2017.


13. Griss, J., Perez-Riverol, Y., Lewis, S., Tabb, DL, Dianes, JA, Del-Toro, N., ... y Wang, R. 2016. Reconociendo a millones deespectros no identificados en cientos de conjuntos de datos de proteómica de escopeta. Métodos de la naturaleza, 13 8, 651-656.


14. Human Brain Project - Overview. Disponible en http://www.humanbrainproject.eu/en/science/overview/ * Consultado el 25 de agosto de 2017.


15. Spectrum. Reinicios del proyecto del cerebro humano: un motor de búsqueda para el cerebro está a la vista. Disponible en http://spectrum.ieee.org/computing/hardware/the-human-brain-project-reboots-a-search-engine-for-the-brain-is-in-sight Consultado el 25 de agosto de 2017.


16. Cineca. Disponible en http://www.cineca.it/en Consultado el 25 de agosto de 2017.


17. National Cancer Institute - Genomic Data Commons. Disponible en http://gdc.cancer.gov/ Consultado el 25 de agosto de 2017.


18. National Cancer Institute - The Cancer Genome Atlas. Disponible en http://cancergenome.nih.gov/ Consultado el 25 de agosto de 2017.


19. National Cancer Institute - TARGET: Therapeutically Applicable Research to Generate Effective Treatments. Disponible en http://ocg.cancer.gov/programs/target Consultado el 25 de agosto de 2017.


20. National Cancer Institute - Center for Biomedical Informatics & Information Technology. NCI Cloud Resources. Disponible en http://cbiit.nci.nih.gov/ncip/cloudresources Consultado el 25 de agosto de 2017.


21. Instituto Suizo de Bioinformática. Disponible en http://www.sib.swiss/ Consultado el 25 de agosto de 2017.


22. Vital-IT - Centro de competencia en bioinformática y biología computacional. Disponible en http://www.vital-it.ch/services consultado el 25 de agosto de 2017.


23. Charla brillante - Datos para décadas: gestión de la bioinformática a largo plazo en SIB. Disponible en http://www.brighttalk.com/webcast/13139/186673/data-for-decades-managing-bioinformatics-for-the-long-term-at-sib Consultado el 25 de agosto de 2017.

Conozca al autor
Jack Rudd
Editor gerente
Publicidad