El valor de los datos abiertos en medio de la pandemia

Por: Equipo de ingenieros del Data Observatory
Data Observatory diseñó, implementó y actualmente opera la solución que se levantó en el repositorio GitHub del Ministerio de Ciencia, una plataforma de datos sobre COVID-19 y su impacto en Chile. El trabajo del Data Observatory ha consistido en ingestar información pública desde su fuente original, transformarla a formatos estándares interoperables y disponerla en la plataforma.
Para el Data Observatory (DO) se trata de un proyecto alineado con la misión del organismo, convirtiendo al DO en un hub en el que se generan discusiones, consensos y colaboraciones que agregan valor al permitir que más personas dediquen su tiempo a trabajar con los datos, enfocándose en el análisis de los mismos.
Hemos sumado colaboraciones de personas, académicos, organismos públicos y privados, entre los que figuran la Universidad del Desarrollo, el Instituto de Sistemas Complejos de Ingeniería de la Universidad de Chile, la Junta de Aeronáutica Civil, los ministerios de Transportes, Medio Ambiente y de Salud, entre otros.
El repositorio dispone de 46 data products actualmente. A él contribuyen proveedores de datos, interesados en participar del proyecto abierto y colaborar desde distintas perspectivas: extracción y pre-procesamiento, procesamiento y visualización, y análisis de los datos. Las fuentes de datos que alimentan la plataforma deben ser abiertas, en el sentido del opensource; es decir, cuando se envía una contribución, debe garantizar el acceso a todos los archivos (fuentes de datos, código fuente y salida del procesamiento). Más aún, al utilizar fuentes abiertas, se garantiza transparencia, generando confianza y más colaboraciones con la comunidad, en una retroalimentación positiva. En este sentido, hemos sumado colaboraciones de personas, académicos, organismos públicos y privados, entre los que figuran la Universidad del Desarrollo, el Instituto de Sistemas Complejos de Ingeniería de la Universidad de Chile, la Junta de Aeronáutica Civil, los ministerios de Transportes, Medio Ambiente y de Salud, entre otros.
Las mayores ventajas de GitHub se relacionan con la apertura y la agilidad que dicha plataforma habilita. Sus usuarios son libres de comentar/sugerir/contribuir lo que estimen conveniente, y eso desencadena discusiones enriquecedoras que nos permiten llegar a consensos que a su vez habilitan la co-creación de nuevas soluciones. En este sentido, hemos recibido colaboraciones de terceros en cuanto a desarrollo de soluciones, aseguramiento de calidad de datos, y sugerencias/peticiones de nuevos productos, o mejoras de los ya existentes.
Sólo entre el 21 de abril y el 17 de junio la plataforma registró cerca de 346 mil visitas y fue descargada más de 18 mil veces, dando lugar a múltiples y diversas aplicaciones de modelamiento y visualización de la pandemia realizadas por terceros.
La cualidad de apertura se refleja en el tráfico generado. A modo de referencia, sólo entre el 21 de abril y el 17 de junio la plataforma registró cerca de 346 mil visitas y fue descargada más de 18 mil veces, dando lugar a múltiples y diversas aplicaciones de modelamiento y visualización de la pandemia realizadas por terceros. Al menos 22 grupos de investigación chilenos han reportado utilizar la plataforma.
En cuanto al alojamiento/desarrollo de la solución, el diseño e implementación se han llevado a cabo pensando en disponer de toda la infraestructura necesaria en la nube. Asimismo, la recolección y procesamiento de datos se realiza mediante github actions, una plataforma para integración/despliegue continuo, que permitió integrar servicios de AWS para desarrollar una API que permite consultar los datos. Al igual que el conocimiento, los datos fluyen en forma dinámica, abriendo espacios continuos de aprendizaje y desarrollo de soluciones disruptivas para atender las necesidades e implicancias de esta pandemia. Lo importante para nosotros es contribuir a que esto ocurra en base a datos reales y confiables.
*Data Observatory es una iniciativa liderada por los Ministerios de Economía y Ciencia, junto a Universidad Adolfo Ibáñez y Amazon Web Services; que busca contribuir a la generación de soluciones y capacidades en Data Science y tecnologías afines, que sean útiles en diversos sectores de las ciencias, las tecnologías y la economía.