Google Data Commons

El proyecto de código abierto procesa miles de conjuntos de datos de fuentes públicas y proporciona una vista integrada de datos estadísticos para que sean utilizados por la 'comunidad abierta' 

Andalucía, 21/08/2024
Una imagen digital del globo terráqueo con el texto en inglés 'Data tells interesting stories'

Google Data Commons es un proyecto de código abierto que tiene como objetivo estandarizar y procesar miles de conjuntos de datos de fuentes disponibles públicamente creando un gráfico de conocimiento abierto que proporciona una vista integrada de los conjuntos de datos estadísticos disponibles para que sean utilizados por la 'comunidad abierta' con fines académicos, de investigación y educativos. Es decir, organiza la información pública disponible en el mundo y la hace más accesible y útil para las personas y las organizaciones que trabajan en los grandes desafíos sociales como el cambio climático, la seguridad alimentaria o la desigualdad económica.

El proyecto de código abierto de Google, Data Commons, nace con una finalidad muy determinada, ya que muchos de los grandes desafíos a los que se enfrenta la humanidad (cambio climático,  crecientes desigualdades sociales y económicas, epidemias globales y otras afecciones de salud...) van a necesitar conocimientos profundos para resolverlos que deberán estar firmemente basados en datos. Muchos de estos datos, afortunadamente, ya están disponibles de manera pública, pero lamentablemente, existe una diferencia entre que los datos sean públicos y que los datos sean fácilmente utilizables por quienes necesitan acceder a ellos. Esta es la brecha que este proyecto trata de cerrar.

Nadie puede poner en duda que, en los últimos tiempos, Google ha ordenado y hecho fácilmente accesibles muchos tipos de información (páginas web, imágenes, mapas, videos, etc.). Y eso es lo que está tratando de hacer ahora con los datos, organizándolos a partir de una amplia gama de fuentes, que van desde organizaciones estadísticas gubernamentales, como las oficinas del censo, hasta organizaciones como el Banco Mundial y las Naciones Unidas. Además, los avances en la Inteligencia Artificial (IA) han permitido que se pueda usar el lenguaje natural para acceder con bastante sencillez y rapidez a los datos.

¿Qué es Data Commons?

Una de las características principales de Google Data Commons es que es accesible para cualquier persona al contar con herramientas disponibles para estudiantes, investigadores, organizaciones sin fines de lucro, periodistas, formuladores de políticas y empresas privadas que permiten manipular y tomar decisiones basadas en datos. Los desarrolladores de software, por su parte, pueden utilizar las API REST, Python y Google Sheets, todas ellas gratuitas, para fines de investigación educativa, académica y periodística. Los datos disponibles, alojados en Google Cloud, no tienen costo, aunque sí existen unos límites para este uso gratuito.

Otros elementos que lo definen son:

  • Única fuente de datos estadísticos disponibles públicamente: Data Commons ofrece una vista unificada de datos estadísticos públicos a gran escala, creados por organizaciones de todo el mundo y accesibles a todo el mundo para obtener respuestas analíticas de alto nivel a preguntas sobre datos, con solo hacer clic en un botón gracias al uso de palabras clave.
    No es un repositorio de conjuntos de datos públicos, sino una única fuente de datos unificada creada mediante la normalización y la alineación de esquemas y referencias a las mismas entidades (como ciudades, demarcaciones geográficas, organizaciones, etc.) en diferentes conjuntos de datos.
    Con el objetivo de ahorrar a las personas usuarias meses de trabajo tedioso, costoso y propenso a errores, Data Commons se encarga de buscar datos, comprender las metodologías para su recopilación, limpiarlos, conciliar distintos formatos y esquemas, averiguar cómo fusionar datos de distintas fuentes, etc. Si se buscan, por ejemplo, estadísticas de población, tasas de pobreza y desempleo de un municipio, no es necesario recurrir a tres conjuntos de datos diferentes, ya que se pueden obtener los datos de una única fuente con el uso de un esquema y una API.    
  • Un gráfico de conocimiento basado en estándares, esquema y API: Data Commons necesita poder unir datos de conjuntos dispares, y en diferentes formatos y codificaciones, en una amplia gama de dominios. Para ello, modela el mundo como un gráfico de conocimiento que consta de nodos o entidades, con propiedades (atributos) y relaciones entre ellos. El modelo de datos se basa en el marco Schema.org, un marco abierto utilizado por más de 40 millones de sitios web. Se trata de espacio comunitario colaborativo dirigidio a crear, mantener y promover esquemas para datos estructurados en Internet, en páginas web, en mensajes de correo electrónico y más.
    El navegador de gráficos de conocimiento permite echar un vistazo a la estructura del gráfico, y las API, consultar directamente las partes del gráfico. El explorador de variables estadísticas posibilita explorar las variables existentes y las herramientas de visualización brindan vistas agregadas de estos datos a lo largo del tiempo, la geografía o el espacio bidimensional. El gráfico de conocimiento también se asigna a tablas relacionales que permiten hacer consultas SQL (requieren una cuenta de Google Cloud BigQuery) y una unión más sencilla con otros conjuntos de datos alojados fuera de Data Commons.    
  • Un proyecto de código abierto y una plataforma de sitios web: Al ser un recurso basado en la comunidad, las personas y las organizaciones pueden contribuir con datos, código, documentación y materiales educativos, estando el código fuente, los esquemas y la documentación están disponibles en github.
    Google ha formalizado asociaciones con las Naciones Unidas, la Organización Mundial de la Salud, One.org, TechSoup y otras organizaciones sin fines de lucro, académicas y gubernamentales en todo el mundo y hace que los datos y visualizaciones de Data Commons sean accesibles para cualquier sitio web a través de API de componentes web y REST. Proporciona, incluso, proporciona una implementación personalizable de código abierto, utilizando sus propios datos e interfaces de usuario, a las organizaciones que desean alojar su propia versión de un sitio web de Data Commons.

Características específicas

Algunas de las características únicas de Data Commons son que se trata de datos confiables de fuentes oficiales, como agencias gubernamentales y ONGs; que cuenta con visualizaciones listas para usar, como gráficos de línea de tiempo, diagramas de dispersión y mapas; que la interfaz de consulta en lenguaje natural ofrece una experiencia similar a la de Google Search; que almacena más de 100 conjuntos de datos y 250.000 millones de puntos de datos; que es compatible con consultas interactivas y programáticas, descargas de datos ad hoc y masivas; que la implementación de sitios web es fácilmente personalizable y se puede adaptar a necesidades de datos específicas; y que está integrado con la caja de búsquedas de Google.

Las fuentes, por su parte, se han agrupado por categorías ordenadas de manera alfabética: agricultura, biomedicina, delincuencia, demografía, economía, educación, energía, medio ambiente, salud y vivienda.

Analizando sus características fundamentales, se establece que aquello que hace diferente a Data Commons de otros proyectos de conjuntos de datos públicos es que, aunque estos brindan un gran servicio al agregar conjuntos de datos abiertos temáticos, en muchas ocasiones requieren de un largo y complicado proceso de búsqueda para encontrar los datos, limpiarlos, conciliar diferentes formatos y esquemas..., una labor que realiza una vez, a gran escala, al proporcionar API accesibles en la nube para datos limpios, normalizados y unificados.

Y aquello que lo diferencia de lugares como Wikidata, base de conocimientos editada en colaboración y alojada por la Fundación Wikimedia que tiene como objetivo proporcionar una fuente común de datos que puedan ser utilizados por proyectos de Wikimedia como Wikipedia, y por cualquier otra persona, bajo una licencia CC0 de dominio público, es que el enfoque de Data Commons está en agregar datos externos ya disponibles (con énfasis en datos estadísticos) de agencias gubernamentales y otras fuentes autorizadas.

Herramientas de Data Commons

El proyecto, que se ha beneficiado de manera considerable, de las aportaciones de muchos colaboradores, cuenta con algunas herramientas interesantes:

  • Explorador de lugares: Contribuye a comprender, utilizando el cuadro de búsqueda, los datos básicos asociados a un determinado lugar. Reúne un conjunto de gráficos sobre la demografía, la educación, la economía, etc. del lugar, estableciendo interesantes comparaciones con los datos de otros lugares. También puede verse cómo se clasifican estos cuando se analizan diferentes métricas como el desempleo, la delincuencia y la economía de las personas.
  • Gráfico de conocimiento: Se construye sintetizando una única base de datos a partir de muchas fuentes de datos diferentes. Este gráfico de conocimiento se puede utilizar tanto para explorar los datos disponibles como para comprender la estructura del gráfico.
  • Línea de tiempo: Favorece la exploración de las tendencias de las variables estadísticas.
  • Diagrama de dispersión: Ayuda a visualizar la correlación entre dos variables estadísticas.
  • Explorador de mapas: Permite visualizar cómo una variable estadística puede variar en las distintas regiones geográficas.
  • Explorador de variables estadísticas: Este buscador proporciona información sobre cada variable estadística, como metadatos, observaciones, etc.
  • Herramienta de descarga de datos: Permite descargar datos de las variables estadísticas, siguiendo unos sencillos pasos: ingresar un lugar en el cuadro de búsqueda y sleccionar el tipo de lugares para los que se desea descargar datos; seleccione hasta 5 variables estadísticas( hay miles de ellas para elegir, organizadas en una jerarquía temática); y elegir si se desean los datos de la fecha más reciente, todas las fechas disponibles o un rango de fechas personalizado.

Más información