Datachile ETL documentación general

El proceso

El proceso es el siguiente:

Conseguimos información de distintas fuentes públicas.
De acuerdo a la disponibilidad de los datos definimos que datos utilizar en primera instancia en los perfiles de región y comuna yendo de general a particular.
Una vez que tenemos los datos más generales, para describir las comunas y regiones de muy grueso modo, pasamos a datos particulares que nos permiten comprender de mejor manera la realidad de las distintas divisiones geográficas del país.
Toda la información disponible está organizada en secciones: economía, educación, vivienda, demografía, salud y cívica

Para organizar esto nos guiamos por los principios de Tidy Data para ordenar, validar e integrar la información.

En los datos tenemos dimensiones comunes como: geográficas (comunas, regiones), sexo, códigos de clasificación industrial, etc.

Todo el proceso de datos recae en tres tecnologías:

R: Descarga, limpieza, trasformación y almacenamiento de datos en formato plano (ver carpetas llamadas r-script)
Python: Carga de datos generados por R (ver carpetas llamadas ingest) a la base de datos
PostgreSQL: Almacenamiento y organización de los datos en un esquema de cubos organizados separadamente entre hechos (e.g. cantidad de población) y dimensiones (e.g. grupos etáreos)

DataChile cuenta con una API que permite interactuar con la base de datos y esquema de cubos ver API Mondrian para DataChile.