<img src="img/logo_negro.png" style="float: left; margin-top: 20px; width: 20%; ">
<h2 style="margin: 5px; margin-right: 0px; text-align: right">Dirección de Analítica</h2>
<h4 style="margin: 5px; margin-right: 0px; text-align: right">Marzo 1 de 2019</h4>
<h4 style="margin: 5px; margin-right: 0px; text-align: right">Creado por: <a href="mailto:jorge.quintana@datalytics.com">Jorge Quintana</a></h4>

<hr>
<h1 style="margin: 20px; margin-left: 0px; ">Demostración de Apache SuperSet en GCP usando Docker</h1>
<img src="img/super_gcp.png" style="margin: auto; height: 120px">
<p style = "text-align: justify; margin: 20px; margin-bottom: 20px; ">
Superset es una herramienta de visualización de datos desarrollado por AirBnB y donada a Apache Software Foundation y en estado de incubación bajo el patrocinio de Apache Incubator. Es definida como <b>"...a modern, enterprise-ready business intelligence web application..."</b>. Está desarrollada en Python, como Backend, y una mezcla de React.js, JavaScript y D3.js para el Frontend y utiliza el poder de los múltiples modulos con los que cuenta Python (SQLAlchemy, Pandas, Numpy, ...) para generar conexiones a diferentes fuentes de información -como lo son: Bases de Datos, Memorias Caches, DataLakes usando diferentes conectores- y procesansdo dichos datos por medio de una interfaz de SQL (SQLlab). Para más información véase <a href = "https://superset.incubator.apache.org">Apache Superset (Incubating)</a>
</p>
<hr>

### Caracterización de Victimas

Para esta prueba de concepto se importa un conjunto de datos disponoble en [Datos Abiertos](https://www.datos.gov.co/browse?q=Observatorio%20de%20paz&sortBy=relevance) sobre el registro y la caracterización de las victimas del conflicto armado y que han sido reportadas como beneficiarias de planes de ayuda económica. Los datos son reportados por el Ministerio de Interior y se encuentrar divididos en dos partes:

* Datos de Caracterización de Victimas
* Descripción de las Ayudas

Los datos son cargados mediante la API de Datos Abiertos. A primera vista el archivo de caracterización de las victimas tiene más registros que el archivo de descripción de las ayudas recibidas, por lo cual, se exploran para ver qué posible cruce se puede logar para mantener la mayor cantidad de registros con información completa. Para esta tarea, se define una función que genera la consulta para los datos solicitidados (parámetro 'dataset') y los une en una sola estructura de formato tabular, para cada uno de los dos archivos. Para la descripción de las victimas registradas se obtiene un Dataframe llamado **victimas** y para los datos de los beneficiarios de las ayudas económicas se obtiene un Dataframe llamado **beneficiarios**. Los resultados y el proceso se implementción de muestra a continuación.

In [13]:
import requests
import pandas as pd
import numpy as np
import googlemaps
google_token = 'AIzaSyAKReRnTCyIi6LWa-w7NLXY2xbzYF5ogOU'

gmaps = googlemaps.Client(key=google_token)

In [1]:
def get_data(dataset: str, pags: int, limit: int): 
    
    """
    La función get_data genera las solicitudes de los datos a la API de Datos Abiertos mediante una petición GET. Recibe los siguientes argumentos de entrada:

        * dataset: Igual a 'victimas' si los datos a consultar son los registros de los victimas registrados o igual a 'beneficiarios' si la información
        requerida es la relacionada con los receptores de los auxilios económicos.
        * pags: Indica el número de páginas a consultar. Para el caso de victimas se tiene un total de 1900 registros, los cuales pueden ser consultados
        de diferentes formas, de acuerdo con la necesidad y capacidad de procesamiento de información mientras que los beneficiarios son poco menos de 800.
        * limit: Es la cantidad máxima de datos que se puede solicitar por página. Tiene un valor máximo de 1000 registros.

    Adicionalmente, hay dos parámetro que son clave en la solicitud de datos a la API, pero que no son recibidos como parámetros de get_data():

        * offset: Indica el registro desde el cual de se debe hacer la siguiente búsqueda.
        * order: Ordena los resultados por id para que la paginación sea exitosa.

    Finalmente, la función devuelve los dos Dataframes mencionados anteriormente.
    """
    
    victimas = []
    beneficiarios = []
    if dataset == 'victimas':
        for i in range(pags):
            offset = i * limit
            aux = requests.get('https://www.datos.gov.co/resource/9kvn-3qq8.json?$order=:id&$limit={}&$offset={}'.format(limit, offset))
            if aux.text != '[]\n':
                aux = pd.read_json(aux.text)
                victimas.append(aux)
        victimas = pd.concat(victimas)
    else:
        for i in range(pags):
            offset = i * limit
            aux = requests.get('https://www.datos.gov.co/resource/g62i-exv7.json?$order=:id&$limit={}&$offset={}'.format(limit, offset))
            if aux.text != '[]\n':
                aux = pd.read_json(aux.text)
                beneficiarios.append(aux)
        beneficiarios = pd.concat(beneficiarios)
        
    return victimas, beneficiarios

Así las cosas, los resultados para los datos de caracterización de las victimas son los siguientes: (Sólo se muestra el encabezado con los 5 primeros registros, ya que en total son 1901 registros)

In [2]:
victimas, _ = get_data(dataset = 'victimas', pags = 2, limit = 1000)
print('Cantidad de registros para victimas: {}'.format(victimas.shape[0]))
victimas.head()

Cantidad de registros para victimas: 1901


Unnamed: 0,actoterrorista,adultomayor,afrodescendiente,amenaza,apoyo,articulacioninterinstitucional,atencionpsicologica,cabezadefamilia,curso_de_vida,declaracion,...,orden,orientacion,personas_nucleo,reclutamientoforzado,rrom,secuestro,sexo,tortura,vigencia,vinculaciondennagrujposarmados
0,NO,NO,NO,NO,NO,NO,SI,SI,Adultez,DEFENSORIA DEL PUEBLO,...,1,NO,2,NO,NO,NO,Femenino,NO,2017,NO
1,NO,NO,NO,NO,NO,NO,SI,NO,Adultez,DEFENSORIA DEL PUEBLO,...,2,NO,0,NO,NO,NO,Masculino,NO,2017,NO
2,NO,NO,NO,NO,NO,NO,SI,SI,Jovenes,DEFENSORIA DEL PUEBLO,...,3,NO,3,NO,NO,NO,Femenino,NO,2017,NO
3,NO,NO,NO,NO,NO,NO,SI,NO,Jovenes,DEFENSORIA DEL PUEBLO,...,4,NO,0,NO,NO,NO,Masculino,NO,2017,NO
4,NO,NO,NO,NO,NO,NO,NO,NO,Primera infancia,DEFENSORIA DEL PUEBLO,...,5,NO,0,NO,NO,NO,Masculino,NO,2017,NO


Y la hacer lo mismo para obtener los datos de los auxilios económicos se obtienes los siguientes resultados:

In [3]:
_, beneficiarios = get_data(dataset = 'beneficiarios', pags = 2, limit = 1000)
print('Cantidad de registros para victimas receptoras de ayudas económicas: {}'.format(beneficiarios.shape[0]))
beneficiarios.head()

Cantidad de registros para victimas receptoras de ayudas económicas: 782


Unnamed: 0,auxilio_econ_mico_mes,curso_de_vida,edad,grupo_etario,hecho_victimizante,monto_asignado,n_cleo_familiar,orden,personas,sexo,vigencia
0,02 FEBRERO,Adultez,47,29 a 59,DESPLAZAMIENTO,687375,TIPO A,1,2,Femenino,2017
1,02 FEBRERO,Jovenes,19,18 a 28,DESPLAZAMIENTO,687375,TIPO B,2,3,Femenino,2017
2,02 FEBRERO,Jovenes,25,18 a 28,DESPLAZAMIENTO,687375,TIPO B,3,4,Femenino,2017
3,02 FEBRERO,Adultez,38,29 a 59,DESPLAZAMIENTO,687375,TIPO B,4,3,SIN INFORMACION,2017
4,02 FEBRERO,Adultez,49,29 a 59,DESPLAZAMIENTO,423000,TIPO A,5,1,Masculino,2017


Una conclusión es evidente, la cantidad de victimas registradas en el archivo de caracterización es mayor a la cantidad de victimas receptoras de auxilios económicos. Por otro lado, según la documentación de los datos exite un campo que permite el cruce de los conjuntos de datos, a saber: Orden. Este campo es un identificador númerico para cada una de las victimas. Así las cosas, el cruce de los datos se hace usando **orden** como llave. Los resultados se muestran a continuación.

In [4]:
data = pd.merge(victimas, beneficiarios, how = 'left', on = 'orden', indicator = True)
data.head()

Unnamed: 0,actoterrorista,adultomayor,afrodescendiente,amenaza,apoyo,articulacioninterinstitucional,atencionpsicologica,cabezadefamilia,curso_de_vida_x,declaracion,...,curso_de_vida_y,edad_y,grupo_etario_y,hecho_victimizante,monto_asignado,n_cleo_familiar,personas,sexo_y,vigencia_y,_merge
0,NO,NO,NO,NO,NO,NO,SI,SI,Adultez,DEFENSORIA DEL PUEBLO,...,Adultez,47,29 a 59,DESPLAZAMIENTO,687375.0,TIPO A,2,Femenino,2017.0,both
1,NO,NO,NO,NO,NO,NO,SI,NO,Adultez,DEFENSORIA DEL PUEBLO,...,Jovenes,19,18 a 28,DESPLAZAMIENTO,687375.0,TIPO B,3,Femenino,2017.0,both
2,NO,NO,NO,NO,NO,NO,SI,SI,Jovenes,DEFENSORIA DEL PUEBLO,...,Jovenes,25,18 a 28,DESPLAZAMIENTO,687375.0,TIPO B,4,Femenino,2017.0,both
3,NO,NO,NO,NO,NO,NO,SI,NO,Jovenes,DEFENSORIA DEL PUEBLO,...,Adultez,38,29 a 59,DESPLAZAMIENTO,687375.0,TIPO B,3,SIN INFORMACION,2017.0,both
4,NO,NO,NO,NO,NO,NO,NO,NO,Primera infancia,DEFENSORIA DEL PUEBLO,...,Adultez,49,29 a 59,DESPLAZAMIENTO,423000.0,TIPO A,1,Masculino,2017.0,both


Como validación de la calidad de los datos luego del cruce se genera un conteo del campo **\_merge**, el cual identifica en qué base se encuentra el dato resultante, es decir, si el registro está presente en ambas bases **'both'**, sólo en la base de la izquierda **left_only** o sólo en la base de la derecha **right_only**. Los resultados muestran que, del total de 1901 registros de la base de registro de victimas sólo 782 cruzan con la base de beneficiarios, quedando un total de 1119 victimas sin infromación de los auxilios económicos recibidos.

In [5]:
data.groupby('_merge').count().vigencia_x

_merge
left_only     1119
right_only       0
both           782
Name: vigencia_x, dtype: int64

Como paso final, y antes de cargar los datos a PostgreSQL, se revisan los nombres de los campos en los datos resultantes y se eliminan las columnas repetidas, que en este caso corresponden a las columnas agregadas de la base de beneficiarios, y se renombran las que pertenecen a la base de victimas, pero removiendo la terminación de **'\_x'** que se agrega por defecto.

In [6]:
remover = list(data.filter(like = '_y').columns)
modificar = list(data.filter(like = '_x').columns)
reemplazar_con = ['curso_de_vida', 'edad', 'grupo_etario', 'sexo', 'vigencia']
data.drop(remover, axis = 1, inplace = True)

for i in range(len(modificar)):
    data.rename(columns = {modificar[i] : reemplazar_con[i]}, inplace = True)

Ahora, se revisa la coherencia entre el tipo de dato asociado a cada campo y su contenido. Los resultados muestran que campos como la edad, el monto asignado y la cantidad de personas tienen problemas de coherencia entre el tipo de dato y su contenido, ya que los valores pérdidos han sido registrados como **'SIN INFORMACIÓN'** aún cuando son campos numéricos. Para corregir dicho problema se hace la siguiente transformación y se obtienen los siguientes resultados.

In [7]:
data.personas.replace('SIN INFORMACION', np.nan, inplace = True)
data.edad.replace('SIN INFORMACION', np.nan, inplace = True)
data.monto_asignado.replace('SIN INFORMACION', np.nan, inplace = True)

data['personas'] = pd.to_numeric(data['personas'])
data['edad'] = pd.to_numeric(data['edad'])
data['monto_asignado'] = pd.to_numeric(data['monto_asignado'])

data.describe()

Unnamed: 0,edad,orden,personas_nucleo,vigencia,monto_asignado,personas
count,1792.0,1901.0,1901.0,1901.0,782.0,766.0
mean,26.177455,951.0,1.005786,2017.583377,622463.668798,3.211488
std,18.540366,548.915749,1.821933,0.590287,164687.91267,1.829225
min,1.0,1.0,0.0,2017.0,423000.0,1.0
25%,11.0,476.0,0.0,2017.0,440301.0,2.0
50%,23.0,951.0,0.0,2018.0,687375.0,3.0
75%,37.0,1426.0,1.0,2018.0,715489.0,4.0
max,97.0,1901.0,11.0,2019.0,965392.0,11.0


Antes de exportar los datos, se enriquecen agregando la latitud y longitud de los municipios de procedencia del archivo de registro de victimas, esto con el fin de poder generar gráficas más informativas y con un componente georeferenciado. Para esto, se define una función para adquirir, usando la API de GoogleMaps, los datos de ubicación de dichos municipios. Luego, se agregan como un campo adicional. Los resultados son los siguientes.

In [36]:
def get_latlong(direccion):
    
    """
    La función recibe un parámetro:
        
        * direccion: Sitio del cual se desea adquirir la georeferencia
        
    Con base en ese parámetro se realiza la búsqueda usando la API de GoogleMaps y se parsea la respuesta para obtener los
    datos deseados, los cuales se retornan como output de la funcuión.
    """
    
    try:
        response = gmaps.geocode(direccion)
        lat = response[0]['geometry']['location']['lat']
        long = response[0]['geometry']['location']['lng']
        return (lat, long)
    except:
        return np.nan

In [48]:
geo = []
for i in range(len(data.municipio_procedencia)):
    geo.append(get_latlong(data.loc[i, 'municipio_procedencia']))
    
data['geo'] = geo
data.loc[1:5, ['municipio_procedencia', 'geo']]

Unnamed: 0,municipio_procedencia,geo
1,SABANA LARGA,"[18.5883536, -70.49525659999999]"
2,GIRON,"[45.481374, -122.549328]"
3,GIRON,"[45.481374, -122.549328]"
4,GIRON,"[45.481374, -122.549328]"
5,CUCUTA,"[7.8890971, -72.4966896]"


Finalmente, se guardan los resultados en un archivo CSV.

In [49]:
data.to_csv('data/data_final.csv', index = False)