# MENTORÍA: Predicción de indicadores sociales para países del MERCOSUR

## Práctico 2: Análisis y Curación

[Link a la descripción del proyecto](https://github.com/jfrau/DiploDatos2020/blob/master/README.md)

### Objetivos

1. Lograr un entendimiento y análisis más profundo de los datos haciendo uso de herramientas estadísticas y partiendo de lo realizado en el práctico de Análisis y Visualización.
2. Realizar una limpieza y depuración del dataset (outliers, valores nulos, etc.) generando un nuevo dataset que contenga la información más fiable posible.
3. Focalizar el estudio de la predicción en Argentina.


## Introducción

En concordancia con los objetivos anteriores, en **líneas generales** se buscará:

- Seguir indagando y profundizando el conocimiento de los datos, 
- Descubrir más patrones,
- Confirmar teorías que surgieron durante el primer análisis y 
- Eliminar información ruidosa y no relevante. 

En **líneas más específicas**, centraremos el análisis en Argentina aprovechando nuestro conocimiento de dominio pero recurriremos a los datos de los demás países cada vez que sea necesario.

El **resultado final del práctico** deberá ser un nuevo dataset por Indicador que solo incluya datos de Argentina, lo más limpio y fiable posible (por ejemplo, sin valores nulos).

En base a lo anterior se proponen las siguientes consignas. **Recuerden que las mismas son disparadoras y que cualquier enfoque adicional desde su formación, conocimiento de dominio o simple curiosidad siempre enriquecerá el trabajo.**

### Parte I: Limpieza

A continuación se proponen una serie de consignas a llevar a cabo **sobre cada Indicador** con el objetivo de realizar la limpieza de los datos.

1. Eliminar todos los datos previos al año 1990 (es decir, la franja temporal desde 1970 hasta 1989). 
2. Filtrar los datos anteriores considerando solo Argentina.
3. Restringir el conjunto de las variables del indicador a las 15 features elegidas (aquellas con más del 50% de valores no nulos) durante el desarrollo del Práctico anterior. 
4. Realizar una inspección acerca del significado de las variables valiendose de la información disponible en la metadata. Pueden guiarse de las siguientes preguntas:
    - ¿Son todos los features representativos dentro del contexto argentino? ¿Existe alguno/s que podría no considerarse dado que no aplica o no aplicó a la realidad argentina? Justifique las respuestas.
    - En las variables que involucran género y edad: ¿se consideran todos casos?. Por ejemplo: % de trabajadores asalariados hombres y % de trabajadoras asalariaradas mujeres. Si la respuesta es negativa, ¿cuál consideran que sería la decisión más acertada para abordar este aspecto? 
5. **OPCIONAL**: Agregar 5 features extras a cada indicador o a un indicador en particular que les resulte de interés de analizar sobre el contexto argentino.

### Parte II: Análisis y Curación

1. **Detección y análisis de valores nulos** 

Para cada uno de los datasets resultantes del punto anterior responder a las siguientes preguntas:
                
   - ¿Qué proporción de valores nulos presenta cada feature?
   - ¿Los mismos se presentan aislados o agrupados por intervalos de tiempo?
   - ¿Cómo es la distribución de valores nulos por columna (es decir, para cada año)?
   - ¿La presencia de ciertos valores nulos podría estar justificada por algún contexto social-político-económico a nivel nacional, regional o global?.
    
Identificar los mismos de la manera más precisa posible.

2. **Cálculo de estadísticos y distribuciones** 

    a. Obtener la media, mediana, moda, desviación estándar, varianza, valor máximo y mínimo, percentiles y cualquier otro estadístico que les resulte importante **de cada uno de los features de cada Indicador**. *AYUDA*: Se podría utilizar la función [<code>describe</code>](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) de Pandas junto con la siguiente sintaxis <code>DATASET.apply(pd.DataFrame.describe, axis=1)</code>
     
    b. Realizar nuevamente los histogramas ó boxplots (el que considere más pertinente) de las 15 features para cada Indicador. 
    
    c. Trazar los gráficos de línea de los 15 features en el intervalo considerado.
    
    d. Analizar en conjunto los resultados de los puntos a, b y c. Pueden guiarse de las siguientes preguntas:
      - ¿Las distribuciones presentan alguna forma conocida?
      - ¿Qué sucede con los valores máximos y mínimos? ¿Existen outliers?
      - ¿Detectan algún patrón o tendencia?. 
      - ¿Cómo afecta la presencia de valores nulos o faltantes a la distribución de las variables?
      - ¿Las variables o features de un mismo indicador presentan distribuciones similares?. *OPCIONAL:* Utilizar algún test estadístico (por ejemplo test de comparación de medias) para validar o rechazar hipótesis. 

 3. **Análisis de posible imputación de valores faltantes** 
 
     a. En base al estudio y análisis anterior, ¿Considera que se dispone de suficiente información para completar/rellenar los valores faltantes? ¿Cuáles reemplazaría y qué criterio/s usaría? Justifique sus respuestas.
     
     b. Identificar los casos en los cuáles no se cuenta con información suficiente para compensar la falta de valores nulos y analizar dichos features valiendose del análisis y visualización realizada en el práctico anterior:
       - ¿Cómo es la distribución de este feature en los demás países? 
       - ¿Presentan la misma tendencia a lo largo del tiempo? ¿Presentan la misma cantidad de valores faltantes? 
       - ¿Es posible establecer alguna relación entre los países vecinos a Argentina o con algún país en particular?
       - ¿De qué manera la posible correlación con otros países se encuentra limitada por el contexto local? Por ejemplo: La crisis del 2001 en Argentina es un evento totalmente local que probablemente no haya afectado a la región).
       
       *OPCIONAL:* Aplicar test estadísticos para validar o rechazar hipótesis o cualquier herramienta estadística que considere pertinente.
       
    c. Enumerar las conclusiones que se extrajeron a partir de los puntos a y b y tomar una decisión al respecto, es decir:   
       - Imputar valores nulos usando el criterio elegido.
       - Eliminar aquellos features con valores nulos por carecer de información suficiente para tomar una decisión.
    
    d. Dejar un registro en formato resumen, o el que consideren pertinente, de las decisiones tomadas junto con alguna breve explicación de las mismas. La idea es que sea lo más entendible posible para un lector técnico pero sin demasiado conocimiento del dataset. 
    
    e. A partir de los resultados del punto c, generar un nuevo dataset por Indicador para Argentina con un nombre adecuado y guardarlo en formato csv. El procedimiento puede realizarse con la función [<code>to_csv</code>](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html) de pandas.

## Presentación de resultados 

Realizar un informe en formato notebook, o el que se considere más apropiado, en la cual se presenten los resultados del análisis realizado. El mismo debe estar pensado para un público técnico pero que desconoce los aspectos propios del problema a resolver (por ejemplo, sus compañeros de clase). 

Se evaluará principalmente la claridad del mensaje presentado, el uso de las herramientas y los conceptos desarrollados durante las clases de la materia "Análisis y Curación". Asimismo, el mismo debe incluir de manera clara los hallazgos y problemas encontrados y las posibles accionar a tomar.

Se aconseja que el informe tenga una estructura ordenada, clara y fácil de leer. Por ejemplo, podría contar con una introducción a la problemática a resolver, una descripción de los datos a emplear, el desarrollo propiamente dicho de todo el trabajo y las conclusiones que se obtuvieron.


## Fechas de entrega

- 18/07/2020: Reunión para mostrar avances, resolver dudas y afinar cuestiones del análisis.
- 23/07/2020: Entrega del práctico. 

## Importacion de Librerías

In [27]:
import pandas as pd

#Visualización
import matplotlib.pyplot as plt
import seaborn as sns

In [28]:
# Para que pandas no trunque aquellas celdas con contenido muy largo (como textos)
pd.set_option('display.max_colwidth', -1)
# Para que pandas no trunque la vista de todas las columnas
pd.set_option('display.max_columns', None)


  


## Carga de datos

Cargamos los datasets de cada uno de los indicadores a predecir. Los mismos pueden descargarse del siguiente [link](https://drive.google.com/drive/folders/1NVxgmk_pED1FtnqWl_M4-2vRPiyd6Pri?usp=sharing).

In [17]:
education = pd.read_csv('educacion_mercosur_cleaned.csv')
gender = pd.read_csv('gender_mercosur_cleaned.csv')
environment = pd.read_csv('environment_mercosur_cleaned.csv')
health = pd.read_csv('health_mercosur_cleaned.csv')
poverty = pd.read_csv('poverty_mercosur_cleaned.csv')
social_protection = pd.read_csv('socialprotection_mercosur_cleaned.csv')

Veamos por ejemplo las primeras filas del dataset de Educación...

In [18]:
education.head(2)

Unnamed: 0.1,Unnamed: 0,Indicator,Country Name,Country Code,Indicator Code,1970.0,1971.0,1972.0,1973.0,1974.0,1975.0,1976.0,1977.0,1978.0,1979.0,1980.0,1981.0,1982.0,1983.0,1984.0,1985.0,1986.0,1987.0,1988.0,1989.0,1990.0,1991.0,1992.0,1993.0,1994.0,1995.0,1996.0,1997.0,1998.0,1999.0,2000.0,2001.0,2002.0,2003.0,2004.0,2005.0,2006.0,2007.0,2008.0,2009.0,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0,2019.0
0,Población entre 15 y 64 años de edad (% del total),Education,Argentina,ARG,SP.POP.1564.TO.ZS,63.615666,63.527827,63.427855,63.313371,63.178718,63.018152,62.720914,62.388615,62.045511,61.730744,61.466255,61.12062,60.912521,60.785426,60.665943,60.525325,60.484758,60.371057,60.250572,60.213212,60.291595,60.288866,60.405903,60.599449,60.802085,60.983193,61.135755,61.291539,61.449641,61.620577,61.809169,62.020439,62.213434,62.402149,62.605267,62.82861,62.99229,63.199787,63.423789,63.621335,63.769017,63.880723,63.947129,63.982692,64.01547,64.06002,64.060567,64.083523,64.121277,
1,Población entre 0 y 14 años de edad (% del total),Education,Argentina,ARG,SP.POP.0014.TO.ZS,29.438848,29.38049,29.347396,29.339782,29.361379,29.416802,29.581319,29.793933,30.028849,30.244546,30.416247,30.68159,30.809384,30.857175,30.901551,30.971679,30.90531,30.933192,30.979771,30.943174,30.786013,30.679114,30.452348,30.153352,29.857655,29.59863,29.356889,29.125647,28.905752,28.686628,28.462194,28.197937,27.971353,27.759564,27.533237,27.280011,27.065701,26.804888,26.522332,26.25897,26.035958,25.82227,25.651857,25.509966,25.368129,25.211165,25.079456,24.92677,24.760934,


Como observamos, por cuestiones referidas al guardado del csv la primera columna no posee ningún nombre. La renombramos como ***Features*** en todos los datasets.

In [19]:
#Corección del nombre de la primera columna
education = education.rename(columns={"Unnamed: 0": "Features"})
gender = gender.rename(columns={"Unnamed: 0": "Features"})
environment = environment.rename(columns={"Unnamed: 0": "Features"})
health = health.rename(columns={"Unnamed: 0": "Features"})
poverty = poverty.rename(columns={"Unnamed: 0": "Features"})
social_protection = social_protection.rename(columns={"Unnamed: 0": "Features"})

Por último veamos las dimensiones de cada uno de los datasets considerados:

In [20]:
print('Dimensiones de los datasets: \n',
      'Educación:',education.shape, '\n', 
      'Género:',gender.shape,'\n',
     'Medio Ambiente:', environment.shape, '\n',
     'Salud:', health.shape, '\n',
      'Pobreza:',poverty.shape, '\n',
      'Protección Social:',social_protection.shape)

Dimensiones de los datasets: 
 Educación: (1272, 55) 
 Género: (996, 55) 
 Medio Ambiente: (912, 55) 
 Salud: (1344, 55) 
 Pobreza: (180, 55) 
 Protección Social: (1116, 55)


## Metadata

Cargamos ahora la metadata de cada una de las variables para cada indicador. La misma puede descargarse desde el siguiente [link](https://drive.google.com/drive/folders/11QPQHD_hxeMZZ-VH9ppM9KXL46HRxSjy?usp=sharing).

La metadata es una explicación breve sobre el significado de cada variable y la fuente de datos, en criollo podríamos decir que básicamente es un "Diccionario de datos". Estos datos deben ser tomados de consulta y para dar sentido a los valores o información hallada.

In [21]:
metadata_education = pd.read_csv('metadata_education.csv')
metadata_gender = pd.read_csv('metadata_gender.csv')
metadata_environment = pd.read_csv('metadata_environment.csv')
metadata_health = pd.read_csv('metadata_health.csv')
metadata_poverty = pd.read_csv('metadata_poverty.csv')
metadata_socialprotection = pd.read_csv('metadata_socialprotection.csv')

Inspeccionemos un poco de que se trata...

In [22]:
metadata_health.sample(2)

Unnamed: 0.1,Unnamed: 0,INDICATOR_CODE,INDICATOR_NAME,SOURCE_NOTE,SOURCE_ORGANIZATION
209,209,SH.HIV.1524.FE.ZS,"Prevalencia de VIH, mujeres (% entre 15 y 24 años de edad)",La prevalencia de VIH es el porcentaje de personas infectadas con VIH. Las tasas de jóvenes son un porcentaje del grupo etario correspondiente.,ONUSIDA estima.
196,196,SH.MED.NUMW.P3,Enfermeras y parteras (por cada 1.000 personas),"Las enfermeras y parteras incluyen a las enfermeras profesionales, las parteras profesionales, las enfermeras auxiliares, las parteras auxiliares, las enfermeras inscriptas, las parteras inscriptas y demás personal relacionado, como las enfermeras dentales y las de atención primaria.","Organización Mundial de la Salud, Atlas mundial de la fuerza laboral sanitaria. Para ver actualizaciones y metadatos, visite: http://apps.who.int/globalatlas/."


Como observamos el punto en común entre la metadata y los conjuntos de datos es a través de las columnas **INDICATOR_CODE** e **INDICATOR_NAME**.

## Construcción de un único dataset

Dado que dependiendo el análisis muchas veces será conveniente tener toda la información condensada en un solo lugar construimos un dataset con toda la info.

In [23]:
dataset =pd.concat([education, gender, environment, health, poverty, social_protection])
dataset.shape

(5820, 55)

In [24]:
dataset.columns

Index(['Features', 'Indicator', 'Country Name', 'Country Code',
       'Indicator Code', '1970.0', '1971.0', '1972.0', '1973.0', '1974.0',
       '1975.0', '1976.0', '1977.0', '1978.0', '1979.0', '1980.0', '1981.0',
       '1982.0', '1983.0', '1984.0', '1985.0', '1986.0', '1987.0', '1988.0',
       '1989.0', '1990.0', '1991.0', '1992.0', '1993.0', '1994.0', '1995.0',
       '1996.0', '1997.0', '1998.0', '1999.0', '2000.0', '2001.0', '2002.0',
       '2003.0', '2004.0', '2005.0', '2006.0', '2007.0', '2008.0', '2009.0',
       '2010.0', '2011.0', '2012.0', '2013.0', '2014.0', '2015.0', '2016.0',
       '2017.0', '2018.0', '2019.0'],
      dtype='object')

In [25]:
dataset.head(3)

Unnamed: 0,Features,Indicator,Country Name,Country Code,Indicator Code,1970.0,1971.0,1972.0,1973.0,1974.0,1975.0,1976.0,1977.0,1978.0,1979.0,1980.0,1981.0,1982.0,1983.0,1984.0,1985.0,1986.0,1987.0,1988.0,1989.0,1990.0,1991.0,1992.0,1993.0,1994.0,1995.0,1996.0,1997.0,1998.0,1999.0,2000.0,2001.0,2002.0,2003.0,2004.0,2005.0,2006.0,2007.0,2008.0,2009.0,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0,2019.0
0,Población entre 15 y 64 años de edad (% del total),Education,Argentina,ARG,SP.POP.1564.TO.ZS,63.615666,63.527827,63.427855,63.313371,63.178718,63.018152,62.720914,62.388615,62.045511,61.730744,61.466255,61.12062,60.912521,60.785426,60.665943,60.525325,60.484758,60.371057,60.250572,60.213212,60.291595,60.288866,60.405903,60.599449,60.802085,60.983193,61.135755,61.291539,61.449641,61.620577,61.809169,62.020439,62.213434,62.402149,62.605267,62.82861,62.99229,63.199787,63.423789,63.621335,63.769017,63.880723,63.947129,63.982692,64.01547,64.06002,64.060567,64.083523,64.121277,
1,Población entre 0 y 14 años de edad (% del total),Education,Argentina,ARG,SP.POP.0014.TO.ZS,29.438848,29.38049,29.347396,29.339782,29.361379,29.416802,29.581319,29.793933,30.028849,30.244546,30.416247,30.68159,30.809384,30.857175,30.901551,30.971679,30.90531,30.933192,30.979771,30.943174,30.786013,30.679114,30.452348,30.153352,29.857655,29.59863,29.356889,29.125647,28.905752,28.686628,28.462194,28.197937,27.971353,27.759564,27.533237,27.280011,27.065701,26.804888,26.522332,26.25897,26.035958,25.82227,25.651857,25.509966,25.368129,25.211165,25.079456,24.92677,24.760934,
2,"Desempleo, total (% de la población activa total) (estimación modelado OIT)",Education,Argentina,ARG,SL.UEM.TOTL.ZS,,,,,,,,,,,,,,,,,,,,,,5.44,6.36,10.1,11.76,18.799999,17.110001,14.82,12.65,14.05,15.0,17.32,19.59,15.36,13.522,11.506,10.077,8.47,7.837,8.645,7.714,7.18,7.217,7.1,7.268,7.75,7.977,8.347,9.22,9.789


In [26]:
dataset['Country Name'].unique()

array(['Argentina', 'Brasil', 'Paraguay', 'Uruguay', 'Venezuela',
       'Bolivia', 'Chile', 'Colombia', 'Ecuador', 'Guyana', 'Perú',
       'Suriname'], dtype=object)