# MENTORÍA: Predicción de indicadores sociales para países del MERCOSUR

# Práctico 4: Aprendizaje NO Supervisado

[Link a la descripción del proyecto](https://github.com/jfrau/DiploDatos2020/blob/master/README.md)

## Introducción

En este práctico volveremos a trabajar con el dataset resultante del **Práctico de Análisis y Curación** e intentaremos aplicar diferentes estrategias del *Aprendizaje No Supervisado* sobre el mismo con el objetivo de descubrir posibles patrones, agrupamientos o extraer otro tipo de información que no haya aflorado hasta el momento sobre los datos socio-ecónomicos de Argentina durante 1990-2018, en especial sobre la relación entre las variables. 

Así, teniendo en cuenta que se dispone de una serie de variables asociadas a diferentes indicadores (Educación, Salud, Pobreza, etc.) a lo largo del intervalo temporal 1990-2018 sobre Argentina (cuya estructura tiene una forma similar a lo que se muestra abajo), se plantea la siguiente situación hipotética a la cual tenemos que dar una respuesta basada en nuestro análisis:

**SITUACIÓN HIPOTÉTICA**


El gobierno argentino necesita reducir el presupuesto (y por lo tanto los recursos) que destina al cálculo de ciertas variables relacionadas con diferentes indicadores sociales (Pobreza, Educación, Protección Social, etc). Dada esta reducción presupuestaria, la idea es realizar solo la recopilación y el cálculo de aquellas variables *que más representen el comportamiento de la sociedad argentina* sobre estos indicadores y/o tener un mapeo de como se relacionan o interactúan entre sí (por ejemplo aquellas relacionadas con Educación con aquellas relacionadas Pobreza). Para poder tomar una decisión lo menos errada posible sobre a dónde destinar los recursos, el gobierno nacional decide recurrir a un grupo de especialistas en datos.

**Objetivo del Práctico**: Dar una respuesta a la situación hipotética planteada desde el punto de vista del Aprendizaje No Supervisado explorando la mayor cantidad de caminos posibles durante el proceso de análisis.

In [1]:
import pandas as pd

In [2]:
df_sample = pd.read_csv('df_sample.csv')
df_sample

Unnamed: 0,Feat,Indi,ICod,1990,1991,1992,1993,1994,1995,1996,...,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
0,Tasa de mortalidad en un año (por cada 1.000 p...,Health,SP.DYN.CDRT.IN,8.163,8.112,8.063,8.018,7.979,7.946,7.92,...,7.722,7.708,7.694,7.68,7.665,7.651,7.638,7.626,7.616,7.609
1,Participación en el ingreso del 20% mejor remu...,Poverty,SI.DST.05TH.20,52.0,52.5,50.9,49.9,51.0,53.8,54.0,...,48.5,49.0,47.8,46.5,46.1,46.8,46.95,47.1,46.4,46.5
2,Renta del gas natural (% del PIB),Environment,NY.GDP.NGAS.RT.ZS,0.169854,0.133807,0.097184,0.115324,0.093875,0.10665,0.126407,...,0.587094,0.371492,0.444482,0.482256,0.468116,0.362466,0.2121,0.149633,0.19646,0.19646
3,Participación en el ingreso del cuarto quintil...,Poverty,SI.DST.04TH.20,20.6,20.3,21.5,22.0,21.6,20.8,21.2,...,23.1,22.8,22.8,23.3,23.4,23.3,23.15,23.0,23.2,23.2
4,Población entre 0 y 14 años de edad (% del total),Education,SP.POP.0014.TO.ZS,30.786013,30.679114,30.452348,30.153352,29.857655,29.59863,29.356889,...,26.25897,26.035958,25.82227,25.651857,25.509966,25.368129,25.211165,25.079456,24.92677,24.760934


## Consignas Guía

1. **Estandarizar** el dataset usando alguna de las técnicas vistas en clase para variables continuas. Además, mostrar visualmente una comparación de la distribución de los datos originales (usando solo un par de variables y aquellas con órdenes de magnitud diferentes)  vs los resultantes luego de la estandarización. Análogo al práctico anterior, el siguiente [post](https://towardsdatascience.com/scale-standardize-or-normalize-with-scikit-learn-6ccc7d176a02) puede ser útil.
2. Teniendo en cuenta que las variables en consideración están linkeadas con 6 indicadores diferentes, implementar el **algoritmo de clustering Kmeans** con k=6. Intentar responder las siguientes preguntas disparadoras:
    - ¿Cómo son las proporciones relativas de los clusters y qué variables resultaron dentro de cada uno? ¿Y el coeficiente silueta? ¿Estas proporciones se corresponden a las 6 divisiones originales?
    - ¿Qué sucede si se varía la cantidad de clusters? Ayudarse del método del codo. 
    - ¿Qué sucede si en ambos casos cambio la distancia elegida por otra ? (Por ejemplo la similaridad coseno)
    - ¿Qué pueden concluir de los resultados? 
3. Elegir e implementar **otro algoritmo de clustering** (de los vistos en clases) y analizar los resultados en base a la métrica que corresponda. Intentar responder las siguientes preguntas disparadoras:
    - ¿Son diferentes los resultados con respecto al punto anterior? 
    - ¿Considera que un método es mejor que otro? ¿Por qué?
4. Teniendo en cuenta los datasets por Indicador (donde cada uno tiene aproximadamente 15 variables), aplicar un embedding tipo **PCA** sobre cada uno de los mismos. Intentar responder las siguientes preguntas disparadoras:
    - ¿Con cuántas componentes llegó a explicar los datos correspondientes a cada Indicador? 
    - ¿Qué resultados arroja la varianza explicada por las componentes? Puede ser muy útil visualizar esto último en un gráfico de componentes vs varianza acumulada.
    - ¿Vale la pena realizar reducción de componentes en todos los Indicadores? 
    - ¿La cantidad de datos dentro de cada indicador influye en los resultados?
4. Escribir una **conclusión final** en base a lo analizado donde intenten dar respuestas (o diferentes respuestas) a la situación hipótetica planteada, mostrando ventajas y desventajas sobre diferentes escenarios.

## Presentación de resultados

Realizar un informe en formato notebook en la cual se presenten los resultados del análisis realizado. El mismo debe estar pensado para un público técnico pero que desconoce los aspectos propios del problema a resolver (por ejemplo, sus compañeros de clase).

Se evaluará principalmente la claridad del mensaje presentado, el uso de las herramientas y los conceptos desarrollados durante las clases de la materiaa  "Aprendizaje No Supervisado". Asimismo, el mismo debe incluir de manera clara los hallazgos y problemas encontrados y las posibles accionar a tomar.

Se aconseja que el informe tenga una estructura ordenada, clara y fácil de leer. Por ejemplo, podría contar con una introducción a la problemática a resolver, una descripción de los datos a emplear, el desarrollo propiamente dicho de todo el trabajo y las conclusiones que se obtuvieron.

**Fecha de entrega: 09/10/2020**