## Mentoría: Predicción de indicadores sociales para países del MERCOSUR

[Link a la descripción del proyecto](https://github.com/jfrau/DiploDatos2020/blob/master/README.md)

## Importacion de Librerías

In [12]:
import pandas as pd

#Visualización
import matplotlib.pyplot as plt
import seaborn as sns

In [13]:
# Para que pandas no trunque aquellas celdas con contenido muy largo (como textos)
pd.set_option('display.max_colwidth', -1)

## Carga de datos

Cargamos los datasets de cada uno de los indicadores a predecir.

In [14]:
education = pd.read_csv('educacion_mercosur_cleaned.csv')
gender = pd.read_csv('gender_mercosur_cleaned.csv')
environment = pd.read_csv('environment_mercosur_cleaned.csv')
health = pd.read_csv('health_mercosur_cleaned.csv')
poverty = pd.read_csv('poverty_mercosur_cleaned.csv')
social_protection = pd.read_csv('socialprotection_mercosur_cleaned.csv')

Veamos por ejemplo las primeras filas del dataset de Educación...

In [15]:
education.head(2)

Unnamed: 0.1,Unnamed: 0,Indicator,Country Name,Country Code,Indicator Code,1970.0,1971.0,1972.0,1973.0,1974.0,...,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0,2019.0
0,Población entre 15 y 64 años de edad (% del total),Education,Argentina,ARG,SP.POP.1564.TO.ZS,63.615666,63.527827,63.427855,63.313371,63.178718,...,63.769017,63.880723,63.947129,63.982692,64.01547,64.06002,64.060567,64.083523,64.121277,
1,Población entre 0 y 14 años de edad (% del total),Education,Argentina,ARG,SP.POP.0014.TO.ZS,29.438848,29.38049,29.347396,29.339782,29.361379,...,26.035958,25.82227,25.651857,25.509966,25.368129,25.211165,25.079456,24.92677,24.760934,


... y un muestreo aleatorio del dataset de Salud.

In [16]:
health.sample(2)

Unnamed: 0.1,Unnamed: 0,Indicator,Country Name,Country Code,Indicator Code,1970.0,1971.0,1972.0,1973.0,1974.0,...,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0,2019.0
1249,"Población de 65 años de edad y más, total",Health,Suriname,SUR,SP.POP.65UP.TO,14388.0,14565.0,14580.0,14456.0,14266.0,...,32669.0,33489.0,34345.0,35222.0,36098.0,36954.0,37891.0,38822.0,39780.0,
1107,"Prevalencia de VIH, varones (% entre 15 y 24 años de edad)",Health,Guyana,GUY,SH.HIV.1524.MA.ZS,,,,,,...,0.3,0.3,0.3,0.3,0.3,0.3,0.3,0.3,0.3,


Como observamos, por cuestiones referidas al guardado del csv la primera columna no posee ningún nombre. La renombramos como ***Features*** en todos los datasets.

In [17]:
#Corección del nombre de la primera columna
education = education.rename(columns={"Unnamed: 0": "Features"})
gender = gender.rename(columns={"Unnamed: 0": "Features"})
environment = environment.rename(columns={"Unnamed: 0": "Features"})
health = health.rename(columns={"Unnamed: 0": "Features"})
poverty = poverty.rename(columns={"Unnamed: 0": "Features"})
social_protection = social_protection.rename(columns={"Unnamed: 0": "Features"})

In [18]:
social_protection.sample()

Unnamed: 0,Features,Indicator,Country Name,Country Code,Indicator Code,1970.0,1971.0,1972.0,1973.0,1974.0,...,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0,2019.0
310,"Fuerza laboral con educación intermedia, mujeres (% de la fuerza laboral femenina)",Social_protection,Uruguay,URY,SL.TLF.INTM.FE.ZS,,,,,,...,70.706902,73.990799,73.212196,73.1418,72.546799,72.651604,72.376503,70.699501,70.786903,


Por último veamos las dimensiones de cada uno de los datasets considerados:

In [19]:
print('Dimensiones de los datasets: \n',
      'Educación:',education.shape, '\n', 
      'Género:',gender.shape,'\n',
     'Medio Ambiente:', environment.shape, '\n',
     'Salud:', health.shape, '\n',
      'Pobreza:',poverty.shape, '\n',
      'Protección Social:',social_protection.shape)

Dimensiones de los datasets: 
 Educación: (1272, 55) 
 Género: (996, 55) 
 Medio Ambiente: (912, 55) 
 Salud: (1344, 55) 
 Pobreza: (180, 55) 
 Protección Social: (1116, 55)


### Breve muestro estadístico

In [20]:
gender.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 996 entries, 0 to 995
Data columns (total 55 columns):
Features          996 non-null object
Indicator         996 non-null object
Country Name      996 non-null object
Country Code      996 non-null object
Indicator Code    996 non-null object
1970.0            267 non-null float64
1971.0            327 non-null float64
1972.0            311 non-null float64
1973.0            303 non-null float64
1974.0            307 non-null float64
1975.0            295 non-null float64
1976.0            304 non-null float64
1977.0            324 non-null float64
1978.0            304 non-null float64
1979.0            297 non-null float64
1980.0            264 non-null float64
1981.0            235 non-null float64
1982.0            231 non-null float64
1983.0            214 non-null float64
1984.0            249 non-null float64
1985.0            275 non-null float64
1986.0            290 non-null float64
1987.0            294 non-null float64
198

In [30]:
gender.describe(include='object')

Unnamed: 0,Features,Indicator,Country Name,Country Code,Indicator Code
count,996,996,996,996,996
unique,83,1,12,12,83
top,"Supervivencia hasta los 65 años, mujeres (% de la cohorte)",Gender,Suriname,URY,SL.UEM.TOTL.MA.ZS
freq,12,996,83,83,12


In [25]:
gender.describe(include='float')

Unnamed: 0,1970.0,1971.0,1972.0,1973.0,1974.0,1975.0,1976.0,1977.0,1978.0,1979.0,...,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0,2019.0
count,267.0,327.0,311.0,303.0,307.0,295.0,304.0,324.0,304.0,297.0,...,852.0,873.0,860.0,799.0,807.0,805.0,785.0,756.0,607.0,340.0
mean,3070.725406,748.889278,552.108538,771.66625,1156.919587,1581.743274,1178.669536,996.922583,934.526685,859.073386,...,538.852398,1187.407923,776.147141,535.511907,584.900127,754.170129,873.854447,826.383055,356.806444,33.480108
std,25513.141762,8098.923367,5476.80397,8675.47436,9582.902556,11200.964066,9865.145238,8380.859909,7856.479723,6586.765523,...,4578.264578,12829.155655,7157.605944,5873.754162,6455.404006,7457.420292,9082.448234,9288.841691,3690.90833,24.842334
min,0.36275,0.24847,0.3019,0.34493,0.49816,0.48357,0.45156,0.62494,0.66262,0.55996,...,0.1,0.1,0.1,0.1,0.1,0.072,0.033,0.015,0.058,0.049
25%,24.285485,23.894865,26.88743,28.3309,34.76914,34.28151,37.426603,42.1759,43.231097,36.59225,...,16.8645,16.77,16.19775,16.1495,16.6,16.809999,15.385,14.287073,11.6175,10.025
50%,59.256626,53.18452,53.94,56.328403,58.89439,59.58,62.31147,63.620647,63.608763,62.92558,...,52.195999,55.018998,53.2085,52.58806,53.382999,52.139,51.27741,50.400999,44.95037,29.820001
75%,91.84625,79.93399,87.304145,85.887675,90.060655,87.80381,88.02082,93.099457,91.586295,89.32676,...,85.962978,87.46214,85.873073,85.030722,85.83614,86.3302,84.71787,82.532885,74.979892,52.032751
max,317992.0,104133.0,69461.0,108680.0,105317.0,113701.0,114025.0,96989.0,87482.0,72260.0,...,66370.0,261214.0,98453.0,94212.0,106131.0,108798.0,143953.0,166336.0,52032.0,91.122002


In [24]:
gender.dtypes

Features          object 
Indicator         object 
Country Name      object 
Country Code      object 
Indicator Code    object 
1970.0            float64
1971.0            float64
1972.0            float64
1973.0            float64
1974.0            float64
1975.0            float64
1976.0            float64
1977.0            float64
1978.0            float64
1979.0            float64
1980.0            float64
1981.0            float64
1982.0            float64
1983.0            float64
1984.0            float64
1985.0            float64
1986.0            float64
1987.0            float64
1988.0            float64
1989.0            float64
1990.0            float64
1991.0            float64
1992.0            float64
1993.0            float64
1994.0            float64
1995.0            float64
1996.0            float64
1997.0            float64
1998.0            float64
1999.0            float64
2000.0            float64
2001.0            float64
2002.0            float64
2003.0      

## Metadata

Cargamos ahora la metadata de cada una de las variables para cada indicador. La metadata es una explicación breve sobre el significado de cada variable y la fuente de datos, en criollo podríamos decir que básicamente es un "Diccionario de datos". Estos datos deben ser tomados de consulta y para dar sentido a los valores o información hallada.

In [9]:
metadata_education = pd.read_csv('metadata_education.csv')
metadata_gender = pd.read_csv('metadata_gender.csv')
metadata_environment = pd.read_csv('metadata_environment.csv')
metadata_health = pd.read_csv('metadata_health.csv')
metadata_poverty = pd.read_csv('metadata_poverty.csv')
metadata_socialprotection = pd.read_csv('metadata_socialprotection.csv')

Inspeccionemos un poco de que se trata...

In [10]:
metadata_education.sample(2)

Unnamed: 0.1,Unnamed: 0,INDICATOR_CODE,INDICATOR_NAME,SOURCE_NOTE,SOURCE_ORGANIZATION
47,47,SE.SEC.TCAQ.LO.ZS,Maestros capacitados en el ciclo inferior de la educación de nivel secundario (% del total de maestros),Trained teachers in lower secondary education are the percentage of lower secondary school teachers who have received the minimum organized teacher training (pre-service or in-service) required for teaching in a given country.,"Instituto de Estadística de la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO)."
111,111,SE.PRM.NINT.ZS,Tasa neta de ingreso en primer grado (% de población oficial en edad escolar),"Tasa neta de ingreso, educación primaria, total. Corresponde al número total de estudiantes que ingresan por primera vez al primer grado de educación primaria y que están en edad oficial de ingresar a dicho nivel de educación, expresado como porcentaje de la población total de la misma edad.","Instituto de Estadística de la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO)."


### metadata_gender.sample(2)

In [12]:
metadata_environment.sample(2)

Unnamed: 0.1,Unnamed: 0,INDICATOR_CODE,INDICATOR_NAME,SOURCE_NOTE,SOURCE_ORGANIZATION
111,111,EN.ATM.CO2E.GF.KT,Emisiones de CO2 del consumo de combustible gaseoso (kilotoneladas),Las emisiones de dióxido de carbono del consumo de combustibles líquidos se refieren principalmente a las emisiones del uso de gas natural como fuente de energía.,"Centro de Análisis de Información sobre Dióxido de Carbono, División de Ciencias Ambientales del Laboratorio Nacional de Oak Ridge (Tennessee, Estados Unidos)."
80,80,EN.ATM.SF6G.KT.CE,Emisiones de gas SF6 (miles de toneladas métricas de equivalente de CO2),El hexafluoruro de sulfuro es muy utilizado para aislar el equipamiento eléctrico de alto voltaje.,"Comisión Europea, Centro Común de Investigación (JRC)/Agencia de Evaluación Ambiental de los Países Bajos (PBL). Base de Datos de Emisiones para la Investigación Atmosférica Global (EDGAR): http://edgar.jrc.ec.europa.eu/."


In [13]:
metadata_health.sample(2)

Unnamed: 0.1,Unnamed: 0,INDICATOR_CODE,INDICATOR_NAME,SOURCE_NOTE,SOURCE_ORGANIZATION
202,202,SH.HIV.PMTC.ZS,Cobertura de la terapia antirretroviral para la prevención de la transmisión de madre a hijo (% de mujeres embarazadas que viven con el VIH),Percentage of pregnant women with HIV who receive antiretroviral medicine for prevention of mother-to-child transmission (PMTCT).,Estimaciones de Onusida.
140,140,SH.STA.SUIC.P5,Tasa de mortalidad por suicidio (por cada 100 000 habitantes),"Suicide mortality rate is the number of suicide deaths in a year per 100,000 population.","World Health Organization, Global Health Observatory Data Repository (http://apps.who.int/ghodata/)."


In [14]:
metadata_poverty.sample(2)

Unnamed: 0.1,Unnamed: 0,INDICATOR_CODE,INDICATOR_NAME,SOURCE_NOTE,SOURCE_ORGANIZATION,Unnamed: 4
3,3,SI.SPR.PC40,"Consumo medio o ingresos per cápita según encuestas, 40 % más pobre de la población (USD por día según la PPA de 2011)",Mean consumption or income per capita (2011 PPP $ per day) used in calculating the growth rate in the welfare aggregate of the bottom 40% of the population in the income distribution in a country.,"Banco Mundial, Base de Datos Mundial sobre Prosperidad Compartida (GDSP) alrededor de 2008-13 (http://www.worldbank.org/en/topic/poverty/brief/global-database-of-shared-prosperity).",
7,7,SI.POV.UMIC,,,,


In [15]:
metadata_socialprotection.sample(2)

Unnamed: 0.1,Unnamed: 0,INDICATOR_CODE,INDICATOR_NAME,SOURCE_NOTE,SOURCE_ORGANIZATION
139,139,per_sa_allsa.cov_q3_tot,Cobertura de los programas de medidas de protección social en el tercer quintil (% de la población),"Coverage of social safety net programs shows the percentage of population participating in cash transfers and last resort programs, noncontributory social pensions, other cash transfers programs (child, family and orphan allowances, birth and death grants, disability benefits, and other allowances), conditional cash transfers, in-kind food transfers (food stamps and vouchers, food rations, supplementary feeding, and emergency food distribution), school feeding, other social assistance programs (housing allowances, scholarships, fee waivers, health subsidies, and other social assistance) and public works programs (cash for work and food for work). Estimates include both direct and indirect beneficiaries.","ASPIRE: El Atlas de Protección Social: Indicadores de Resiliencia y Equidad, Banco Mundial. Los datos proceden de encuestas de hogares nacionales representativas. (datatopics.worldbank.org/aspire/)"
129,129,per_si_allsi.cov_q5_tot,Cobertura de los programas de seguro social en el quintil más rico (% de la población),"Coverage of social insurance programs shows the percentage of population participating in programs that provide old age contributory pensions (including survivors and disability) and social security and health insurance benefits (including occupational injury benefits, paid sick leave, maternity and other social insurance). Estimates include both direct and indirect beneficiaries.","ASPIRE: El Atlas de Protección Social: Indicadores de Resiliencia y Equidad, Banco Mundial. Los datos proceden de encuestas de hogares nacionales representativas. (datatopics.worldbank.org/aspire/)"


Como observamos el punto en común entre la metadata y los conjuntos de datos es a través de las columnas **INDICATOR_CODE** e **INDICATOR_NAME**.

## Construcción de un único dataset

Dado que dependiendo el análisis muchas veces será conveniente tener toda la información condensada en un solo lugar construimos un dataset con toda la info.

In [16]:
dataset =pd.concat([education, gender, environment, health, poverty, social_protection])
dataset.shape

(5820, 55)

In [17]:
#Para convertirlo a csv
#dataset.to_csv('dataset.csv')

In [18]:
dataset.columns

Index(['Features', 'Indicator', 'Country Name', 'Country Code',
       'Indicator Code', '1970.0', '1971.0', '1972.0', '1973.0', '1974.0',
       '1975.0', '1976.0', '1977.0', '1978.0', '1979.0', '1980.0', '1981.0',
       '1982.0', '1983.0', '1984.0', '1985.0', '1986.0', '1987.0', '1988.0',
       '1989.0', '1990.0', '1991.0', '1992.0', '1993.0', '1994.0', '1995.0',
       '1996.0', '1997.0', '1998.0', '1999.0', '2000.0', '2001.0', '2002.0',
       '2003.0', '2004.0', '2005.0', '2006.0', '2007.0', '2008.0', '2009.0',
       '2010.0', '2011.0', '2012.0', '2013.0', '2014.0', '2015.0', '2016.0',
       '2017.0', '2018.0', '2019.0'],
      dtype='object')

In [19]:
dataset.head(3)

Unnamed: 0,Features,Indicator,Country Name,Country Code,Indicator Code,1970.0,1971.0,1972.0,1973.0,1974.0,...,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0,2019.0
0,Población entre 15 y 64 años de edad (% del total),Education,Argentina,ARG,SP.POP.1564.TO.ZS,63.615666,63.527827,63.427855,63.313371,63.178718,...,63.769017,63.880723,63.947129,63.982692,64.01547,64.06002,64.060567,64.083523,64.121277,
1,Población entre 0 y 14 años de edad (% del total),Education,Argentina,ARG,SP.POP.0014.TO.ZS,29.438848,29.38049,29.347396,29.339782,29.361379,...,26.035958,25.82227,25.651857,25.509966,25.368129,25.211165,25.079456,24.92677,24.760934,
2,"Desempleo, total (% de la población activa total) (estimación modelado OIT)",Education,Argentina,ARG,SL.UEM.TOTL.ZS,,,,,,...,7.714,7.18,7.217,7.1,7.268,7.75,7.977,8.347,9.22,9.789


In [20]:
dataset.sample(3)

Unnamed: 0,Features,Indicator,Country Name,Country Code,Indicator Code,1970.0,1971.0,1972.0,1973.0,1974.0,...,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0,2019.0
102,Ahorro ajustado: gasto en educación (US$ actuales),Environment,Brasil,BRA,NY.ADJ.AEDU.CD,1501929000.0,1752280000.0,2090295000.0,2351424000.0,3743253000.0,...,115346000000.0,139995000000.0,133514000000.0,135223600000.0,136724800000.0,107903100000.0,107903100000.0,123843300000.0,,
673,"Desempleo, varones (% de la población activa masculina) (estimación modelado OIT)",Gender,Ecuador,ECU,SL.UEM.TOTL.MA.ZS,,,,,,...,3.534,2.939,2.859,2.714,3.07,3.023,3.726,3.069,2.929,3.283
1297,"Esperanza de vida al nacer, varones (años)",Health,Suriname,SUR,SP.DYN.LE00.MA.IN,60.805,61.039,61.267,61.49,61.711,...,67.336,67.547,67.719,67.863,67.983,68.088,68.183,68.274,68.368,


In [21]:
dataset['Country Name'].unique()

array(['Argentina', 'Brasil', 'Paraguay', 'Uruguay', 'Venezuela',
       'Bolivia', 'Chile', 'Colombia', 'Ecuador', 'Guyana', 'Perú',
       'Suriname'], dtype=object)