#### El objetivo de esta notebbok es extraer los ingresos per cápita promedio por comuna para el periodo 2016-2019

In [39]:
# Importamos librerías
import pandas as pd
import numpy as np
import re

In [40]:
# Importamos el dataset de la EAH 2019
EAH2016 = pd.read_csv('../Data/encuesta-anual-hogares-2016.csv', encoding='latin-1')
EAH2017 = pd.read_csv('../Data/encuesta-anual-hogares-2017.csv', encoding='latin-1')
EAH2018 = pd.read_csv('../Data/encuesta-anual-hogares-2018.csv', encoding='latin-1')
EAH2019 = pd.read_csv('../Data/encuesta-anual-hogares-2019.csv', encoding='latin-1')

In [41]:
print('EAH2016')
print(EAH2016.info(),'\n\n')
print('EAH2017')
print(EAH2017.info(),'\n\n')
print('EAH2018')
print(EAH2018.info(),'\n\n')
print('EAH2019')
print(EAH2019.info())

EAH2016
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14512 entries, 0 to 14511
Data columns (total 31 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   id                           14512 non-null  int64 
 1   nhogar                       14512 non-null  int64 
 2   miembro                      14512 non-null  int64 
 3   comuna                       14512 non-null  int64 
 4   dominio                      14512 non-null  object
 5   edad                         14512 non-null  int64 
 6   sexo                         14512 non-null  object
 7   parentesco_jefe              14512 non-null  object
 8   situacion_conyugal           14510 non-null  object
 9   num_miembro_padre            14512 non-null  object
 10  num_miembro_madre            14512 non-null  object
 11  estado_ocupacional           14512 non-null  object
 12  cat_ocupacional              14512 non-null  object
 13  calidad_ingresos_lab   

El objetivo es extraer el ingreso promedio per cápita anual para cada comuna

In [42]:
# Generamos un dataframe con las columnas de cada una de ellas
EAH_columns = pd.DataFrame([EAH2016.columns, EAH2017.columns,
             EAH2018.columns, EAH2019.columns], index=['2016','2017','2018','2019'])
EAH_columns

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,30
2016,id,nhogar,miembro,comuna,dominio,edad,sexo,parentesco_jefe,situacion_conyugal,num_miembro_padre,...,ingreso_per_capita_familiar,estado_educativo,sector_educativo,nivel_actual,nivel_max_educativo,aÃ±os_escolaridad,lugar_nacimiento,afiliacion_salud,hijos_nacidos_vivos,cantidad_hijos_nac_vivos
2017,id,nhogar,miembro,comuna,dominio,edad,sexo,parentesco_jefe,situacion_conyugal,num_miembro_padre,...,ingreso_per_capita_familiar,estado_educativo,sector_educativo,nivel_actual,nivel_max_educativo,aÃ±os_escolaridad,lugar_nacimiento,afiliacion_salud,hijos_nacidos_vivos,cantidad_hijos_nac_vivos
2018,id,nhogar,miembro,comuna,dominio,edad,sexo,parentesco_jefe,situacion_conyugal,num_miembro_padre,...,ingreso_per_capita_familiar,estado_educativo,sector_educativo,nivel_actual,nivel_max_educativo,años_escolaridad,lugar_nacimiento,afiliacion_salud,hijos_nacidos_vivos,cantidad_hijos_nac_vivos
2019,id,nhogar,miembro,comuna,dominio,edad,sexo,parentesco_jefe,situacion_conyugal,num_miembro_padre,...,ingreso_per_capita_familiar,estado_educativo,sector_educativo,nivel_actual,nivel_max_educativo,años_escolaridad,lugar_nacimiento,afiliacion_salud,hijos_nacidos_vivos,cantidad_hijos_nac_vivos


In [43]:
# Chequeamos que todas las columnas sean iguales
for i in EAH_columns.columns:
    print(EAH_columns[i].unique(),'\n')

['id'] 

['nhogar'] 

['miembro'] 

['comuna'] 

['dominio'] 

['edad'] 

['sexo'] 

['parentesco_jefe'] 

['situacion_conyugal'] 

['num_miembro_padre'] 

['num_miembro_madre'] 

['estado_ocupacional'] 

['cat_ocupacional'] 

['calidad_ingresos_lab'] 

['ingreso_total_lab'] 

['calidad_ingresos_no_lab'] 

['ingreso_total_no_lab'] 

['calidad_ingresos_totales'] 

['ingresos_totales'] 

['calidad_ingresos_familiares'] 

['ingresos_familiares'] 

['ingreso_per_capita_familiar'] 

['estado_educativo'] 

['sector_educativo'] 

['nivel_actual'] 

['nivel_max_educativo'] 

['aÃ±os_escolaridad' 'años_escolaridad'] 

['lugar_nacimiento'] 

['afiliacion_salud'] 

['hijos_nacidos_vivos'] 

['cantidad_hijos_nac_vivos'] 



In [44]:
# Vemos la columna conflictiva
print(EAH_columns[26])

2016    aÃ±os_escolaridad
2017    aÃ±os_escolaridad
2018     años_escolaridad
2019     años_escolaridad
Name: 26, dtype: object


In [45]:
# Renombramos esa columna de cada df
EAH2016 = EAH2016.rename(columns={'aÃ±os_escolaridad':'años_escolaridad'})
EAH2017 = EAH2017.rename(columns={'aÃ±os_escolaridad':'años_escolaridad'})

In [46]:
# Volvemos a chequear que todas las columnas sean iguales

EAH_frames_columns = [EAH2016.columns, EAH2017.columns,
             EAH2018.columns, EAH2019.columns] 

EAH_columns = pd.DataFrame(EAH_frames_columns, index=['2016','2017','2018','2019'])

for i in EAH_columns.columns:
    print(EAH_columns[i].unique(),'\n')

['id'] 

['nhogar'] 

['miembro'] 

['comuna'] 

['dominio'] 

['edad'] 

['sexo'] 

['parentesco_jefe'] 

['situacion_conyugal'] 

['num_miembro_padre'] 

['num_miembro_madre'] 

['estado_ocupacional'] 

['cat_ocupacional'] 

['calidad_ingresos_lab'] 

['ingreso_total_lab'] 

['calidad_ingresos_no_lab'] 

['ingreso_total_no_lab'] 

['calidad_ingresos_totales'] 

['ingresos_totales'] 

['calidad_ingresos_familiares'] 

['ingresos_familiares'] 

['ingreso_per_capita_familiar'] 

['estado_educativo'] 

['sector_educativo'] 

['nivel_actual'] 

['nivel_max_educativo'] 

['años_escolaridad'] 

['lugar_nacimiento'] 

['afiliacion_salud'] 

['hijos_nacidos_vivos'] 

['cantidad_hijos_nac_vivos'] 



In [47]:
# Agrego el dato del año para cada dataframe
EAH2016['Año'] = 2016
EAH2017['Año'] = 2017
EAH2018['Año'] = 2018
EAH2019['Año'] = 2019

In [48]:
EAH2016.pivot_table('ingreso_per_capita_familiar', index='comuna').round(2)

Unnamed: 0_level_0,ingreso_per_capita_familiar
comuna,Unnamed: 1_level_1
1,9136.77
2,16018.06
3,10184.83
4,7233.08
5,12901.04
6,12649.4
7,8670.7
8,5963.08
9,7939.55
10,9319.2


In [49]:
EAH_frames = [EAH2016,EAH2017,EAH2018,EAH2019]
EAH_2016_2019 = pd.concat(EAH_frames, ignore_index=True)
EAH_2016_2019 = EAH_2016_2019.drop(columns=['id'])
EAH_2016_2019.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58299 entries, 0 to 58298
Data columns (total 31 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   nhogar                       58299 non-null  int64 
 1   miembro                      58299 non-null  int64 
 2   comuna                       58299 non-null  int64 
 3   dominio                      58299 non-null  object
 4   edad                         58299 non-null  int64 
 5   sexo                         58299 non-null  object
 6   parentesco_jefe              58299 non-null  object
 7   situacion_conyugal           58293 non-null  object
 8   num_miembro_padre            58299 non-null  object
 9   num_miembro_madre            58299 non-null  object
 10  estado_ocupacional           58299 non-null  object
 11  cat_ocupacional              58298 non-null  object
 12  calidad_ingresos_lab         58299 non-null  object
 13  ingreso_total_lab            58

In [50]:
EAH_2016_2019.sample(5)

Unnamed: 0,nhogar,miembro,comuna,dominio,edad,sexo,parentesco_jefe,situacion_conyugal,num_miembro_padre,num_miembro_madre,...,estado_educativo,sector_educativo,nivel_actual,nivel_max_educativo,años_escolaridad,lugar_nacimiento,afiliacion_salud,hijos_nacidos_vivos,cantidad_hijos_nac_vivos,Año
23414,1,2,8,Villas de emergencia,14,Mujer,Hijo/a - Hijastro/a,Soltero/a,Padre no vive en el hogar,1,...,Asiste,Estatal/publico,Secundario/medio comun,EGB (1Â° a 9Â° aÃ±o),7,CABA,Solo obra social,No,No corresponde,2017
2618,1,3,8,Resto de la Ciudad,2,Mujer,Hijo/a - Hijastro/a,No corresponde,Padre no vive en el hogar,1,...,Asiste,Estatal/publico,Jardin maternal,,Ningun aÃ±o de escolaridad aprobado,CABA,Solo obra social,,No corresponde,2016
38460,1,2,13,Resto de la Ciudad,53,Mujer,Conyugue o pareja,Casado/a,No corresponde,No corresponde,...,No asiste pero asistió,No corresponde,No corresponde,Secundario/medio comun,15,CABA,Otros,Si,4,2018
42617,1,2,12,Resto de la Ciudad,73,Mujer,Conyugue o pareja,Casado/a,No corresponde,No corresponde,...,No asiste pero asistió,No corresponde,No corresponde,Primario especial,12,CABA,Solo plan de medicina prepaga por contratación...,Si,2,2018
37465,1,4,10,Resto de la Ciudad,19,Mujer,Hijo/a - Hijastro/a,Soltero/a,Padre no vive en el hogar,1,...,No asiste pero asistió,No corresponde,No corresponde,Primario especial,12,CABA,Solo sistema publico,No,No corresponde,2018


In [51]:
# Agrupamos por comuna y calculamos el ingreso per capita promedio anual de cada una
ing_per_cap_fam_mean = EAH_2016_2019.pivot_table('ingreso_per_capita_familiar', index='comuna', columns='Año').round(2)
# Por deafult, el método realiza la función "mean"
ing_per_cap_fam_mean

Año,2016,2017,2018,2019
comuna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,9136.77,12756.31,14950.62,22819.65
2,16018.06,21930.32,28207.22,44994.98
3,10184.83,13410.33,17181.9,24319.56
4,7233.08,10348.43,12383.7,18345.84
5,12901.04,15059.14,20211.45,28352.32
6,12649.4,19425.06,24460.11,34112.72
7,8670.7,11024.12,13732.22,20418.25
8,5963.08,7443.75,9376.17,13557.89
9,7939.55,9654.36,12342.54,17219.64
10,9319.2,12805.17,15542.34,25982.71


In [52]:
# Renombramos las columnas con el fin de tener un dataframe single-index p/las columnas
ing_per_cap_fam_mean.columns = ['2016','2017','2018','2019']
ing_per_cap_fam_mean

Unnamed: 0_level_0,2016,2017,2018,2019
comuna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,9136.77,12756.31,14950.62,22819.65
2,16018.06,21930.32,28207.22,44994.98
3,10184.83,13410.33,17181.9,24319.56
4,7233.08,10348.43,12383.7,18345.84
5,12901.04,15059.14,20211.45,28352.32
6,12649.4,19425.06,24460.11,34112.72
7,8670.7,11024.12,13732.22,20418.25
8,5963.08,7443.75,9376.17,13557.89
9,7939.55,9654.36,12342.54,17219.64
10,9319.2,12805.17,15542.34,25982.71


In [53]:
# Dado que es difícil (o nose) como agregar los datos de este df al df de "delitos", vamos a construir otro df que tenga
# como columnas al "ingreso", "comuna" y "año"

In [54]:
# Construimos una función para segmentar el df a partir de los años
def ingreso_per_capita_por_comuna_promedio(year):
    ing_per_cap_fam_mean_year = ing_per_cap_fam_mean[year]
    
    comunas_array = np.array([np.NaN,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15])
    comunas_serie = pd.Series(comunas_array)
    
    ing_per_cap_fam_mean_dic = {'ingreso_per_capita_promedio':ing_per_cap_fam_mean_year, 'comuna':comunas_serie}
    ing_per_cap_fam_mean_df = pd.DataFrame(ing_per_cap_fam_mean_dic)
    ing_per_cap_fam_mean_df['Año'] = year
    ing_per_cap_fam_mean_df = ing_per_cap_fam_mean_df.dropna()
    
    return ing_per_cap_fam_mean_df

In [55]:
ingreso_per_capita_por_comuna_promedio_2016 = ingreso_per_capita_por_comuna_promedio('2016')
ingreso_per_capita_por_comuna_promedio_2017 = ingreso_per_capita_por_comuna_promedio('2017')
ingreso_per_capita_por_comuna_promedio_2018 = ingreso_per_capita_por_comuna_promedio('2018')
ingreso_per_capita_por_comuna_promedio_2019 = ingreso_per_capita_por_comuna_promedio('2019')

In [56]:
# Vemos como ejemplo cómo quedo uno de ellos
ingreso_per_capita_por_comuna_promedio_2017

Unnamed: 0,ingreso_per_capita_promedio,comuna,Año
1,12756.31,1.0,2017
2,21930.32,2.0,2017
3,13410.33,3.0,2017
4,10348.43,4.0,2017
5,15059.14,5.0,2017
6,19425.06,6.0,2017
7,11024.12,7.0,2017
8,7443.75,8.0,2017
9,9654.36,9.0,2017
10,12805.17,10.0,2017


In [57]:
# Concatenamos los df anteriores para obtener uno nuevo con 
ing_pc_comuna_mean_2016_2019 = pd.concat([ingreso_per_capita_por_comuna_promedio_2016, ingreso_per_capita_por_comuna_promedio_2017, 
          ingreso_per_capita_por_comuna_promedio_2018, ingreso_per_capita_por_comuna_promedio_2019], ignore_index=True)
ing_pc_comuna_mean_2016_2019.sample(5)

Unnamed: 0,ingreso_per_capita_promedio,comuna,Año
46,44994.98,2.0,2019
25,14821.29,11.0,2017
24,12805.17,10.0,2017
11,11106.09,12.0,2016
47,24319.56,3.0,2019


In [58]:
mask_dw = ing_pc_comuna_mean_2016_2019.comuna == 1
ing_pc_comuna_mean_2016_2019.loc[mask_dw,:]

Unnamed: 0,ingreso_per_capita_promedio,comuna,Año
0,9136.77,1.0,2016
15,12756.31,1.0,2017
30,14950.62,1.0,2018
45,22819.65,1.0,2019


In [59]:
# Cambio el formato de la columna "comuna" a int para que tenga el mismo formato que el resto de los datasets
ing_pc_comuna_mean_2016_2019['comuna']= ing_pc_comuna_mean_2016_2019.comuna.astype(int)

In [60]:
ingreso_promedio_por_comuna_y_anual = ing_pc_comuna_mean_2016_2019

# Dataframe a combinar: "ingreso_promedio_por_comuna_y_anual"

In [61]:
ingreso_promedio_por_comuna_y_anual

Unnamed: 0,ingreso_per_capita_promedio,comuna,Año
0,9136.77,1,2016
1,16018.06,2,2016
2,10184.83,3,2016
3,7233.08,4,2016
4,12901.04,5,2016
5,12649.4,6,2016
6,8670.7,7,2016
7,5963.08,8,2016
8,7939.55,9,2016
9,9319.2,10,2016


In [62]:
# Cositas raras?
ingreso_promedio_por_comuna_y_anual.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 3 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   ingreso_per_capita_promedio  60 non-null     float64
 1   comuna                       60 non-null     int32  
 2   Año                          60 non-null     object 
dtypes: float64(1), int32(1), object(1)
memory usage: 1.3+ KB


In [63]:
# Duplicados?
ingreso_promedio_por_comuna_y_anual.duplicated().value_counts()

False    60
dtype: int64