Se transforman los datos desde Stata a CSV

In [243]:
import pandas as pd

# Leer sin convertir categorías
df = pd.read_stata("BaseCasen2022.dta", convert_categoricals=False)

reader = pd.io.stata.StataReader("BaseCasen2022.dta")
value_labels = reader.value_labels()
reader.close()

# Guardar
df.to_csv("CASEN_2022.csv", index=False, encoding='utf-8-sig')
print(f"¡Conversión completa! {len(df)} filas guardadas")

One or more strings in the dta file could not be decoded using utf-8, and
so the fallback encoding of latin-1 is being used.  This can happen when a file
has been incorrectly encoded by Stata or some other software. You should verify
the string values returned are correct.
  df = pd.read_stata("BaseCasen2022.dta", convert_categoricals=False)
One or more strings in the dta file could not be decoded using utf-8, and
so the fallback encoding of latin-1 is being used.  This can happen when a file
has been incorrectly encoded by Stata or some other software. You should verify
the string values returned are correct.
  value_labels = reader.value_labels()
  reader.close()


¡Conversión completa! 202231 filas guardadas


Inspeccionar los datos del cansen para evaluarlos

In [244]:
df.head()



Unnamed: 0,id_vivienda,folio,id_persona,region,area,cod_upm,nse,estrato,hogar,expr,...,men18c,may60c,tipohogar,tot_hog,ind_hacina,indsan,ten_viv,ten_viv_f,allega_ext,allega_int
0,1000901,100090101,1,16,2,10009,4,1630324,1,43,...,0,1,3,1,1,1,1,1,0,0
1,1000901,100090101,2,16,2,10009,4,1630324,1,43,...,0,1,3,1,1,1,1,1,0,0
2,1000901,100090101,3,16,2,10009,4,1630324,1,44,...,0,1,3,1,1,1,1,1,0,0
3,1000902,100090201,1,16,2,10009,4,1630324,1,51,...,1,1,5,1,1,2,1,1,0,1
4,1000902,100090201,2,16,2,10009,4,1630324,1,51,...,1,1,5,1,1,2,1,1,0,1


Ver datos de pobreza

In [245]:
print(df['pobreza'].value_counts())

pobreza
3.0    186838
2.0     10616
1.0      4657
Name: count, dtype: int64


In [246]:
print('pobreza' in df.columns)

True


In [247]:
print(df['nse'].value_counts())

nse
4    56021
2    50219
1    40915
3    19924
6    19078
7    15813
5      261
Name: count, dtype: int64


Ya investigado la documentacion entregada por la web de la base de datos y el dataframe, tenemos el nombre de las variables para crear un dataframe de pobreza con CASEN 2022

In [286]:
mapeo_texto = {
    1: 'Bajo',
    2: 'Medio', 
    3: 'Alto',
    4: 'Bajo-medio',
    5: 'Bajo-alto',
    6: 'Bajo-medio-alto',
    7: 'Medio-alto'
}

# Aplicar el mapeo
df['Nivel socioeconomico'] = df['nse'].map(mapeo_texto)

# Verificar resultados
print("=== DISTRIBUCIÓN NSE EN TEXTO ===")
distribucion = df['Nivel socioeconomico'].value_counts()
print(distribucion)

print(f"\nTotal de registros: {len(df)}")
print(f"Registros mapeados: {df['Nivel socioeconomico'].notnull().sum()}")

=== DISTRIBUCIÓN NSE EN TEXTO ===
Nivel socioeconomico
Bajo-medio         56021
Medio              50219
Bajo               40915
Alto               19924
Bajo-medio-alto    19078
Medio-alto         15813
Bajo-alto            261
Name: count, dtype: int64

Total de registros: 202231
Registros mapeados: 202231


In [251]:
mapeo_sistema_pro = {
    -88: 'no sabe',
    1: 'Fonasa', 
    2: 'Isapre',
    3: 'FF.AA. y del Orden',
    4: 'Ninguno (particular)',
    5: 'Otro sistema'
}

# Aplicar el mapeo
df['Sistema Provisional'] = df['s13'].map(mapeo_sistema_pro)

  df['Sistema Provisional'] = df['s13'].map(mapeo_sistema_pro)


In [252]:
mapeo_fonasa = {
    -88: 'no sabe',
    1: 'A', 
    2: 'B',
    3: 'C',
    4: 'D'
}

# Aplicar el mapeo
df['Grupo Fonasa'] = df['s13_fonasa'].map(mapeo_fonasa)

  df['Grupo Fonasa'] = df['s13_fonasa'].map(mapeo_fonasa)


In [253]:
mapeo_pobreza = {
    1: 'Pobreza Extrema',
    2: 'Pobreza No Extrema', 
    3: 'No Pobreza'
}
df['Pobreza'] = df['pobreza'].map(mapeo_pobreza)

  df['Pobreza'] = df['pobreza'].map(mapeo_pobreza)


In [254]:
mapeo_sexo = {
    1: 'Hombre',
    2: 'Mujer'
}

# Aplicar el mapeo
df['Sexo'] = df['sexo'].map(mapeo_sexo)

  df['Sexo'] = df['sexo'].map(mapeo_sexo)


In [255]:
df['Año'] = df['fecha_entrev'].dt.year
df['Ingreso por Hogar'] = df['ytotcorh']

  df['Año'] = df['fecha_entrev'].dt.year
  df['Ingreso por Hogar'] = df['ytotcorh']


In [256]:
print('s13' in df.columns)

True


In [257]:
print('s13_fonasa' in df.columns)

True


In [258]:
df['Pobreza Multidimensional'] = df['pobreza_multi_5d']

  df['Pobreza Multidimensional'] = df['pobreza_multi_5d']


In [287]:
# Variables correctas disponibles
variables_necesarias = ['folio', 'id_persona', 'Año','Pobreza', 'Pobreza Multidimensional','Sistema Provisional',
                        'Nivel socioeconomico', 'region', 'edad', 'Sexo', 'Ingreso por Hogar']

df_pobreza = df[variables_necesarias].copy()

# Eliminar filas donde pobreza sea nula
df_pobreza = df_pobreza.dropna(subset=['Pobreza'])

# Ver distribución de pobreza
print(" DISTRIBUCIÓN DE POBREZA POR INGRESOS ")
print(df_pobreza['Pobreza'].value_counts().sort_index())

print("\n DISTRIBUCIÓN DE POBREZA MULTIDIMENSIONAL ")
print(df_pobreza['Pobreza Multidimensional'].value_counts().sort_index())

print("\n DISTRIBUCIÓN DE NIVEL SOCIOECONÓMICO (NSE) ")
print(df_pobreza['Nivel socioeconomico'].value_counts().sort_index())

print(f"\nTotal personas con datos: {len(df_pobreza)}")

 DISTRIBUCIÓN DE POBREZA POR INGRESOS 
Pobreza
No Pobreza            186838
Pobreza Extrema         4657
Pobreza No Extrema     10616
Name: count, dtype: int64

 DISTRIBUCIÓN DE POBREZA MULTIDIMENSIONAL 
Pobreza Multidimensional
0.0    161671
1.0     37254
Name: count, dtype: int64

 DISTRIBUCIÓN DE NIVEL SOCIOECONÓMICO (NSE) 
Nivel socioeconomico
Alto               19889
Bajo               40908
Bajo-alto            261
Bajo-medio         55990
Bajo-medio-alto    19073
Medio              50198
Medio-alto         15792
Name: count, dtype: int64

Total personas con datos: 202111


In [288]:
df_pobreza.info()

<class 'pandas.core.frame.DataFrame'>
Index: 202111 entries, 0 to 202230
Data columns (total 11 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   folio                     202111 non-null  int32  
 1   id_persona                202111 non-null  int8   
 2   Año                       202111 non-null  int32  
 3   Pobreza                   202111 non-null  object 
 4   Pobreza Multidimensional  198925 non-null  float64
 5   Sistema Provisional       202111 non-null  object 
 6   Nivel socioeconomico      202111 non-null  object 
 7   region                    202111 non-null  int8   
 8   edad                      202111 non-null  int16  
 9   Sexo                      202111 non-null  object 
 10  Ingreso por Hogar         202111 non-null  float64
dtypes: float64(2), int16(1), int32(2), int8(2), object(4)
memory usage: 13.1+ MB


Limpiamos los datos nulos para 'pobreza_multi_5d'

In [289]:
df_pobreza = df_pobreza.dropna(subset=['Pobreza Multidimensional'])

In [290]:
df_pobreza.head()

Unnamed: 0,folio,id_persona,Año,Pobreza,Pobreza Multidimensional,Sistema Provisional,Nivel socioeconomico,region,edad,Sexo,Ingreso por Hogar
0,100090101,1,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,72,Mujer,1010894.0
1,100090101,2,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,67,Hombre,1010894.0
2,100090101,3,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,40,Mujer,1010894.0
3,100090201,1,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,56,Hombre,418192.0
4,100090201,2,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,25,Mujer,418192.0


In [291]:
df_pobreza.info()

<class 'pandas.core.frame.DataFrame'>
Index: 198925 entries, 0 to 202230
Data columns (total 11 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   folio                     198925 non-null  int32  
 1   id_persona                198925 non-null  int8   
 2   Año                       198925 non-null  int32  
 3   Pobreza                   198925 non-null  object 
 4   Pobreza Multidimensional  198925 non-null  float64
 5   Sistema Provisional       198925 non-null  object 
 6   Nivel socioeconomico      198925 non-null  object 
 7   region                    198925 non-null  int8   
 8   edad                      198925 non-null  int16  
 9   Sexo                      198925 non-null  object 
 10  Ingreso por Hogar         198925 non-null  float64
dtypes: float64(2), int16(1), int32(2), int8(2), object(4)
memory usage: 12.9+ MB


In [292]:
df_pobreza.to_csv("CASEN_POBREZA_2022.csv", index=False, encoding='utf-8-sig')

Ahora uniremos los archivos los dataframes de CASEN_POBREZA_2022.csv y CASEN_GEOGRAFICO_2022.csv, para crear un nuevo dataframe de CASEN_POBREZA_GEOGRAFICA_2022.csv

In [293]:
df_geografico = pd.read_csv("CASEN_GEOGRAFICO_2022.csv")


In [294]:
df_completo = pd.merge(
    df_pobreza,
    df_geografico,
    on=['folio', 'id_persona'],
    how='left'
)

# Verificar el resultado
print(f"Filas en pobreza: {len(df_pobreza)}")
print(f"Filas en geográfico: {len(df_geografico)}")
print(f"Filas después de unir: {len(df_completo)}")

Filas en pobreza: 198925
Filas en geográfico: 202231
Filas después de unir: 198925


In [295]:
df_completo.head(15)

Unnamed: 0,folio,id_persona,Año,Pobreza,Pobreza Multidimensional,Sistema Provisional,Nivel socioeconomico,region,edad,Sexo,Ingreso por Hogar,provincia,comuna,expp,expc
0,100090101,1,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,72,Mujer,1010894.0,163,16303,51,52
1,100090101,2,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,67,Hombre,1010894.0,163,16303,50,53
2,100090101,3,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,40,Mujer,1010894.0,163,16303,51,52
3,100090201,1,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,56,Hombre,418192.0,163,16303,51,52
4,100090201,2,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,25,Mujer,418192.0,163,16303,50,52
5,100090201,3,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,2,Hombre,418192.0,163,16303,51,52
6,100090201,4,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,60,Mujer,418192.0,163,16303,51,52
7,100090301,1,2022,No Pobreza,0.0,Fonasa,Bajo-medio,16,84,Hombre,550000.0,163,16303,51,52
8,100090301,2,2022,No Pobreza,0.0,Fonasa,Bajo-medio,16,67,Mujer,550000.0,163,16303,51,52
9,100090301,3,2022,No Pobreza,0.0,Fonasa,Bajo-medio,16,30,Hombre,550000.0,163,16303,51,52


In [296]:
df_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 198925 entries, 0 to 198924
Data columns (total 15 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   folio                     198925 non-null  int32  
 1   id_persona                198925 non-null  int8   
 2   Año                       198925 non-null  int32  
 3   Pobreza                   198925 non-null  object 
 4   Pobreza Multidimensional  198925 non-null  float64
 5   Sistema Provisional       198925 non-null  object 
 6   Nivel socioeconomico      198925 non-null  object 
 7   region                    198925 non-null  int8   
 8   edad                      198925 non-null  int16  
 9   Sexo                      198925 non-null  object 
 10  Ingreso por Hogar         198925 non-null  float64
 11  provincia                 198925 non-null  int64  
 12  comuna                    198925 non-null  int64  
 13  expp                      198925 non-null  i

Ahora vamos a codificar las comunas con codigos_geograficos_casen2022

In [297]:
import pandas as pd

df_codigos = pd.read_excel("codigos Base de datos provincia y comuna Casen 2022.xlsx")
provincias = []
for i in range(4, 58):
    fila = df_codigos.iloc[i]
    if pd.notna(fila[3]) and pd.notna(fila[4]):
        provincias.append({
            'codigo_provincia': int(fila[3]),
            'nombre_provincia': fila[4]
        })

df_provincias = pd.DataFrame(provincias)
print(f"Provincias extraídas: {len(df_provincias)}")
comunas = []
for i in range(58, 393):
    fila = df_codigos.iloc[i]
    if pd.notna(fila[3]) and pd.notna(fila[4]):
        comunas.append({
            'codigo_comuna': int(fila[3]),
            'nombre_comuna': fila[4]
        })

df_comunas = pd.DataFrame(comunas)
print(f"Comunas extraídas: {len(df_comunas)}")
df_comunas['codigo_provincia'] = df_comunas['codigo_comuna'].apply(lambda x: int(str(x)[:2]))
df_geo_completo = df_comunas.merge(df_provincias, on='codigo_provincia', how='left')

print(f"Total de registros: {len(df_geo_completo)}")
print(f"Provincias únicas: {df_geo_completo['codigo_provincia'].nunique()}")
print(f"Comunas únicas: {df_geo_completo['codigo_comuna'].nunique()}")
print(df_geo_completo.head(10))

df_geo_completo.to_csv("codigos_geograficos_casen2022.csv", index=False, encoding='utf-8-sig')



Provincias extraídas: 54
Comunas extraídas: 335
Total de registros: 335
Provincias únicas: 35
Comunas únicas: 335
   codigo_comuna  nombre_comuna  codigo_provincia nombre_provincia
0           1101        Iquique                11          Iquique
1           1107  Alto Hospicio                11          Iquique
2           1401   Pozo Almonte                14        Tamarugal
3           1402         Camiña                14        Tamarugal
4           1403       Colchane                14        Tamarugal
5           1404          Huara                14        Tamarugal
6           1405           Pica                14        Tamarugal
7           2101    Antofagasta                21      Antofagasta
8           2102     Mejillones                21      Antofagasta
9           2103   Sierra Gorda                21      Antofagasta


  if pd.notna(fila[3]) and pd.notna(fila[4]):
  'codigo_provincia': int(fila[3]),
  'nombre_provincia': fila[4]
  if pd.notna(fila[3]) and pd.notna(fila[4]):
  'codigo_comuna': int(fila[3]),
  'nombre_comuna': fila[4]


In [298]:
df_final = df_completo.merge(
    df_geo_completo,
    left_on='comuna', 
    right_on='codigo_comuna',
    how='left'
)

In [299]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 198925 entries, 0 to 198924
Data columns (total 19 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   folio                     198925 non-null  int32  
 1   id_persona                198925 non-null  int8   
 2   Año                       198925 non-null  int32  
 3   Pobreza                   198925 non-null  object 
 4   Pobreza Multidimensional  198925 non-null  float64
 5   Sistema Provisional       198925 non-null  object 
 6   Nivel socioeconomico      198925 non-null  object 
 7   region                    198925 non-null  int8   
 8   edad                      198925 non-null  int16  
 9   Sexo                      198925 non-null  object 
 10  Ingreso por Hogar         198925 non-null  float64
 11  provincia                 198925 non-null  int64  
 12  comuna                    198925 non-null  int64  
 13  expp                      198925 non-null  i

In [300]:
df_final.head()

Unnamed: 0,folio,id_persona,Año,Pobreza,Pobreza Multidimensional,Sistema Provisional,Nivel socioeconomico,region,edad,Sexo,Ingreso por Hogar,provincia,comuna,expp,expc,codigo_comuna,nombre_comuna,codigo_provincia,nombre_provincia
0,100090101,1,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,72,Mujer,1010894.0,163,16303,51,52,16303,Ñiquén,16,
1,100090101,2,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,67,Hombre,1010894.0,163,16303,50,53,16303,Ñiquén,16,
2,100090101,3,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,40,Mujer,1010894.0,163,16303,51,52,16303,Ñiquén,16,
3,100090201,1,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,56,Hombre,418192.0,163,16303,51,52,16303,Ñiquén,16,
4,100090201,2,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,25,Mujer,418192.0,163,16303,50,52,16303,Ñiquén,16,


Limpiamos columnas innecesarias

In [301]:
df_final = df_final.drop(['comuna','provincia','codigo_provincia','nombre_provincia'], axis=1)


In [302]:
df_final = df_final.rename(columns={'nombre_comuna': 'Comuna'})

In [303]:
df_final = df_final.drop(['codigo_comuna'], axis=1)

In [305]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 198925 entries, 0 to 198924
Data columns (total 14 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   folio                     198925 non-null  int32  
 1   id_persona                198925 non-null  int8   
 2   Año                       198925 non-null  int32  
 3   Pobreza                   198925 non-null  object 
 4   Pobreza Multidimensional  198925 non-null  float64
 5   Sistema Provisional       198925 non-null  object 
 6   Nivel socioeconomico      198925 non-null  object 
 7   region                    198925 non-null  int8   
 8   edad                      198925 non-null  int16  
 9   Sexo                      198925 non-null  object 
 10  Ingreso por Hogar         198925 non-null  float64
 11  expp                      198925 non-null  int64  
 12  expc                      198925 non-null  int64  
 13  Comuna                    198925 non-null  o

In [306]:
df_final.head()

Unnamed: 0,folio,id_persona,Año,Pobreza,Pobreza Multidimensional,Sistema Provisional,Nivel socioeconomico,region,edad,Sexo,Ingreso por Hogar,expp,expc,Comuna
0,100090101,1,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,72,Mujer,1010894.0,51,52,Ñiquén
1,100090101,2,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,67,Hombre,1010894.0,50,53,Ñiquén
2,100090101,3,2023,No Pobreza,0.0,Fonasa,Bajo-medio,16,40,Mujer,1010894.0,51,52,Ñiquén
3,100090201,1,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,56,Hombre,418192.0,51,52,Ñiquén
4,100090201,2,2022,Pobreza No Extrema,1.0,Fonasa,Bajo-medio,16,25,Mujer,418192.0,50,52,Ñiquén


Finalmente lo guardamos en un CSV.

In [307]:
df_final.to_csv('CASEN_POBREZA_GEOGRAFICA_2022.csv', index=False, encoding='utf-8-sig')