# Parte 1 – Pandas DataFrames

Este notebook trabaja con la Encuesta Nacional de Hogares (ENAHO) de INEI. Se utilizarán tres módulos:

- Vivienda (200)
- Educación (300)
- Trabajo (500)

Los archivos están ubicados en la carpeta relativa `./ENAHO/`.

---

In [6]:
# Instalar librerías (solo si aún no están instaladas)
!pip install pandas numpy



## 1. Importar librerías y establecer ruta relativa


In [44]:
import pandas as pd
import numpy as np
import os

# Cambiar directorio a donde están los datos
os.chdir(r"C:\Users\Lenovo\Documents")

# Ruta relativa a los archivos
data_dir = './ENAHO'

## 2. Importar dataset de Educación (300) y exploración inicial

In [67]:
file_300 = os.path.join(data_dir, 'Enaho01A-2023-300.csv')
df_edu = pd.read_csv(file_300, encoding='ISO-8859-10')

# Mostrar primeras filas
print("Primeras 5 filas del dataset de Educación:")
display(df_edu.head())

  df_edu = pd.read_csv(file_300, encoding='ISO-8859-10')


Primeras 5 filas del dataset de Educación:


Unnamed: 0,AŅO,MES,CONGLOME,VIVIENDA,HOGAR,CODPERSO,UBIGEO,DOMINIO,ESTRATO,CODINFOR,...,I311D$5,I311D$6,I311D$7,I3121C,I3122C,I315B,FACTOR07,FACTORA07,NCONGLOME,SUB_CONGLOME
0,2023,1,5030,2,11,1,10201,7,4,1,...,,,,,,,118.374542,165.623856,6618,0
1,2023,1,5030,2,11,2,10201,7,4,2,...,,,,,,,118.374542,112.328087,6618,0
2,2023,1,5030,2,11,3,10201,7,4,2,...,,,,,,,118.374542,120.091476,6618,0
3,2023,1,5030,2,11,4,10201,7,4,2,...,,,8.0,,,,118.374542,110.974678,6618,0
4,2023,1,5030,11,11,1,10201,7,4,1,...,,,,,,,118.374542,96.03537,6618,0


In [71]:
# Columnas como lista
columnas_edu = df_edu.columns.tolist()
print("Columnas del dataset de Educación:")
print(columnas_edu)

# Tipos de datos
print("Tipos de datos:")
print(df_edu.dtypes)

Columnas del dataset de Educación:
['AŅO', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO', 'UBIGEO', 'DOMINIO', 'ESTRATO', 'CODINFOR', 'P300N', 'P300I', 'P300A', 'P301A', 'P301B', 'P301C', 'P301D', 'P301A0', 'P301A1', 'P301B0', 'P301B1', 'P301B3', 'P302', 'P302X', 'P302A', 'P302B', 'P303', 'P304A', 'P304B', 'P304C', 'P304D', 'P305', 'P306', 'P307', 'P307A1', 'P307A2', 'P307A3', 'P307A4', 'P307A4_5', 'P307A4_6', 'P307A4_7', 'P307B1', 'P307B2', 'P307B3', 'P307B4', 'P307B4_5', 'P307B4_6', 'P307B4_7', 'P307C', 'P308A', 'P308B', 'P308C', 'P308D', 'P308B1', 'P308B2', 'P308B3', 'P308B4', 'P308B5', 'P308C1', 'P308C2', 'P310', 'P310B1', 'P310C0', 'P310C1', 'P310D1', 'P310D2', 'P310E0', 'P310E1', 'P310E3', 'P311N$1', 'P311N$2', 'P311N$3', 'P311N$4', 'P311N$5', 'P311N$6', 'P311N$7', 'P311N$8', 'P311N$9', 'P311$1', 'P311$2', 'P311$3', 'P311$4', 'P311$5', 'P311$6', 'P311$7', 'P311$8', 'P311$9', 'P311A1$1', 'P311A1$2', 'P311A1$3', 'P311A1$4', 'P311A1$5', 'P311A1$6', 'P311A1$7', 'P311A1$8', 'P311

## 3. Seleccionar submuestra y limpiar datos

In [119]:
cols_base = ['CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO']
cols_extra_edu = ['P301A', 'P301B', 'P301C']  # Ajusta según columnas reales
edu_sub = df_edu[cols_base + cols_extra_edu]

# Exploración y limpieza
print("Resumen estadístico:")
print(edu_sub.describe(include='all'))

print("Valores nulos por columna:")
print(edu_sub.isnull().sum())

edu_sub_clean = edu_sub.dropna()

Resumen estadístico:
             CONGLOME       VIVIENDA          HOGAR       CODPERSO  \
count   108354.000000  108354.000000  108354.000000  108354.000000   
unique            NaN            NaN            NaN            NaN   
top               NaN            NaN            NaN            NaN   
freq              NaN            NaN            NaN            NaN   
mean     16944.756797      77.820330      11.146271       2.546293   
std       3144.386733      68.547022       1.370084       1.577737   
min       5007.000000       1.000000      11.000000       1.000000   
25%      16028.000000      31.000000      11.000000       1.000000   
50%      17500.000000      66.000000      11.000000       2.000000   
75%      19014.000000     106.000000      11.000000       3.000000   
max      21001.000000     991.000000      44.000000      22.000000   

                P301A   P301B   P301C  
count   108354.000000  108354  108354  
unique            NaN      10       9  
top               

# Importar dataset de Vivienda (200) y explorar

# Importar módulo Vivienda (200)
file_200 = os.path.join(data_dir, 'Enaho01-2023-200.csv')
df_viv = pd.read_csv(file_200, encoding='ISO-8859-10')

# Primeras 5 filas
print("Primeras 5 filas del dataset de Vivienda:")
display(df_viv.head())

# Lista de columnas
print("\nColumnas del dataset de Vivienda:")
print(df_viv.columns.tolist())

# Tipos de datos
print("\nTipos de datos:")
print(df_viv.dtypes)

# Submuestra y transformaciones

In [128]:
# Seleccionar columnas base
cols_base = ['CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO']

# Agrega columnas de interés según tus necesidades
cols_extra_viv = ['P204', 'P205', 'P206']  # Ajusta si deseas otras

# Crear submuestra segura
viv_sub = df_viv[cols_base + cols_extra_viv].copy()

# A. Convertir 'P204' (por ejemplo, número de cuartos) a numérico
viv_sub.loc[:, 'P204'] = pd.to_numeric(viv_sub['P204'], errors='coerce')

# B. Reemplazar valores de 'P205' (por ejemplo, zona)
viv_sub.loc[:, 'P205'] = viv_sub['P205'].replace({1: 'Urbano', 2: 'Rural'})

# Vista previa
print("Submuestra del módulo Vivienda:")
display(viv_sub.head())

Submuestra del módulo Vivienda:


Unnamed: 0,CONGLOME,VIVIENDA,HOGAR,CODPERSO,P204,P205,P206
0,5007,22,11,1,1.0,2.0,
1,5007,22,11,2,1.0,2.0,
2,5007,22,11,3,1.0,2.0,
3,5007,31,11,1,1.0,2.0,
4,5007,31,11,2,2.0,,2.0


# 4 Fusión de Datasets (Merging Datasets)

In [131]:
# Definir columnas comunes para fusionar
common_columns = ['CONGLOME', 'VIVIENDA', 'HOGAR', 'CODPERSO']

# Verificar registros coincidentes entre ambas submuestras
merged_keys = edu_sub_clean[common_columns].merge(viv_sub[common_columns], on=common_columns, how='inner')
print(f"Registros coincidentes en claves comunes: {len(merged_keys)}")

# Realizar fusión
df_merged = pd.merge(edu_sub_clean, viv_sub, on=common_columns, how='inner')

# Mostrar resultado
print("\nPrimeras 5 filas del DataFrame fusionado:")
display(df_merged.head())

Registros coincidentes en claves comunes: 108354

Primeras 5 filas del DataFrame fusionado:


Unnamed: 0,CONGLOME,VIVIENDA,HOGAR,CODPERSO,P301A,P301B,P301C,P204,P205,P206
0,5030,2,11,1,8,3,,1.0,2,
1,5030,2,11,2,10,5,,1.0,2,
2,5030,2,11,3,3,0,4.0,1.0,2,
3,5030,2,11,4,3,0,1.0,1.0,2,
4,5030,11,11,1,4,5,,1.0,2,


# 5 En el Dataframe resultante

In [137]:
# Agrupar por zona (urbano/rural) y calcular promedio de P204 (número de cuartos)
resultado = df_merged.groupby('P205')['P204'].mean().reset_index()

# Mostrar resultado
print("Promedio de número de cuartos (P204) por zona (P205):")
print(resultado)

Promedio de número de cuartos (P204) por zona (P205):
  P205 P204
0       2.0
1    1  1.0
2    2  1.0


In [None]:
##falta