# Tutorial 01: M√≥dulo Loader - Descarga y Carga de Datos ENAHO

Este tutorial cubre el uso del m√≥dulo **loader** de enahopy para:
- Descargar datos ENAHO directamente desde servidores del INEI
- Leer archivos en m√∫ltiples formatos (DTA, SAV, CSV)
- Gestionar cach√© para optimizar descargas repetidas
- Validar columnas y metadatos

## M√≥dulos ENAHO a Utilizar

- **M√≥dulo 01**: Caracter√≠sticas de la vivienda y del hogar
- **M√≥dulo 34**: Sumaria - Variables calculadas
- **M√≥dulo 05**: Empleo e ingresos
- **M√≥dulo 02**: Caracter√≠sticas de los miembros del hogar

In [13]:
# Instalaci√≥n (si es necesario)
# !pip install enahopy

import enahopy
from enahopy.loader import ENAHODataDownloader
from enahopy.loader.io import ENAHOLocalReader
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

print(f"enahopy versi√≥n: {enahopy.__version__}")

enahopy versi√≥n: 0.5.1


## 1. Descarga de Datos ENAHO

### 1.1 Configuraci√≥n B√°sica del Downloader

In [14]:
# Inicializar el descargador con cach√© habilitado
downloader = ENAHODataDownloader(
    verbose=True
)

print("‚úÖ Descargador inicializado")
print(f"üìÅ Directorio de cach√©: {downloader.config.cache_dir}")

2025-10-17 21:42:55 | INFO     | enahopy | ENAHOPY logging initialized
2025-10-17 21:42:55 | DEBUG    | enahopy.loader.core.cache | No expired cache entries to clean
‚úÖ Descargador inicializado
üìÅ Directorio de cach√©: .enaho_cache


### 1.2 Consultar M√≥dulos y A√±os Disponibles

In [15]:
# Obtener a√±os disponibles
available_years = downloader.get_available_years()
print(f"üìÖ A√±os disponibles: {available_years[:5]}...")  # Primeros 5 a√±os (m√°s recientes)
print(f"   Total: {len(available_years)} a√±os")

# Obtener m√≥dulos disponibles
year = 2022
available_modules = downloader.get_available_modules()
print(f"\nüìä M√≥dulos disponibles:")
for module_id in sorted(available_modules.keys())[:10]:  # Primeros 10
    print(f"  - M√≥dulo {module_id}: {available_modules[module_id]}")

üìÖ A√±os disponibles: ['2024', '2023', '2022', '2021', '2020']...
   Total: 24 a√±os

üìä M√≥dulos disponibles:
  - M√≥dulo 01: Caracter√≠sticas de la Vivienda y del Hogar
  - M√≥dulo 02: Caracter√≠sticas de los Miembros del Hogar
  - M√≥dulo 03: Educaci√≥n
  - M√≥dulo 04: Salud
  - M√≥dulo 05: Empleo e Ingresos
  - M√≥dulo 07: Gastos en Alimentos y bebidas
  - M√≥dulo 08: Instituciones Beneficas
  - M√≥dulo 09: Mantenimiento de Viviendas
  - M√≥dulo 34: Sumarias ( Variables Calculadas )
  - M√≥dulo 37: Programas Sociales


### 1.3 Descargar M√≥dulo 01 (Caracter√≠sticas de Vivienda y Hogar)

In [16]:
# Descargar m√≥dulo 01 del a√±o 2022
year = 2022
module_id = "01"

print(f"‚¨áÔ∏è Descargando m√≥dulo {module_id} del a√±o {year}...")
downloader.download(
    modules=[module_id],
    years=[str(year)],
    output_dir=".enaho_cache",
    decompress=True  # Extraer autom√°ticamente archivos ZIP
)

print(f"‚úÖ Descarga completada")
print(f"üìÇ Archivos extra√≠dos en: .enaho_cache/modulo_{module_id}_{year}/")

‚¨áÔ∏è Descargando m√≥dulo 01 del a√±o 2022...
2025-10-17 21:42:59 | INFO     | enaho_downloader | === Iniciando descarga ENAHO corte transversal ===
2025-10-17 21:42:59 | INFO     | enaho_downloader | M√≥dulos: ['01']
2025-10-17 21:42:59 | INFO     | enaho_downloader | A√±os: ['2022']
2025-10-17 21:42:59 | INFO     | enaho_downloader | Directorio: .enaho_cache
2025-10-17 21:42:59 | INFO     | enaho_downloader | Total de descargas programadas: 1
2025-10-17 21:42:59 | INFO     | enaho_downloader | Descargando m√≥dulo 01 a√±o 2022


Descargando modulo_01_2022.zip: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 18.4M/18.4M [00:05<00:00, 3.48MiB/s]


2025-10-17 21:43:27 | INFO     | enaho_downloader | Descarga completada: modulo_01_2022.zip (17.5 MB)
2025-10-17 21:43:27 | INFO     | enaho_downloader | Extra√≠dos 7 archivos en: .enaho_cache\modulo_01_2022
2025-10-17 21:43:27 | INFO     | enaho_downloader | Archivo ZIP eliminado: modulo_01_2022.zip
2025-10-17 21:43:27 | INFO     | enaho_downloader | === Resumen de descarga ===
2025-10-17 21:43:27 | INFO     | enaho_downloader | Tareas completadas: 1/1
2025-10-17 21:43:27 | INFO     | enaho_downloader | Tasa de √©xito: 0.0%
2025-10-17 21:43:27 | INFO     | enaho_downloader | Tiempo total: 27.6 segundos
2025-10-17 21:43:27 | DEBUG    | enahopy.loader.core.cache | Cache updated for key: last_download_session
2025-10-17 21:43:27 | INFO     | enahopy.performance.enahopy.loader.io.main.download | Function download executed in 27.5923s
‚úÖ Descarga completada
üìÇ Archivos extra√≠dos en: .enaho_cache/modulo_01_2022/


### 1.4 Descargar M√≥dulo 34 (Sumaria)

In [17]:
# Descargar m√≥dulo 34 (Sumaria)
module_id = "34"

print(f"‚¨áÔ∏è Descargando m√≥dulo {module_id} del a√±o {year}...")
downloader.download(
    modules=[module_id],
    years=[str(year)],
    output_dir=".enaho_cache",
    decompress=True
)

print(f"‚úÖ Descarga completada")
print(f"üìÇ Archivos extra√≠dos en: .enaho_cache/modulo_{module_id}_{year}/")

‚¨áÔ∏è Descargando m√≥dulo 34 del a√±o 2022...
2025-10-17 21:44:13 | INFO     | enaho_downloader | === Iniciando descarga ENAHO corte transversal ===
2025-10-17 21:44:13 | INFO     | enaho_downloader | M√≥dulos: ['34']
2025-10-17 21:44:13 | INFO     | enaho_downloader | A√±os: ['2022']
2025-10-17 21:44:13 | INFO     | enaho_downloader | Directorio: .enaho_cache
2025-10-17 21:44:13 | INFO     | enaho_downloader | Total de descargas programadas: 1
2025-10-17 21:44:13 | INFO     | enaho_downloader | Descargando m√≥dulo 34 a√±o 2022


Descargando modulo_34_2022.zip: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 26.1M/26.1M [00:07<00:00, 3.67MiB/s]


2025-10-17 21:44:20 | INFO     | enaho_downloader | Descarga completada: modulo_34_2022.zip (24.9 MB)
2025-10-17 21:44:21 | INFO     | enaho_downloader | Extra√≠dos 9 archivos en: .enaho_cache\modulo_34_2022
2025-10-17 21:44:21 | INFO     | enaho_downloader | Archivo ZIP eliminado: modulo_34_2022.zip
2025-10-17 21:44:21 | INFO     | enaho_downloader | === Resumen de descarga ===
2025-10-17 21:44:21 | INFO     | enaho_downloader | Tareas completadas: 1/1
2025-10-17 21:44:21 | INFO     | enaho_downloader | Tasa de √©xito: 0.0%
2025-10-17 21:44:21 | INFO     | enaho_downloader | Tiempo total: 8.1 segundos
2025-10-17 21:44:21 | DEBUG    | enahopy.loader.core.cache | Cache updated for key: last_download_session
2025-10-17 21:44:21 | INFO     | enahopy.performance.enahopy.loader.io.main.download | Function download executed in 8.1144s
‚úÖ Descarga completada
üìÇ Archivos extra√≠dos en: .enaho_cache/modulo_34_2022/


## 2. Lectura de Archivos con ENAHOLocalReader

### 2.1 Leer M√≥dulo 01 con Selecci√≥n de Columnas

In [21]:
# Encontrar el archivo .dta del m√≥dulo 01
import glob
import os

# Buscar archivos .dta en el directorio extra√≠do
dta_files = glob.glob(f".enaho_cache/modulo_01_{year}/*.dta")
if dta_files:
    file_path = dta_files[0]  # Tomar el primer archivo .dta
    print(f"üìÇ Archivo encontrado: {os.path.basename(file_path)}")
else:
    print("‚ö†Ô∏è No se encontr√≥ archivo .dta. Aseg√∫rate de haber ejecutado la descarga.")
    file_path = None

# Leer el archivo con ENAHOLocalReader
if file_path:
    # Columnas t√≠picas del m√≥dulo 01: identificadores + caracter√≠sticas de vivienda
    columns_01 = [
        'conglome', 'vivienda', 'hogar',  # Identificadores
        'result',  # Resultado de la encuesta
        'p101',    # Tipo de vivienda
        'p102',    # Material predominante en paredes
        'p103',    # Material predominante en pisos
        'p110',    # Abastecimiento de agua
        'p111',    # Servicios higi√©nicos
        'p112'     # Alumbrado el√©ctrico
    ]
    
    print("\nüìñ Leyendo m√≥dulo 01...")
    reader = ENAHOLocalReader(file_path=file_path, verbose=False)
    df_modulo01, validation = reader.read_data(columns=columns_01)
    
    print(f"\n‚úÖ Datos cargados:")
    print(f"   Filas: {len(df_modulo01):,}")
    print(f"   Columnas: {len(df_modulo01.columns)}")
    print(f"   Validaci√≥n: {validation.found_columns}/{validation.requested_columns} columnas encontradas")
    print(f"\nüìä Primeras filas:")
    df_modulo01.head()
else:
    df_modulo01 = None

üìÇ Archivo encontrado: enaho01-2022-100.dta

üìñ Leyendo m√≥dulo 01...
2025-10-17 21:55:06 | INFO     | enaho_downloader | Detectado formato de archivo: .dta
2025-10-17 21:55:06 | INFO     | enaho_downloader | Usando lector: StataReader
2025-10-17 21:55:06 | INFO     | enaho_downloader | Lector inicializado para archivo: .enaho_cache\modulo_01_2022\enaho01-2022-100.dta
2025-10-17 21:55:06 | INFO     | enaho_downloader | Resultado de validaci√≥n de columnas:
Columnas encontradas: 8
Columnas faltantes: 2
Mapeos realizados:
Columnas no encontradas: p111, p112


‚úÖ Datos cargados:
   Filas: 44,122
   Columnas: 8


AttributeError: 'ColumnValidationResult' object has no attribute 'requested_columns'

### 2.2 Explorar Estructura del DataFrame

In [22]:
# Informaci√≥n del DataFrame
print("‚ÑπÔ∏è Informaci√≥n del Dataset:")
print(df_modulo01.info())

print("\nüìà Estad√≠sticas descriptivas:")
df_modulo01.describe()

‚ÑπÔ∏è Informaci√≥n del Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44122 entries, 0 to 44121
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   conglome  44122 non-null  category
 1   vivienda  44122 non-null  category
 2   hogar     44122 non-null  category
 3   result    44122 non-null  category
 4   p101      33854 non-null  category
 5   p102      33854 non-null  category
 6   p103      33854 non-null  category
 7   p110      34213 non-null  category
dtypes: category(8)
memory usage: 625.4 KB
None

üìà Estad√≠sticas descriptivas:


Unnamed: 0,conglome,vivienda,hogar,result,p101,p102,p103,p110
count,44122,44122,44122,44122,33854,33854,33854,34213
unique,5359,649,15,6,7,9,7,8
top,18861,2,11,completa,casa independiente,ladrillo o bloque de cemento,cemento,"red publica, dentro de la vivienda"
freq,27,429,43398,29212,30406,16923,14785,27773


### 2.3 Leer M√≥dulo 34 (Sumaria)

In [26]:
# Encontrar el archivo .dta del m√≥dulo 34
dta_files_34 = glob.glob(f".enaho_cache/modulo_34_{year}/*.dta")
if dta_files_34:
    file_path_34 = dta_files_34[0]
    print(f"üìÇ Archivo encontrado: {os.path.basename(file_path_34)}")
    
    # Columnas del m√≥dulo 34 (Sumaria)
    columns_34 = [
        'conglome', 'vivienda', 'hogar',  # Identificadores
        'ubigeo',    # C√≥digo de ubicaci√≥n geogr√°fica
        'dominio',   # Dominio geogr√°fico
        'estrato',   # Estrato
        'mieperho',  # N√∫mero de miembros del hogar
        'gashog2d',  # Gasto total del hogar
        'inghog2d',  # Ingreso total del hogar
        'linpe',     # L√≠nea de pobreza extrema
        'linea',     # L√≠nea de pobreza
        'pobreza'    # Condici√≥n de pobreza
    ]
    
    print("\nüìñ Leyendo m√≥dulo 34 (Sumaria)...")
    reader_34 = ENAHOLocalReader(file_path=file_path_34, verbose=False)
    df_modulo34, validation_34 = reader_34.read_data(columns=columns_34)
    
    print(f"\n‚úÖ Datos cargados:")
    print(f"   Filas: {len(df_modulo34):,}")
    print(f"   Columnas: {len(df_modulo34.columns)}")
    #print(f"   Validaci√≥n: {validation_34.found_columns}/{validation_34.requested_columns} columnas encontradas")
    print(f"\nüìä Primeras filas:")
    display(df_modulo34.head(5))
else:
    print("‚ö†Ô∏è No se encontr√≥ archivo .dta para m√≥dulo 34")
    df_modulo34 = None

üìÇ Archivo encontrado: sumaria-2022-12g.dta

üìñ Leyendo m√≥dulo 34 (Sumaria)...
2025-10-17 21:56:36 | INFO     | enaho_downloader | Detectado formato de archivo: .dta
2025-10-17 21:56:36 | INFO     | enaho_downloader | Usando lector: StataReader
2025-10-17 21:56:36 | INFO     | enaho_downloader | Lector inicializado para archivo: .enaho_cache\modulo_34_2022\sumaria-2022-12g.dta
2025-10-17 21:56:36 | INFO     | enaho_downloader | Resultado de validaci√≥n de columnas:
Columnas encontradas: 12
Columnas faltantes: 0
Mapeos realizados:


‚úÖ Datos cargados:
   Filas: 34,213
   Columnas: 12

üìä Primeras filas:


Unnamed: 0,conglome,vivienda,hogar,ubigeo,dominio,estrato,mieperho,gashog2d,inghog2d,linpe,linea,pobreza
0,5030,8,11,10201,selva,de 20 000 a 49 999 habitantes,2,36949.523438,34606.441406,223.765335,378.169434,no pobre
1,5030,17,11,10201,selva,de 20 000 a 49 999 habitantes,2,48161.25,82028.21875,223.765335,378.169434,no pobre
2,5030,33,11,10201,selva,de 20 000 a 49 999 habitantes,4,27575.878906,31791.029297,223.765335,378.169434,no pobre
3,5030,50,11,10201,selva,de 20 000 a 49 999 habitantes,3,16161.043945,24028.867188,223.765335,378.169434,no pobre
4,5030,59,11,10201,selva,de 20 000 a 49 999 habitantes,11,30606.212891,46056.109375,223.765335,378.169434,pobre no extremo


## 3. Lectura de Datos a Nivel Persona

### 3.1 Descargar y Leer M√≥dulo 02 (Caracter√≠sticas de Miembros del Hogar)

In [24]:
# Descargar m√≥dulo 02
module_id = "02"

print(f"‚¨áÔ∏è Descargando m√≥dulo {module_id}...")
downloader.download(
    modules=[module_id],
    years=[str(year)],
    output_dir=".enaho_cache",
    decompress=True
)

# Encontrar archivo .dta del m√≥dulo 02
dta_files_02 = glob.glob(f".enaho_cache/modulo_02_{year}/*.dta")
if dta_files_02:
    file_path_02 = dta_files_02[0]
    print(f"\nüìÇ Archivo encontrado: {os.path.basename(file_path_02)}")
    
    # Columnas del m√≥dulo 02
    columns_02 = [
        'conglome', 'vivienda', 'hogar', 'codperso',  # Identificadores
        'p203',     # Parentesco con jefe de hogar
        'p204',     # Sexo
        'p205',     # Edad en a√±os
        'p206',     # Estado civil
        'p208a',    # Nivel educativo
        'p209'      # A√±os de estudio
    ]
    
    print("\nüìñ Leyendo m√≥dulo 02...")
    reader_02 = ENAHOLocalReader(file_path=file_path_02, verbose=False)
    df_modulo02, validation_02 = reader_02.read_data(columns=columns_02)
    
    print(f"\n‚úÖ Datos cargados:")
    print(f"   Filas: {len(df_modulo02):,}")
    print(f"   Columnas: {len(df_modulo02.columns)}")
    df_modulo02.head()
else:
    print("‚ö†Ô∏è No se encontr√≥ archivo .dta para m√≥dulo 02")
    df_modulo02 = None

‚¨áÔ∏è Descargando m√≥dulo 02...
2025-10-17 21:55:28 | INFO     | enaho_downloader | === Iniciando descarga ENAHO corte transversal ===
2025-10-17 21:55:28 | INFO     | enaho_downloader | M√≥dulos: ['02']
2025-10-17 21:55:28 | INFO     | enaho_downloader | A√±os: ['2022']
2025-10-17 21:55:28 | INFO     | enaho_downloader | Directorio: .enaho_cache
2025-10-17 21:55:28 | INFO     | enaho_downloader | Total de descargas programadas: 1
2025-10-17 21:55:28 | INFO     | enaho_downloader | Descargando m√≥dulo 02 a√±o 2022


Descargando modulo_02_2022.zip: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 15.6M/15.6M [00:04<00:00, 3.32MiB/s]


2025-10-17 21:55:55 | INFO     | enaho_downloader | Descarga completada: modulo_02_2022.zip (14.9 MB)
2025-10-17 21:55:55 | INFO     | enaho_downloader | Extra√≠dos 7 archivos en: .enaho_cache\modulo_02_2022
2025-10-17 21:55:55 | INFO     | enaho_downloader | Archivo ZIP eliminado: modulo_02_2022.zip
2025-10-17 21:55:55 | INFO     | enaho_downloader | === Resumen de descarga ===
2025-10-17 21:55:55 | INFO     | enaho_downloader | Tareas completadas: 1/1
2025-10-17 21:55:55 | INFO     | enaho_downloader | Tasa de √©xito: 0.0%
2025-10-17 21:55:55 | INFO     | enaho_downloader | Tiempo total: 27.2 segundos

üìÇ Archivo encontrado: enaho01-2022-200.dta

üìñ Leyendo m√≥dulo 02...
2025-10-17 21:55:55 | INFO     | enaho_downloader | Detectado formato de archivo: .dta
2025-10-17 21:55:55 | INFO     | enaho_downloader | Usando lector: StataReader
2025-10-17 21:55:55 | INFO     | enaho_downloader | Lector inicializado para archivo: .enaho_cache\modulo_02_2022\enaho01-2022-200.dta
2025-10-17 21

### 3.2 Descargar y Leer M√≥dulo 05 (Empleo e Ingresos)

In [27]:
# Descargar m√≥dulo 05
module_id = "05"

print(f"‚¨áÔ∏è Descargando m√≥dulo {module_id}...")
downloader.download(
    modules=[module_id],
    years=[str(year)],
    output_dir=".enaho_cache",
    decompress=True
)

# Encontrar archivo .dta del m√≥dulo 05
dta_files_05 = glob.glob(f".enaho_cache/modulo_05_{year}/*.dta")
if dta_files_05:
    file_path_05 = dta_files_05[0]
    print(f"\nüìÇ Archivo encontrado: {os.path.basename(file_path_05)}")
    
    # Columnas del m√≥dulo 05
    columns_05 = [
        'conglome', 'vivienda', 'hogar', 'codperso',  # Identificadores
        'ocu500',   # Condici√≥n de actividad
        'p506',     # Ocupaci√≥n principal
        'p507',     # Categor√≠a ocupacional
        'i524a1',   # Ingreso por trabajo dependiente
        'i530a',    # Ingreso por trabajo independiente
        'p511a'     # Horas trabajadas
    ]
    
    print("\nüìñ Leyendo m√≥dulo 05...")
    reader_05 = ENAHOLocalReader(file_path=file_path_05, verbose=False)
    df_modulo05, validation_05 = reader_05.read_data(columns=columns_05)
    
    print(f"\n‚úÖ Datos cargados:")
    print(f"   Filas: {len(df_modulo05):,}")
    print(f"   Columnas: {len(df_modulo05.columns)}")
    df_modulo05.head()
else:
    print("‚ö†Ô∏è No se encontr√≥ archivo .dta para m√≥dulo 05")
    df_modulo05 = None

‚¨áÔ∏è Descargando m√≥dulo 05...
2025-10-17 21:57:06 | INFO     | enaho_downloader | === Iniciando descarga ENAHO corte transversal ===
2025-10-17 21:57:06 | INFO     | enaho_downloader | M√≥dulos: ['05']
2025-10-17 21:57:06 | INFO     | enaho_downloader | A√±os: ['2022']
2025-10-17 21:57:06 | INFO     | enaho_downloader | Directorio: .enaho_cache
2025-10-17 21:57:06 | INFO     | enaho_downloader | Total de descargas programadas: 1
2025-10-17 21:57:06 | INFO     | enaho_downloader | Descargando m√≥dulo 05 a√±o 2022


Descargando modulo_05_2022.zip: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 27.5M/27.5M [00:07<00:00, 3.58MiB/s]


2025-10-17 21:57:15 | INFO     | enaho_downloader | Descarga completada: modulo_05_2022.zip (26.3 MB)
2025-10-17 21:57:16 | INFO     | enaho_downloader | Extra√≠dos 9 archivos en: .enaho_cache\modulo_05_2022
2025-10-17 21:57:16 | INFO     | enaho_downloader | Archivo ZIP eliminado: modulo_05_2022.zip
2025-10-17 21:57:16 | INFO     | enaho_downloader | === Resumen de descarga ===
2025-10-17 21:57:16 | INFO     | enaho_downloader | Tareas completadas: 1/1
2025-10-17 21:57:16 | INFO     | enaho_downloader | Tasa de √©xito: 0.0%
2025-10-17 21:57:16 | INFO     | enaho_downloader | Tiempo total: 9.4 segundos

üìÇ Archivo encontrado: enaho01a-2022-500.dta

üìñ Leyendo m√≥dulo 05...
2025-10-17 21:57:16 | INFO     | enaho_downloader | Detectado formato de archivo: .dta
2025-10-17 21:57:16 | INFO     | enaho_downloader | Usando lector: StataReader
2025-10-17 21:57:16 | INFO     | enaho_downloader | Lector inicializado para archivo: .enaho_cache\modulo_05_2022\enaho01a-2022-500.dta
2025-10-17 2

## 4. Verificaci√≥n de Cach√©

### 4.1 Ver Estad√≠sticas de Cach√©

In [28]:
# Obtener estad√≠sticas de cach√©
cache_stats = downloader.cache_manager.get_cache_stats()

print("üìä Estad√≠sticas de Cach√©:")
print(f"   Archivos en cach√©: {cache_stats.get('total_files', 0)}")
print(f"   Tama√±o total: {cache_stats.get('total_size_mb', 0):.2f} MB")
print(f"   Directorio: {downloader.cache_manager.cache_dir}")

üìä Estad√≠sticas de Cach√©:
   Archivos en cach√©: 0
   Tama√±o total: 0.00 MB
   Directorio: .enaho_cache


## 5. Validaci√≥n de Datos

### 5.1 Verificar Identificadores √önicos a Nivel Hogar

In [29]:
# Verificar unicidad de hogares en m√≥dulo 01
id_cols_hogar = ['conglome', 'vivienda', 'hogar']

print("üîç Verificando identificadores √∫nicos a nivel hogar (M√≥dulo 01):")
n_hogares = df_modulo01[id_cols_hogar].drop_duplicates().shape[0]
n_filas = df_modulo01.shape[0]

print(f"   Total de filas: {n_filas:,}")
print(f"   Hogares √∫nicos: {n_hogares:,}")
print(f"   ‚úÖ Cada fila es un hogar √∫nico" if n_hogares == n_filas else "‚ö†Ô∏è Hay duplicados")

üîç Verificando identificadores √∫nicos a nivel hogar (M√≥dulo 01):
   Total de filas: 44,122
   Hogares √∫nicos: 44,122
   ‚úÖ Cada fila es un hogar √∫nico


### 5.2 Verificar Identificadores √önicos a Nivel Persona

In [30]:
# Verificar unicidad de personas en m√≥dulo 02
id_cols_persona = ['conglome', 'vivienda', 'hogar', 'codperso']

print("üîç Verificando identificadores √∫nicos a nivel persona (M√≥dulo 02):")
n_personas = df_modulo02[id_cols_persona].drop_duplicates().shape[0]
n_filas = df_modulo02.shape[0]

print(f"   Total de filas: {n_filas:,}")
print(f"   Personas √∫nicas: {n_personas:,}")
print(f"   ‚úÖ Cada fila es una persona √∫nica" if n_personas == n_filas else "‚ö†Ô∏è Hay duplicados")

üîç Verificando identificadores √∫nicos a nivel persona (M√≥dulo 02):
   Total de filas: 121,253
   Personas √∫nicas: 121,253
   ‚úÖ Cada fila es una persona √∫nica


## 6. Resumen de Datos Descargados

In [31]:
print("="*70)
print("üìã RESUMEN DE DATOS DESCARGADOS")
print("="*70)

print(f"\nüìÖ A√±o: {year}")

print(f"\nüìä DATOS A NIVEL HOGAR:")
print(f"   M√≥dulo 01 (Vivienda): {len(df_modulo01):,} hogares")
print(f"   M√≥dulo 34 (Sumaria):  {len(df_modulo34):,} hogares")

print(f"\nüë• DATOS A NIVEL PERSONA:")
print(f"   M√≥dulo 02 (Caracter√≠sticas): {len(df_modulo02):,} personas")
print(f"   M√≥dulo 05 (Empleo):          {len(df_modulo05):,} personas")

print("\n‚úÖ Todos los datos han sido descargados y cargados exitosamente!")
print("\nüí° Siguiente paso: Ver tutorial_02_merger.ipynb para combinar estos datos")

üìã RESUMEN DE DATOS DESCARGADOS

üìÖ A√±o: 2022

üìä DATOS A NIVEL HOGAR:
   M√≥dulo 01 (Vivienda): 44,122 hogares
   M√≥dulo 34 (Sumaria):  34,213 hogares

üë• DATOS A NIVEL PERSONA:
   M√≥dulo 02 (Caracter√≠sticas): 121,253 personas
   M√≥dulo 05 (Empleo):          87,661 personas

‚úÖ Todos los datos han sido descargados y cargados exitosamente!

üí° Siguiente paso: Ver tutorial_02_merger.ipynb para combinar estos datos


## Conclusiones

En este tutorial aprendiste a:

1. ‚úÖ Inicializar el `ENAHODataDownloader` con cach√©
2. ‚úÖ Consultar a√±os y m√≥dulos disponibles
3. ‚úÖ Descargar datos ENAHO directamente desde el INEI
4. ‚úÖ Leer archivos con selecci√≥n de columnas espec√≠ficas
5. ‚úÖ Trabajar con datos a nivel hogar y persona
6. ‚úÖ Validar la estructura de los datos
7. ‚úÖ Monitorear el uso del cach√©

### Pr√≥ximos Pasos

- **Tutorial 02**: Combinar m√≥dulos con el m√≥dulo `merger`
- **Tutorial 03**: Analizar datos faltantes con `null_analysis`
- **Tutorial 04**: Pipeline completo de an√°lisis