# Notebook 1: Exploración y Selección de Variables IPM
## Monitor de Vulnerabilidad Económica - Colombia

**Objetivo:** Explorar el dataset consolidado GEIH 2024 y seleccionar las variables relacionadas con el cálculo del Índice de Pobreza Multidimensional (IPM).

**Dataset:** `data/processed/geih_2024_consolidated.csv`

---


In [1]:
# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuración
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
sns.set_style('darkgrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("✓ Librerías importadas")


✓ Librerías importadas


In [4]:
# Cargar dataset consolidado
df = pd.read_csv('../data/processed/geih_2024_consolidated.csv', low_memory=False)

print(f"Dataset cargado:")
print(f"  Registros: {df.shape[0]:,}")
print(f"  Columnas: {df.shape[1]:,}")
print(f"  Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")


Dataset cargado:
  Registros: 688,507
  Columnas: 575
  Memoria: 3650.00 MB


In [5]:
# Ver estructura básica
print("Primeras 3 filas:")
df.head(3)


Primeras 3 filas:


Unnamed: 0,PERIODO,MES,PER,DIRECTORIO,SECUENCIA_P,ORDEN,HOGAR,REGIS,AREA,CLASE,FEX_C18,DPTO,PT,P6016,P3271,P6040,P6030S1,P6030S3,P6050,P6083,P6083S1,P6081,P6081S1,P2057,P2059,P2061,P6080,P6080S1,P6080S1A1,P6070,P6071,P6071S1,P3147S1,P3147S2,P3147S3,P3147S4,P3147S5,P3147S6,P3147S7,P3147S8,P3147S9,P3147S10,P3147S11,P3147S10A1,P6090,P6100,P6110,P6120,P1906S1,P1906S2,P1906S3,P1906S4,P1906S5,P1906S6,P1906S7,P1906S8,P6160,P6170,P3041,P3042,P3042S1,P3042S2,P3043,P3043S1,P3038,P3039,POB_MAY18,MES_hogar,PER_hogar,REGIS_hogar,AREA_hogar,CLASE_hogar,FEX_C18_hogar,DPTO_hogar,P4000,P4010,P4020,P4030S1,P4030S1A1,P4030S2,P4030S3,P4030S4,P4030S4A1,P4030S5,P70,P5000,P5010,P5020,P5030,P5040,P5050,P5070,P5080,P5090,P5090S1,P5100,P5110,P5130,P5140,P5222S1,P5222S2,P5222S3,P5222S4,P5222S5,P5222S6,P5222S7,P5222S8,P5222S9,P5222S10,P5222S8A1,P6008,MES_fuerza_trabajo,PER_fuerza_trabajo,REGIS_fuerza_trabajo,AREA_fuerza_trabajo,CLASE_fuerza_trabajo,FEX_C18_fuerza_trabajo,DPTO_fuerza_trabajo,FT,FFT,PET,P6240,P6240S1,P6240S2,P6250,P6260,P6260S1,P6260S1A1,P6260S2,P6270,P6280,P6290,P3362S1,P3362S2,P3362S3,P3362S4,P3362S5,P3362S6,P3362S7,P3362S8,P3362S7A1,P6300,P6310,P6310S1,P6320,P6330,P6340,P6350,P6351,MES_migracion,PER_migracion,REGIS_migracion,AREA_migracion,CLASE_migracion,FEX_C18_migracion,DPTO_migracion,P3373,P3373S1,P3373S2,P3373S3,P3373S3A1,P3373S3A2,P3374,P3374S1,P3374S2,P3374S3,P3375S1,P3376,P3377,P3378,P3378S1,P3379,P3380,P3381,P3382,P3382S1,P3382S2,P3382S3,P3383,P3384,P3384S1,P3384S2,P3384S3,P3385,P3386,P3386S1,P3375,MES_no_ocupados,PER_no_ocupados,REGIS_no_ocupados,AREA_no_ocupados,CLASE_no_ocupados,FEX_C18_no_ocupados,DPTO_no_ocupados,FFT_no_ocupados,DSCY,DSI,P7250,P7280,P744,P3074,P7260,P1806,P7430,P7440S1,P7440S2,P7450,P7350,P7360,P9460,P1519,P1883,P7422,P7422S1,OFICIO1_C8,OFICIO2_C8,RAMA2D_D_R4,RAMA4D_D_R4,P7440,MES_ocupados,PER_ocupados,REGIS_ocupados,AREA_ocupados,CLASE_ocupados,FEX_C18_ocupados,DPTO_ocupados,FT_ocupados,P3044S2,P6440,P6450,P6460,P6460S1,P6400,P6410,P6422,P6420S2,P6424S1,P6424S2,P6424S3,P6424S5,P6426,P6430,P6430S1,P3045S1,P3045S2,P3045S3,P3046,P3363,P9440,P6500,P3364,P3364S1,P6510,P6510S1,P6510S2,P6590,P6590S1,P6600,P6600S1,P6610,P6610S1,P6620,P6620S1,P6585S1,P6585S1A1,P6585S1A2,P6585S2,P6585S2A1,P6585S2A2,P6585S3,P6585S3A1,P6585S3A2,P6585S4,P6585S4A1,P6585S4A2,P6545,P6545S1,P6545S2,P6580,P6580S1,P6580S2,P6630S1,P6630S1A1,P6630S2,P6630S2A1,P6630S3,P6630S3A1,P6630S4,P6630S4A1,P6630S6,P6630S6A1,P6640,P6640S1,P1800,P1800S1,P1801S1,P1801S2,P1801S3,P1802,P3047,P3048,P3049,P6765,P6765S1,P3051,P3051S1,P3052,P3052S1,P3053,P3365,P3365S1,P3054,P3054S1,P3055,P3055S1,P3056,P3057,P6760,P3058S1,P3058S2,P3058S3,P3058S4,P3058S5,P3059,P3061,P3062S1,P3062S2,P3062S3,P3062S4,P3062S5,P3062S6,P3062S7,P3062S8,P3062S9,P3063,P3063S1,P3064,P3064S1,P3065,P3066,P3067,P3067S1,P3067S2,P6775,P3068,P6750,P3073,P550,P6780,P6780S1,P1879,P1805,P6790,P6800,P6810,P6810S1,P6850,P6830,P6830S1,P3366,P3069,P6880,P6880S1,P6915,P6915S1,P6920,P6930,P6940,P6960,P6990,P9450,P7020,P760,P7026,P7028,P7028S1,P1880,P1880S1,P7040,P7045,P7050,P7070,P7075,P7077,P7090,P7100,P7110,P7120,P7130,P7140S1,P7140S2,P7140S3,P7140S4,P7140S5,P7140S6,P7140S7,P7140S8,P7140S9,P7150,P7160,P7170S1,P7170S5,P7170S6,P7180,P514,P515,P1881,P1882,P7240,OCI,INGLABO,RAMA2D_R4,RAMA4D_R4,OFICIO_C8,MES_otras_formas_trabajo,PER_otras_formas_trabajo,REGIS_otras_formas_trabajo,AREA_otras_formas_trabajo,CLASE_otras_formas_trabajo,FEX_C18_otras_formas_trabajo,DPTO_otras_formas_trabajo,P3076S1,P3076S1A1,P3076S1A2,P3076S2,P3076S2A1,P3076S2A2,P3076S3,P3076S3A1,P3076S3A2,P3077S1,P3077S1A1,P3077S1A2,P3077S2,P3077S2A1,P3077S2A2,P3077S3,P3077S3A1,P3077S3A2,P3078S1,P3078S1A1,P3078S1A2,P3078S2,P3078S2A1,P3078S2A2,P3078S3,P3078S3A1,P3078S3A2,P3079S1,P3079S1A1,P3079S1A2,P3079S2,P3079S2A1,P3079S2A2,P3079S3,P3079S3A1,P3079S3A2,P3081S1,P3081S1A1,P3081S1A2,P3081S2,P3081S2A1,P3081S2A2,P3081S3,P3081S3A1,P3081S3A2,P3082S1,P3082S1A1,P3082S1A2,P3082S2,P3082S2A1,P3082S2A2,P3082S3,P3082S3A1,P3082S3A2,P3083,P3083S1,P3084S2,P3085,P3086,P3086S1,P3087,P3087S1,P3088,P3089,P3089S1,P3089S2,P3089S3,P3091,P3091S1,P3091S2,P3092,P3092S1,P3092S2,P3093,P3093S1,P3093S2,P3094,P3094S1,P3094S2,P3094S3,P3095,P3095S1,P3095S2,P3095S3,P3096,P3096S1,P3096S2,P3096S3,P3097,P3097S1,P3097S2,P3098,P3098S1,P3098S2,P3099,P3099S1,P3099S2,P3101,P3101S1,P3101S2,MES_otros_ingresos,PER_otros_ingresos,REGIS_otros_ingresos,AREA_otros_ingresos,CLASE_otros_ingresos,FEX_C18_otros_ingresos,DPTO_otros_ingresos,P7495,P7500S1,P7500S1A1,P7500S2,P7500S2A1,P7500S3,P7500S3A1,P7505,P7510S1,P7510S1A1,P7510S2,P7510S2A1,P7510S3,P7510S3A1,P750S1,P750S1A1,P750S2,P750S2A1,P1661S1,P1661S1A1,P1661S2,P1661S2A1,P1661S3,P1661S3A1,P1661S4,P1661S4A1,P1661S4A2,P750S3,P750S3A1,P7510S5,P7510S5A1,P7510S6,P7510S6A1,P7510S7,P7510S7A1,P3367,P3368,P3369,P3370,P3370S1,P3371,P3371S1,P3371S2,P3371S3,P3371S4,P3372,P3372S1
0,20240101,1,2024,7655976,1,1,1,10,5.0,1,2540.569858,5,1,1,1,39,5.0,1984.0,1,2,,2,,2,2.0,2,6,,,2.0,1.0,2.0,,,,,,,,,,,1.0,,1,1.0,9.0,,4,4,4,4,4,4,4,4,1.0,2.0,,5.0,1.0,,1.0,,2.0,1.0,1.0,1,2024,1,5.0,1,2540.569858,5,2,1,4,1,1.0,1,1,1,2.0,1,1,2,1,1,1.0,1,1,1,3.0,3,,,,,550000.0,,1.0,,,,,,,,,,3,1.0,2024.0,50.0,5.0,1.0,2540.569858,5.0,,1.0,1.0,4.0,,,2.0,2.0,,,,2.0,2.0,,,,,,,,,,,1.0,3.0,,1.0,2.0,,,,1,2024,94,5.0,1,2540.569858,5,1,.,.,.,,,1,,,,,2.0,,,,,,,2,.,.,.,1.0,2,.,.,.,1.0,,,,1.0,2024.0,70.0,5.0,1.0,2540.569858,5.0,1.0,,,,,1.0,,47.0,1300000.0,1.0,0.0,3.0,8.0,1.0,4.0,2.0,2.0,,1.0,1200000.0,.,7112.0,41.0,4111.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,2024.0,80.0,5.0,1.0,2540.569858,5.0,1.0,7.0,3.0,2.0,,,2.0,,,1.0,2.0,2.0,2.0,,,2.0,,,1.0,6.0,2.0,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,,,,,,,,,,2.0,,,,2.0,,,,,,2.0,,,2.0,,,,2.0,,,,2.0,,,,,,,2.0,,,2.0,,,2.0,,,1.0,2024.0,90.0,5.0,1.0,2540.569858,5.0,2.0,,,,,,,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,0.0,0.0,2.0,,2.0,,,,,2.0,
1,20240101,1,2024,7655976,1,2,1,10,5.0,1,2540.569858,5,1,2,2,32,2.0,1991.0,2,2,,2,,2,2.0,2,6,,,2.0,1.0,1.0,,,,,,,,,,,1.0,,1,1.0,1.0,46500.0,4,4,4,4,4,4,4,4,1.0,2.0,,5.0,2.0,,2.0,,1.0,2.0,1.0,1,2024,1,5.0,1,2540.569858,5,2,1,4,1,1.0,1,1,1,2.0,1,1,2,1,1,1.0,1,1,1,3.0,3,,,,,550000.0,,1.0,,,,,,,,,,3,1.0,2024.0,50.0,5.0,1.0,2540.569858,5.0,1.0,,1.0,1.0,,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,1,2024,94,5.0,1,2540.569858,5,1,.,.,.,,,1,,,,,2.0,,,,,,,2,.,.,.,1.0,2,.,.,.,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,2024.0,60.0,5.0,1.0,2540.569858,5.0,1.0,1410.0,1.0,2.0,2.0,6.0,1.0,,1.0,,1.0,2.0,1.0,1.0,6.0,1.0,,1.0,1.0,1.0,1.0,1.0,2.0,1160000.0,2.0,,2.0,,,2.0,,2.0,,2.0,,2.0,,2.0,,,1.0,140606.0,2.0,1.0,42000.0,2.0,2.0,,,2.0,,,2.0,,,1.0,580000.0,2.0,,2.0,,2.0,,2.0,,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,6.0,47.0,,,7.0,2.0,,,8.0,7.0,,1.0,,1.0,1.0,1.0,7.0,1.0,1.0,1.0,36.0,84.0,1.0,,12.0,,2.0,,,,,,2.0,,,,2.0,,,,,,,,,,,,1.0,1.0,1.0,2.0,1.0,1.0,4.0,60.0,8.0,1.0,1160000.0,14.0,1410.0,8153.0,1.0,2024.0,80.0,5.0,1.0,2540.569858,5.0,1.0,3.0,2.0,2.0,,,2.0,,,1.0,1.0,2.0,2.0,,,2.0,,,1.0,2.0,2.0,2.0,,,2.0,,,1.0,7.0,6.0,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,2.0,,,,,,,,,2.0,,,,2.0,,,,,,2.0,,,2.0,,,,2.0,,,,2.0,,,,,,,2.0,,,2.0,,,2.0,,,1.0,2024.0,90.0,5.0,1.0,2540.569858,5.0,2.0,,,,,,,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,2.0,,,2.0,,2.0,,,,,2.0,
2,20240101,1,2024,7655976,1,3,1,10,5.0,1,2540.569858,5,1,3,2,3,11.0,2020.0,3,1,2.0,2,,2,2.0,2,6,,,,,,,,,,,,,,,,,,1,1.0,5.0,,4,4,4,4,4,4,4,4,2.0,2.0,,1.0,0.0,,,,,,,1,2024,1,5.0,1,2540.569858,5,2,1,4,1,1.0,1,1,1,2.0,1,1,2,1,1,1.0,1,1,1,3.0,3,,,,,550000.0,,1.0,,,,,,,,,,3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1,2024,94,5.0,1,2540.569858,5,1,.,.,.,,,1,,,,,2.0,,,,,,,1,.,.,.,,2,.,.,.,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


## Variables del IPM según metodología DANE

El IPM se calcula con 5 dimensiones y 15 indicadores:

### 1. **EDUCACIÓN Y CAPITAL HUMANO** (4 indicadores)
- Bajo logro educativo
- Analfabetismo
- Inasistencia escolar
- Rezago escolar

### 2. **CONDICIONES DE LA NIÑEZ Y LA JUVENTUD** (4 indicadores)
- Trabajo infantil
- No acceso a cuidado de la primera infancia
- Barreras a servicios para cuidado de la primera infancia
- Barreras de acceso a servicio de salud

### 3. **TRABAJO** (2 indicadores)
- Desempleo de larga duración
- Empleo informal

### 4. **SALUD** (2 indicadores)
- Sin aseguramiento en salud
- Barreras de acceso a servicio de salud

### 5. **ACCESO A SERVICIOS PÚBLICOS DOMICILIARIOS Y CONDICIONES DE LA VIVIENDA** (3 indicadores)
- Sin acceso a fuente de agua mejorada
- Inadecuada eliminación de excretas
- Material inadecuado de pisos, paredes o techos

---


In [6]:
# Identificar variables disponibles en el dataset
# Listar todas las columnas
print(f"Total columnas: {len(df.columns)}\n")
print("Columnas disponibles:")
print(list(df.columns))


Total columnas: 575

Columnas disponibles:
['PERIODO', 'MES', 'PER', 'DIRECTORIO', 'SECUENCIA_P', 'ORDEN', 'HOGAR', 'REGIS', 'AREA', 'CLASE', 'FEX_C18', 'DPTO', 'PT', 'P6016', 'P3271', 'P6040', 'P6030S1', 'P6030S3', 'P6050', 'P6083', 'P6083S1', 'P6081', 'P6081S1', 'P2057', 'P2059', 'P2061', 'P6080', 'P6080S1', 'P6080S1A1', 'P6070', 'P6071', 'P6071S1', 'P3147S1', 'P3147S2', 'P3147S3', 'P3147S4', 'P3147S5', 'P3147S6', 'P3147S7', 'P3147S8', 'P3147S9', 'P3147S10', 'P3147S11', 'P3147S10A1', 'P6090', 'P6100', 'P6110', 'P6120', 'P1906S1', 'P1906S2', 'P1906S3', 'P1906S4', 'P1906S5', 'P1906S6', 'P1906S7', 'P1906S8', 'P6160', 'P6170', 'P3041', 'P3042', 'P3042S1', 'P3042S2', 'P3043', 'P3043S1', 'P3038', 'P3039', 'POB_MAY18', 'MES_hogar', 'PER_hogar', 'REGIS_hogar', 'AREA_hogar', 'CLASE_hogar', 'FEX_C18_hogar', 'DPTO_hogar', 'P4000', 'P4010', 'P4020', 'P4030S1', 'P4030S1A1', 'P4030S2', 'P4030S3', 'P4030S4', 'P4030S4A1', 'P4030S5', 'P70', 'P5000', 'P5010', 'P5020', 'P5030', 'P5040', 'P5050', 'P5070

In [7]:
# Definir variables clave del IPM según documentación DANE
# Basado en el diccionario de datos GEIH

ipm_variables = {
    # IDENTIFICADORES
    'identificadores': ['PERIODO', 'DIRECTORIO', 'SECUENCIA_P', 'ORDEN', 'HOGAR'],
    
    # DEMOGRÁFICAS BÁSICAS
    'demograficas': ['P6040', 'P6016', 'P6050', 'P6080', 'AREA', 'CLASE', 'DPTO'],
    
    # EDUCACIÓN (Dimensión 1)
    'educacion': ['P6160', 'P6170', 'P6210', 'P6220'],
    
    # SALUD (Dimensión 2 y parte de Dimensión 4)
    'salud': ['P6090', 'P6100', 'P6110', 'P6120'],
    
    # TRABAJO (Dimensión 3)
    'trabajo': ['FT', 'P6240', 'P6250', 'P6430', 'P6920'],
    
    # VIVIENDA (Dimensión 5)
    'vivienda': ['P5000', 'P5010', 'P5020', 'P5030', 'P5040'],
    
    # SERVICIOS PÚBLICOS (Dimensión 5)
    'servicios': ['P5070', 'P5080', 'P5090', 'P5100', 'P5110'],
    
    # NIÑEZ Y JUVENTUD (Dimensión 4)
    'ninez': ['P6170S1', 'P6210S1', 'P6585S1', 'P6585S2', 'P6585S3']
}

# Combinar todas las variables
all_ipm_vars = []
for category, vars_list in ipm_variables.items():
    all_ipm_vars.extend(vars_list)

print(f"Variables IPM identificadas: {len(all_ipm_vars)}")
print(f"\nPor categoría:")
for category, vars_list in ipm_variables.items():
    print(f"  {category}: {len(vars_list)} variables")


Variables IPM identificadas: 40

Por categoría:
  identificadores: 5 variables
  demograficas: 7 variables
  educacion: 4 variables
  salud: 4 variables
  trabajo: 5 variables
  vivienda: 5 variables
  servicios: 5 variables
  ninez: 5 variables


In [8]:
# Verificar qué variables IPM están disponibles en el dataset
available_ipm_vars = [var for var in all_ipm_vars if var in df.columns]
missing_ipm_vars = [var for var in all_ipm_vars if var not in df.columns]

print(f"Variables IPM disponibles: {len(available_ipm_vars)}/{len(all_ipm_vars)}")
print(f"\nVariables FALTANTES: {len(missing_ipm_vars)}")
if missing_ipm_vars:
    print("Faltantes:", missing_ipm_vars)


Variables IPM disponibles: 36/40

Variables FALTANTES: 4
Faltantes: ['P6210', 'P6220', 'P6170S1', 'P6210S1']


In [9]:
# Agregar variables de ingresos para calcular vulnerabilidad económica
# Estas son esenciales para definir el target

income_variables = ['INGLABO', 'INGTOT', 'INGTOTOB', 'INGTOTES']

# Verificar disponibilidad
available_income = [var for var in income_variables if var in df.columns]
print(f"Variables de ingresos disponibles: {len(available_income)}/{len(income_variables)}")
print("Disponibles:", available_income)

# Agregar a la lista de variables a extraer
all_selected_vars = list(set(available_ipm_vars + available_income))
print(f"\n✓ Total variables seleccionadas: {len(all_selected_vars)}")


Variables de ingresos disponibles: 1/4
Disponibles: ['INGLABO']

✓ Total variables seleccionadas: 37


In [10]:
# Crear dataset con variables IPM seleccionadas
df_ipm = df[all_selected_vars].copy()

print(f"Dataset IPM creado:")
print(f"  Registros: {df_ipm.shape[0]:,}")
print(f"  Variables: {df_ipm.shape[1]}")
print(f"  Memoria: {df_ipm.memory_usage(deep=True).sum() / 1024**2:.2f} MB")


Dataset IPM creado:
  Registros: 688,507
  Variables: 37
  Memoria: 194.36 MB


In [11]:
# Análisis de valores nulos por variable
print("Análisis de valores nulos:\n")
null_analysis = pd.DataFrame({
    'Variable': df_ipm.columns,
    'Nulos': df_ipm.isnull().sum(),
    '% Nulos': (df_ipm.isnull().sum() / len(df_ipm) * 100).round(2)
}).sort_values('% Nulos', ascending=False)

print(null_analysis[null_analysis['% Nulos'] > 0].head(15))


Análisis de valores nulos:

        Variable   Nulos  % Nulos
P5100      P5100  663816    96.41
P6585S3  P6585S3  532604    77.36
P6585S1  P6585S1  532604    77.36
P6585S2  P6585S2  532604    77.36
P6120      P6120  516476    75.01
P5110      P5110  446329    64.83
P6250      P6250  417145    60.59
INGLABO  INGLABO  406793    59.08
P6430      P6430  394214    57.26
P6920      P6920  394214    57.26
P6110      P6110  387721    56.31
FT            FT  355395    51.62
AREA        AREA  192278    27.93
P6240      P6240  142463    20.69
P6100      P6100   26573     3.86


In [12]:
# Ver primeras filas del dataset IPM
print("Primeras 5 filas del dataset IPM:\n")
df_ipm.head()


Primeras 5 filas del dataset IPM:



Unnamed: 0,P6040,P5110,P6110,P5020,P6585S2,P6016,P6120,P6585S3,P6080,P6050,DIRECTORIO,P6090,P6430,INGLABO,PERIODO,FT,P6920,P5100,P5000,DPTO,P5080,P5040,HOGAR,CLASE,AREA,P5090,P6250,P6240,P5030,P6585S1,P6160,P6100,ORDEN,P6170,P5070,P5010,SECUENCIA_P
0,39,,9.0,1,,1,,,6,1,7655976,1,,,20240101,,,,2,5,3.0,1,1,1,5.0,3,2.0,4.0,1.0,,1.0,1.0,1,2.0,1,1,1
1,32,,1.0,1,1.0,2,46500.0,1.0,6,2,7655976,1,1.0,1160000.0,20240101,1.0,1.0,,2,5,3.0,1,1,1,5.0,3,,1.0,1.0,2.0,1.0,1.0,2,2.0,1,1,1
2,3,,5.0,1,,3,,,6,3,7655976,1,,,20240101,,,,2,5,3.0,1,1,1,5.0,3,,,1.0,,2.0,1.0,3,2.0,1,1,1
3,39,,1.0,1,1.0,1,46500.0,2.0,6,1,7655977,1,1.0,1600000.0,20240101,1.0,1.0,,3,5,3.0,1,1,1,5.0,3,,1.0,1.0,2.0,1.0,1.0,1,2.0,1,1,1
4,22,,,1,1.0,2,,2.0,6,3,7655977,2,1.0,1500000.0,20240101,1.0,2.0,,3,5,3.0,1,1,1,5.0,3,,1.0,1.0,2.0,1.0,,2,2.0,1,1,1


In [14]:
# Guardar dataset IPM
output_file = '../data/processed/geih_2024_ipm_variables.csv'
df_ipm.to_csv(output_file, index=False)

print(f"✓ Dataset IPM guardado en: {output_file}")
print(f"  Tamaño del archivo: {Path(output_file).stat().st_size / 1024**2:.2f} MB")


✓ Dataset IPM guardado en: ../data/processed/geih_2024_ipm_variables.csv
  Tamaño del archivo: 70.83 MB


## Resumen de Exploración

✅ **Completado:**

1. **Dataset cargado**: 688,507 registros, 575 columnas
2. **Variables IPM identificadas**: ~40 variables relacionadas con las 5 dimensiones del IPM
3. **Variables de ingresos**: Identificadas para calcular vulnerabilidad económica
4. **Dataset IPM creado**: Solo con variables relevantes
5. **Análisis de nulos**: Identificados para tratamiento posterior

**Próximo paso:** 
- Notebook 2: Feature Engineering y Preparación de Datos
  - Limpieza de datos
  - Tratamiento de nulos
  - Creación de target (vulnerabilidad económica)
  - Split train/test

---
