In [5]:
import pandas as pd
import numpy as np
from pathlib import Path

print("="*80)
print("PROCESAMIENTO COMPLETO ENDES 2015-2024")
print("GENERACI√ìN DE BASES: TRAIN / TEST / DEV")
print("="*80)

# ============================================================
# CONFIGURACI√ìN
# ============================================================
ruta_base = r"D:"
ruta_salida = r"D:\Bases_train_test"
a√±os = list(range(2015, 2025))  # 2015 a 2024

# Variables a conservar por cada base
VARIABLES_ESENCIALES = {
    'RECH6': [
        'HHID', 'HC0', 'HC51',  # Identificadores
        'HC1',   # Edad en meses
        'HC27',  # Sexo
        'HC53',  # Hemoglobina (g/L)
        'HC55',  # Resultado de medici√≥n
        'HC57',  # Nivel de anemia
        'HC70',  # Altura/edad Z-score
    ],
    
    'RECH1': [
        'HHID', 'HVIDX',  # Identificadores
        'HV103',  # Durmi√≥ noche anterior
        'HV009',  # N√∫mero de miembros del hogar
    ],
    
    'RECH0': [
        'HHID',    # Identificador
        'HV001',   # Conglomerado
        'HV002',   # N√∫mero de hogar
        'HV005',   # Factor de ponderaci√≥n
        'HV005X',  # Factor de ponderaci√≥n (alternativo)
        'HV007',   # A√±o de entrevista
        'HV015',   # Resultado del cuestionario
        'HV024',   # Regi√≥n/departamento
        'HV025',   # √Årea de residencia
        'HV040',   # Altitud
        'HV201',   # Fuente de agua
        'HV205',   # Tipo de servicio sanitario
        'HV206',   # Electricidad
        'HV271',   # √çndice de riqueza
    ],
    
    'RECH23': [
        'HHID',    # Identificador
        'HV237',   # Tratamiento del agua
    ],
    
    'REC44': [
        'CASEID', 'HWIDX',  # Identificadores
        'HW1',   # Edad en meses
        'HW2',   # Peso (kg)
        'HW3',   # Talla (cm)
        'HW70',  # Talla/Edad Z-score
        'HW71',  # Peso/Edad Z-score
        'HW72',  # Peso/Talla Z-score
        'HW73',  # IMC Z-score
    ],
    
    'REC21': [
        'CASEID', 'B16', 'BIDX',  # Identificadores
        'BORD',  # Orden de nacimiento
    ],
    
    'REC0111': [
        'CASEID',  # Identificador
        'V012',    # Edad de la madre
        'V025',    # √Årea de residencia
        'V106',    # Nivel educativo de la madre
        'V133',    # Educaci√≥n en a√±os
        'V190',    # √çndice de riqueza
    ]
}

# ============================================================
# FUNCIONES DE LIMPIEZA
# ============================================================
def limpiar_ids(df, cols):
    """Limpia identificadores eliminando .0, espacios al inicio/final"""
    for col in cols:
        if col in df.columns:
            df[col] = df[col].astype(str).str.replace(r'\.0$', '', regex=True)
            df[col] = df[col].str.strip()
    return df

def limpiar_caseid(caseid_series):
    """Limpieza espec√≠fica para CASEID: normaliza a doble espacio"""
    caseid_clean = caseid_series.astype(str)
    caseid_clean = caseid_clean.str.replace(r'\.0$', '', regex=True)
    caseid_clean = caseid_clean.str.strip()
    caseid_clean = caseid_clean.str.replace(r'\s{2,}', '  ', regex=True)
    return caseid_clean

def procesar_a√±o(a√±o):
    """Procesa un a√±o completo de ENDES"""
    
    print(f"\n{'='*80}")
    print(f"PROCESANDO A√ëO {a√±o}")
    print(f"{'='*80}")
    
    ruta_datos = Path(ruta_base) / str(a√±o)
    
    # 1. CARGAR BASES
    print(f"\n1. Cargando bases de datos...")
    bases = {}
    lista_bases = ['RECH0', 'RECH1', 'RECH6', 'RECH23', 'REC0111', 'REC21', 'REC44']
    
    for nombre_base in lista_bases:
        try:
            archivo = ruta_datos / f"{nombre_base}.sav"
            
            if nombre_base in VARIABLES_ESENCIALES:
                df_temp = pd.read_spss(str(archivo))
                cols_disponibles = df_temp.columns.tolist()
                
                cols_a_cargar = [col for col in VARIABLES_ESENCIALES[nombre_base] if col in cols_disponibles]
                cols_faltantes = [col for col in VARIABLES_ESENCIALES[nombre_base] if col not in cols_disponibles]
                
                df = df_temp[cols_a_cargar].copy()
                bases[nombre_base] = df
                
                print(f"   ‚úì {nombre_base:10s}: {df.shape[0]:>6,} registros, {df.shape[1]:>3} columnas")
                if cols_faltantes:
                    print(f"      ‚ö†Ô∏è  No encontradas: {', '.join(cols_faltantes[:3])}")
                    
        except FileNotFoundError:
            print(f"   ‚úó {nombre_base:10s}: Archivo no encontrado")
        except Exception as e:
            print(f"   ‚úó {nombre_base:10s}: Error - {str(e)[:50]}")
    
    if 'RECH6' not in bases:
        print(f"\n‚ùå ERROR: No se pudo cargar RECH6 para {a√±o}")
        return None
    
    # 2. LIMPIAR IDENTIFICADORES
    print(f"\n2. Limpiando identificadores...")
    
    # RECH6
    bases['RECH6'] = limpiar_ids(bases['RECH6'], ['HHID', 'HC0', 'HC51'])
    bases['RECH6']['CASEID'] = (
        bases['RECH6']['HHID'].astype(str).str.strip() + "  " +
        bases['RECH6']['HC51'].astype(str).str.strip()
    )
    bases['RECH6']['CASEID'] = limpiar_caseid(bases['RECH6']['CASEID'])
    bases['RECH6']['ANIO'] = a√±o
    print(f"   ‚úì RECH6: CASEID construido, ANIO agregado")
    
    # Otras bases
    if 'RECH0' in bases:
        bases['RECH0'] = limpiar_ids(bases['RECH0'], ['HHID'])
    if 'RECH1' in bases:
        bases['RECH1'] = limpiar_ids(bases['RECH1'], ['HHID', 'HVIDX'])
    if 'RECH23' in bases:
        bases['RECH23'] = limpiar_ids(bases['RECH23'], ['HHID'])
    if 'REC44' in bases:
        bases['REC44'] = limpiar_ids(bases['REC44'], ['HWIDX'])
        if 'CASEID' in bases['REC44'].columns:
            bases['REC44']['CASEID'] = limpiar_caseid(bases['REC44']['CASEID'])
    if 'REC21' in bases:
        bases['REC21'] = limpiar_ids(bases['REC21'], ['BIDX', 'B16'])
        if 'CASEID' in bases['REC21'].columns:
            bases['REC21']['CASEID'] = limpiar_caseid(bases['REC21']['CASEID'])
    if 'REC0111' in bases:
        if 'CASEID' in bases['REC0111'].columns:
            bases['REC0111']['CASEID'] = limpiar_caseid(bases['REC0111']['CASEID'])
    
    # 3. APLICAR FILTROS
    print(f"\n3. Aplicando filtros metodol√≥gicos...")
    
    # Filtros RECH6
    n_antes = len(bases['RECH6'])
    filtros_rech6 = (
        (bases['RECH6']['HC1'] >= 6) & 
        (bases['RECH6']['HC1'] <= 35) &
        (bases['RECH6']['HC55'].isin([0.0, 'Medido', 'Measured']))
    )
    bases['RECH6'] = bases['RECH6'][filtros_rech6].copy()
    print(f"   RECH6: {n_antes:,} ‚Üí {len(bases['RECH6']):,} (edad 6-35 meses, medici√≥n v√°lida)")
    
    # Filtros RECH1
    if 'RECH1' in bases and 'HV103' in bases['RECH1'].columns:
        n_antes = len(bases['RECH1'])
        bases['RECH1']['HV103'] = bases['RECH1']['HV103'].astype(str).str.strip().str.lower()
        filtros_rech1 = bases['RECH1']['HV103'].isin(['s√≠', 'si', 'yes', '1', '1.0'])
        bases['RECH1'] = bases['RECH1'][filtros_rech1].copy()
        print(f"   RECH1: {n_antes:,} ‚Üí {len(bases['RECH1']):,} (durmi√≥ noche anterior)")
    
    # Filtros RECH0
    if 'RECH0' in bases and 'HV015' in bases['RECH0'].columns:
        n_antes = len(bases['RECH0'])
        filtros_rech0 = bases['RECH0']['HV015'].isin([1.0, 'Completo', 'Completed','Completa'])
        bases['RECH0'] = bases['RECH0'][filtros_rech0].copy()
        print(f"   RECH0: {n_antes:,} ‚Üí {len(bases['RECH0']):,} (cuestionario completo)")
    
    # 4. REALIZAR JOINS
    print(f"\n4. Realizando joins...")
    
    df = bases['RECH6'].copy()
    print(f"   Base inicial: {len(df):,} registros")
    
    # JOIN 1: RECH1
    if 'RECH1' in bases:
        n_antes = len(df)
        df = pd.merge(df, bases['RECH1'],
                     left_on=['HHID', 'HC0'],
                     right_on=['HHID', 'HVIDX'],
                     how='left',
                     suffixes=('', '_R1'))
        n_matched = (df['HVIDX'].notna()).sum()
        print(f"   ‚úì JOIN 1: RECH1 | Matched: {n_matched:,} ({n_matched/n_antes*100:.1f}%)")
    
    # JOIN 2: RECH0
    if 'RECH0' in bases:
        n_antes = len(df)
        cols_rech0 = [c for c in bases['RECH0'].columns if c not in df.columns or c == 'HHID']
        df = pd.merge(df, bases['RECH0'][cols_rech0],
                     on='HHID',
                     how='left',
                     suffixes=('', '_R0'))
        n_matched = (df['HV007'].notna()).sum() if 'HV007' in df.columns else 0
        print(f"   ‚úì JOIN 2: RECH0 | Matched: {n_matched:,} ({n_matched/n_antes*100:.1f}%)")
    
    # JOIN 3: RECH23
    if 'RECH23' in bases:
        n_antes = len(df)
        cols_rech23 = [c for c in bases['RECH23'].columns if c not in df.columns or c == 'HHID']
        df = pd.merge(df, bases['RECH23'][cols_rech23],
                     on='HHID',
                     how='left',
                     suffixes=('', '_R23'))
        col_check = 'HV237' if 'HV237' in df.columns else None
        n_matched = (df[col_check].notna()).sum() if col_check else 0
        print(f"   ‚úì JOIN 3: RECH23 | Matched: {n_matched:,} ({n_matched/n_antes*100:.1f}%)")
    
    # JOIN 4: REC44 (SOLO CASEID)
    if 'REC44' in bases and 'CASEID' in df.columns:
        n_antes = len(df)
        cols_rec44 = [c for c in bases['REC44'].columns if c not in df.columns or c == 'CASEID']
        df = pd.merge(df, bases['REC44'][cols_rec44],
                     on='CASEID',
                     how='left',
                     suffixes=('', '_R44'))
        n_matched = (df['HW1'].notna()).sum() if 'HW1' in df.columns else 0
        print(f"   ‚úì JOIN 4: REC44  | Matched: {n_matched:,} ({n_matched/n_antes*100:.1f}%)")
        if len(df) > n_antes:
            print(f"      ‚ö†Ô∏è  Duplicaci√≥n: +{len(df)-n_antes} registros")
    
    # JOIN 5: REC21
    if 'REC21' in bases and 'CASEID' in df.columns:
        n_antes = len(df)
        if 'B16' in bases['REC21'].columns:
            cols_rec21 = [c for c in bases['REC21'].columns if c not in df.columns or c in ['CASEID', 'B16']]
            df = pd.merge(df, bases['REC21'][cols_rec21],
                         left_on=['CASEID', 'HC0'],
                         right_on=['CASEID', 'B16'],
                         how='left',
                         suffixes=('', '_REC21'))
            n_matched = (df['BORD'].notna()).sum() if 'BORD' in df.columns else 0
            print(f"   ‚úì JOIN 5: REC21  | Matched: {n_matched:,} ({n_matched/n_antes*100:.1f}%)")
    
    # JOIN 6: REC0111
    if 'REC0111' in bases and 'CASEID' in df.columns:
        n_antes = len(df)
        cols_rec0111 = [c for c in bases['REC0111'].columns if c not in df.columns or c == 'CASEID']
        df = pd.merge(df, bases['REC0111'][cols_rec0111],
                     on='CASEID',
                     how='left',
                     suffixes=('', '_REC0111'))
        n_matched = (df['V012'].notna()).sum() if 'V012' in df.columns else 0
        print(f"   ‚úì JOIN 6: REC0111 | Matched: {n_matched:,} ({n_matched/n_antes*100:.1f}%)")
    
    # 5. CREAR VARIABLE ANEMIA
    print(f"\n5. Creando variable ANEMIA...")
    
    if 'HC57' in df.columns:
        df['HC57_str'] = df['HC57'].astype(str).str.strip().str.lower()
        df['ANEMIA'] = df['HC57_str'].apply(
            lambda x: 0 if x in ['sin anemia', 'not anemic','no an√©mico'] else (
                1 if x in ['leve', 'moderada', 'grave', 'mild', 'moderate', 'severe','severa','moderar'] else np.nan
            )
        )
        n_anemia = (df['ANEMIA']==1).sum()
        pct_anemia = n_anemia / len(df) * 100
        print(f"   ‚úì Con anemia: {n_anemia:,} ({pct_anemia:.1f}%)")
        print(f"   ‚úì Sin anemia: {(df['ANEMIA']==0).sum():,} ({(df['ANEMIA']==0).sum()/len(df)*100:.1f}%)")
    
    print(f"\n‚úÖ A√±o {a√±o} procesado: {len(df):,} registros √ó {df.shape[1]} columnas")
    
    return df

# ============================================================
# PROCESAMIENTO DE TODOS LOS A√ëOS
# ============================================================
print("\n" + "="*80)
print("PROCESANDO TODOS LOS A√ëOS")
print("="*80)

datasets = []
resumen_a√±os = []

for a√±o in a√±os:
    df_a√±o = procesar_a√±o(a√±o)
    
    if df_a√±o is not None:
        datasets.append(df_a√±o)
        
        resumen_a√±os.append({
            'A√±o': a√±o,
            'Registros': len(df_a√±o),
            'Con_Anemia': (df_a√±o['ANEMIA']==1).sum() if 'ANEMIA' in df_a√±o.columns else 0,
            'Pct_Anemia': (df_a√±o['ANEMIA']==1).sum() / len(df_a√±o) * 100 if 'ANEMIA' in df_a√±o.columns else 0,
            'Columnas': df_a√±o.shape[1]
        })

if not datasets:
    print("\n‚ùå ERROR: No se proces√≥ ning√∫n a√±o correctamente")
    exit(1)

# ============================================================
# CONSOLIDACI√ìN
# ============================================================
print("\n" + "="*80)
print("CONSOLIDANDO TODOS LOS A√ëOS")
print("="*80)

df_consolidado = pd.concat(datasets, ignore_index=True, sort=False)

print(f"\nüìä Dataset consolidado:")
print(f"   - Total registros: {len(df_consolidado):,}")
print(f"   - Total columnas: {df_consolidado.shape[1]}")
print(f"   - A√±os: {sorted(df_consolidado['ANIO'].unique())}")

# ============================================================
# HOMOLOGACI√ìN DE VARIABLES CATEG√ìRICAS
# ============================================================
print("\n" + "="*80)
print("HOMOLOGANDO VARIABLES CATEG√ìRICAS")
print("="*80)

# HC51: No en el hogar ‚Üí MISSING
if 'HC51' in df_consolidado.columns:
    df_consolidado['HC51'] = df_consolidado['HC51'].replace({
        'No en el hogar': np.nan,
        'Not in household': np.nan
    })
    print(f"   ‚úì HC51: Convertido 'No en el hogar' a MISSING")

# HC27: Sexo ‚Üí Estandarizar a espa√±ol
if 'HC27' in df_consolidado.columns:
    df_consolidado['HC27'] = df_consolidado['HC27'].astype(str).str.strip().str.lower()
    df_consolidado['HC27'] = df_consolidado['HC27'].replace({
        'female': 'mujer',
        'male': 'hombre',
        'hombre': 'hombre',
        'mujer': 'mujer'
    })
    print(f"   ‚úì HC27: Convertido a Hombre/Mujer")

# HC55: Resultado de medici√≥n ‚Üí Estandarizar a espa√±ol
if 'HC55' in df_consolidado.columns:
    df_consolidado['HC55'] = df_consolidado['HC55'].astype(str).str.strip().str.lower()
    df_consolidado['HC55'] = df_consolidado['HC55'].replace({
        'measured': 'medido',
        'medido': 'medido'
    })
    print(f"   ‚úì HC55: Convertido a Medido")

# HC57: Nivel de anemia ‚Üí Estandarizar a espa√±ol
if 'HC57' in df_consolidado.columns:
    df_consolidado['HC57'] = df_consolidado['HC57'].astype(str).str.strip().str.lower()
    df_consolidado['HC57'] = df_consolidado['HC57'].replace({
        'grave': 'grave',
        'severe': 'grave',
        'severa': 'grave',
        'leve': 'leve',
        'mild': 'leve',
        'moderada': 'moderada',
        'moderar': 'moderada',
        'moderate': 'moderada',
        'no an√©mico': 'sin anemia',
        'not anemic': 'sin anemia',
        'sin anemia': 'sin anemia'
    })
    print(f"   ‚úì HC57: Estandarizado (Grave, Leve, Moderada, Sin anemia)")

# HC70, HW70, HW71, HW72, HW73: Convertir a num√©rico (si tiene letras ‚Üí missing)
for var in ['HC70', 'HW70', 'HW71', 'HW72', 'HW73']:
    if var in df_consolidado.columns:
        # Convertir a num√©rico, los valores no num√©ricos quedan como NaN
        df_consolidado[var] = pd.to_numeric(df_consolidado[var], errors='coerce')
        print(f"   ‚úì {var}: Convertido a num√©rico (letras ‚Üí missing)")

# HV103: Durmi√≥ noche anterior ‚Üí Estandarizar a s√≠/no
if 'HV103' in df_consolidado.columns:
    df_consolidado['HV103'] = df_consolidado['HV103'].astype(str).str.strip().str.lower()
    df_consolidado['HV103'] = df_consolidado['HV103'].replace({
        'si': 's√≠',
        's√≠': 's√≠',
        'yes': 's√≠'
    })
    print(f"   ‚úì HV103: Convertido a S√≠")

# HV015: Resultado cuestionario ‚Üí Estandarizar a espa√±ol
if 'HV015' in df_consolidado.columns:
    df_consolidado['HV015'] = df_consolidado['HV015'].astype(str).str.strip().str.lower()
    df_consolidado['HV015'] = df_consolidado['HV015'].replace({
        'completed': 'completo',
        'completo': 'completo'
    })
    print(f"   ‚úì HV015: Convertido a Completo")

# HV025: √Årea de residencia ‚Üí Solo Rural/Urbano
if 'HV025' in df_consolidado.columns:
    df_consolidado['HV025'] = df_consolidado['HV025'].astype(str).str.strip().str.lower()
    df_consolidado['HV025'] = df_consolidado['HV025'].replace({
        'rural': 'rural',
        'urban': 'urbano',
        'urbano': 'urbano',
        'urbana': 'urbano'
    })
    print(f"   ‚úì HV025: Estandarizado (Rural, Urbano)")

# HV237: Tratamiento agua ‚Üí Solo S√≠/No
if 'HV237' in df_consolidado.columns:
    df_consolidado['HV237'] = df_consolidado['HV237'].astype(str).str.strip().str.lower()
    df_consolidado['HV237'] = df_consolidado['HV237'].replace({
        'no': 'no',
        'si': 's√≠',
        's√≠': 's√≠',
        'yes': 's√≠'
    })
    print(f"   ‚úì HV237: Convertido a S√≠/No")

# V106: Nivel educativo ‚Üí Estandarizar a espa√±ol
if 'V106' in df_consolidado.columns:
    df_consolidado['V106'] = df_consolidado['V106'].astype(str).str.strip().str.lower()
    df_consolidado['V106'] = df_consolidado['V106'].replace({
        'higher': 'superior',
        'mayor': 'superior',
        'no education': 'sin educaci√≥n',
        'sin educaci√≥n': 'sin educaci√≥n',
        'primaria': 'primaria',
        'primario': 'primaria',
        'primary': 'primaria',
        'secondary': 'secundaria',
        'secundaria': 'secundaria',
        'secundario': 'secundaria',
        'superior': 'superior',
        '(en blanco)': np.nan
    })
    print(f"   ‚úì V106: Estandarizado (Sin educaci√≥n, Primaria, Secundaria, Superior)")

# V190: √çndice de riqueza ‚Üí Homologar a espa√±ol
if 'V190' in df_consolidado.columns:
    df_consolidado['V190'] = df_consolidado['V190'].astype(str).str.strip().str.lower()
    df_consolidado['V190'] = df_consolidado['V190'].replace({
        'el m√°s pobre': 'm√°s pobre',
        'poorest': 'm√°s pobre',
        'poorer': 'pobre',
        'pobre': 'pobre',
        'pobrer': 'pobre',
        'medio': 'medio',
        'middle': 'medio',
        'm√°s rico': 'm√°s rico',
        'richer': 'rico',
        'rico': 'rico',
        'richest': 'm√°s rico',
        'muy pobre': 'm√°s pobre',
        'muy rico': 'm√°s rico'
    })
    print(f"   ‚úì V190: Estandarizado (M√°s pobre, Pobre, Medio, Rico, M√°s rico)")

# V025: √Årea de residencia (puede venir de REC0111 tambi√©n)
if 'V025' in df_consolidado.columns:
    df_consolidado['V025'] = df_consolidado['V025'].astype(str).str.strip().str.lower()
    df_consolidado['V025'] = df_consolidado['V025'].replace({
        'rural': 'rural',
        'urban': 'urbano',
        'urbano': 'urbano',
        'urbana': 'urbano'
    })
    print(f"   ‚úì V025: Estandarizado (Rural, Urbano)")

print(f"\n‚úÖ Homologaci√≥n completada")

# Crear variable PESO
if 'HV005' in df_consolidado.columns and 'HV007' in df_consolidado.columns:
    df_consolidado['PESO'] = np.where(
        df_consolidado['HV007'] == 2015,
        df_consolidado['HV005X'] / 1_000_000 if 'HV005X' in df_consolidado.columns else df_consolidado['HV005'] / 1_000_000,
        df_consolidado['HV005'] / 1_000_000
    )
    print(f"\n‚úì Variable PESO creada")

# ============================================================
# PARTICI√ìN DE DATOS: TRAIN / TEST / DEV CON ESTRATIFICACI√ìN CRUZADA
# ============================================================
from sklearn.model_selection import train_test_split

print("\n" + "="*80)
print("PARTICI√ìN DE DATOS: TRAIN / TEST / DEV CON ESTRATIFICACI√ìN CRUZADA")
print("="*80)

print("""
üìä ESTRATEGIA DE MUESTREO ESTRATIFICADO CRUZADO:
   - TRAIN: 70% de CADA a√±o (2015-2024)
   - TEST:  20% de CADA a√±o (2015-2024)
   - DEV:   10% de CADA a√±o (2015-2024)
   
   ‚úì Estratificaci√≥n por A√ëO √ó ANEMIA
   ‚úì Cada partici√≥n tiene TODOS los a√±os
   ‚úì Proporci√≥n de anemia por a√±o se mantiene
   ‚úì Ejemplo: Si 2015 tiene 40% anemia, TRAIN/TEST/DEV tambi√©n
""")

# Filtrar solo registros con ANEMIA v√°lida (0 o 1)
df_valido = df_consolidado[df_consolidado['ANEMIA'].isin([0, 1])].copy()
n_excluidos = len(df_consolidado) - len(df_valido)

if n_excluidos > 0:
    print(f"\n‚ö†Ô∏è  Excluidos {n_excluidos:,} registros con ANEMIA = NaN")

# Crear variable de estratificaci√≥n: ANIO_ANEMIA
df_valido['ESTRATO'] = df_valido['ANIO'].astype(str) + '_' + df_valido['ANEMIA'].astype(int).astype(str)

print(f"\nüìã Base consolidada: {len(df_valido):,} registros")
print(f"   A√±os: {sorted(df_valido['ANIO'].unique())}")
print(f"   Proporci√≥n global ANEMIA: {(df_valido['ANEMIA']==1).sum()/len(df_valido)*100:.2f}%")

# Mostrar distribuci√≥n por estrato
print(f"\nüîç Distribuci√≥n por estrato (A√ëO √ó ANEMIA):")
estrato_counts = df_valido.groupby(['ANIO', 'ANEMIA']).size().reset_index(name='N')
estrato_counts['Porcentaje'] = (estrato_counts['N'] / len(df_valido) * 100).round(2)

print(f"\n   {'A√±o':<6} {'Anemia':<10} {'Registros':>10} {'%':>8}")
print(f"   {'-'*6} {'-'*10} {'-'*10} {'-'*8}")
for idx, row in estrato_counts.iterrows():
    anemia_label = 'Con' if row['ANEMIA'] == 1 else 'Sin'
    print(f"   {int(row['ANIO']):<6} {anemia_label:<10} {int(row['N']):>10,} {row['Porcentaje']:>7.2f}%")

# Verificar que todos los estratos tengan suficientes casos
print(f"\n‚öôÔ∏è  Verificando estratos...")
min_casos_por_estrato = estrato_counts['N'].min()
if min_casos_por_estrato < 10:
    print(f"   ‚ö†Ô∏è  ADVERTENCIA: Algunos estratos tienen < 10 casos")
    print(f"   M√≠nimo: {min_casos_por_estrato} casos")
else:
    print(f"   ‚úì Todos los estratos tienen ‚â• 10 casos (m√≠nimo: {min_casos_por_estrato})")

# ============================================================
# PASO 1: Dividir en TRAIN+TEST (90%) y DEV (10%)
# ============================================================
print(f"\n{'='*80}")
print("PASO 1: Separar DEV (10%)")
print(f"{'='*80}")

df_train_test, df_dev = train_test_split(
    df_valido,
    test_size=0.10,
    stratify=df_valido['ESTRATO'],
    random_state=42
)

print(f"\n‚úì TRAIN+TEST: {len(df_train_test):,} registros (90%)")
print(f"‚úì DEV:        {len(df_dev):,} registros (10%)")

# Verificar estratificaci√≥n en DEV
print(f"\n   DEV - Distribuci√≥n por a√±o:")
for a√±o in sorted(df_dev['ANIO'].unique()):
    n_a√±o = len(df_dev[df_dev['ANIO'] == a√±o])
    n_anemia = (df_dev['ANEMIA'][df_dev['ANIO'] == a√±o] == 1).sum()
    pct_anemia = n_anemia / n_a√±o * 100 if n_a√±o > 0 else 0
    print(f"      {int(a√±o)}: {n_a√±o:>5,} registros ({pct_anemia:.1f}% con anemia)")

# ============================================================
# PASO 2: Dividir TRAIN+TEST en TRAIN (70%) y TEST (20%)
# ============================================================
print(f"\n{'='*80}")
print("PASO 2: Dividir TRAIN (70%) y TEST (20%)")
print(f"{'='*80}")

# 70% del total = 70/90 = 0.7778 de train_test
df_train, df_test = train_test_split(
    df_train_test,
    test_size=0.2222,  # 20% del total / 90% = 0.2222
    stratify=df_train_test['ESTRATO'],
    random_state=42
)

print(f"\n‚úì TRAIN: {len(df_train):,} registros (70%)")
print(f"‚úì TEST:  {len(df_test):,} registros (20%)")

# Verificar estratificaci√≥n en TRAIN
print(f"\n   TRAIN - Distribuci√≥n por a√±o:")
for a√±o in sorted(df_train['ANIO'].unique()):
    n_a√±o = len(df_train[df_train['ANIO'] == a√±o])
    n_anemia = (df_train['ANEMIA'][df_train['ANIO'] == a√±o] == 1).sum()
    pct_anemia = n_anemia / n_a√±o * 100 if n_a√±o > 0 else 0
    print(f"      {int(a√±o)}: {n_a√±o:>5,} registros ({pct_anemia:.1f}% con anemia)")

# Verificar estratificaci√≥n en TEST
print(f"\n   TEST - Distribuci√≥n por a√±o:")
for a√±o in sorted(df_test['ANIO'].unique()):
    n_a√±o = len(df_test[df_test['ANIO'] == a√±o])
    n_anemia = (df_test['ANEMIA'][df_test['ANIO'] == a√±o] == 1).sum()
    pct_anemia = n_anemia / n_a√±o * 100 if n_a√±o > 0 else 0
    print(f"      {int(a√±o)}: {n_a√±o:>5,} registros ({pct_anemia:.1f}% con anemia)")

# ============================================================
# VERIFICACI√ìN FINAL
# ============================================================
total_registros = len(df_valido)

print("\n" + "="*80)
print("üìä RESUMEN FINAL DE PARTICI√ìN")
print("="*80)

print(f"\nüéØ TRAIN: {len(df_train):,} registros ({len(df_train)/total_registros*100:.1f}%)")
print(f"   - Con anemia:    {(df_train['ANEMIA']==1).sum():>6,} ({(df_train['ANEMIA']==1).sum()/len(df_train)*100:.2f}%)")
print(f"   - Sin anemia:    {(df_train['ANEMIA']==0).sum():>6,} ({(df_train['ANEMIA']==0).sum()/len(df_train)*100:.2f}%)")
print(f"   - A√±os √∫nicos:   {sorted(df_train['ANIO'].unique())}")

print(f"\nüéØ TEST: {len(df_test):,} registros ({len(df_test)/total_registros*100:.1f}%)")
print(f"   - Con anemia:    {(df_test['ANEMIA']==1).sum():>6,} ({(df_test['ANEMIA']==1).sum()/len(df_test)*100:.2f}%)")
print(f"   - Sin anemia:    {(df_test['ANEMIA']==0).sum():>6,} ({(df_test['ANEMIA']==0).sum()/len(df_test)*100:.2f}%)")
print(f"   - A√±os √∫nicos:   {sorted(df_test['ANIO'].unique())}")

print(f"\nüéØ DEV: {len(df_dev):,} registros ({len(df_dev)/total_registros*100:.1f}%)")
print(f"   - Con anemia:    {(df_dev['ANEMIA']==1).sum():>6,} ({(df_dev['ANEMIA']==1).sum()/len(df_dev)*100:.2f}%)")
print(f"   - Sin anemia:    {(df_dev['ANEMIA']==0).sum():>6,} ({(df_dev['ANEMIA']==0).sum()/len(df_dev)*100:.2f}%)")
print(f"   - A√±os √∫nicos:   {sorted(df_dev['ANIO'].unique())}")

# Verificar balance entre particiones
print("\n" + "="*80)
print("‚úì VERIFICACI√ìN DE ESTRATIFICACI√ìN CRUZADA (A√ëO √ó ANEMIA)")
print("="*80)

prop_anemia_train = (df_train['ANEMIA']==1).sum() / len(df_train) * 100
prop_anemia_test = (df_test['ANEMIA']==1).sum() / len(df_test) * 100
prop_anemia_dev = (df_dev['ANEMIA']==1).sum() / len(df_dev) * 100
prop_anemia_global = (df_valido['ANEMIA']==1).sum() / len(df_valido) * 100

print(f"\nüìä Proporci√≥n GLOBAL de ANEMIA:")
print(f"   GLOBAL: {prop_anemia_global:.2f}%")
print(f"   TRAIN:  {prop_anemia_train:.2f}% (Œî: {abs(prop_anemia_train - prop_anemia_global):.2f}pp)")
print(f"   TEST:   {prop_anemia_test:.2f}% (Œî: {abs(prop_anemia_test - prop_anemia_global):.2f}pp)")
print(f"   DEV:    {prop_anemia_dev:.2f}% (Œî: {abs(prop_anemia_dev - prop_anemia_global):.2f}pp)")

# Verificar distribuci√≥n por a√±o
print(f"\nüìä Proporci√≥n de ANEMIA por A√ëO (comparativa):")
print(f"\n   {'A√±o':<6} {'Original':>10} {'TRAIN':>10} {'TEST':>10} {'DEV':>10}")
print(f"   {'-'*6} {'-'*10} {'-'*10} {'-'*10} {'-'*10}")

for a√±o in sorted(df_valido['ANIO'].unique()):
    # Original
    df_a√±o_orig = df_valido[df_valido['ANIO'] == a√±o]
    pct_orig = (df_a√±o_orig['ANEMIA'] == 1).sum() / len(df_a√±o_orig) * 100 if len(df_a√±o_orig) > 0 else 0
    
    # TRAIN
    df_a√±o_train = df_train[df_train['ANIO'] == a√±o]
    pct_train = (df_a√±o_train['ANEMIA'] == 1).sum() / len(df_a√±o_train) * 100 if len(df_a√±o_train) > 0 else 0
    
    # TEST
    df_a√±o_test = df_test[df_test['ANIO'] == a√±o]
    pct_test = (df_a√±o_test['ANEMIA'] == 1).sum() / len(df_a√±o_test) * 100 if len(df_a√±o_test) > 0 else 0
    
    # DEV
    df_a√±o_dev = df_dev[df_dev['ANIO'] == a√±o]
    pct_dev = (df_a√±o_dev['ANEMIA'] == 1).sum() / len(df_a√±o_dev) * 100 if len(df_a√±o_dev) > 0 else 0
    
    print(f"   {int(a√±o):<6} {pct_orig:>9.2f}% {pct_train:>9.2f}% {pct_test:>9.2f}% {pct_dev:>9.2f}%")

# Verificar diferencias m√°ximas
max_diff = max(
    abs(prop_anemia_train - prop_anemia_global),
    abs(prop_anemia_test - prop_anemia_global),
    abs(prop_anemia_dev - prop_anemia_global)
)

print(f"\n{'='*80}")
if max_diff < 0.5:
    print(f"‚úÖ Estratificaci√≥n EXCELENTE: diferencia m√°xima < 0.5pp ({max_diff:.2f}pp)")
elif max_diff < 1:
    print(f"‚úÖ Estratificaci√≥n MUY BUENA: diferencia m√°xima < 1pp ({max_diff:.2f}pp)")
elif max_diff < 2:
    print(f"‚úì Estratificaci√≥n BUENA: diferencia m√°xima < 2pp ({max_diff:.2f}pp)")
else:
    print(f"‚ö†Ô∏è  Estratificaci√≥n ACEPTABLE: diferencia m√°xima = {max_diff:.2f}pp")
print(f"{'='*80}")

# ============================================================
# GUARDAR RESULTADOS
# ============================================================
print("\n" + "="*80)
print("GUARDANDO RESULTADOS")
print("="*80)

# Crear carpeta de salida si no existe
Path(ruta_salida).mkdir(parents=True, exist_ok=True)

# Guardar bases particionadas
archivo_train = Path(ruta_salida) / "endes_train_2015_2024.csv"
df_train.to_csv(archivo_train, index=False, encoding='utf-8-sig')
print(f"\n‚úì TRAIN:  {archivo_train}")
print(f"   {len(df_train):,} registros √ó {df_train.shape[1]} columnas")
print(f"   Incluye todos los a√±os (2015-2024) en proporci√≥n 70%")

archivo_test = Path(ruta_salida) / "endes_test_2015_2024.csv"
df_test.to_csv(archivo_test, index=False, encoding='utf-8-sig')
print(f"\n‚úì TEST:   {archivo_test}")
print(f"   {len(df_test):,} registros √ó {df_test.shape[1]} columnas")
print(f"   Incluye todos los a√±os (2015-2024) en proporci√≥n 20%")

archivo_dev = Path(ruta_salida) / "endes_dev_2015_2024.csv"
df_dev.to_csv(archivo_dev, index=False, encoding='utf-8-sig')
print(f"\n‚úì DEV:    {archivo_dev}")
print(f"   {len(df_dev):,} registros √ó {df_dev.shape[1]} columnas")
print(f"   Incluye todos los a√±os (2015-2024) en proporci√≥n 10%")

# Guardar tambi√©n base consolidada completa
archivo_completo = Path(ruta_salida) / "endes_2015_2024_consolidado.csv"
df_consolidado.to_csv(archivo_completo, index=False, encoding='utf-8-sig')
print(f"\n‚úì COMPLETO: {archivo_completo}")
print(f"   {len(df_consolidado):,} registros √ó {df_consolidado.shape[1]} columnas")

# ============================================================
# GENERAR REPORTE EXCEL
# ============================================================
print("\n" + "="*80)
print("GENERANDO REPORTE EXCEL")
print("="*80)

archivo_resumen = Path(ruta_salida) / "resumen_particion_endes.xlsx"

with pd.ExcelWriter(archivo_resumen, engine='openpyxl') as writer:
    
    # Hoja 1: Resumen por a√±o
    df_resumen = pd.DataFrame(resumen_a√±os)
    df_resumen.to_excel(writer, sheet_name='Resumen_A√±os', index=False)
    
    # Hoja 2: Variables disponibles
    vars_disponibles = pd.DataFrame({
        'Variable': df_consolidado.columns,
        'Tipo': df_consolidado.dtypes.astype(str),
        'No_Nulos': [df_consolidado[col].notna().sum() for col in df_consolidado.columns],
        'Porcentaje': [f"{df_consolidado[col].notna().sum()/len(df_consolidado)*100:.1f}%" for col in df_consolidado.columns]
    })
    vars_disponibles.to_excel(writer, sheet_name='Variables', index=False)
    
    # Hoja 3: Estad√≠sticas de partici√≥n con estratificaci√≥n
    stats_particion = pd.DataFrame({
        'Dataset': ['TRAIN (2015-2021)', 'TEST (2022-2023)', 'DEV (2024)', 'TOTAL'],
        'Registros': [
            len(df_train), 
            len(df_test), 
            len(df_dev), 
            len(df_valido)
        ],
        'Porcentaje': [
            f"{len(df_train)/total_registros*100:.1f}%",
            f"{len(df_test)/total_registros*100:.1f}%",
            f"{len(df_dev)/total_registros*100:.1f}%",
            "100.0%"
        ],
        'Con_Anemia': [
            (df_train['ANEMIA']==1).sum(),
            (df_test['ANEMIA']==1).sum(),
            (df_dev['ANEMIA']==1).sum(),
            (df_valido['ANEMIA']==1).sum()
        ],
        'Pct_Anemia': [
            f"{(df_train['ANEMIA']==1).sum() / len(df_train) * 100:.2f}%",
            f"{(df_test['ANEMIA']==1).sum() / len(df_test) * 100:.2f}%",
            f"{(df_dev['ANEMIA']==1).sum() / len(df_dev) * 100:.2f}%",
            f"{(df_valido['ANEMIA']==1).sum() / len(df_valido) * 100:.2f}%"
        ],
        'Sin_Anemia': [
            (df_train['ANEMIA']==0).sum(),
            (df_test['ANEMIA']==0).sum(),
            (df_dev['ANEMIA']==0).sum(),
            (df_valido['ANEMIA']==0).sum()
        ],
        'Pct_Sin_Anemia': [
            f"{(df_train['ANEMIA']==0).sum() / len(df_train) * 100:.2f}%",
            f"{(df_test['ANEMIA']==0).sum() / len(df_test) * 100:.2f}%",
            f"{(df_dev['ANEMIA']==0).sum() / len(df_dev) * 100:.2f}%",
            f"{(df_valido['ANEMIA']==0).sum() / len(df_valido) * 100:.2f}%"
        ]
    })
    stats_particion.to_excel(writer, sheet_name='Particion', index=False)
    
    # Hoja 4: Distribuci√≥n proporcional por a√±o en cada partici√≥n
    dist_a√±os = []
    for a√±o in sorted(df_valido['ANIO'].unique()):
        # Total por a√±o
        n_total_a√±o = len(df_valido[df_valido['ANIO'] == a√±o])
        
        # Por partici√≥n
        n_train = len(df_train[df_train['ANIO'] == a√±o])
        n_test = len(df_test[df_test['ANIO'] == a√±o])
        n_dev = len(df_dev[df_dev['ANIO'] == a√±o])
        
        # Porcentajes
        pct_train = n_train / n_total_a√±o * 100 if n_total_a√±o > 0 else 0
        pct_test = n_test / n_total_a√±o * 100 if n_total_a√±o > 0 else 0
        pct_dev = n_dev / n_total_a√±o * 100 if n_total_a√±o > 0 else 0
        
        dist_a√±os.append({
            'A√±o': int(a√±o),
            'Total_A√±o': n_total_a√±o,
            'TRAIN': n_train,
            'TRAIN_%': f"{pct_train:.1f}%",
            'TEST': n_test,
            'TEST_%': f"{pct_test:.1f}%",
            'DEV': n_dev,
            'DEV_%': f"{pct_dev:.1f}%",
            'Verificacion': n_train + n_test + n_dev
        })
    
    df_dist_a√±os = pd.DataFrame(dist_a√±os)
    df_dist_a√±os.to_excel(writer, sheet_name='Distribucion_Anual', index=False)
    
    # Hoja 5: Estratificaci√≥n detallada (a√±o x anemia x partici√≥n)
    estratos_detalle = []
    
    for a√±o in sorted(df_valido['ANIO'].unique()):
        # Original
        df_a√±o_orig = df_valido[df_valido['ANIO'] == a√±o]
        n_orig = len(df_a√±o_orig)
        n_anemia_orig = (df_a√±o_orig['ANEMIA'] == 1).sum()
        pct_anemia_orig = n_anemia_orig / n_orig * 100 if n_orig > 0 else 0
        
        # TRAIN
        df_a√±o_train = df_train[df_train['ANIO'] == a√±o]
        n_train = len(df_a√±o_train)
        n_anemia_train = (df_a√±o_train['ANEMIA'] == 1).sum()
        pct_anemia_train = n_anemia_train / n_train * 100 if n_train > 0 else 0
        
        # TEST
        df_a√±o_test = df_test[df_test['ANIO'] == a√±o]
        n_test = len(df_a√±o_test)
        n_anemia_test = (df_a√±o_test['ANEMIA'] == 1).sum()
        pct_anemia_test = n_anemia_test / n_test * 100 if n_test > 0 else 0
        
        # DEV
        df_a√±o_dev = df_dev[df_dev['ANIO'] == a√±o]
        n_dev = len(df_a√±o_dev)
        n_anemia_dev = (df_a√±o_dev['ANEMIA'] == 1).sum()
        pct_anemia_dev = n_anemia_dev / n_dev * 100 if n_dev > 0 else 0
        
        estratos_detalle.append({
            'A√±o': int(a√±o),
            'Original_Total': n_orig,
            'Original_Anemia%': f"{pct_anemia_orig:.2f}%",
            'TRAIN_Total': n_train,
            'TRAIN_Anemia%': f"{pct_anemia_train:.2f}%",
            'TRAIN_Diff': f"{abs(pct_anemia_train - pct_anemia_orig):.2f}pp",
            'TEST_Total': n_test,
            'TEST_Anemia%': f"{pct_anemia_test:.2f}%",
            'TEST_Diff': f"{abs(pct_anemia_test - pct_anemia_orig):.2f}pp",
            'DEV_Total': n_dev,
            'DEV_Anemia%': f"{pct_anemia_dev:.2f}%",
            'DEV_Diff': f"{abs(pct_anemia_dev - pct_anemia_orig):.2f}pp"
        })
    
    df_estratos = pd.DataFrame(estratos_detalle)
    df_estratos.to_excel(writer, sheet_name='Estratificacion_Detalle', index=False)

print(f"\n‚úì Resumen:  {archivo_resumen}")

# ============================================================
# RESUMEN FINAL
# ============================================================
print("\n" + "="*80)
print("‚úÖ PROCESO COMPLETADO")
print("="*80)

print(f"\nüìÅ Archivos generados en: {ruta_salida}")
print(f"   1. endes_train_2015_2024.csv ({len(df_train):,} registros)")
print(f"   2. endes_test_2015_2024.csv  ({len(df_test):,} registros)")
print(f"   3. endes_dev_2015_2024.csv   ({len(df_dev):,} registros)")
print(f"   4. endes_2015_2024_consolidado.csv ({len(df_consolidado):,} registros)")
print(f"   5. resumen_particion_endes.xlsx (5 hojas)")

print(f"\nüéØ Uso recomendado:")
print(f"   - TRAIN: Entrenar modelos (Random Forest, XGBoost, LightGBM)")
print(f"   - TEST:  Optimizar hiperpar√°metros y comparar modelos")
print(f"   - DEV:   Validaci√≥n final del modelo seleccionado")

print(f"\nüí° Ventajas de esta partici√≥n:")
print(f"   ‚úì Muestreo estratificado cruzado: A√ëO √ó ANEMIA")
print(f"   ‚úì Cada partici√≥n tiene TODOS los a√±os (2015-2024)")
print(f"   ‚úì Proporci√≥n de anemia se mantiene por a√±o")
print(f"   ‚úì Balance de clases similar entre TRAIN/TEST/DEV")
print(f"   ‚úì Representatividad temporal en todas las particiones")

print(f"\nüìä Balance de ANEMIA conseguido:")
print(f"   GLOBAL: {prop_anemia_global:.2f}%")
print(f"   TRAIN:  {prop_anemia_train:.2f}% (Œî: {abs(prop_anemia_train - prop_anemia_global):.2f}pp)")
print(f"   TEST:   {prop_anemia_test:.2f}% (Œî: {abs(prop_anemia_test - prop_anemia_global):.2f}pp)")
print(f"   DEV:    {prop_anemia_dev:.2f}% (Œî: {abs(prop_anemia_dev - prop_anemia_global):.2f}pp)")

print(f"\nüé≤ Estratificaci√≥n cruzada exitosa:")
print(f"   ‚úÖ Cada a√±o mantiene su proporci√≥n original de anemia")
print(f"   ‚úÖ Particiones 70/20/10 respetadas")
print(f"   ‚úÖ Random state = 42 (reproducible)")

PROCESAMIENTO COMPLETO ENDES 2015-2024
GENERACI√ìN DE BASES: TRAIN / TEST / DEV

PROCESANDO TODOS LOS A√ëOS

PROCESANDO A√ëO 2015

1. Cargando bases de datos...
   ‚úì RECH0     : 36,692 registros,  10 columnas
      ‚ö†Ô∏è  No encontradas: HV201, HV205, HV206
   ‚úì RECH1     : 151,267 registros,   3 columnas
      ‚ö†Ô∏è  No encontradas: HV009
   ‚úì RECH6     : 25,527 registros,   9 columnas
   ‚úì RECH23    : 36,692 registros,   2 columnas
   ‚úì REC0111   : 36,655 registros,   6 columnas
   ‚úì REC21     : 74,559 registros,   4 columnas
   ‚úì REC44     : 23,821 registros,   9 columnas

2. Limpiando identificadores...
   ‚úì RECH6: CASEID construido, ANIO agregado

3. Aplicando filtros metodol√≥gicos...
   RECH6: 25,527 ‚Üí 12,552 (edad 6-35 meses, medici√≥n v√°lida)
   RECH1: 151,267 ‚Üí 143,228 (durmi√≥ noche anterior)
   RECH0: 36,692 ‚Üí 34,595 (cuestionario completo)

4. Realizando joins...
   Base inicial: 12,552 registros
   ‚úì JOIN 1: RECH1 | Matched: 12,183 (97.1%)
   ‚ú