In [19]:

"""
FUSION COMPLETA: EMICRON 2024 + GEIH 2023
Dataset maestro para modelo ML
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
warnings.filterwarnings('ignore')
import os

ruta_actual = os.getcwd()
print("Ruta actual:", ruta_actual)
print("="*80)
print("FUSION EMICRON 2024 + GEIH 2023")
print("="*80)

# =============================================================================
# CONFIGURACION
# =============================================================================

OUTPUT_DIR = 'FUSION EMICRON 2024 + GEIH 2023'
os.makedirs(OUTPUT_DIR, exist_ok=True)


EMICRON_DIR = 'EMICRON_2024/LIMPIOS'
GEIH_DIR = 'GEIH_2023/LIMPIOS'

# =============================================================================
# PASO 1: CARGAR Y FUSIONAR MODULOS EMICRON
# =============================================================================

print("\n" + "="*80)
print("PASO 1: FUSIONANDO MODULOS EMICRON")
print("="*80)

print("\n[1/9] Cargando módulos EMICRON...")

# Cargar cada módulo
modulos = {
    'identificacion': 'identificacion_limpio.csv',
    'caracteristicas': 'caracteristicas_limpio.csv',
    'ventas': 'ventas_ingresos_limpio.csv',
    'costos': 'costos_gastos_activos_limpio.csv',
    'inclusion': 'inclusion_financiera_limpio.csv',
    'personal': 'personal_ocupado_agregado.csv',
    'emprendimiento': 'emprendimiento_limpio.csv',
    'tic': 'tic_limpio.csv',
    'factores': 'factores_departamentales_limpio.csv'
}

dfs_emicron = {}

for nombre, archivo in modulos.items():
    ruta = f'{EMICRON_DIR}/{archivo}'
    
    if os.path.exists(ruta):
        df = pd.read_csv(ruta)
        dfs_emicron[nombre] = df
        print(f"   {nombre}: {df.shape}")
    else:
        print(f"   {nombre}: NO ENCONTRADO ({ruta})")

# Fusionar por id_micronegocio
print("\n[2/9] Fusionando por id_micronegocio...")

if 'identificacion' in dfs_emicron:
    emicron = dfs_emicron['identificacion'].copy()
    
    for nombre, df in dfs_emicron.items():
        if nombre != 'identificacion' and 'id_micronegocio' in df.columns:
            antes = len(emicron)
            emicron = emicron.merge(df, on='id_micronegocio', how='left', suffixes=('', f'_{nombre}'))
            print(f"   + {nombre}: {antes:,} -> {len(emicron):,}")
    
    print(f"\n   EMICRON fusionado: {emicron.shape}")
else:
    print("   ERROR: No se encontró módulo de identificación")
    emicron = None

# =============================================================================
# PASO 2: CARGAR CONTEXTO GEIH
# =============================================================================

print("\n" + "="*80)
print("PASO 2: CARGANDO CONTEXTO GEIH")
print("="*80)

contexto_file = f'{GEIH_DIR}/contexto_laboral_dept_sector.csv'

if os.path.exists(contexto_file):
    contexto_geih = pd.read_csv(contexto_file)
    print(f"\nContexto GEIH cargado: {contexto_geih.shape}")
    print(f"  Columnas: {list(contexto_geih.columns)}")
    print(f"  Combinaciones dept-sector: {len(contexto_geih):,}")
else:
    print(f"ERROR: No se encontró {contexto_file}")
    contexto_geih = None

# =============================================================================
# PASO 3: FUSION EMICRON + GEIH
# =============================================================================

print("\n" + "="*80)
print("PASO 3: FUSION EMICRON + GEIH")
print("="*80)

if emicron is not None and contexto_geih is not None:
    print("\n[3/9] Preparando fusión...")
    
    # Verificar columnas clave
    print(f"  EMICRON tiene 'codigo_departamento': {'codigo_departamento' in emicron.columns}")
    print(f"  EMICRON tiene 'sector_economico': {'sector_economico' in emicron.columns}")
    print(f"  GEIH tiene 'codigo_departamento': {'codigo_departamento' in contexto_geih.columns}")
    print(f"  GEIH tiene 'sector_economico': {'sector_economico' in contexto_geih.columns}")
    
    # Fusionar
    print("\n[4/9] Ejecutando fusión...")
    antes = len(emicron)
    
    df_final = emicron.merge(
        contexto_geih,
        on=['codigo_departamento', 'sector_economico'],
        how='left',
        suffixes=('', '_geih')
    )
    
    print(f"   Antes: {antes:,} micronegocios")
    print(f"   Después: {len(df_final):,} micronegocios")
    print(f"   Columnas totales: {len(df_final.columns)}")
    
    # Verificar match
    matched = df_final['ingreso_mediano'].notna().sum() if 'ingreso_mediano' in df_final.columns else 0
    print(f"   Micronegocios con contexto GEIH: {matched:,} ({matched/len(df_final)*100:.1f}%)")

# =============================================================================
# PASO 4: CREAR VARIABLE OBJETIVO
# =============================================================================

print("\n" + "="*80)
print("PASO 4: CREAR VARIABLE OBJETIVO")
print("="*80)

if 'df_final' in locals():
    print("\n[5/9] Definiendo variable objetivo...")
    
    # OPCION A: Éxito basado en ingresos relativos al sector
    if 'ingresos_totales_declarados' in df_final.columns and 'ingreso_mediano' in df_final.columns:
        # Convertir a numérico
        df_final['ingresos_totales_declarados'] = pd.to_numeric(df_final['ingresos_totales_declarados'], errors='coerce')
        df_final['ingreso_mediano'] = pd.to_numeric(df_final['ingreso_mediano'], errors='coerce')
        
        # Éxito = ingresos por encima de la mediana del sector en el departamento
        df_final['exito_ingresos'] = (
            df_final['ingresos_totales_declarados'] > df_final['ingreso_mediano']
        ).astype(int)
        
        print(f"   Variable objetivo 'exito_ingresos' creada")
        print(f"   Distribución:")
        print(df_final['exito_ingresos'].value_counts())
        print(f"   Balance: {df_final['exito_ingresos'].mean()*100:.1f}% exitosos")
    
    # OPCION B: Índice compuesto de éxito
    componentes = []
    pesos = []
    
    # Componente 1: Ingresos (40%)
    if 'ingresos_totales_declarados' in df_final.columns:
        df_final['ingresos_norm'] = (df_final['ingresos_totales_declarados'] - df_final['ingresos_totales_declarados'].min()) / \
                                     (df_final['ingresos_totales_declarados'].max() - df_final['ingresos_totales_declarados'].min())
        componentes.append(df_final['ingresos_norm'])
        pesos.append(0.4)
    
    # Componente 2: Antigüedad (20%)
    if 'antiguedad_negocio' in df_final.columns:
        df_final['antiguedad_norm'] = (df_final['antiguedad_negocio'] - df_final['antiguedad_negocio'].min()) / \
                                       (df_final['antiguedad_negocio'].max() - df_final['antiguedad_negocio'].min())
        componentes.append(df_final['antiguedad_norm'])
        pesos.append(0.2)
    
    # Componente 3: Rentabilidad (20%)
    if 'margen_bruto' in df_final.columns:
        df_final['margen_norm'] = (df_final['margen_bruto'] - df_final['margen_bruto'].min()) / \
                                   (df_final['margen_bruto'].max() - df_final['margen_bruto'].min())
        componentes.append(df_final['margen_norm'])
        pesos.append(0.2)
    
    # Componente 4: Madurez digital (20%)
    if 'indice_madurez_digital' in df_final.columns:
        df_final['digital_norm'] = df_final['indice_madurez_digital'] / 100
        componentes.append(df_final['digital_norm'])
        pesos.append(0.2)
    
    # Calcular índice compuesto si hay componentes
    if componentes:
        # Normalizar pesos para que sumen 1
        pesos_norm = np.array(pesos) / sum(pesos)
        
        # Calcular índice
        indice = sum(c.fillna(0) * p for c, p in zip(componentes, pesos_norm))
        df_final['indice_exito'] = indice * 100
        
        # Variable binaria: éxito si índice > 50
        df_final['exito_compuesto'] = (df_final['indice_exito'] > 50).astype(int)
        
        print(f"\n   Variable objetivo 'exito_compuesto' creada")
        print(f"   Componentes: {len(componentes)}")
        print(f"   Distribución:")
        print(df_final['exito_compuesto'].value_counts())
        print(f"   Balance: {df_final['exito_compuesto'].mean()*100:.1f}% exitosos")

# =============================================================================
# PASO 5: LIMPIEZA FINAL
# =============================================================================

print("\n" + "="*80)
print("PASO 5: LIMPIEZA FINAL")
print("="*80)

if 'df_final' in locals():
    print("\n[6/9] Limpieza de dataset final...")
    
    # Eliminar duplicados
    antes = len(df_final)
    df_final = df_final.drop_duplicates(subset=['id_micronegocio'])
    print(f"   Duplicados eliminados: {antes - len(df_final):,}")
    
    # Reporte de valores perdidos
    missing_total = df_final.isnull().sum().sum()
    print(f"   Valores perdidos totales: {missing_total:,}")
    
    # Top 10 columnas con más missing
    missing_cols = df_final.isnull().sum().sort_values(ascending=False).head(10)
    if missing_cols.sum() > 0:
        print(f"\n   Top 10 columnas con missing:")
        for col, count in missing_cols.items():
            pct = count / len(df_final) * 100
            print(f"     {col}: {count:,} ({pct:.1f}%)")

# =============================================================================
# PASO 6: SELECCIONAR COLUMNAS RELEVANTES
# =============================================================================

print("\n" + "="*80)
print("PASO 6: SELECCION DE FEATURES")
print("="*80)

if 'df_final' in locals():
    print("\n[7/9] Identificando features relevantes...")
    
    # Columnas a MANTENER (features para ML)
    cols_relevantes = []
    
    # Identificadores
    cols_relevantes.extend(['id_micronegocio'])
    
    # Variables objetivo
    if 'exito_ingresos' in df_final.columns:
        cols_relevantes.append('exito_ingresos')
    if 'exito_compuesto' in df_final.columns:
        cols_relevantes.append('exito_compuesto')
    if 'indice_exito' in df_final.columns:
        cols_relevantes.append('indice_exito')
    
    # Ubicación
    for col in ['codigo_departamento', 'nombre_departamento', 'area_urbana', 'area']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Características del negocio
    for col in ['sector_economico', 'antiguedad_negocio', 'tipo_establecimiento', 
                'formalidad', 'num_trabajadores']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Variables económicas
    for col in ['ingresos_totales_declarados', 'costos_totales', 'margen_bruto',
                'ratio_costos_ventas', 'activos_totales', 'intensidad_capital']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Inclusión financiera
    for col in ['num_productos_financieros', 'acceso_credito', 'usa_banca_digital',
                'indice_inclusion_financiera']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Emprendimiento
    for col in ['tipo_emprendimiento', 'experiencia_previa', 'motivo_principal']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # TIC
    for col in ['acceso_internet', 'num_dispositivos', 'num_canales_digitales',
                'indice_madurez_digital', 'presencia_digital']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Contexto GEIH
    for col in ['ingreso_mediano', 'ingreso_promedio', 'num_emprendedores']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Filtrar solo las que existen
    cols_finales = [c for c in cols_relevantes if c in df_final.columns]
    
    # Agregar columnas numéricas adicionales que no estén en la lista
    numericas = df_final.select_dtypes(include=[np.number]).columns
    for col in numericas:
        if col not in cols_finales and not col.startswith('Unnamed'):
            cols_finales.append(col)
    
    # Dataset final reducido
    df_ml = df_final[cols_finales].copy()
    
    print(f"   Columnas seleccionadas: {len(cols_finales)}")
    print(f"   Dataset ML: {df_ml.shape}")

# =============================================================================
# PASO 7: GUARDAR DATASETS
# =============================================================================

print("\n" + "="*80)
print("PASO 7: GUARDANDO DATASETS")
print("="*80)

if 'df_final' in locals():
    print("\n[8/9] Guardando archivos...")
    
    # Dataset completo
    df_final.to_csv(f'{OUTPUT_DIR}/dataset_maestro_completo.csv', index=False, encoding='utf-8-sig')
    size_completo = os.path.getsize(f'{OUTPUT_DIR}/dataset_maestro_completo.csv') / (1024*1024)
    print(f"   dataset_maestro_completo.csv: {df_final.shape} ({size_completo:.1f} MB)")
    
    # Dataset para ML (reducido)
    if 'df_ml' in locals():
        df_ml.to_csv(f'{OUTPUT_DIR}/dataset_ml.csv', index=False, encoding='utf-8-sig')
        size_ml = os.path.getsize(f'{OUTPUT_DIR}/dataset_ml.csv') / (1024*1024)
        print(f"   dataset_ml.csv: {df_ml.shape} ({size_ml:.1f} MB)")

# =============================================================================
# PASO 8: ESTADISTICAS Y VISUALIZACIONES
# =============================================================================

print("\n" + "="*80)
print("PASO 8: ESTADISTICAS DESCRIPTIVAS")
print("="*80)

if 'df_ml' in locals():
    print("\n[9/9] Generando estadísticas...")
    
    # Resumen de variable objetivo
    if 'exito_ingresos' in df_ml.columns:
        print(f"\nVariable objetivo 'exito_ingresos':")
        print(df_ml['exito_ingresos'].value_counts())
        print(f"  Balance: {df_ml['exito_ingresos'].mean()*100:.1f}% exitosos")
    
    if 'exito_compuesto' in df_ml.columns:
        print(f"\nVariable objetivo 'exito_compuesto':")
        print(df_ml['exito_compuesto'].value_counts())
        print(f"  Balance: {df_ml['exito_compuesto'].mean()*100:.1f}% exitosos")
    
    # Tipos de datos
    print(f"\nTipos de datos:")
    print(df_ml.dtypes.value_counts())
    
    # Missing por columna
    missing_pct = (df_ml.isnull().sum() / len(df_ml) * 100).sort_values(ascending=False)
    missing_importantes = missing_pct[missing_pct > 10]
    if len(missing_importantes) > 0:
        print(f"\nColumnas con >10% missing:")
        for col, pct in missing_importantes.items():
            print(f"  {col}: {pct:.1f}%")
    
    # Estadísticas básicas de features numéricas clave
    if 'ingresos_totales_declarados' in df_ml.columns:
        print(f"\nIngresos totales:")
        print(f"  Mediana: ${df_ml['ingresos_totales_declarados'].median():,.0f}")
        print(f"  Promedio: ${df_ml['ingresos_totales_declarados'].mean():,.0f}")
    
    if 'indice_madurez_digital' in df_ml.columns:
        print(f"\nMadurez digital:")
        print(f"  Mediana: {df_ml['indice_madurez_digital'].median():.1f}/100")
        print(f"  Promedio: {df_ml['indice_madurez_digital'].mean():.1f}/100")

# =============================================================================
# PASO 9: VISUALIZACIONES RAPIDAS
# =============================================================================

print("\n" + "="*80)
print("PASO 9: VISUALIZACIONES")
print("="*80)

if 'df_ml' in locals():
    print("\nGenerando gráficos rápidos...")
    
    # Configurar estilo
    plt.style.use('seaborn-v0_8-whitegrid')
    
    # Figura 1: Distribución variable objetivo
    if 'exito_ingresos' in df_ml.columns:
        fig, ax = plt.subplots(1, 1, figsize=(8, 6))
        df_ml['exito_ingresos'].value_counts().plot(kind='bar', ax=ax, color=['#e74c3c', '#27ae60'])
        ax.set_title('Distribución Variable Objetivo: Éxito en Ingresos', fontsize=14, fontweight='bold')
        ax.set_xlabel('Clase', fontweight='bold')
        ax.set_ylabel('Frecuencia', fontweight='bold')
        ax.set_xticklabels(['Fracaso (0)', 'Éxito (1)'], rotation=0)
        plt.tight_layout()
        plt.savefig(f'{OUTPUT_DIR}/01_distribucion_objetivo.png', dpi=300, bbox_inches='tight')
        plt.close()
        print("    01_distribucion_objetivo.png")
    
    # Figura 2: Éxito por sector
    if 'exito_ingresos' in df_ml.columns and 'sector_economico' in df_ml.columns:
        fig, ax = plt.subplots(1, 1, figsize=(12, 6))
        exito_sector = df_ml.groupby('sector_economico')['exito_ingresos'].agg(['mean', 'count'])
        exito_sector = exito_sector[exito_sector['count'] >= 50].sort_values('mean', ascending=False)
        exito_sector['mean'].plot(kind='barh', ax=ax, color='#3498db')
        ax.set_title('Tasa de Éxito por Sector Económico', fontsize=14, fontweight='bold')
        ax.set_xlabel('Tasa de Éxito', fontweight='bold')
        ax.set_ylabel('Sector', fontweight='bold')
        plt.tight_layout()
        plt.savefig(f'{OUTPUT_DIR}/02_exito_por_sector.png', dpi=300, bbox_inches='tight')
        plt.close()
        print("    02_exito_por_sector.png")

# =============================================================================
# RESUMEN FINAL
# =============================================================================

print("\n" + "="*80)
print("RESUMEN FINAL")
print("="*80)

if 'df_ml' in locals():
    print(f"\n FUSION COMPLETADA CON EXITO")
    print(f"\nDatasets generados en '{OUTPUT_DIR}/':")
    print(f"  1. dataset_maestro_completo.csv - Todas las columnas")
    print(f"  2. dataset_ml.csv - Columnas seleccionadas para ML")
    print(f"\nDimensiones finales:")
    print(f"  Micronegocios: {len(df_ml):,}")
    print(f"  Features: {len(df_ml.columns)}")
    print(f"  Variable objetivo: {'exito_ingresos' if 'exito_ingresos' in df_ml.columns else 'exito_compuesto'}")
    
    if 'exito_ingresos' in df_ml.columns:
        balance = df_ml['exito_ingresos'].mean() * 100
        print(f"  Balance de clases: {balance:.1f}% / {100-balance:.1f}%")
    
    print(f"\n" + "="*80)
    print("PROXIMO PASO: Ejecutar modelo baseline")
    print("  python 02_modelo_baseline.py")
    print("="*80)
else:
    print("\n✗ ERROR EN LA FUSION")
    print("Revisa que todos los archivos existan en las rutas correctas")

print("\n" + "="*80)

Ruta actual: /Users/edicsonpin/Documents/maestria/TFM/borrador/EMICRON_2024_GEIH_2023
FUSION EMICRON 2024 + GEIH 2023

PASO 1: FUSIONANDO MODULOS EMICRON

[1/9] Cargando módulos EMICRON...
   identificacion: (68702, 28)
   caracteristicas: (68702, 30)
   ventas: (68702, 92)
   costos: (68702, 93)
   inclusion: (68702, 57)
   personal: (12878, 15)
   emprendimiento: (68702, 19)
   tic: (68702, 47)
   factores: (68702, 10)

[2/9] Fusionando por id_micronegocio...
   + caracteristicas: 68,702 -> 68,702
   + ventas: 68,702 -> 68,702
   + costos: 68,702 -> 68,702
   + inclusion: 68,702 -> 68,702
   + personal: 68,702 -> 68,702
   + emprendimiento: 68,702 -> 68,702
   + tic: 68,702 -> 68,702
   + factores: 68,702 -> 68,702

   EMICRON fusionado: (68702, 383)

PASO 2: CARGANDO CONTEXTO GEIH

Contexto GEIH cargado: (227, 5)
  Columnas: ['codigo_departamento', 'sector_economico', 'ingreso_mediano', 'ingreso_promedio', 'num_emprendedores']
  Combinaciones dept-sector: 227

PASO 3: FUSION EMICRON

ValueError: You are trying to merge on float64 and object columns for key 'sector_economico'. If you wish to proceed you should use pd.concat

In [13]:
import os
from pathlib import Path

# Definimos la ruta tal cual la tienes
ruta_objetivo = Path("EMICRON_2024/LIMPIOS")

if ruta_objetivo.exists():
    print(f"✅ La carpeta existe!")
    print("Contenido encontrado:")
    for archivo in os.listdir(ruta_objetivo):
        print(f" - {archivo}")
else:
    print(f"❌ La ruta no existe. Ruta intentada: {ruta_objetivo.absolute()}")
    # Verifiquemos qué hay en el nivel anterior


✅ La carpeta existe!
Contenido encontrado:
 - eda_02_sector_economico.png
 - ventas_ingresos_limpio.csv
 - eda_emprendimiento_04_ingresos.png
 - eda_ventas_01_histogramas_log.png
 - eda_tic_03_ventas.png
 - eda_01_boxplots.png
 - eda_inclusion_05_resiliencia.png
 - eda_inclusion_01_productos.png
 - emprendimiento_limpio.csv
 - eda_caract_01_formal_informal.png
 - eda_emprendimiento_01_motivacion.png
 - eda_04_mapa_coropletico.png
 - tic_limpio.csv
 - eda_personal_03_genero.png
 - eda_02_ratios.png
 - eda_tic_05_integracion.png
 - eda_emprendimiento_03_continuidad.png
 - eda_emprendimiento_05_resumen.png
 - eda_inclusion_03_educacion.png
 - eda_personal_04_formalidad.png
 - eda_personal_01_distribucion.png
 - eda_tic_01_acceso.png
 - eda_caract_05_antiguedad_tamano.png
 - eda_01_departamentos.png
 - eda_tic_04_madurez.png
 - eda_ventas_04_estacionalidad_pago.png
 - eda_caract_04_apoyo_gestion.png
 - caracteristicas_limpio.csv
 - eda_03_activos.png
 - eda_04_estructura.png
 - eda_persona

In [39]:
#!/usr/bin/env python3
"""
FUSION COMPLETA: EMICRON 2024 + GEIH 2023
Dataset maestro para modelo ML
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
warnings.filterwarnings('ignore')

print("="*80)
print("FUSION EMICRON 2024 + GEIH 2023")
print("="*80)

# =============================================================================
# CONFIGURACION
# =============================================================================

OUTPUT_DIR = 'FUSION EMICRON 2024 + GEIH 2023'
os.makedirs(OUTPUT_DIR, exist_ok=True)


EMICRON_DIR = 'EMICRON_2024/LIMPIOS'
GEIH_DIR = 'GEIH_2023/LIMPIOS'

# =============================================================================
# PASO 1: CARGAR Y FUSIONAR MODULOS EMICRON
# =============================================================================

print("\n" + "="*80)
print("PASO 1: FUSIONANDO MODULOS EMICRON")
print("="*80)

print("\n[1/9] Cargando módulos EMICRON...")

# Cargar cada módulo
modulos = {
    'identificacion': 'identificacion_limpio.csv',
    'caracteristicas': 'caracteristicas_limpio.csv',
    'ventas': 'ventas_ingresos_limpio.csv',
    'costos': 'costos_gastos_activos_limpio.csv',
    'inclusion': 'inclusion_financiera_limpio.csv',
    'personal': 'personal_ocupado_agregado.csv',
    'emprendimiento': 'emprendimiento_limpio.csv',
    'tic': 'tic_limpio.csv',
    'factores': 'factores_departamentales_limpio.csv'
}

dfs_emicron = {}

for nombre, archivo in modulos.items():
    ruta = f'{EMICRON_DIR}/{archivo}'
    if os.path.exists(ruta):
        df = pd.read_csv(ruta)
        dfs_emicron[nombre] = df
        print(f"   {nombre}: {df.shape}")
    else:
        print(f"   {nombre}: NO ENCONTRADO ({ruta})")

# Fusionar por id_micronegocio
print("\n[2/9] Fusionando por id_micronegocio...")

if 'identificacion' in dfs_emicron:
    emicron = dfs_emicron['identificacion'].copy()
    
    for nombre, df in dfs_emicron.items():
        if nombre != 'identificacion' and 'id_micronegocio' in df.columns:
            antes = len(emicron)
            emicron = emicron.merge(df, on='id_micronegocio', how='left', suffixes=('', f'_{nombre}'))
            print(f"   + {nombre}: {antes:,} -> {len(emicron):,}")
    
    print(f"\n   EMICRON fusionado: {emicron.shape}")
else:
    print("   ERROR: No se encontró módulo de identificación")
    emicron = None

# =============================================================================
# PASO 2: CARGAR CONTEXTO GEIH
# =============================================================================

print("\n" + "="*80)
print("PASO 2: CARGANDO CONTEXTO GEIH")
print("="*80)

contexto_file = f'{GEIH_DIR}/contexto_laboral_dept_sector.csv'

if os.path.exists(contexto_file):
    contexto_geih = pd.read_csv(contexto_file)
    print(f"\nContexto GEIH cargado: {contexto_geih.shape}")
    print(f"  Columnas: {list(contexto_geih.columns)}")
    print(f"  Combinaciones dept-sector: {len(contexto_geih):,}")
else:
    print(f"ERROR: No se encontró {contexto_file}")
    contexto_geih = None

# =============================================================================
# PASO 3: FUSION EMICRON + GEIH
# =============================================================================

print("\n" + "="*80)
print("PASO 3: FUSION EMICRON + GEIH")
print("="*80)

if emicron is not None and contexto_geih is not None:
    print("\n[3/9] Preparando fusión...")
    
    # Verificar columnas clave
    print(f"  EMICRON tiene 'codigo_departamento': {'codigo_departamento' in emicron.columns}")
    print(f"  EMICRON tiene 'sector_economico': {'sector_economico' in emicron.columns}")
    print(f"  GEIH tiene 'codigo_departamento': {'codigo_departamento' in contexto_geih.columns}")
    print(f"  GEIH tiene 'sector_economico': {'sector_economico' in contexto_geih.columns}")
    
    # Fusionar
    print("\n[4/9] Ejecutando fusión...")
    
    # CORRECCION: Estandarizar tipos de datos antes del merge
    print("   Estandarizando tipos de datos...")
    
    # Convertir codigo_departamento a int en ambos datasets
    if 'codigo_departamento' in emicron.columns:
        emicron['codigo_departamento'] = pd.to_numeric(emicron['codigo_departamento'], errors='coerce').astype('Int64')
    
    if 'codigo_departamento' in contexto_geih.columns:
        contexto_geih['codigo_departamento'] = pd.to_numeric(contexto_geih['codigo_departamento'], errors='coerce').astype('Int64')
    
    # Convertir sector_economico a string en ambos datasets
    if 'sector_economico' in emicron.columns:
        emicron['sector_economico'] = emicron['sector_economico'].astype(str)
    
    if 'sector_economico' in contexto_geih.columns:
        contexto_geih['sector_economico'] = contexto_geih['sector_economico'].astype(str)
    
    print(f"   EMICRON - codigo_departamento: {emicron['codigo_departamento'].dtype}")
    print(f"   EMICRON - sector_economico: {emicron['sector_economico'].dtype}")
    print(f"   GEIH - codigo_departamento: {contexto_geih['codigo_departamento'].dtype}")
    print(f"   GEIH - sector_economico: {contexto_geih['sector_economico'].dtype}")
    
    antes = len(emicron)
    
    df_final = emicron.merge(
        contexto_geih,
        on=['codigo_departamento', 'sector_economico'],
        how='left',
        suffixes=('', '_geih')
    )
    
    print(f"   Antes: {antes:,} micronegocios")
    print(f"   Después: {len(df_final):,} micronegocios")
    print(f"   Columnas totales: {len(df_final.columns)}")
    
    # Verificar match
    matched = df_final['ingreso_mediano'].notna().sum() if 'ingreso_mediano' in df_final.columns else 0
    print(f"   Micronegocios con contexto GEIH: {matched:,} ({matched/len(df_final)*100:.1f}%)")

# =============================================================================
# PASO 4: CREAR VARIABLE OBJETIVO
# =============================================================================

print("\n" + "="*80)
print("PASO 4: CREAR VARIABLE OBJETIVO")
print("="*80)

if 'df_final' in locals():
    print("\n[5/9] Definiendo variable objetivo...")
    
    # OPCION A: Éxito basado en ingresos relativos al sector
    if 'ingresos_totales_declarados' in df_final.columns and 'ingreso_mediano' in df_final.columns:
        # Convertir a numérico
        df_final['ingresos_totales_declarados'] = pd.to_numeric(df_final['ingresos_totales_declarados'], errors='coerce')
        df_final['ingreso_mediano'] = pd.to_numeric(df_final['ingreso_mediano'], errors='coerce')
        
        # Éxito = ingresos por encima de la mediana del sector en el departamento
        df_final['exito_ingresos'] = (
            df_final['ingresos_totales_declarados'] > df_final['ingreso_mediano']
        ).astype(int)
        
        print(f"   Variable objetivo 'exito_ingresos' creada")
        print(f"   Distribución:")
        print(df_final['exito_ingresos'].value_counts())
        print(f"   Balance: {df_final['exito_ingresos'].mean()*100:.1f}% exitosos")
    
    # OPCION B: Índice compuesto de éxito
    componentes = []
    pesos = []
    
    # Componente 1: Ingresos (40%)
    if 'ingresos_totales_declarados' in df_final.columns:
        df_final['ingresos_norm'] = (df_final['ingresos_totales_declarados'] - df_final['ingresos_totales_declarados'].min()) / \
                                     (df_final['ingresos_totales_declarados'].max() - df_final['ingresos_totales_declarados'].min())
        componentes.append(df_final['ingresos_norm'])
        pesos.append(0.4)
    
    # Componente 2: Antigüedad (20%)
    if 'antiguedad_negocio' in df_final.columns:
        df_final['antiguedad_norm'] = (df_final['antiguedad_negocio'] - df_final['antiguedad_negocio'].min()) / \
                                       (df_final['antiguedad_negocio'].max() - df_final['antiguedad_negocio'].min())
        componentes.append(df_final['antiguedad_norm'])
        pesos.append(0.2)
    
    # Componente 3: Rentabilidad (20%)
    if 'margen_bruto' in df_final.columns:
        df_final['margen_norm'] = (df_final['margen_bruto'] - df_final['margen_bruto'].min()) / \
                                   (df_final['margen_bruto'].max() - df_final['margen_bruto'].min())
        componentes.append(df_final['margen_norm'])
        pesos.append(0.2)
    
    # Componente 4: Madurez digital (20%)
    if 'indice_madurez_digital' in df_final.columns:
        df_final['digital_norm'] = df_final['indice_madurez_digital'] / 100
        componentes.append(df_final['digital_norm'])
        pesos.append(0.2)
    
    # Calcular índice compuesto si hay componentes
    if componentes:
        # Normalizar pesos para que sumen 1
        pesos_norm = np.array(pesos) / sum(pesos)
        
        # Calcular índice
        indice = sum(c.fillna(0) * p for c, p in zip(componentes, pesos_norm))
        df_final['indice_exito'] = indice * 100
        
        # Variable binaria: éxito si índice > 50
        df_final['exito_compuesto'] = (df_final['indice_exito'] > 50).astype(int)
        
        print(f"\n   Variable objetivo 'exito_compuesto' creada")
        print(f"   Componentes: {len(componentes)}")
        print(f"   Distribución:")
        print(df_final['exito_compuesto'].value_counts())
        print(f"   Balance: {df_final['exito_compuesto'].mean()*100:.1f}% exitosos")

# =============================================================================
# PASO 5: LIMPIEZA FINAL
# =============================================================================

print("\n" + "="*80)
print("PASO 5: LIMPIEZA FINAL")
print("="*80)

if 'df_final' in locals():
    print("\n[6/9] Limpieza de dataset final...")
    
    # Eliminar duplicados
    antes = len(df_final)
    df_final = df_final.drop_duplicates(subset=['id_micronegocio'])
    print(f"   Duplicados eliminados: {antes - len(df_final):,}")
    
    # Reporte de valores perdidos
    missing_total = df_final.isnull().sum().sum()
    print(f"   Valores perdidos totales: {missing_total:,}")
    
    # Top 10 columnas con más missing
    missing_cols = df_final.isnull().sum().sort_values(ascending=False).head(10)
    if missing_cols.sum() > 0:
        print(f"\n   Top 10 columnas con missing:")
        for col, count in missing_cols.items():
            pct = count / len(df_final) * 100
            print(f"     {col}: {count:,} ({pct:.1f}%)")

# =============================================================================
# PASO 6: SELECCIONAR COLUMNAS RELEVANTES
# =============================================================================

print("\n" + "="*80)
print("PASO 6: SELECCION DE FEATURES")
print("="*80)

if 'df_final' in locals():
    print("\n[7/9] Identificando features relevantes...")
    
    # Columnas a MANTENER (features para ML)
    cols_relevantes = []
    
    # Identificadores
    cols_relevantes.extend(['id_micronegocio'])
    
    # Variables objetivo
    if 'exito_ingresos' in df_final.columns:
        cols_relevantes.append('exito_ingresos')
    if 'exito_compuesto' in df_final.columns:
        cols_relevantes.append('exito_compuesto')
    if 'indice_exito' in df_final.columns:
        cols_relevantes.append('indice_exito')
    
    # Ubicación
    for col in ['codigo_departamento', 'nombre_departamento', 'area_urbana', 'area']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Características del negocio
    for col in ['sector_economico', 'antiguedad_negocio', 'tipo_establecimiento', 
                'formalidad', 'num_trabajadores']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Variables económicas
    for col in ['ingresos_totales_declarados', 'costos_totales', 'margen_bruto',
                'ratio_costos_ventas', 'activos_totales', 'intensidad_capital']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Inclusión financiera
    for col in ['num_productos_financieros', 'acceso_credito', 'usa_banca_digital',
                'indice_inclusion_financiera']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Emprendimiento
    for col in ['tipo_emprendimiento', 'experiencia_previa', 'motivo_principal']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # TIC
    for col in ['acceso_internet', 'num_dispositivos', 'num_canales_digitales',
                'indice_madurez_digital', 'presencia_digital']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Contexto GEIH
    for col in ['ingreso_mediano', 'ingreso_promedio', 'num_emprendedores']:
        if col in df_final.columns:
            cols_relevantes.append(col)
    
    # Filtrar solo las que existen
    cols_finales = [c for c in cols_relevantes if c in df_final.columns]
    
    # Agregar columnas numéricas adicionales que no estén en la lista
    numericas = df_final.select_dtypes(include=[np.number]).columns
    for col in numericas:
        if col not in cols_finales and not col.startswith('Unnamed'):
            cols_finales.append(col)
    
    # Dataset final reducido
    df_ml = df_final[cols_finales].copy()
    
    print(f"   Columnas seleccionadas: {len(cols_finales)}")
    print(f"   Dataset ML: {df_ml.shape}")

# =============================================================================
# PASO 7: GUARDAR DATASETS
# =============================================================================

print("\n" + "="*80)
print("PASO 7: GUARDANDO DATASETS")
print("="*80)

if 'df_final' in locals():
    print("\n[8/9] Guardando archivos...")
    
    # Dataset completo
    df_final.to_csv(f'{OUTPUT_DIR}/dataset_maestro_completo.csv', index=False, encoding='utf-8-sig')
    size_completo = os.path.getsize(f'{OUTPUT_DIR}/dataset_maestro_completo.csv') / (1024*1024)
    print(f"   dataset_maestro_completo.csv: {df_final.shape} ({size_completo:.1f} MB)")
    
    # Dataset para ML (reducido)
    if 'df_ml' in locals():
        df_ml.to_csv(f'{OUTPUT_DIR}/dataset_ml.csv', index=False, encoding='utf-8-sig')
        size_ml = os.path.getsize(f'{OUTPUT_DIR}/dataset_ml.csv') / (1024*1024)
        print(f"   dataset_ml.csv: {df_ml.shape} ({size_ml:.1f} MB)")

# =============================================================================
# PASO 8: ESTADISTICAS Y VISUALIZACIONES
# =============================================================================

print("\n" + "="*80)
print("PASO 8: ESTADISTICAS DESCRIPTIVAS")
print("="*80)

if 'df_ml' in locals():
    print("\n[9/9] Generando estadísticas...")
    
    # Resumen de variable objetivo
    if 'exito_ingresos' in df_ml.columns:
        print(f"\nVariable objetivo 'exito_ingresos':")
        print(df_ml['exito_ingresos'].value_counts())
        print(f"  Balance: {df_ml['exito_ingresos'].mean()*100:.1f}% exitosos")
    
    if 'exito_compuesto' in df_ml.columns:
        print(f"\nVariable objetivo 'exito_compuesto':")
        print(df_ml['exito_compuesto'].value_counts())
        print(f"  Balance: {df_ml['exito_compuesto'].mean()*100:.1f}% exitosos")
    
    # Tipos de datos
    print(f"\nTipos de datos:")
    print(df_ml.dtypes.value_counts())
    
    # Missing por columna
    missing_pct = (df_ml.isnull().sum() / len(df_ml) * 100).sort_values(ascending=False)
    missing_importantes = missing_pct[missing_pct > 10]
    if len(missing_importantes) > 0:
        print(f"\nColumnas con >10% missing:")
        for col, pct in missing_importantes.items():
            print(f"  {col}: {pct:.1f}%")
    
    # Estadísticas básicas de features numéricas clave
    if 'ingresos_totales_declarados' in df_ml.columns:
        print(f"\nIngresos totales:")
        print(f"  Mediana: ${df_ml['ingresos_totales_declarados'].median():,.0f}")
        print(f"  Promedio: ${df_ml['ingresos_totales_declarados'].mean():,.0f}")
    
    if 'indice_madurez_digital' in df_ml.columns:
        print(f"\nMadurez digital:")
        print(f"  Mediana: {df_ml['indice_madurez_digital'].median():.1f}/100")
        print(f"  Promedio: {df_ml['indice_madurez_digital'].mean():.1f}/100")

# =============================================================================
# PASO 9: VISUALIZACIONES RAPIDAS
# =============================================================================

print("\n" + "="*80)
print("PASO 9: VISUALIZACIONES")
print("="*80)

if 'df_ml' in locals():
    print("\nGenerando gráficos rápidos...")
    
    # Configurar estilo
    plt.style.use('seaborn-v0_8-whitegrid')
    
    # Figura 1: Distribución variable objetivo
    
# =============================================================================
# RESUMEN FINAL
# =============================================================================

print("\n" + "="*80)
print("RESUMEN FINAL")
print("="*80)

if 'df_ml' in locals():
    print(f"\n✓ FUSION COMPLETADA CON EXITO")
    print(f"\nDatasets generados en '{OUTPUT_DIR}/':")
    print(f"  1. dataset_maestro_completo.csv - Todas las columnas")
    print(f"  2. dataset_ml.csv - Columnas seleccionadas para ML")
    print(f"\nDimensiones finales:")
    print(f"  Micronegocios: {len(df_ml):,}")
    print(f"  Features: {len(df_ml.columns)}")
    print(f"  Variable objetivo: {'exito_ingresos' if 'exito_ingresos' in df_ml.columns else 'exito_compuesto'}")
    
    if 'exito_ingresos' in df_ml.columns:
        balance = df_ml['exito_ingresos'].mean() * 100
        print(f"  Balance de clases: {balance:.1f}% / {100-balance:.1f}%")
    
    print(f"\n" + "="*80)
    print("PROXIMO PASO: Ejecutar modelo baseline")
    print("  python 02_modelo_baseline.py")
    print("="*80)
else:
    print("\n✗ ERROR EN LA FUSION")
    print("Revisa que todos los archivos existan en las rutas correctas")

print("\n" + "="*80)


FUSION EMICRON 2024 + GEIH 2023

PASO 1: FUSIONANDO MODULOS EMICRON

[1/9] Cargando módulos EMICRON...
   identificacion: (68702, 28)
   caracteristicas: (68702, 30)
   ventas: (68702, 92)
   costos: (68702, 93)
   inclusion: (68702, 57)
   personal: (12878, 15)
   emprendimiento: (68702, 19)
   tic: (68702, 47)
   factores: (68702, 10)

[2/9] Fusionando por id_micronegocio...
   + caracteristicas: 68,702 -> 68,702
   + ventas: 68,702 -> 68,702
   + costos: 68,702 -> 68,702
   + inclusion: 68,702 -> 68,702
   + personal: 68,702 -> 68,702
   + emprendimiento: 68,702 -> 68,702
   + tic: 68,702 -> 68,702
   + factores: 68,702 -> 68,702

   EMICRON fusionado: (68702, 383)

PASO 2: CARGANDO CONTEXTO GEIH

Contexto GEIH cargado: (227, 5)
  Columnas: ['codigo_departamento', 'sector_economico', 'ingreso_mediano', 'ingreso_promedio', 'num_emprendedores']
  Combinaciones dept-sector: 227

PASO 3: FUSION EMICRON + GEIH

[3/9] Preparando fusión...
  EMICRON tiene 'codigo_departamento': True
  EMIC

In [25]:
import pandas as pd

# Cargar dataset
df = pd.read_csv('FUSION EMICRON 2024 + GEIH 2023/dataset_ml.csv')

# Identificar columnas con >90% missing
threshold = 0.9
missing_pct = df.isnull().sum() / len(df)
cols_to_drop = missing_pct[missing_pct > threshold].index.tolist()

print(f"Columnas a eliminar ({len(cols_to_drop)}):")
for col in cols_to_drop:
    print(f"  - {col}: {missing_pct[col]*100:.1f}% missing")

# Eliminar columnas
df_clean = df.drop(columns=cols_to_drop)

print(f"\nDataset limpio:")
print(f"  Antes: {df.shape}")
print(f"  Después: {df_clean.shape}")

# Guardar
df_clean.to_csv('dataset_ml_clean.csv', index=False)



Columnas a eliminar (10):
  - ingreso_mediano: 100.0% missing
  - ingreso_promedio: 100.0% missing
  - num_emprendedores: 100.0% missing
  - mes_num: 100.0% missing
  - mes_sin: 100.0% missing
  - mes_cos: 100.0% missing
  - otros_costos: 100.0% missing
  - otros_gastos: 100.0% missing
  - otro_credito: 99.9% missing
  - indice_contexto_favorable: 100.0% missing

Dataset limpio:
  Antes: (68702, 377)
  Después: (68702, 367)


In [37]:

"""
LIMPIEZA DATASET_ML: Reducir de 116 MB a ~20 MB
Elimina columnas innecesarias, duplicadas y vacías
"""

import pandas as pd
import numpy as np
import os

print("="*80)
print("LIMPIEZA DATASET_ML")
print("="*80)

# =============================================================================
# PASO 1: CARGAR
# =============================================================================

print("\n[1/6] Cargando dataset...")
df = pd.read_csv('FUSION EMICRON 2024 + GEIH 2023/dataset_ml.csv')
size_inicial = os.path.getsize('FUSION EMICRON 2024 + GEIH 2023/dataset_ml.csv') / (1024*1024)

print(f"  Dimensiones: {df.shape}")
print(f"  Tamaño: {size_inicial:.1f} MB")

# =============================================================================
# PASO 2: ELIMINAR COLUMNAS DUPLICADAS
# =============================================================================

print("\n[2/6] Eliminando columnas duplicadas...")

# Identificar columnas con sufijos (_x, _y, etc.)
sufijos_duplicados = ['_x', '_y']
cols_duplicadas = []

for col in df.columns:
    if any(col.endswith(suf) for suf in sufijos_duplicados):
        # Si existe versión sin sufijo, eliminar la con sufijo
        base_name = col.rsplit('_', 1)[0]
        if base_name in df.columns:
            cols_duplicadas.append(col)

if cols_duplicadas:
    print(f"  Encontradas {len(cols_duplicadas)} columnas duplicadas")
    df = df.drop(columns=cols_duplicadas)
    print(f"  Eliminadas: {len(cols_duplicadas)}")
else:
    print(f"  No se encontraron duplicadas con _x/_y")

# Eliminar columnas con sufijos de módulos (son redundantes)
sufijos_modulos = ['_identificacion', '_caracteristicas', '_ventas', '_costos', 
                   '_inclusion', '_personal', '_emprendimiento', '_tic', '_factores']

cols_sufijos_mod = [col for col in df.columns if any(suf in col.lower() for suf in sufijos_modulos)]
if cols_sufijos_mod:
    print(f"  Encontradas {len(cols_sufijos_mod)} columnas con sufijos de módulos")
    df = df.drop(columns=cols_sufijos_mod)
    print(f"  Eliminadas: {len(cols_sufijos_mod)}")

# =============================================================================
# PASO 3: ELIMINAR COLUMNAS VACÍAS
# =============================================================================

print("\n[3/6] Eliminando columnas vacías...")

# Columnas con >90% missing
threshold = 0.9
missing_pct = df.isnull().sum() / len(df)
cols_vacias = missing_pct[missing_pct > threshold].index.tolist()

if cols_vacias:
    print(f"  Encontradas {len(cols_vacias)} columnas con >90% missing")
    for col in cols_vacias[:10]:
        print(f"    - {col}: {missing_pct[col]*100:.1f}% vacío")
    if len(cols_vacias) > 10:
        print(f"    ... y {len(cols_vacias)-10} más")
    
    df = df.drop(columns=cols_vacias)
    print(f"  Eliminadas: {len(cols_vacias)}")
else:
    print(f"  No se encontraron columnas vacías")

# =============================================================================
# PASO 4: ELIMINAR COLUMNAS REDUNDANTES
# =============================================================================

print("\n[4/6] Eliminando columnas redundantes...")

# IDs secundarios (mantener solo id_micronegocio)
cols_ids = [col for col in df.columns if any(x in col.lower() for x in 
            ['secuencia', 'orden', 'hogar_secundario', 'registro', 'regis'])]

if cols_ids:
    # Mantener id_micronegocio, eliminar otros IDs
    cols_ids_eliminar = [c for c in cols_ids if c != 'id_micronegocio']
    if cols_ids_eliminar:
        print(f"  Eliminando {len(cols_ids_eliminar)} IDs secundarios")
        df = df.drop(columns=cols_ids_eliminar)

# Factores de expansión (no útiles para ML)
cols_fex = [col for col in df.columns if 'fex' in col.lower() or 'factor_expansion' in col.lower()]
if cols_fex:
    print(f"  Eliminando {len(cols_fex)} factores de expansión")
    df = df.drop(columns=cols_fex)

# =============================================================================
# PASO 5: OPTIMIZAR TIPOS DE DATOS
# =============================================================================

print("\n[5/6] Optimizando tipos de datos...")

# Convertir object → category (reduce 70% memoria)
cols_object = df.select_dtypes(include=['object']).columns
mem_antes = df.memory_usage(deep=True).sum() / (1024*1024)

for col in cols_object:
    if df[col].nunique() < len(df) * 0.5:  # Si tiene menos del 50% valores únicos
        df[col] = df[col].astype('category')

mem_despues = df.memory_usage(deep=True).sum() / (1024*1024)
print(f"  Memoria antes: {mem_antes:.1f} MB")
print(f"  Memoria después: {mem_despues:.1f} MB")
print(f"  Reducción: {mem_antes - mem_despues:.1f} MB ({(1-mem_despues/mem_antes)*100:.1f}%)")

# =============================================================================
# PASO 6: SELECCIONAR SOLO COLUMNAS NECESARIAS
# =============================================================================

print("\n[6/6] Seleccionando columnas necesarias para ML...")

# Categorías de columnas a MANTENER
columnas_mantener = []

# 1. ID
if 'id_micronegocio' in df.columns:
    columnas_mantener.append('id_micronegocio')

# 2. Variables objetivo
vars_objetivo = [c for c in df.columns if 'exito' in c.lower() or 'indice_exito' in c.lower()]
columnas_mantener.extend(vars_objetivo)

# 3. Ubicación
for col in ['codigo_departamento', 'nombre_departamento', 'area_urbana', 'area', 'area_urbano_rural']:
    if col in df.columns:
        columnas_mantener.append(col)

# 4. Sector económico
for col in ['sector_economico', 'rama_actividad', 'actividad_economica']:
    if col in df.columns and col not in columnas_mantener:
        columnas_mantener.append(col)

# 5. Características del negocio
keywords_negocio = ['antiguedad', 'tipo_establecimiento', 'formalidad', 'local', 'ubicacion']
for col in df.columns:
    if any(kw in col.lower() for kw in keywords_negocio) and col not in columnas_mantener:
        columnas_mantener.append(col)

# 6. Variables económicas
keywords_economicas = ['ingreso', 'venta', 'costo', 'margen', 'utilidad', 'activo', 
                       'rentabilidad', 'patrimonio', 'pasivo', 'ganancia']
for col in df.columns:
    if any(kw in col.lower() for kw in keywords_economicas) and col not in columnas_mantener:
        columnas_mantener.append(col)

# 7. Personal ocupado
keywords_personal = ['trabajador', 'empleado', 'personal', 'calidad_empleo']
for col in df.columns:
    if any(kw in col.lower() for kw in keywords_personal) and col not in columnas_mantener:
        columnas_mantener.append(col)

# 8. Financieras
keywords_financieras = ['credito', 'banco', 'financiera', 'producto_financiero', 
                        'inclusion_financiera', 'prestamo', 'ahorro']
for col in df.columns:
    if any(kw in col.lower() for kw in keywords_financieras) and col not in columnas_mantener:
        columnas_mantener.append(col)

# 9. TIC
keywords_tic = ['internet', 'digital', 'dispositivo', 'computador', 'tecnologia', 
                'madurez_digital', 'canal', 'web', 'online']
for col in df.columns:
    if any(kw in col.lower() for kw in keywords_tic) and col not in columnas_mantener:
        columnas_mantener.append(col)

# 10. Emprendimiento
keywords_emprendimiento = ['emprendedor', 'emprendimiento', 'experiencia', 'motivo', 'innovacion']
for col in df.columns:
    if any(kw in col.lower() for kw in keywords_emprendimiento) and col not in columnas_mantener:
        columnas_mantener.append(col)

# 11. Factores departamentales
keywords_dept = ['pib', 'pobreza', 'competitividad', 'contexto']
for col in df.columns:
    if any(kw in col.lower() for kw in keywords_dept) and col not in columnas_mantener:
        columnas_mantener.append(col)

# Filtrar solo las que existen
columnas_mantener = [c for c in columnas_mantener if c in df.columns]

# Eliminar duplicados
columnas_mantener = list(dict.fromkeys(columnas_mantener))

print(f"  Columnas antes: {df.shape[1]}")
print(f"  Columnas seleccionadas: {len(columnas_mantener)}")

df_clean = df[columnas_mantener].copy()

# =============================================================================
# GUARDAR
# =============================================================================

print("\n" + "="*80)
print("GUARDANDO DATASET LIMPIO")
print("="*80)

output_file = 'FUSION EMICRON 2024 + GEIH 2023/dataset_ml_clean.csv'
df_clean.to_csv(output_file, index=False)

size_final = os.path.getsize(output_file) / (1024*1024)

print(f"\n✓ Guardado: {output_file}")
print(f"\nComparación:")
print(f"  ANTES:")
print(f"    Archivo: dataset_ml.csv")
print(f"    Dimensiones: {df.shape}")
print(f"    Tamaño: {size_inicial:.1f} MB")
print(f"\n  DESPUÉS:")
print(f"    Archivo: dataset_ml_clean.csv")
print(f"    Dimensiones: {df_clean.shape}")
print(f"    Tamaño: {size_final:.1f} MB")
print(f"\n  REDUCCIÓN:")
print(f"    Columnas eliminadas: {df.shape[1] - df_clean.shape[1]}")
print(f"    Tamaño reducido: {size_inicial - size_final:.1f} MB ({(1-size_final/size_inicial)*100:.1f}%)")

print("\n" + "="*80)
print("COLUMNAS EN DATASET LIMPIO")
print("="*80)

# Agrupar por categoría
categorias = {
    'Identificación': ['id', 'codigo', 'nombre'],
    'Objetivo': ['exito', 'indice_exito'],
    'Ubicación': ['departamento', 'area', 'ubicacion'],
    'Negocio': ['antiguedad', 'tipo', 'establecimiento', 'formalidad'],
    'Económicas': ['ingreso', 'venta', 'costo', 'margen', 'utilidad', 'activo'],
    'Personal': ['trabajador', 'empleado', 'personal', 'calidad'],
    'Financieras': ['credito', 'banco', 'financiera', 'inclusion'],
    'TIC': ['internet', 'digital', 'dispositivo', 'madurez', 'canal'],
    'Emprendimiento': ['emprendedor', 'experiencia', 'motivo'],
    'Departamentales': ['pib', 'pobreza', 'competitividad', 'contexto']
}

for categoria, keywords in categorias.items():
    cols_cat = [c for c in df_clean.columns if any(kw in c.lower() for kw in keywords)]
    if cols_cat:
        print(f"\n{categoria} ({len(cols_cat)}):")
        for col in cols_cat[:10]:
            print(f"  - {col}")
        if len(cols_cat) > 10:
            print(f"  ... y {len(cols_cat)-10} más")

print("\n" + "="*80)
print("LIMPIEZA COMPLETADA")
print("="*80)
print(f"\nUsar para modelado: {output_file}")
print("="*80)

LIMPIEZA DATASET_ML

[1/6] Cargando dataset...
  Dimensiones: (68702, 377)
  Tamaño: 116.2 MB

[2/6] Eliminando columnas duplicadas...
  No se encontraron duplicadas con _x/_y
  Encontradas 66 columnas con sufijos de módulos
  Eliminadas: 66

[3/6] Eliminando columnas vacías...
  Encontradas 9 columnas con >90% missing
    - ingreso_mediano: 100.0% vacío
    - ingreso_promedio: 100.0% vacío
    - num_emprendedores: 100.0% vacío
    - mes_num: 100.0% vacío
    - mes_sin: 100.0% vacío
    - mes_cos: 100.0% vacío
    - otros_gastos: 100.0% vacío
    - otro_credito: 99.9% vacío
    - indice_contexto_favorable: 100.0% vacío
  Eliminadas: 9

[4/6] Eliminando columnas redundantes...
  Eliminando 8 IDs secundarios
  Eliminando 2 factores de expansión

[5/6] Optimizando tipos de datos...
  Memoria antes: 156.2 MB
  Memoria después: 152.6 MB
  Reducción: 3.6 MB (2.3%)

[6/6] Seleccionando columnas necesarias para ML...
  Columnas antes: 292
  Columnas seleccionadas: 196

GUARDANDO DATASET LIMPIO