In [15]:
# =======================================================================
# SCRIPT MAESTRO DE PREPARACIÓN DE DATOS (VERSIÓN ENRIQUECIDA)
# Usar como plantilla para cada año: 2018, 2020, 2022, 2024
# =======================================================================

import pandas as pd
import numpy as np

# --- 1. CONFIGURACIÓN INICIAL (EJEMPLO PARA 2024) ---
AÑO = '20' # Cambia esto por '18', '20', '22'
print(f"--- INICIANDO PREPARACIÓN DE DATOS 20{AÑO} ---")

ruta_base = f'../data/enigh_20{AÑO}/'
path_hogares = f'{ruta_base}hogares.csv'
path_pobreza = f'{ruta_base}pobreza{AÑO}.csv'
path_gastos = f'{ruta_base}gastoshogar.csv'
path_poblacion = f'{ruta_base}poblacion.csv' # Nueva base de datos

# --- 2. CARGA DE DATOS FUENTE ---
print("Cargando archivos...")
df_hogares = pd.read_csv(path_hogares, low_memory=False)
df_pobreza = pd.read_csv(path_pobreza, low_memory=False)
df_gastos = pd.read_csv(path_gastos, low_memory=False)
df_poblacion = pd.read_csv(path_poblacion, low_memory=False)
print("Archivos cargados.")

# --- 3. PREPARACIÓN DE BASES AGREGADAS A NIVEL HOGAR ---
print("Procesando datos...")

# A. Base de Pobreza (ahora con más variables)
columnas_pobreza = [
    'folioviv', 'pobreza', 'pobreza_e', 'ict', 'ictpc', # Ingresos
    'rururb', "factor", # Ámbito
    'ic_rezedu', 'ic_asalud', 'ic_segsoc', 'ic_cv', 'ic_sbv', 'ic_ali' # Carencias
]
df_pobreza_hogar = df_pobreza[columnas_pobreza].drop_duplicates(subset='folioviv').copy()

# B. Base de Gastos (lógica sin cambios)
clave_gasto = '083201' if AÑO == '24' else 'F003' # Lógica para clave de gasto
df_gastos['clave'] = df_gastos['clave'].astype(str)
gastos_celular = df_gastos[(df_gastos['clave'] == clave_gasto) & (df_gastos['tipo_gasto'] == 'G1')].copy()
gastos_celular['gasto_tri'] = pd.to_numeric(gastos_celular['gasto_tri'], errors='coerce')
df_gasto_agregado = gastos_celular.groupby('folioviv')['gasto_tri'].sum().reset_index()
df_gasto_agregado['gasto_celular'] = df_gasto_agregado['gasto_tri'] / 3
df_gasto_hogar = df_gasto_agregado[['folioviv', 'gasto_celular']]

# C. NUEVO: Base de Jefatura de Hogar Femenina
# El parentesco 101 usualmente identifica al jefe(a) de hogar. Verifica el diccionario si cambia.
jefes_de_hogar = df_poblacion[df_poblacion['parentesco'] == 101].copy()
# Sexo 2 usualmente es Mujer.
jefes_de_hogar['Jefatura_Mujer'] = np.where(jefes_de_hogar['sexo'] == 2, 1, 0)
df_jefatura_hogar = jefes_de_hogar[['folioviv', 'Jefatura_Mujer']]

print("Datos procesados a nivel hogar.")

# --- 4. UNIÓN DE TODAS LAS BASES DE DATOS ---
print("Uniendo las bases de datos...")
# Empezamos con la base de hogares
df_final = df_hogares
# Unimos pobreza y las nuevas variables
df_final = pd.merge(df_final, df_pobreza_hogar, on='folioviv', how='left')
# Unimos gasto
df_final = pd.merge(df_final, df_gasto_hogar, on='folioviv', how='left')
# Unimos la nueva variable de jefatura
df_final = pd.merge(df_final, df_jefatura_hogar, on='folioviv', how='left')

# Limpieza final
df_final['gasto_celular'].fillna(0, inplace=True)
df_final['Jefatura_Mujer'].fillna(0, inplace=True) # Asumimos 0 si no se encuentra jefa

print(f"Unión de datos para 20{AÑO} finalizada.")

# --- 5. GUARDAR EL DATAFRAME ENRIQUECIDO ---
ruta_guardado = '../data/procesados/'
if not os.path.exists(ruta_guardado):
    os.makedirs(ruta_guardado)

archivo_parquet = f'{ruta_guardado}enigh_20{AÑO}_final_enriquecido.parquet'
df_final.to_parquet(archivo_parquet)

print(f"¡Trabajo de 20{AÑO} completado y guardado en: {archivo_parquet}!")

--- INICIANDO PREPARACIÓN DE DATOS 2020 ---
Cargando archivos...
Archivos cargados.
Procesando datos...
Datos procesados a nivel hogar.
Uniendo las bases de datos...
Unión de datos para 2020 finalizada.
¡Trabajo de 2020 completado y guardado en: ../data/procesados/enigh_2020_final_enriquecido.parquet!


In [16]:
# --- CÓDIGO DE VERIFICACIÓN DE ARCHIVOS ENRIQUECIDOS ---
import pandas as pd

años = [2018, 2020, 2022, 2024]
ruta_base = '../data/procesados/'

print("--- Verificando la presencia de la columna 'factor' en los archivos procesados ---")

for año in años:
    # Construir el nombre del archivo
    nombre_archivo = f'enigh_{año}_final_enriquecido.parquet'
    ruta_completa = f'{ruta_base}{nombre_archivo}'
    
    try:
        # Cargar el archivo
        df_temp = pd.read_parquet(ruta_completa)
        
        # Verificar si la columna 'factor' existe
        if 'factor' in df_temp.columns:
            print(f"✅ Archivo de {año}: La columna 'factor' SÍ está presente.")
        else:
            print(f"❌ Archivo de {año}: ¡ALERTA! La columna 'factor' NO está presente.")
            
    except FileNotFoundError:
        print(f"⚠️  Archivo de {año}: No se encontró el archivo '{nombre_archivo}'.")

--- Verificando la presencia de la columna 'factor' en los archivos procesados ---
✅ Archivo de 2018: La columna 'factor' SÍ está presente.
✅ Archivo de 2020: La columna 'factor' SÍ está presente.
✅ Archivo de 2022: La columna 'factor' SÍ está presente.
✅ Archivo de 2024: La columna 'factor' SÍ está presente.


In [2]:
# --- CÓDIGO DE DIAGNÓSTICO PARA LA COLUMNA 'ent' ---
import pandas as pd

# Usaremos el archivo de 2024 como ejemplo
ruta_hogares_2024 = '../data/enigh_2024/hogares.csv'

try:
    print(f"Inspeccionando el archivo: {ruta_hogares_2024}")
    df_hogares_test = pd.read_csv(ruta_hogares_2024, low_memory=False)
    
    # Buscamos columnas que contengan 'ent' (ignorando mayúsculas/minúsculas)
    columnas_encontradas = [col for col in df_hogares_test.columns if 'ent' in col.lower()]
    
    if columnas_encontradas:
        print("\n¡ÉXITO! Se encontraron las siguientes columnas candidatas:")
        print(f"Nombres exactos: {columnas_encontradas}")
        
        # Mostramos los primeros valores de esa(s) columna(s) para confirmar
        print("\nPrimeros 5 valores de la(s) columna(s) encontrada(s):")
        print(df_hogares_test[columnas_encontradas].head())
    else:
        print("\nERROR: No se encontró ninguna columna que contenga 'ent'.")
        print("Por favor, revisa las primeras columnas del archivo:")
        print(df_hogares_test.columns.tolist()[:20]) # Muestra las primeras 20 columnas

except FileNotFoundError:
    print(f"\nError de archivo: No se pudo encontrar el archivo en la ruta especificada.")
    print("Asegúrate de que la ruta sea correcta.")

Inspeccionando el archivo: ../data/enigh_2024/hogares.csv

¡ÉXITO! Se encontraron las siguientes columnas candidatas:
Nombres exactos: ['num_venti', 'anio_venti', 'entidad']

Primeros 5 valores de la(s) columna(s) encontrada(s):
   num_venti anio_venti  entidad
0          1         23        1
1          0        NaN        1
2          1         24        1
3          0        NaN        1
4          0        NaN        1


In [3]:
# Instalar geopandas y sus dependencias directamente aquí
!pip install geopandas fiona shapely pyproj

Collecting geopandas
  Using cached geopandas-0.13.2-py3-none-any.whl.metadata (1.5 kB)
Collecting fiona
  Using cached fiona-1.10.1-cp38-cp38-macosx_10_15_x86_64.whl.metadata (56 kB)
Collecting shapely
  Using cached shapely-2.0.7-cp38-cp38-macosx_10_9_x86_64.whl.metadata (6.9 kB)
Collecting pyproj
  Using cached pyproj-3.5.0-cp38-cp38-macosx_10_9_x86_64.whl.metadata (28 kB)
Using cached geopandas-0.13.2-py3-none-any.whl (1.1 MB)
Using cached fiona-1.10.1-cp38-cp38-macosx_10_15_x86_64.whl (16.1 MB)
Using cached shapely-2.0.7-cp38-cp38-macosx_10_9_x86_64.whl (1.5 MB)
Using cached pyproj-3.5.0-cp38-cp38-macosx_10_9_x86_64.whl (8.5 MB)
Installing collected packages: shapely, pyproj, fiona, geopandas
Successfully installed fiona-1.10.1 geopandas-0.13.2 pyproj-3.5.0 shapely-2.0.7


In [1]:
# Vuelve a intentar la importación
import fiona
import geopandas

print("¡Importación exitosa!")
print(f"Versión de Fiona instalada: {fiona.__version__}")
print(f"Versión de GeoPandas instalada: {geopandas.__version__}")

¡Importación exitosa!
Versión de Fiona instalada: 1.10.1
Versión de GeoPandas instalada: 0.13.2


In [3]:
import fiona
import geopandas
import pyproj
import shapely

print("✅ ¡Todas las librerías geoespaciales se importaron con éxito!")
print("-" * 50)
print(f"Versión de Fiona instalada: {fiona.__version__}")
print(f"Versión de GeoPandas instalada: {geopandas.__version__}")
print(f"Versión de PyProj instalada: {pyproj.__version__}")
print(f"Versión de Shapely instalada: {shapely.__version__}")

✅ ¡Todas las librerías geoespaciales se importaron con éxito!
--------------------------------------------------
Versión de Fiona instalada: 1.10.1
Versión de GeoPandas instalada: 0.13.2
Versión de PyProj instalada: 3.5.0
Versión de Shapely instalada: 2.0.7


In [4]:
import geopandas as gpd

# Define la ruta a tu archivo
path_geojson = 'data/geodata/mexico_estados.geojson'

print("\nIntentando leer el archivo GeoJSON con GeoPandas...")

try:
    gdf = gpd.read_file(path_geojson)
    
    print("\n✅ ¡ÉXITO TOTAL! El archivo se ha cargado correctamente en un GeoDataFrame.")
    print("La instalación de geopandas y sus dependencias es correcta y funcional.")
    
    print("\nPrimeras filas del GeoDataFrame:")
    display(gdf.head())
    
except Exception as e:
    print(f"\n❌ FALLO: Aún hay un problema. Error recibido: {e}")
    


Intentando leer el archivo GeoJSON con GeoPandas...

❌ FALLO: Aún hay un problema. Error recibido: module 'fiona' has no attribute 'path'
