# **BLOQUE 1: CONFIGURACI√ìN E IMPORTACI√ìN DE LIBRERIAS:**

In [1]:
# --- BLOQUE 1: CONFIGURACI√ìN E IMPORTACI√ìN ---
from google.colab import drive
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de estilo para gr√°ficos (le da un toque m√°s profesional)
sns.set_theme(style="whitegrid", palette="muted")

# Montamos Drive
drive.mount('/content/drive')

# --- CONSTANTES DEL PROYECTO ---
# Definimos aqu√≠ las variables clave para facilitar cambios futuros
AGLOMERADOS_INTERES = [34, 12]  # 34: Mar del Plata, 12: Corrientes
RUTA_CARPETA_EPH = '/content/drive/MyDrive/ColabNotebooks/Trimestres_anio_archivoTxt'
RUTA_ARCHIVO_IPC = '/content/drive/MyDrive/ColabNotebooks/sh_ipc_aperturas.xlsx'

print("‚úÖ Entorno configurado correctamente.")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
‚úÖ Entorno configurado correctamente.


# **BLOQUE 2: CARGA DE DATOS EPH**

In [2]:
# --- BLOQUE 2: CARGA DE DATOS EPH ---

def cargar_bases_eph(ruta_carpeta, aglomerados_filtro):
    """
    Recorre la carpeta especificada, carga los archivos .txt y concatena
    solo los registros que coinciden con los aglomerados solicitados.
    """
    lista_dfs = []

    # Verificamos que la ruta exista
    if not os.path.exists(ruta_carpeta):
        print(f"‚ùå Error: No se encuentra la ruta {ruta_carpeta}")
        return None

    archivos = [f for f in os.listdir(ruta_carpeta) if f.lower().endswith('.txt')]
    print(f"üìÇ Se encontraron {len(archivos)} archivos de bases EPH.")

    columnas_clave = ['ano4', 'trimestre', 'aglomerado', 'estado', 'pondera', 'p21', 'pp3e_tot', 'ch04', 'ch06', 'nived']

    for archivo in archivos:
        ruta_completa = os.path.join(ruta_carpeta, archivo)
        try:
            # Leemos el archivo (el separador suele ser ; o , dependiendo del a√±o)
            # Probamos primero con ;
            df_temp = pd.read_csv(ruta_completa, sep=';', encoding='latin-1', low_memory=False)

            # Estandarizamos columnas a min√∫sculas para evitar errores (ANO4 vs ano4)
            df_temp.columns = df_temp.columns.str.lower()

            # Si fall√≥ el separador y carg√≥ todo en una columna, reintentamos con coma
            if df_temp.shape[1] < 5:
                 df_temp = pd.read_csv(ruta_completa, sep=',', encoding='latin-1', low_memory=False)
                 df_temp.columns = df_temp.columns.str.lower()

            # FILTRO 1: Solo los aglomerados que nos interesan (ahorra memoria)
            # Convertimos a num√©rico para asegurar coincidencia
            df_temp['aglomerado'] = pd.to_numeric(df_temp['aglomerado'], errors='coerce')
            df_filtrado = df_temp[df_temp['aglomerado'].isin(aglomerados_filtro)].copy()

            if not df_filtrado.empty:
                # Creamos la columna PERIODO para series de tiempo
                df_filtrado['periodo'] = df_filtrado['ano4'].astype(str) + 'Q' + df_filtrado['trimestre'].astype(str)
                lista_dfs.append(df_filtrado)
                print(f"  -> Cargado: {archivo} ({len(df_filtrado)} registros de inter√©s)")

        except Exception as e:
            print(f"‚ö†Ô∏è Advertencia: No se pudo leer {archivo}. Error: {e}")

    if lista_dfs:
        base_final = pd.concat(lista_dfs, ignore_index=True)
        print("-" * 50)
        print(f"‚úÖ Carga completa. Total de registros acumulados: {len(base_final)}")
        return base_final
    else:
        print("‚ùå No se pudieron cargar datos.")
        return None

# Ejecutamos la funci√≥n
base_eph = cargar_bases_eph(RUTA_CARPETA_EPH, AGLOMERADOS_INTERES)

# Vistazo r√°pido
if base_eph is not None:
    display(base_eph.head())
    print("Aglomerados cargados:", base_eph['aglomerado'].unique())

üìÇ Se encontraron 37 archivos de bases EPH.
  -> Cargado: usu_individual_T216.txt (2855 registros de inter√©s)
  -> Cargado: usu_Individual_T220.txt (1897 registros de inter√©s)
  -> Cargado: usu_individual_T221.txt (2317 registros de inter√©s)
  -> Cargado: usu_individual_T223.txt (2139 registros de inter√©s)
  -> Cargado: usu_individual_T224.txt (2012 registros de inter√©s)
  -> Cargado: usu_individual_T225.txt (1915 registros de inter√©s)
  -> Cargado: usu_individual_T222.txt (2176 registros de inter√©s)
  -> Cargado: usu_individual_T217.txt (2638 registros de inter√©s)
  -> Cargado: usu_individual_T218.txt (2598 registros de inter√©s)
  -> Cargado: usu_individual_T219.txt (2785 registros de inter√©s)
  -> Cargado: usu_individual_t416.txt (2805 registros de inter√©s)
  -> Cargado: usu_individual_T424.txt (1956 registros de inter√©s)
  -> Cargado: usu_individual_T423.txt (2025 registros de inter√©s)
  -> Cargado: usu_individual_T421.txt (2235 registros de inter√©s)
  -> Cargado: us

Unnamed: 0,codusu,ano4,trimestre,nro_hogar,componente,h15,region,mas_500,aglomerado,pondera,...,v22_01_m,v22_02_m,v22_03_m,p_deccf,p_rdeccf,p_gdeccf,p_pdeccf,p_ideccf,p_adeccf,unnamed: 177
0,TQRMNORPVHLMKQCDEIKAH00485668,2016,2,1,3,1,43,S,34,522,...,,,,,,,,,,
1,TQRMNORPVHLMKQCDEIKAH00485668,2016,2,1,4,1,43,S,34,522,...,,,,,,,,,,
2,TQRMNOQYQHLMKUCDEIKAH00485679,2016,2,1,1,1,43,S,34,500,...,,,,,,,,,,
3,TQRMNOQYQHLMKUCDEIKAH00485679,2016,2,1,2,1,43,S,34,500,...,,,,,,,,,,
4,TQRMNOQVWHKOLPCDEIKAH00485617,2016,2,1,1,1,43,S,34,498,...,,,,,,,,,,


Aglomerados cargados: [34 12]


# **BLOQUE 3: PREPARACI√ìN DE DATOS DE INFLACI√ìN (IPC)**

In [8]:
#Ingreso real usando IPC
ruta_ipc = "/content/drive/MyDrive/ColabNotebooks/sh_ipc_aperturas.xlsx"

# Leer IPC desde el Excel
raw_ipc = pd.read_excel(
    ruta_ipc,
    sheet_name="√çndices aperturas",  # nombre exacto de la hoja
    header=None,
    engine="openpyxl"
)

# Ajustar estas filas/columnas seg√∫n tu archivo (como antes)
fila_fechas = raw_ipc.iloc[5, 1:]
fila_ipc    = raw_ipc.iloc[7, 1:]

ipc_mensual = pd.DataFrame({
    "fecha": pd.to_datetime(fila_fechas.values, errors="coerce"),
    "ipc":   pd.to_numeric(fila_ipc.values, errors="coerce")
}).dropna()

ipc_mensual["anio"] = ipc_mensual["fecha"].dt.year
ipc_mensual["mes"]  = ipc_mensual["fecha"].dt.month
ipc_mensual["trimestre"] = ((ipc_mensual["mes"] - 1) // 3) + 1

ipc_trim = (
    ipc_mensual
    .groupby(["anio", "trimestre"])["ipc"]
    .mean()
    .reset_index()
)

ipc_trim.head()

Unnamed: 0,anio,trimestre,ipc
0,2016,4,100.0
1,2017,1,103.794733
2,2017,2,110.505433
3,2017,3,115.829533
4,2017,4,121.8106


# **BLOQUE 4: UNIFICACI√ìN DE DATOS E INGRESO REAL**

In [7]:
# --- BLOQUE 4: UNIFICACI√ìN DE DATOS E INGRESO REAL ---

if base_eph is not None and tabla_ipc is not None:
    print("üîÑ Unificando bases y ajustando ingresos...")

    # 1. Copia de seguridad para no alterar el original
    df_trabajo = base_eph.copy()

    # 2. Limpieza de Variables de Ingreso (P21 = Ingreso Ocupaci√≥n Principal)
    # Forzamos a num√©rico, los errores se convierten en NaN
    df_trabajo['p21'] = pd.to_numeric(df_trabajo['p21'], errors='coerce')
    df_trabajo['pp3e_tot'] = pd.to_numeric(df_trabajo['pp3e_tot'], errors='coerce')

    # 3. Cruce con IPC
    # Unimos usando la columna 'periodo'
    df_trabajo = df_trabajo.merge(tabla_ipc[['periodo', 'coeficiente_ajuste']],
                                  on='periodo',
                                  how='left')

    # 4. C√°lculo de Ingreso Horario e Ingreso Real
    # Ingreso Horario = P21 / Horas Trabajadas
    # Solo calculamos si las horas > 0 para evitar divisi√≥n por cero
    df_trabajo['ingreso_horario'] = df_trabajo.apply(
        lambda x: x['p21'] / x['pp3e_tot'] if x['pp3e_tot'] > 0 else np.nan, axis=1
    )

    # Ingreso Real = Ingreso Nominal * Coeficiente de Inflaci√≥n
    df_trabajo['ingreso_real'] = df_trabajo['ingreso_horario'] * df_trabajo['coeficiente_ajuste']

    print(f"‚úÖ Base unificada lista. Dimensiones: {df_trabajo.shape}")
    print("Ejemplo de datos (Nominal vs Real):")
    cols_ver = ['periodo', 'aglomerado', 'p21', 'ingreso_horario', 'ingreso_real']
    display(df_trabajo[cols_ver].dropna().head())

else:
    print("‚ö†Ô∏è No se puede avanzar: Faltan cargar la base EPH o la tabla IPC.")

‚ö†Ô∏è No se puede avanzar: Faltan cargar la base EPH o la tabla IPC.
