In [155]:
# Primero importamos las librerías que vamos a usar

import pandas as pd
import numpy as np

In [156]:
pip install --upgrade pandas xlrd openpyxl pyreadstat

Note: you may need to restart the kernel to use updated packages.


In [179]:
# Cargo los archivos de las bases de datos con la ruta completa

# base del 2004 que está en formato .dta (de Stata)
df_2004 = pd.read_stata(r"C:\Users\Wally\Desktop\TP2 BIG DATA AND ML\Primer cuatrimestre 2004\Formato .dta\Individual_t104.dta")

# base del 2024 que está en Excel
df_2024 = pd.read_excel(r"C:\Users\Wally\Desktop\TP2 BIG DATA AND ML\Primer cuatrimestre 2024\Formato .xls\usu_individual_T124.xlsx")


In [180]:
df_2004.columns = df_2004.columns.str.lower()
df_2024.columns = df_2024.columns.str.lower()

In [181]:
# Me aseguro de que ambas bases tengan la columna 'ano4' con el año correcto

df_2004["ano4"] = 2004
df_2024["ano4"] = 2024

In [182]:
df = pd.concat([df_2004, df_2024], ignore_index=True)

In [183]:
print(df["ano4"].value_counts())

ano4
2024    46050
2004    45289
Name: count, dtype: int64


In [184]:
# Veo qué columnas tienen cada base para identificar cómo se llama "AGLOMERADO"
print("Columnas de la base 2004:")
print(df_2004.columns.tolist())

print("\nColumnas de la base 2024:")
print(df_2024.columns.tolist())


Columnas de la base 2004:
['codusu', 'nro_hogar', 'componente', 'h15', 'ano4', 'trimestre', 'region', 'mas_500', 'aglomerado', 'pondera', 'ch03', 'ch04', 'ch06', 'ch07', 'ch08', 'ch09', 'ch10', 'ch11', 'ch12', 'ch13', 'ch14', 'ch15', 'ch15_cod', 'ch16', 'ch16_cod', 'nivel_ed', 'estado', 'cat_ocup', 'cat_inac', 'pp02c1', 'pp02c2', 'pp02c3', 'pp02c4', 'pp02c5', 'pp02c6', 'pp02c7', 'pp02c8', 'pp02e', 'pp02h', 'pp02i', 'pp03c', 'pp03d', 'pp3e_tot', 'pp3f_tot', 'pp03g', 'pp03h', 'pp03i', 'pp03j', 'intensi', 'pp04a', 'pp04b_cod', 'pp04b1', 'pp04b2', 'pp04b3_mes', 'pp04b3_ano', 'pp04b3_dia', 'pp04c', 'pp04c99', 'pp04d_cod', 'pp04g', 'pp05b2_mes', 'pp05b2_ano', 'pp05b2_dia', 'pp05c_1', 'pp05c_2', 'pp05c_3', 'pp05e', 'pp05f', 'pp05h', 'pp06a', 'pp06c', 'pp06d', 'pp06e', 'pp06h', 'pp07a', 'pp07c', 'pp07d', 'pp07e', 'pp07f1', 'pp07f2', 'pp07f3', 'pp07f4', 'pp07f5', 'pp07g1', 'pp07g2', 'pp07g3', 'pp07g4', 'pp07g_59', 'pp07h', 'pp07i', 'pp07j', 'pp07k', 'pp08d1', 'pp08d4', 'pp08f1', 'pp08f2', 'pp08

In [185]:
# Filtro por la región de Mar del Plata

# Según la variable AGLOMERADO, el código 34 corresponde a Mar del Plata
# Me quedo solo con las personas de esa región

df_2004 = df_2004[df_2004["aglomerado"] == 34].copy()
df_2024 = df_2024[df_2024["aglomerado"] == 34].copy()


In [186]:
# Le agrego una columna para saber de qué año es cada fila

df_2004["ano4"] = 2004
df_2024["ano4"] = 2024


In [187]:
# Junto las dos bases en una sola (como si pegara hojas de Excel una abajo de la otra)

df = pd.concat([df_2004, df_2024], ignore_index=True)


  df = pd.concat([df_2004, df_2024], ignore_index=True)


In [188]:
# Elijo 15 variables que me interesan para el análisis
# Estas variables tienen info sobre edad, sexo, actividad laboral, educación e ingresos
# (los cuales están desarrolladas los pdf de diseño de registro y estructura)

vars_interes = [
    "CH04",        # Sexo
    "CH06",        # Edad
    "CH10",        # Si asiste o asistió a un establecimiento educativo
    "CH12",        # Nivel educativo alcanzado
    "ESTADO",      # Condición de actividad (ocupado, desocupado, etc.)
    "CAT_OCUP",    # Tipo de ocupación (si trabaja)
    "CAT_INAC",    # Tipo de inactividad (si no trabaja)
    "PP3E_TOT",    # Horas trabajadas en su ocupación principal
    "PP3F_TOT",    # Horas trabajadas en otras ocupaciones
    "PP03G",       # Si quiere trabajar más horas
    "PONDERA",     # Factor de expansión (cuánto representa esa persona)
    "NIVEL_ED",    # Nivel educativo resumido
    "IPCF",        # Ingreso per cápita familiar
    "ITF",         # Ingreso total del hogar
    "REGION"       # Región (por si se necesita más adelante)
]


In [189]:
# Me quedo solo con las columnas que me interesan

df = df[vars_interes + ["ano4"]]


KeyError: "['CH04', 'CH06', 'CH10', 'CH12', 'ESTADO', 'CAT_OCUP', 'CAT_INAC', 'PP3E_TOT', 'PP3F_TOT', 'PP03G', 'PONDERA', 'NIVEL_ED', 'IPCF', 'ITF', 'REGION'] not in index"

In [None]:
# --- CUENTO CUÁNTOS VALORES FALTANTES HAY EN CADA VARIABLE POR AÑO ---

# Esto me genera una tabla con la cantidad de "NA" por cada variable, separado por año
faltantes = df.groupby("ano4").apply(lambda x: x.isna().sum()).T
# Muestro esa tabla
print("Valores faltantes por año:")
print(faltantes)

# --- LIMPIO VALORES QUE NO TIENEN SENTIDO ---

# Por ejemplo: si los ingresos son negativos o son 9999999 (que es una forma de decir "no respondió")
# los paso a NA para que no molesten

for var in ["IPCF", "ITF"]:
    df.loc[df[var] < 0, var] = np.nan
    df.loc[df[var] >= 9999999, var] = np.nan

# --- GUARDO LA BASE LIMPIA PARA USAR MÁS ADELANTE ---

# Me genero un archivo .csv que puedo abrir después o usar para gráficos, análisis, etc.
df.to_csv("EPH_MardelPlata_2004_2024_limpio.csv", index=False)


print("Limpieza completada. El archivo se guardó como 'EPH_MardelPlata_2004_2024_limpio.csv'")
