In [5]:
# Primero importamos las librerías que vamos a usar

import pandas as pd
import numpy as np

In [7]:
#Parte I: Familiarizandonos con la base EPH y limpieza

In [9]:
pip install --upgrade pandas xlrd openpyxl pyreadstat

Note: you may need to restart the kernel to use updated packages.


In [33]:
# Cargo los archivos de las bases de datos con la ruta completa

# base del 2004 que está en formato .dta (de Stata)
df_2004 = pd.read_stata(r"C:\Users\Gustavo\Documents\GitHub\BigDataUBA-Grupo26\TP 2\EPH\Individual_t104.dta")

# base del 2024 que está en Excel
df_2024 = pd.read_excel(r"C:\Users\Gustavo\Documents\GitHub\BigDataUBA-Grupo26\TP 2\EPH\usu_individual_T124.xlsx")

In [35]:
df_2004.columns = df_2004.columns.str.lower()
df_2024.columns = df_2024.columns.str.lower()

In [37]:
# Me aseguro de que ambas bases tengan la columna 'ano4' con el año correcto

df_2004["ano4"] = 2004
df_2024["ano4"] = 2024

In [39]:
df = pd.concat([df_2004, df_2024], ignore_index=True)

In [41]:
print(df["ano4"].value_counts())

ano4
2024    46050
2004    45289
Name: count, dtype: int64


In [43]:
# Veo qué columnas tienen cada base para identificar cómo se llama "AGLOMERADO"
print("Columnas de la base 2004:")
print(df_2004.columns.tolist())

print("\nColumnas de la base 2024:")
print(df_2024.columns.tolist())


Columnas de la base 2004:
['codusu', 'nro_hogar', 'componente', 'h15', 'ano4', 'trimestre', 'region', 'mas_500', 'aglomerado', 'pondera', 'ch03', 'ch04', 'ch06', 'ch07', 'ch08', 'ch09', 'ch10', 'ch11', 'ch12', 'ch13', 'ch14', 'ch15', 'ch15_cod', 'ch16', 'ch16_cod', 'nivel_ed', 'estado', 'cat_ocup', 'cat_inac', 'pp02c1', 'pp02c2', 'pp02c3', 'pp02c4', 'pp02c5', 'pp02c6', 'pp02c7', 'pp02c8', 'pp02e', 'pp02h', 'pp02i', 'pp03c', 'pp03d', 'pp3e_tot', 'pp3f_tot', 'pp03g', 'pp03h', 'pp03i', 'pp03j', 'intensi', 'pp04a', 'pp04b_cod', 'pp04b1', 'pp04b2', 'pp04b3_mes', 'pp04b3_ano', 'pp04b3_dia', 'pp04c', 'pp04c99', 'pp04d_cod', 'pp04g', 'pp05b2_mes', 'pp05b2_ano', 'pp05b2_dia', 'pp05c_1', 'pp05c_2', 'pp05c_3', 'pp05e', 'pp05f', 'pp05h', 'pp06a', 'pp06c', 'pp06d', 'pp06e', 'pp06h', 'pp07a', 'pp07c', 'pp07d', 'pp07e', 'pp07f1', 'pp07f2', 'pp07f3', 'pp07f4', 'pp07f5', 'pp07g1', 'pp07g2', 'pp07g3', 'pp07g4', 'pp07g_59', 'pp07h', 'pp07i', 'pp07j', 'pp07k', 'pp08d1', 'pp08d4', 'pp08f1', 'pp08f2', 'pp08

In [45]:
# Filtro por la región de Mar del Plata
# Según la variable AGLOMERADO, el código 34 corresponde a Mar del Plata
# Me quedo solo con las personas de esa región

df_2004 = df_2004[df_2004["aglomerado"] == 34].copy()
df_2024 = df_2024[df_2024["aglomerado"] == 34].copy()


In [47]:
# Junto las dos bases en una sola (como si pegara hojas de Excel una abajo de la otra)

df = pd.concat([df_2004, df_2024], ignore_index=True)


  df = pd.concat([df_2004, df_2024], ignore_index=True)


In [49]:
print("Columnas vacías en df_2004:")
print(df_2004.isna().all())

print("\nColumnas vacías en df_2024:")
print(df_2024.isna().all())

Columnas vacías en df_2004:
codusu        True
nro_hogar     True
componente    True
h15           True
ano4          True
              ... 
adeccfr       True
pj1_1         True
pj2_1         True
pj3_1         True
idimpp        True
Length: 176, dtype: bool

Columnas vacías en df_2024:
codusu        False
ano4          False
trimestre     False
nro_hogar     False
componente    False
              ...  
rdeccfr       False
gdeccfr       False
pdeccfr        True
adeccfr       False
pondih        False
Length: 177, dtype: bool


In [51]:
print("\nColumnas en df_2004:")
print(set(df_2004.columns))

print("\nColumnas en df_2024:")
print(set(df_2024.columns))


Columnas en df_2004:
{'pp05b2_mes', 'pp11n', 'pp06e', 'pp11r', 'rdecocur', 'ch12', 'estado', 'pp11l1', 'pp3f_tot', 'pp09c_esp', 'pp04b_cod', 'decifr', 'ch14', 'pp03i', 'pp07a', 'pp07i', 'pp09a', 'rdecindr', 'pp04c', 'pp11d_cod', 'idecindr', 'pp04g', 'pp11b_cod', 'pp11t', 'rdecifr', 'pp04b3_dia', 'v18_m', 'pp08f1', 'pp02c6', 'ch15', 'adecocur', 'pp07f3', 'pj2_1', 'ch15_cod', 'pp05b2_ano', 'v21_m', 'tot_p12', 'pp03h', 'ch16', 'pp07d', 'cat_ocup', 'pp02c5', 'pp11g_mes', 'pdeccfr', 'idecifr', 'idimpp', 'pp09a_esp', 'v11_m', 'rdeccfr', 'pp03d', 'pp05h', 'deccfr', 'pp05c_3', 'pp08d1', 'pp08j1', 'gdecifr', 'pp11c99', 'pp07e', 'v12_m', 'pp11b2_mes', 'v5_m', 'pp04c99', 'pp11g_ano', 'pp02e', 'pp02c2', 'pp10d', 'pp07j', 'ideccfr', 'v9_m', 'pondera', 'nro_hogar', 'pp07g_59', 'pp10e', 'ch08', 'pp02c7', 'cat_inac', 'pp03j', 'intensi', 'decindr', 'pdecindr', 'gdecindr', 'pp11g_dia', 'ch07', 'pp06d', 'v4_m', 'pp06h', 'v8_m', 'p21', 'v19_am', 'pp05c_2', 'itf', 'pp09c', 'ch11', 'pp07f1', 'idecocur', 'i

In [53]:
# Eliminar columnas totalmente vacías
df_2004_clean = df_2004.dropna(axis=1, how='all')
df_2024_clean = df_2024.dropna(axis=1, how='all')

# Luego concatenás
df = pd.concat([df_2004_clean, df_2024_clean], ignore_index=True)

In [55]:
# Elijo 15 variables que me interesan para el análisis
# Estas variables tienen info sobre edad, sexo, actividad laboral, educación e ingresos
# (los cuales están desarrolladas los pdf de diseño de registro y estructura)

vars_interes = [
    "CH04",        # Sexo
    "CH06",        # Edad
    "CH10",        # Si asiste o asistió a un establecimiento educativo
    "CH12",        # Nivel educativo alcanzado
    "ESTADO",      # Condición de actividad (ocupado, desocupado, etc.)
    "CAT_OCUP",    # Tipo de ocupación (si trabaja)
    "CAT_INAC",    # Tipo de inactividad (si no trabaja)
    "PP3E_TOT",    # Horas trabajadas en su ocupación principal
    "PP3F_TOT",    # Horas trabajadas en otras ocupaciones
    "PP03G",       # Si quiere trabajar más horas
    "PONDERA",     # Factor de expansión (cuánto representa esa persona)
    "NIVEL_ED",    # Nivel educativo resumido
    "IPCF",        # Ingreso per cápita familiar
    "ITF",         # Ingreso total del hogar
    "REGION"       # Región (por si se necesita más adelante)
]


In [57]:
# Me quedo solo con las columnas que me interesan
vars_interes = [col.lower() for col in vars_interes]
df = df[vars_interes + ["ano4"]]

In [59]:
df = pd.concat([df_2004, df_2024], ignore_index=True)

  df = pd.concat([df_2004, df_2024], ignore_index=True)


In [61]:
# --- CONTEO DE VALORES FALTANTES POR VARIABLE Y AÑO ---
# Agrupo por año y cuento cuántos NaN hay por variable (excluyendo la columna 'ano4' del cálculo)
faltantes = df.drop(columns="ano4").groupby(df["ano4"]).apply(lambda x: x.isna().sum()).T

# Muestro los valores faltantes
print("Valores faltantes por año:")
print(faltantes)

# --- LIMPIEZA DE VALORES INVÁLIDOS EN VARIABLES DE INGRESO ---
# Reemplazo ingresos negativos o mayores a 9.999.999 por NaN (valores inválidos según EPH)
for var in ["ipcf", "itf"]:
    df.loc[df[var] < 0, var] = np.nan
    df.loc[df[var] >= 9999999, var] = np.nan

# --- GUARDADO DE LA BASE LIMPIA ---
# Exporto el DataFrame limpio a un archivo .csv para usar en análisis posteriores
df.to_csv("EPH_MardelPlata_2004_2024_limpio.csv", index=False)
print("Limpieza completada. El archivo se guardó como 'EPH_MardelPlata_2004_2024_limpio.csv'")

Valores faltantes por año:
ano4        2024
codusu         0
nro_hogar      0
componente     0
h15            0
trimestre      0
...          ...
ch05           0
imputa       970
pondiio        0
pondii         0
pondih         0

[180 rows x 1 columns]
Limpieza completada. El archivo se guardó como 'EPH_MardelPlata_2004_2024_limpio.csv'


In [37]:
#Parte II: Primer Análisis Exploratorio

In [39]:
import matplotlib.pyplot as plt
import seaborn as sns

In [41]:
# --- FILTRO LA BASE PARA QUEDARME CON LOS DATOS DE 2004 Y 2024 ---

# Creo dos nuevos DataFrames: uno solo con los datos del año 2004 y otro con los de 2024.
# Esto me permite comparar variables entre esos dos años.
data_2004 = df[df['ano4'] == 2004]
data_2024 = df[df['ano4'] == 2024]


In [43]:
# Filtro y me aseguro de que las variables de sexo estén bien codificadas (normalmente 'sexo' es 1 para hombres y 2 para mujeres)
# Filtra los datos por región si es necesario

# Contar la cantidad de hombres y mujeres en cada año
sexo_2004 = data_2004['ch04'].value_counts()
sexo_2024 = data_2024['ch04'].value_counts()

# Mostrar los resultados
print("Distribución de sexo en 2004:")
print(sexo_2004)

print("\nDistribución de sexo en 2024:")
print(sexo_2024)

Distribución de sexo en 2004:
Series([], Name: count, dtype: int64)

Distribución de sexo en 2024:
ch04
2    506
1    465
Name: count, dtype: int64
