In [1]:
###Parte 1: Familiarizandonos con la base EPH y limpieza

In [2]:
pip install pandas



In [3]:
import pandas as pd

In [4]:
import os

In [5]:
#Importamos los archivos del primer trimestre de la EPH de los años 2004 y 2024

In [6]:
df_stata = pd.read_stata(r"C:\Users\Garbarino\OneDrive\Documentos\yo\BigData\TP2\Individual_t104.dta")

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Garbarino\\OneDrive\\Documentos\\yo\\BigData\\TP2\\Individual_t104.dta'

In [None]:
#Imprimimos las columnas para poder elegir la región
print(df_stata.columns)

In [None]:
df_stata.rename(columns=str.upper, inplace=True)
#Renombramos la columna así coincide con la EPH del 2024

In [None]:
print(df_stata.columns)

In [None]:
df_excel = pd.read_excel(r"C:\Users\Garbarino\OneDrive\Documentos\yo\BigData\TP2\usu_individual_T124.xlsx")

In [None]:
print(df_excel.columns)

In [None]:
#Indicamos la región elegida, en la EPH del 2004 debemos tomarlo como NOA y la del 2024 por su código.
df_excel_noa = df_excel[df_excel["REGION"] == 40]
df_stata_noa = df_stata[df_stata["REGION"] == "NOA"]

In [None]:
variables_interes = [
    "CH04", "CH06", "CH07", "CH08", "CH10", "CH11", "CH12", "CH13",
    "NIVEL_ED", "ESTADO", "CAT_OCUP", "CAT_INAC",
    "PP02H", "PP02I", "P47T"
]

In [None]:
print(df_stata_noa.columns.tolist())

In [None]:
#Unimos (append) las bases en una sola base de datos y reiniciamos los índices para que queden en orden
df_stata_noa = df_stata_noa[variables_interes]
df_excel_noa = df_excel_noa[variables_interes]

In [None]:
#Agregamos una columna que nos indique a qué año pertenece cada dato
df_stata_noa["ANO4"] = 2004
df_excel_noa["ANO4"] = 2024

In [None]:
df_unido = pd.concat([df_stata_noa, df_excel_noa], ignore_index=True)

In [None]:
#usamos display para observar que se hayan unido correctamente
display(df_unido)

In [None]:
#exportamos como un excel para corroborar que los datos y las columnas estén bien distribuidas
df_unido.to_excel("df_unido.xlsx", index=False)

In [None]:
###Las variables elegidas y su significado según el "Diseño de Registro y Estructura para las bases de Microdatos"
#Variable Significado
#CH04	Sexo
#CH06	Edad
CH07	Estado civil
CH08	Cobertura médica
CH10	Asistencia establecimiento educativo
CH11	Tipo de establecimiento
CH12	Nivel más alto completado
CH13	¿Finalizó?
NIVEL_ED	Nivel educativo
ESTADO	Condición de actividad (ocupado, desocupado, inactivo)
CAT_OCUP	Categoría ocupacional
CAT_INAC	Categoría de inactividad
PP02H	En los últimos 12 meses ¿buscó trabajo en algún momento?
PP02I	En los últimos 12 meses ¿trabajó en algún momento?
P47T	Ingreso total individual

In [None]:
#usamos un count para saber cuántos datos son NaN
nan_count_by_year = df_unido.groupby("ANO4")[variables_interes].apply(lambda x: x.isna().sum())

print(nan_count_by_year)

In [None]:
### Se puede observar que en todas las categorías utilizadas no hay resultados faltantes, a excepción del 2024, en el indicador P47T, en el cual hay 9 valores faltantes.

In [None]:
#Parte II: Primer Análisis Exploratorio

In [9]:
import matplotlib.pyplot as plt

In [10]:
import seaborn as sns

In [12]:
import numpy as np

In [None]:
#Instalamos la biblioteca de matplot y seaborn para poder realizar gráficos visualmente agradables siguiendo las recomendaciones de Schwabish.

In [13]:
df_2004 = df_unido[df_unido["ANO4"] == 2004].copy()
df_2024 = df_unido[df_unido["ANO4"] == 2024].copy()

# Normalizar etiquetas
df_2004["SEXO"] = df_2004["SEXO"].replace({"Mujer": "Mujeres", "Varón": "Hombres"})
df_2024["SEXO"] = df_2024["SEXO"].replace({"Hombres": "Hombres", "Mujeres": "Mujeres"})

# Conteo por sexo
count_2004 = df_2004["SEXO"].value_counts().reindex(["Mujeres", "Hombres"], fill_value=0)
count_2024 = df_2024["SEXO"].value_counts().reindex(["Mujeres", "Hombres"], fill_value=0)

# Configurar posiciones y tamaño
labels = ['Mujeres', 'Hombres']
y = np.arange(len(labels))
width = 0.35  # separación de barras

fig, ax = plt.subplots(figsize=(12, 5))

# Barras
bar1 = ax.barh(y - width/2, count_2004.values, height=width, label='2004', color='#fbb4ae')
bar2 = ax.barh(y + width/2, count_2024.values, height=width, label='2024', color='#8da0cb')

# Etiquetas y estética
ax.set_xlabel('Cantidad de personas')
ax.set_title('Composición por sexo - Región NOA (2004 vs 2024)', fontsize=13, weight='bold')
ax.set_yticks(y)
ax.set_yticklabels(labels)
ax.set_xlim(0, 6000)
ax.invert_yaxis()  # primero Mujeres, luego Hombres
ax.legend(loc='lower right')

# Agregar números directamente sobre las barras
for bars in [bar1, bar2]:
    for bar in bars:
        width = bar.get_width()
        ax.text(width + 100, bar.get_y() + bar.get_height()/2,
                f'{int(width):,}', va='center', fontsize=10)

plt.tight_layout()
plt.show()

NameError: name 'df_unido' is not defined

In [None]:
#Hacemos la matriz de correlación para 2024 y 2024 con variables

In [7]:
# Variables que nos interesan
variables = ['CH04', 'CH06', 'CH07', 'CH08', 'NIVEL_ED', 'ESTADO', 'CAT_INAC', 'IPCF']

# Filtrar bases por año
df_2004 = df[df['ANO4'] == 2004]
df_2024 = df[df['ANO4'] == 2024]

# Matriz de correlación 2004
corr_2004 = df_2004[variables].corr()

# Heatmap completo 2004
plt.figure(figsize=(8,6))
sns.heatmap(corr_2004, vmin=-1, vmax=+1, annot=True, cmap="coolwarm")
plt.title('Matriz de Correlación - 2004')
plt.show()

# Matriz de correlación 2024
corr_2024 = df_2024[variables].corr()

# Heatmap completo 2024
plt.figure(figsize=(8,6))
sns.heatmap(corr_2024, vmin=-1, vmax=+1, annot=True, cmap="coolwarm")
plt.title('Matriz de Correlación - 2024')
plt.show()

# (Opcional) Heatmap triangular 2024
mask = np.triu(np.ones_like(corr_2024, dtype=bool))
plt.figure(figsize=(8,6))
sns.heatmap(corr_2024, mask=mask, vmin=-1, vmax=+1, annot=True, cmap="coolwarm")
plt.title('Matriz de Correlación Triangular - 2024')
plt.show()

NameError: name 'df_2004' is not defined

In [None]:
#Resultados obtenidos de la correlación: Correlaciones fuertes positivas

#CH06 (Edad) y CH08 (Cobertura de salud): +0.90
#Cuanto mayor es la edad, más probable es tener mejor cobertura.

#ESTADO y CAT_INAC: +0.78
#Lógica: quienes son inactivos tienen su categoría de inactividad bien definida.

#CAT_INAC y IPCF: +0.62
#Algunos tipos de inactividad (como jubilación) se asocian a ingresos relativamente estables.

#Correlaciones fuertes negativas

#CH07 (Estado civil) y CAT_INAC: -0.94
#Personas con distintos estados civiles tienden a estar más o menos inactivos.

#CH07 y CH08 (Cobertura): -0.80
#Dependiendo del estado civil, cambia la cobertura. Por ejemplo, personas solteras o separadas tienden a tener menos cobertura formal.

#CH04 (Sexo) y IPCF: -0.73
#Las mujeres, en este caso, parecen tener menor ingreso per cápita que los varones.


#NIVEL_ED y IPCF: +0.10
#Relación débil, pero positiva. Sugeriría que, en esta muestra chica, el nivel educativo no explica fuertemente el ingreso.

#ESTADO y IPCF: +0.45
#Las personas ocupadas tienen mejores ingresos.

In [None]:
#PARTE 3

In [None]:
# Contamos cuántas personas no respondieron su condición de actividad (ESTADO = 0)
no_respondieron_count = (df_unido["ESTADO"] == 0).sum()
print(f"Cantidad de personas que no respondieron su condición de actividad: {no_respondieron_count}")

# Creamos las bases
respondieron = df_unido[df_unido["ESTADO"] != 0].copy()
norespondieron = df_unido[df_unido["ESTADO"] == 0].copy()

# Verificamos el tamaño de cada base
print(f"Total en base original: {len(df_unido)}")
print(f"Total que respondieron: {len(respondieron)}")
print(f"Total que no respondieron: {len(norespondieron)}")

# Guardamos a Excel
# respondieron.to_excel("respondieron.xlsx", index=False)
# norespondieron.to_excel("norespondieron.xlsx", index=False)

In [None]:
# Agregamos la columna PEA
respondieron["PEA"] = respondieron["ESTADO"].apply(lambda x: 1 if x in [1, 2] else 0)

# Verificamos
print(respondieron[["ESTADO", "PEA"]].head())

In [None]:
# Conteo de PEA por año
pea_counts = respondieron.groupby(["ANO4", "PEA"]).size().unstack()

# Configuración del gráfico
pea_counts.plot(kind="bar", stacked=True, color=["#a6cee3", "#1f78b4"], figsize=(8,5))

plt.title("Composición por PEA - Región NOA (2004 vs 2024)", fontsize=13, weight='bold')
plt.xlabel("Año")
plt.ylabel("Cantidad de personas")
plt.legend(["No PEA (Inactivos)", "PEA (Activos)"], loc="upper left")
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()