In [None]:
from google.colab import files
uploaded = files.upload()  # Esto abrirá un cuadro para que subas los archivos


Saving Individual_t104.dta to Individual_t104.dta


In [None]:
from google.colab import files
uploaded = files.upload()  # Esto abrirá un cuadro para que subas los archivos


Saving usu_individual_T124.xlsx to usu_individual_T124.xlsx


In [None]:
import pandas as pd

# Leer la base de datos para 2024 (archivo .xls)
df_2024 = pd.read_excel('usu_individual_T124.xls')

# Leer la base de datos para 2004 (archivo .dta)
df_2004 = pd.read_stata('Individual_t104.dta')

In [None]:
# Revisión de las primeras filas de ambos dataframes
print(df_2024.head())  # Para 2024
print(df_2004.head())  # Para 2004

In [None]:
# Filtrar las observaciones para CABA y GBA en 2024
df_2024_caba_gba = df_2024[df_2024['zona'].isin(['CABA', 'GBA'])]

# Filtrar las observaciones para CABA y GBA en 2004
df_2004_caba_gba = df_2004[df_2004['zona'].isin(['CABA', 'GBA'])]

In [None]:
# Unir ambos trimestres
df_unido = pd.concat([df_2004_caba_gba, df_2024_caba_gba], axis=0)

In [None]:
# Eliminar observaciones con ingresos y edades negativas
df_limpio = df_unido[(df_unido['ingreso'] >= 0) & (df_unido['edad'] >= 0)]

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Crear gráficos de barras por sexo
plt.figure(figsize=(10, 6))

# Para el año 2004
df_2004_sexo = df_2004_caba_gba['sexo'].value_counts()
sns.barplot(x=df_2004_sexo.index, y=df_2004_sexo.values, color='skyblue', label='2004')

# Para el año 2024
df_2024_sexo = df_2024_caba_gba['sexo'].value_counts()
sns.barplot(x=df_2024_sexo.index, y=df_2024_sexo.values, color='orange', label='2024')

plt.title('Composición por sexo en 2004 y 2024')
plt.xlabel('Sexo')
plt.ylabel('Cantidad de personas')
plt.legend(title='Año')
plt.show()

In [None]:
# Selección de columnas
variables = ['CH04', 'CH06', 'CH07', 'CH08', 'NIVEL ED', 'ESTADO', 'CAT_INAC', 'IPCF']

# Matriz de correlación para 2004
corr_2004 = df_2004_caba_gba[variables].corr()

# Matriz de correlación para 2024
corr_2024 = df_2024_caba_gba[variables].corr()

# Graficar las matrices de correlación
plt.figure(figsize=(12, 8))

# Correlación 2004
plt.subplot(1, 2, 1)
sns.heatmap(corr_2004, annot=True, cmap='coolwarm', fmt='.2f', vmin=-1, vmax=1)
plt.title('Matriz de correlación 2004')

# Correlación 2024
plt.subplot(1, 2, 2)
sns.heatmap(corr_2024, annot=True, cmap='coolwarm', fmt='.2f', vmin=-1, vmax=1)
plt.title('Matriz de correlación 2024')

plt.tight_layout()
plt.show()


In [None]:
# Contar los desocupados e inactivos
desocupados = df_limpio[df_limpio['estado'] == 'desocupado'].shape[0]
inactivos = df_limpio[df_limpio['estado'] == 'inactivo'].shape[0]

# Calcular la media de IPCF por estado
media_ipcf = df_limpio.groupby('estado')['IPCF'].mean()

# Resultados
print(f"Desocupados: {desocupados}")
print(f"Inactivos: {inactivos}")
print(f"Media de IPCF por estado:\n{media_ipcf}")


In [None]:
# Filtrar las observaciones donde respondieron la condición de actividad
respondieron = df_limpio[df_limpio['ESTADO'] != 0]

# Filtrar las observaciones donde no respondieron la condición de actividad
norespondieron = df_limpio[df_limpio['ESTADO'] == 0]

# Ver el número de personas que no respondieron
print(f"Cantidad de personas que no respondieron: {norespondieron.shape[0]}")


In [None]:
# Revisar los valores únicos de la columna ESTADO
print(df_limpio['ESTADO'].unique())


In [None]:
# Agregar la columna PEA (Población Económicamente Activa)
respondieron['PEA'] = respondieron['ESTADO'].apply(lambda x: 1 if x in [1, 2] else 0)

# Ver las primeras filas para comprobar
respondieron[['ESTADO', 'PEA']].head()


In [None]:
# Gráfico de barras por PEA para 2004 y 2024
plt.figure(figsize=(10, 6))

# Composición PEA para 2004
df_2004_pea = respondieron[respondieron['PEA'] == 1].shape[0]
sns.barplot(x=["2004"], y=[df_2004_pea], color='skyblue', label='2004')

# Composición PEA para 2024
df_2024_pea = respondieron[respondieron['PEA'] == 1].shape[0]
sns.barplot(x=["2024"], y=[df_2024_pea], color='orange', label='2024')

plt.title('Composición de la Población Económicamente Activa (PEA) en 2004 y 2024')
plt.xlabel('Año')
plt.ylabel('Cantidad de personas en PEA')
plt.legend(title='Año')
plt.show()


In [None]:
# Agregar la columna PET (Población en Edad para Trabajar)
respondieron['PET'] = respondieron['edad'].apply(lambda x: 1 if 15 <= x <= 65 else 0)

# Ver las primeras filas para comprobar
respondieron[['edad', 'PET']].head()


In [None]:
# Gráfico de barras por PET para 2004 y 2024
plt.figure(figsize=(10, 6))

# Composición PET para 2004
df_2004_pet = respondieron[respondieron['PET'] == 1].shape[0]
sns.barplot(x=["2004"], y=[df_2004_pet], color='lightgreen', label='2004')

# Composición PET para 2024
df_2024_pet = respondieron[respondieron['PET'] == 1].shape[0]
sns.barplot(x=["2024"], y=[df_2024_pet], color='yellow', label='2024')

plt.title('Composición de la Población en Edad para Trabajar (PET) en 2004 y 2024')
plt.xlabel('Año')
plt.ylabel('Cantidad de personas en PET')
plt.legend(title='Año')
plt.show()


In [None]:
# Comparación de las proporciones de PEA y PET para 2004 y 2024
pea_pet_comparison_2004 = df_2004_pea / df_2004_pet
pea_pet_comparison_2024 = df_2024_pea / df_2024_pet

print(f"Proporción PEA/PET en 2004: {pea_pet_comparison_2004:.2f}")
print(f"Proporción PEA/PET en 2024: {pea_pet_comparison_2024:.2f}")


In [None]:
# Agregar la columna desocupado
respondieron['desocupado'] = respondieron['ESTADO'].apply(lambda x: 1 if x == 2 else 0)

# Verificar las primeras filas para asegurarse de que la columna está correctamente añadida
respondieron[['ESTADO', 'desocupado']].head()


In [None]:
# Calcular desocupados en 2004
desocupados_2004 = respondieron_2004[respondieron_2004['desocupado'] == 1].shape[0]

# Calcular desocupados en 2024
desocupados_2024 = respondieron_2024[respondieron_2024['desocupado'] == 1].shape[0]

# Mostrar los resultados
print(f"Cantidad de desocupados en 2004: {desocupados_2004}")
print(f"Cantidad de desocupados en 2024: {desocupados_2024}")


In [None]:
# Agrupar por nivel educativo y calcular la proporción de desocupados en cada grupo para 2004
desocupados_educacion_2004 = respondieron_2004.groupby('NIVEL_ED')['desocupado'].mean()

# Agrupar por nivel educativo y calcular la proporción de desocupados en cada grupo para 2024
desocupados_educacion_2024 = respondieron_2024.groupby('NIVEL_ED')['desocupado'].mean()

# Graficar la comparación de las proporciones
plt.figure(figsize=(12, 6))

# Para 2004
sns.barplot(x=desocupados_educacion_2004.index, y=desocupados_educacion_2004.values, color='skyblue', label='2004')

# Para 2024
sns.barplot(x=desocupados_educacion_2024.index, y=desocupados_educacion_2024.values, color='orange', label='2024')

plt.title('Proporción de Desocupados por Nivel Educativo (2004 vs 2024)')
plt.xlabel('Nivel Educativo')
plt.ylabel('Proporción de Desocupados')
plt.legend(title='Año')
plt.xticks(rotation=45)
plt.show()


In [None]:
# Crear la variable de edad agrupada en rangos de 10 años
respondieron['edad_grupo'] = pd.cut(respondieron['CH06'], bins=range(15, 76, 10), right=False, labels=["15-24", "25-34", "35-44", "45-54", "55-64"])

# Verificar los primeros valores
respondieron[['CH06', 'edad_grupo']].head()


In [None]:
# Proporción de desocupados por edad para 2004
desocupados_edad_2004 = respondieron_2004.groupby('edad_grupo')['desocupado'].mean()

# Proporción de desocupados por edad para 2024
desocupados_edad_2024 = respondieron_2024.groupby('edad_grupo')['desocupado'].mean()

# Graficar la comparación de las proporciones
plt.figure(figsize=(12, 6))

# Para 2004
sns.barplot(x=desocupados_edad_2004.index, y=desocupados_edad_2004.values, color='lightgreen', label='2004')

# Para 2024
sns.barplot(x=desocupados_edad_2024.index, y=desocupados_edad_2024.values, color='yellow', label='2024')

plt.title('Proporción de Desocupados por Grupo de Edad (2004 vs 2024)')
plt.xlabel('Grupo de Edad')
plt.ylabel('Proporción de Desocupados')
plt.legend(title='Año')
plt.show()


In [None]:
# Calcular tasa de desocupación para 2004
tasa_desocupacion_2004 = (desocupados_2004 / df_2004_pea) * 100

# Calcular tasa de desocupación para 2024
tasa_desocupacion_2024 = (desocupados_2024 / df_2024_pea) * 100

# Mostrar las tasas de desocupación
print(f"Tasa de desocupación INDEC 2004: {tasa_desocupacion_2004:.2f}%")
print(f"Tasa de desocupación INDEC 2024: {tasa_desocupacion_2024:.2f}%")


In [None]:
# Calcular tasa alternativa de desocupación para 2004
tasa_desocupacion_alt_2004 = (desocupados_2004 / df_2004_pet) * 100

# Calcular tasa alternativa de desocupación para 2024
tasa_desocupacion_alt_2024 = (desocupados_2024 / df_2024_pet) * 100

# Mostrar las tasas alternativas de desocupación
print(f"Tasa alternativa de desocupación 2004: {tasa_desocupacion_alt_2004:.2f}%")
print(f"Tasa alternativa de desocupación 2024: {tasa_desocupacion_alt_2024:.2f}%")


In [None]:
# Crear un DataFrame para comparar las tasas
tasa_comparacion = pd.DataFrame({
    'Tasa INDEC': [tasa_desocupacion_2004, tasa_desocupacion_2024],
    'Tasa Alternativa': [tasa_desocupacion_alt_2004, tasa_desocupacion_alt_2024]
}, index=['2004', '2024'])

print(tasa_comparacion)
