<a href="https://colab.research.google.com/github/Fabrizioocampo/prueba1/blob/main/Trabajo_Diplo_Cs_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img
     src="https://drive.google.com/uc?export=view&id=1NZbT08OriQQsnd89332TVQ8IuIqfq4aq"
     alt="pypl"
     width=80%
     height=80%>
</p>

En el presente trabajo elegimos trabajar con la Encuesta Permanente de Hogares (EPH, 4° Trim. 2023), es un programa nacional de producción permanente de indicadores sociales cuyo objetivo es conocer las características socioeconómicas de la población.

Nos enfocamos especialmente en el tema de empleabilidad, entendemos que el acceso al empleo, la calidad del trabajo y las desigualdades en el mercado laboral son problemas centrales para las familias y el desarrollo social del país.

La EPH nos permite abordar preguntas clave sobre cómo influyen factores como la educación, el género, la edad, el contexto de residencia y el ingreso en las posibilidades de acceso al trabajo y las diferencias entre grupos sociales.

A través de este trabajo, buscamos:

- Comprender los determinantes de la empleabilidad en el Gran Buenos Aires.
- Identificar desigualdades y brechas en el mercado de trabajo.
- Desarrollar nuestras capacidades como analistas de datos, integrando teoría y práctica, y aprendiendo a razonar y trabajar en equipo ante un desafío real.


##Carga de base de datos


In [1]:
from google.colab import drive
drive.mount('/content/drive')

MessageError: Error: credential propagation was unsuccessful

In [None]:
# Cargamos la base de datos
import pandas as pd
from zipfile import ZipFile
import requests
from io import BytesIO
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.ticker import FuncFormatter

# URL del archivo ZIP
url_zip = "https://www.indec.gob.ar/ftp/cuadros/menusuperior/eph/EPH_usu_4_Trim_2024_txt.zip"

# Descargar el archivo ZIP
response = requests.get(url_zip)

# Leer el archivo ZIP
with ZipFile(BytesIO(response.content)) as zip_file:
    files = zip_file.namelist()
    print("Archivos en el ZIP:", files)

    # Elegimos el archivo individual
    selected_file = 'usu_individual_T424.txt'

    # Leer el archivo CSV
    with zip_file.open(selected_file) as csv_file:
        df = pd.read_csv(csv_file, sep=";", encoding='latin1')

Archivos en el ZIP: ['usu_hogar_T424.txt', 'usu_individual_T424.txt']


  df = pd.read_csv(csv_file, sep=";", encoding='latin1')


## Análisis Exploratorio de los datos

In [None]:
#Veamos las primeras diez filas:
df.head(10)

Unnamed: 0,CODUSU,ANO4,TRIMESTRE,NRO_HOGAR,COMPONENTE,H15,REGION,MAS_500,AGLOMERADO,PONDERA,...,V21_03_M,V22_01_M,V22_02_M,V22_03_M,P_DECCF,P_RDECCF,P_GDECCF,P_PDECCF,P_IDECCF,P_ADECCF
0,TQRMNORTSHJKLMCDEHPJB00872828,2024,4,1,2,1,40,S,29,384,...,0,70000.0,0.0,0.0,8.0,9.0,8.0,,8.0,10.0
1,TQRMNOSRQHJLLNCDEHPJB00872829,2024,4,1,1,1,40,S,29,265,...,0,0.0,0.0,0.0,,,,,,
2,TQRMNOSRQHJLLNCDEHPJB00872829,2024,4,1,2,1,40,S,29,265,...,0,0.0,0.0,0.0,,,,,,
3,TQRMNOSQTHMKLQCDEHPJB00872830,2024,4,1,1,1,40,S,29,380,...,0,0.0,0.0,0.0,9.0,10.0,9.0,,9.0,10.0
4,TQRMNOSQTHMKLQCDEHPJB00872830,2024,4,1,2,1,40,S,29,380,...,0,0.0,0.0,0.0,9.0,10.0,9.0,,9.0,10.0
5,TQRMNOPYTHLMKOCDEIHJF00854747,2024,4,1,1,1,44,N,31,226,...,0,0.0,0.0,0.0,10.0,9.0,,10.0,10.0,9.0
6,TQRMNOPYTHLMKOCDEIHJF00854747,2024,4,1,2,1,44,N,31,226,...,0,0.0,0.0,0.0,10.0,9.0,,10.0,10.0,9.0
7,TQRMNOPYTHLMKOCDEIHJF00854747,2024,4,1,3,1,44,N,31,226,...,0,0.0,0.0,0.0,10.0,9.0,,10.0,10.0,9.0
8,TQRMNOPYTHLMKOCDEIHJF00854747,2024,4,1,4,1,44,N,31,226,...,0,0.0,0.0,0.0,10.0,9.0,,10.0,10.0,9.0
9,TQRMNOPYTHLMKOCDEIHJF00854747,2024,4,1,5,0,44,N,31,226,...,0,0.0,0.0,0.0,10.0,9.0,,10.0,10.0,9.0


In [None]:
#Veamos algunas observaciones:
df.sample(10)

Unnamed: 0,CODUSU,ANO4,TRIMESTRE,NRO_HOGAR,COMPONENTE,H15,REGION,MAS_500,AGLOMERADO,PONDERA,...,V21_03_M,V22_01_M,V22_02_M,V22_03_M,P_DECCF,P_RDECCF,P_GDECCF,P_PDECCF,P_IDECCF,P_ADECCF
31124,TQRMNOQTPHKMKMCDEGKDB00872221,2024,4,1,3,1,43,N,14,113,...,0,0.0,0.0,0.0,5.0,4.0,,5.0,5.0,6.0
45456,TQSMNOPXPHKNKSCDEGGFB00877578,2024,4,1,1,1,42,S,10,741,...,0,0.0,0.0,0.0,2.0,2.0,2.0,,2.0,2.0
21940,TQRMNOQUWHLMKQCDEFJAH00851663,2024,4,1,2,1,43,N,3,285,...,0,0.0,0.0,0.0,,,,,,
42362,TQRMNOSUPHJOKNCDEGNFJ00877407,2024,4,1,1,1,44,N,17,315,...,0,0.0,0.0,0.0,,,,,,
29391,TQRMNOSURHMOLLCDEHPJB00811520,2024,4,1,2,1,40,S,29,429,...,0,0.0,0.0,0.0,,,,,,
8496,TQRMNOQRTHJMLMCDEIOAH00873375,2024,4,1,2,1,43,N,38,87,...,0,0.0,0.0,0.0,,,,,,
24923,TQRMNORTSHLNLMCDEIMBF00855873,2024,4,1,2,1,43,N,36,103,...,0,0.0,0.0,0.0,,,,,,
931,TQRMNOPWVHJOKMCDEGJBF00872538,2024,4,1,1,1,43,S,13,1057,...,0,0.0,0.0,70000.0,5.0,4.0,5.0,,5.0,4.0
23091,TQRMNOSRYHJOLPCDEHLEH00874883,2024,4,1,1,1,40,N,25,214,...,0,0.0,0.0,0.0,2.0,2.0,,2.0,2.0,2.0
34576,TQRMNOPPTHKMKPCDEOHCH00876293,2024,4,1,3,1,44,N,91,171,...,0,0.0,0.0,0.0,8.0,7.0,,9.0,8.0,7.0


In [None]:
#Vemos el nombre de las variables y su tipo, asi como la dimensión del data frame:
from re import VERBOSE
df.info(verbose=True)
# El dataframe cuenta con 46860 registros y 235 columnas, de las cuales float64 (166), int64(59), object(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46860 entries, 0 to 46859
Data columns (total 235 columns):
 #    Column      Dtype  
---   ------      -----  
 0    CODUSU      object 
 1    ANO4        int64  
 2    TRIMESTRE   int64  
 3    NRO_HOGAR   int64  
 4    COMPONENTE  int64  
 5    H15         int64  
 6    REGION      int64  
 7    MAS_500     object 
 8    AGLOMERADO  int64  
 9    PONDERA     int64  
 10   CH03        int64  
 11   CH04        int64  
 12   CH05        int64  
 13   CH06        int64  
 14   CH07        int64  
 15   CH08        int64  
 16   CH09        int64  
 17   CH10        int64  
 18   CH11        int64  
 19   CH12        int64  
 20   CH13        int64  
 21   CH14        float64
 22   CH15        int64  
 23   CH15_COD    float64
 24   CH16        int64  
 25   CH16_COD    float64
 26   NIVEL_ED    int64  
 27   ESTADO      int64  
 28   CAT_OCUP    int64  
 29   CAT_INAC    int64  
 30   IMPUTA      float64
 31   PP02C1      int64  
 32   

In [None]:
# Hacemos una limpieza de las variables, nos quedamos con aquellas variables que consideramos relevantes para determinar el modelo.
columns_to_keep = [
    'REGION', 'AGLOMERADO', 'ITF', 'PONDERADOR', 'CH04', 'CH05', 'CH06',
    'CH09', 'CH10', 'CH13', 'CH15_COD', 'NIVEL_ED', 'ESTADO', 'CAT_OCUP',
    'CAT_INAC', 'INTENSI', 'PP05C_1', 'PP05C_2', 'PP05C_3', 'PP04G',
    'PP05H', 'PP06C', 'PP06D', 'PP07C', 'PP07D', 'PP07G_59', 'PP10A',
    'PP10C', 'PP11L', 'ANO4', 'TRIMESTRE'
]


In [None]:
# Eliminar las columnas que no están en la lista `columns_to_keep`
# Creamos una copia del DataFrame para no modificar el original directamente si no es deseado
df_eph_filtered = df_eph.copy()

# Identificamos las columnas a eliminar
columns_to_drop = [col for col in df_eph_filtered.columns if col not in columns_to_keep]

# Eliminamos las columnas
df_eph_filtered = df_eph_filtered.drop(columns=columns_to_drop)

# Mostrar información del DataFrame resultante para verificar
print(f"Número total de columnas en el DataFrame original: {df_eph.shape[1]}")
print(f"Número de columnas después de la eliminación: {df_eph_filtered.shape[1]}")
print("Primeras 5 filas del DataFrame con columnas seleccionadas:")
print(df_eph_filtered.head())
print("\nColumnas restantes en el DataFrame:")
print(df_eph_filtered.columns.tolist())

Número total de columnas en el DataFrame original: 235
Número de columnas después de la eliminación: 30
Primeras 5 filas del DataFrame con columnas seleccionadas:
   ANO4  TRIMESTRE  REGION  AGLOMERADO  CH04   CH05  CH06  CH09  CH10  CH13  \
0  2024          4      40          29     1  16518    79     1     2     1   
1  2024          4      40          29     2  37200    23     1     1     2   
2  2024          4      40          29     2  38048    20     1     1     2   
3  2024          4      40          29     1  34355    30     1     2     1   
4  2024          4      40          29     2  34379    30     1     2     1   

   ...  PP05H  PP06C  PP06D  PP07C  PP07D  PP07G_59  PP10A  PP10C  PP11L  \
0  ...    NaN    NaN    NaN    NaN    NaN       NaN    NaN    NaN    NaN   
1  ...    NaN    NaN    NaN    NaN    NaN       NaN    NaN    NaN    NaN   
2  ...    NaN    NaN    NaN    NaN    NaN       NaN    NaN    NaN    NaN   
3  ...    0.0    0.0    0.0    2.0    0.0       0.0    NaN

In [None]:
print(" Renombrando columnas a nombres más sencillos...")

nombres_nuevos = {
    'REGION': 'Region',
    'AGLOMERADO': 'Aglomerado',
    'ITF': 'Ingreso_Familiar',
    'PONDERADOR': 'Ponderador',
    'CH04': 'Sexo',
    'CH05': 'Edad',
    'CH06': 'Estado_Civil',
    'CH09': 'Parentesco',
    'CH10': 'Nivel_Educativo_Detalle',
    'CH13': 'Condicion_Actividad_EPH',
    'CH15_COD': 'Pais_Nacimiento',
    'NIVEL_ED': 'Nivel_Educativo_Agrupado',
    'ESTADO': 'Situacion_Actividad_Original',
    'CAT_OCUP': 'Categoria_Ocupacion',
    'CAT_INAC': 'Motivo_Inactividad',
    'INTENSI': 'Intensidad_Ocupacion',
    'PP04G': 'Anios_Experiencia_Laboral',
    'PP05C_1': 'Cantidad_Trabajos',
    'PP05C_2': 'Tareas_Ocupacion',
    'PP05C_3': 'Calificacion_Ocupacion',
    'PP05H': 'Horas_Trabajadas_Semana',
    'PP06C': 'Tipo_Establecimiento',
    'PP06D': 'Sector_Actividad',
    'PP07C': 'Ingreso_Ocupacion_Principal',
    'PP07D': 'Horas_Extras_Principal',
    'PP07H': 'Aportes_Jubilatorios',
    'PP07G_59': 'Obra_Social_Cobertura',
    'PP10A': 'Antiguedad_Puesto_Actual',
    'PP10C': 'Cambio_Puesto_Ultimo_Anio',
    'PP11L': 'Rama_Actividad_CIUO',
    'ANO4': 'Anio_Encuesta',
    'TRIMESTRE': 'Trimestre_Encuesta'
}

df_eph_filtered.rename(columns=nombres_nuevos, inplace=True)

print("\nColumnas renombradas en el DataFrame final:")
print(df_eph_filtered.columns.tolist())
print("\nPrimeras 5 filas del DataFrame 'df_eph_informalidad' final:")
print(df_eph_filtered.head())


print("\nProceso de preparación de datos finalizado.")

 Renombrando columnas a nombres más sencillos...

Columnas renombradas en el DataFrame final:
['Anio_Encuesta', 'Trimestre_Encuesta', 'Region', 'Aglomerado', 'Sexo', 'Edad', 'Estado_Civil', 'Parentesco', 'Nivel_Educativo_Detalle', 'Condicion_Actividad_EPH', 'Pais_Nacimiento', 'Nivel_Educativo_Agrupado', 'Situacion_Actividad_Original', 'Categoria_Ocupacion', 'Motivo_Inactividad', 'Intensidad_Ocupacion', 'Anios_Experiencia_Laboral', 'Cantidad_Trabajos', 'Tareas_Ocupacion', 'Calificacion_Ocupacion', 'Horas_Trabajadas_Semana', 'Tipo_Establecimiento', 'Sector_Actividad', 'Ingreso_Ocupacion_Principal', 'Horas_Extras_Principal', 'Obra_Social_Cobertura', 'Antiguedad_Puesto_Actual', 'Cambio_Puesto_Ultimo_Anio', 'Rama_Actividad_CIUO', 'Ingreso_Familiar']

Primeras 5 filas del DataFrame 'df_eph_informalidad' final:
   Anio_Encuesta  Trimestre_Encuesta  Region  Aglomerado  Sexo   Edad  \
0           2024                   4      40          29     1  16518   
1           2024                   4  

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46860 entries, 0 to 46859
Columns: 235 entries, CODUSU to P_ADECCF
dtypes: float64(166), int64(59), object(10)
memory usage: 84.0+ MB


In [None]:
print("Filtrando el DataFrame para mostrar solo los resultados del Gran Buenos Aires...")

# Lista de aglomerados que corresponden al Gran Buenos Aires (incluyendo CABA)
aglomerados_gba = [32, 33]

# Seleccionamos las filas donde la columna 'Aglomerado' esté dentro de nuestra lista aglomerados_gba
df_gba = df_eph_informalidad[df_eph_informalidad['Aglomerado'].isin(aglomerados_gba)].copy()

print(f"\nDataFrame filtrado para Gran Buenos Aires. Filas: {df_gba.shape[0]}, Columnas: {df_gba.shape[1]}")
print("Primeras 5 filas del DataFrame para Gran Buenos Aires:")
print(df_gba.head())
print("\nVerificación de Aglomerados en el nuevo DataFrame (deberían ser solo 32 y 33):")
print(df_gba['Aglomerado'].value_counts(dropna=False))

Filtrando el DataFrame para mostrar solo los resultados del Gran Buenos Aires...


NameError: name 'df_eph_informalidad' is not defined

Conjunto filtrado op