# Brecha Salarial de Género en Argentina

Este proyecto fue realizado por el grupo 15 constituido por Daniela Ferraro y Jorgelina Sigal. Se utilizó un conjunto de datos provenientes del Ministerio de Trabajo, Empleo y Seguridad Social que contiene información sobre las remuneraciones en Argentina, desagregadas por género, tipo de industria y fecha. El objetivo es analizar las brechas salariales de género y su evolución. 

### Dataset
https://www.trabajo.gob.ar/estadisticas/oede/empleoyremuneracion.asp

### Contenido del dataset
#### Periodo: 
Indica año y mes al que corresponde la remuneración.
#### Industria: 
Nombre del sector o rama de actividad económica.
#### Género: 
Género del grupo de trabajadores al que pertenece la remuneración.
#### Mujer: 
Variable binaria (1 o 0) toma el valor 1 si es mujer, 0 si no. Útil para análisis estadístico, modelos y gráficos.
#### Varon: 
Variable binaria (1 o 0) toma el valor 1 si es varón, 0 si no. Útil para análisis estadístico, modelos y gráficos.
#### Remuneración: 
Remuneración promedio mensual para ese sector, género y período (en pesos argentinos).


### Objetivo general
Analizar la evolución de la remuneración media del empleo registrado en el sector privado en Argentina, según rama de actividad y sexo, en el período comprendido entre enero de 1996 y octubre de 2022, utilizando herramientas de data science, con el fin de identificar patrones, desigualdades y tendencias vinculadas a la brecha salarial de género en el mundo laboral.

### Objetivos específicos
- Procesar y limpiar el conjunto de datos proporcionado mediante herramientas de data science, utilizando bibliotecas como pandas para su análisis exploratorio.

- Describir la evolución temporal de la remuneración media del empleo registrado en el sector privado, diferenciando por sexo y rama de actividad (según el CIIU rev. 3 a dos dígitos).

- Comparar las trayectorias salariales entre varones y mujeres en los distintos sectores de actividad, identificando las ramas con mayores y menores brechas de género.

- Visualizar los resultados mediante gráficos que faciliten la comprensión de las desigualdades salariales en el período analizado.

- Reflexionar sobre las implicancias sociales y económicas de las desigualdades de género en el mundo laboral formal, a partir de los hallazgos del análisis de datos.

### Tecnologías
- Python 3
- Pandas
- Jupyter Notebook
- Visual Studio Code
- Matplotlib 
- Seaborn

In [1]:
import pandas as pd

## Transformación del dataset de remuneraciones

1. Se parte de un dataset reducido para facilitar el análisis y tener un objetivo claro (hoja tanto del dataset original).
2. Se convierte el dataset de formato horizontal a vertical.
3. Se extraen encabezados que estaban en múltiples filas.
4. Se ajustan nombres de columnas y se separan variables combinadas.
5. Se guarda el resultado limpio en un nuevo archivo CSV.


In [None]:
# Lectura del archivo original sin encabezado
remuneracion = pd.read_csv('Remuneraciones (1).csv',header=None)
# Extracción de encabezados
industria_header = remuneracion.iloc[0]
genero_header = remuneracion.iloc[1]
# Eliminación de las primeras filas y reset de índice
remuneracion_data = remuneracion.iloc[2:].reset_index(drop=True)
# Agrupación de columnas como tuplas
remuneracion_data.columns = pd.MultiIndex.from_arrays([industria_header, genero_header])
# Transformación de columnas multiindex a texto simple
remuneracion_data.columns = [
    "Periodo" if i == 0 else f"{col[0]}_{col[1]}" 
    for i, col in enumerate(remuneracion_data.columns)
]
# Transformación de horizontal a vertical
remuneraciones = remuneracion_data.melt(id_vars='Periodo', var_name='Industria_Genero', value_name='Valor')
# Separación de columna combinada
remuneraciones[['Industria', 'Genero']] = remuneraciones['Industria_Genero'].str.split('_', expand=True)
# Reordenación
remuneraciones = remuneraciones[['Periodo', 'Industria', 'Genero', 'Valor']]
# Creación de nuevo archivo
remuneraciones.to_csv("Rem2.csv", index=False)

## Exploración de los datos

In [None]:
# Muestra las primeras 5 filas
print(remuneraciones.head())

  Periodo                Industria   Genero  Valor
0  ene-96  agricultura y ganaderia  Mujeres  380.2
1  feb-96  agricultura y ganaderia  Mujeres  406.8
2  mar-96  agricultura y ganaderia  Mujeres  399.7
3  abr-96  agricultura y ganaderia  Mujeres  375.9
4  may-96  agricultura y ganaderia  Mujeres  395.6


In [None]:
# Devuelve un objeto Index con los nombres
print(remuneraciones.columns)

Index(['Periodo', 'Industria', 'Genero', 'Valor'], dtype='object')


In [None]:
# Muestra el tipo de dato de cada columna
print(remuneraciones.dtypes)

Periodo      object
Industria    object
Genero       object
Valor        object
dtype: object


In [None]:
# Incluye cantidad de datos no nulos y tipos
print(remuneraciones.info)

<bound method DataFrame.info of       Periodo                Industria   Genero     Valor
0      ene-96  agricultura y ganaderia  Mujeres     380.2
1      feb-96  agricultura y ganaderia  Mujeres     406.8
2      mar-96  agricultura y ganaderia  Mujeres     399.7
3      abr-96  agricultura y ganaderia  Mujeres     375.9
4      may-96  agricultura y ganaderia  Mujeres     395.6
...       ...                      ...      ...       ...
36703  jun-22              sin definir  Varones    129089
36704  jul-22              sin definir  Varones   92970.8
36705  ago-22              sin definir  Varones  106303.9
36706  sep-22              sin definir  Varones  117695.4
36707  oct-22              sin definir  Varones  129083.9

[36708 rows x 4 columns]>


In [7]:
# Estadisticas descriptivas 
print(remuneraciones.describe())


       Periodo                Industria   Genero  Valor
count    36708                    36708    36708  36708
unique     322                       57        2  30860
top     oct-22  agricultura y ganaderia  Mujeres  536.7
freq       114                      644    18354      7


In [8]:
# Valores nulos o faltantes
print(remuneraciones.isnull().sum())

Periodo      0
Industria    0
Genero       0
Valor        0
dtype: int64
