# Brecha salarial entre hombres y mujeres

![](https://cdn.prod.website-files.com/5f4f67c5950db17954dd4f52/6422fc2899987b74dc89c4b6_diferencias%20salariales.webp)

## Definición del problema

La brecha de ingresos entre hombres y mujeres es un problema que afecta a las mujeres de todos los países. En  la actualidad hay un debate sobre si la brecha de género es algo del pasado o sigue ocurriendo en la actualidad. Por lo que en el siguiente EDA tiene como finalidad mostrar la brecha de ingresos, si sigue existiendo, y en que sectores laborales hay más diferencias.

### sobre el conjuto de datos:
Este conjunto de datos, recuperado de la Oficina de Estadísticas Laborales, muestra los ingresos semanales medios para 535 ocupaciones diferentes. Los datos abarcan información para todos los ciudadanos estadounidenses que trabajan a partir de enero de 2015. Los ingresos se dividen en estadísticas masculinas y femeninas, precedidas por el ingreso medio total cuando se incluyen ambos géneros. Los datos se han reformateado a partir de la disposición original compatible con PDF para facilitar su limpieza y análisis.

### Preguntas clave
1. ¿Existe diferencia en ingresos entre hombres y mujeres?
2. ¿En que sectores las mujeres los salarios son mas bajos?
3. ¿hay alguna profesion en la que las mujeres ganen mas que los hombres?
4. ¿Hay patrones claros por género a la hora de elegir carreras?
5. ¿Afecta las estructuras patriarcales en la elección de profesión?
6. ¿Las diferencia es por que las mujeres eligen profesiones con salarios más bajos?
7. ¿Que profesión se puede observar una mayor igualdad? ¿Y cual menos?
8. ¿Que factores pueden afectar en la diferencia de salarios?


### Acerca de este archivo


Promedio de ingresos semanales de los trabajadores asalariados a tiempo completo por ocupación detallada y sexo.

-Ocupación: Título del trabajo dado por BLS. Los resúmenes de la industria se dan en MAYÚSCULAS.

-All_workers: Número de trabajadores masculinos y femeninos, en miles.

-All_weekly: Ingresos semanales medios que incluyen a los trabajadores masculinos y femeninos, en USD.

-M_workers: Número de trabajadores masculinos, en miles.

-M_weekly: Ingresos semanales medios para los trabajadores masculinos, en USD.

-F_workers: Número de trabajadoras, en miles.

-F_weekly: Ingresos semanales medios para las trabajadoras, en USD.

## Preparación y Carga de datos

### Librerías

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

### Carga de datos

In [2]:
g=pd.read_csv('/Users/isaromobru/Desktop/DS102024_/eda/inc_occ_gender.csv')

In [3]:
g.info

<bound method DataFrame.info of                                     Occupation  All_workers All_weekly  \
0                              ALL OCCUPATIONS       109080        809   
1                                   MANAGEMENT        12480       1351   
2                             Chief executives         1046       2041   
3              General and operations managers          823       1260   
4                                  Legislators            8         Na   
..                                         ...          ...        ...   
553                  Pumping station operators           18         Na   
554  Refuse and recyclable material collectors           72        501   
555                 Mine shuttle car operators            0         Na   
556          Tank car, truck, and ship loaders            6         Na   
557         Material moving workers, all other           37         Na   

     M_workers M_weekly  F_workers F_weekly  
0        60746      895      4833

In [4]:
g

Unnamed: 0,Occupation,All_workers,All_weekly,M_workers,M_weekly,F_workers,F_weekly
0,ALL OCCUPATIONS,109080,809,60746,895,48334,726
1,MANAGEMENT,12480,1351,7332,1486,5147,1139
2,Chief executives,1046,2041,763,2251,283,1836
3,General and operations managers,823,1260,621,1347,202,1002
4,Legislators,8,Na,5,Na,4,Na
...,...,...,...,...,...,...,...
553,Pumping station operators,18,Na,17,Na,1,Na
554,Refuse and recyclable material collectors,72,501,66,496,6,Na
555,Mine shuttle car operators,0,Na,0,Na,0,Na
556,"Tank car, truck, and ship loaders",6,Na,6,Na,0,Na


In [29]:
# Reemplazar cadenas como 'NaN', 'None', '' con np.nan
g.replace(['Na', 'None', ''], np.nan, inplace=True)

# Ahora verifica los NaN
print(g.isna().sum())


Occupation       0
All_workers      0
All_weekly     236
M_workers        0
M_weekly       326
F_workers        0
F_weekly       366
dtype: int64


In [25]:
print(f"Duplicados: {g.duplicated().sum()}")

Duplicados: 0


In [5]:
g.head(50)

Unnamed: 0,Occupation,All_workers,All_weekly,M_workers,M_weekly,F_workers,F_weekly
0,ALL OCCUPATIONS,109080,809,60746,895,48334,726
1,MANAGEMENT,12480,1351,7332,1486,5147,1139
2,Chief executives,1046,2041,763,2251,283,1836
3,General and operations managers,823,1260,621,1347,202,1002
4,Legislators,8,Na,5,Na,4,Na
5,Advertising and promotions managers,55,1050,29,Na,26,Na
6,Marketing and sales managers,948,1462,570,1603,378,1258
7,Public relations and fundraising managers,59,1557,24,Na,35,Na
8,Administrative services managers,170,1191,96,1451,73,981
9,Computer and information systems managers,636,1728,466,1817,169,1563


In [6]:
g[g['Occupation'].str.isupper()]


Unnamed: 0,Occupation,All_workers,All_weekly,M_workers,M_weekly,F_workers,F_weekly
0,ALL OCCUPATIONS,109080,809,60746,895,48334,726
1,MANAGEMENT,12480,1351,7332,1486,5147,1139
32,BUSINESS,5942,1137,2686,1327,3256,1004
61,COMPUTATIONAL,4009,1428,3036,1503,973,1245
78,ENGINEERING,2656,1424,2272,1452,383,1257
100,SCIENCE,1176,1206,662,1379,514,1067
124,SOCIAL SERVICE,2143,889,776,973,1367,845
133,LEGAL,1346,1391,624,1877,722,1135
139,EDUCATION,6884,956,1849,1144,5034,907
151,ARTS,1643,1001,930,1088,713,942


In [7]:
g[g['Occupation'].str.isupper()].count()[1]


  g[g['Occupation'].str.isupper()].count()[1]


np.int64(23)

### separacion por sectores
Tengo las profesiones separadas en mayusculas por categorías, en total, son 23, no se si hacer 23 diferentes dataframe por sector y estudiarlos uno a uno o si hay alguna otra forma

agruparlo por sectores como en 5 o 6 subgrupos 

## Tratamiento de columnas

In [8]:
g.columns

Index(['Occupation', 'All_workers', 'All_weekly', 'M_workers', 'M_weekly',
       'F_workers', 'F_weekly'],
      dtype='object')

In [9]:
g.rename(columns={'Occupation':'Ocupacion','All_workers':'num_tbj','All_weekly':'ing_sem','M_workers':'num_h','M_weekly':'ing_h','F_workers':'num_m','F_weekly':'ing_m'})

Unnamed: 0,Ocupacion,num_tbj,ing_sem,num_h,ing_h,num_m,ing_m
0,ALL OCCUPATIONS,109080,809,60746,895,48334,726
1,MANAGEMENT,12480,1351,7332,1486,5147,1139
2,Chief executives,1046,2041,763,2251,283,1836
3,General and operations managers,823,1260,621,1347,202,1002
4,Legislators,8,Na,5,Na,4,Na
...,...,...,...,...,...,...,...
553,Pumping station operators,18,Na,17,Na,1,Na
554,Refuse and recyclable material collectors,72,501,66,496,6,Na
555,Mine shuttle car operators,0,Na,0,Na,0,Na
556,"Tank car, truck, and ship loaders",6,Na,6,Na,0,Na


In [43]:
g.dtypes

Occupation     object
All_workers     int64
All_weekly     object
M_workers       int64
M_weekly       object
F_workers       int64
F_weekly       object
dtype: object

In [None]:
#df3= dropna(tresh=5,inplace=True)

In [12]:
g.describe()

Unnamed: 0,All_workers,M_workers,F_workers
count,558.0,558.0,558.0
mean,586.458781,326.59319,259.831541
std,4758.979138,2654.600532,2142.551053
min,0.0,0.0,0.0
25%,21.0,11.0,3.0
50%,67.0,33.5,18.0
75%,253.0,121.75,84.0
max,109080.0,60746.0,48334.0
