# Brecha Salarial en ciencia de datos entre Mujeres y Hombres de Kaggle: Un reflejo de la desigualdad social en pleno siglo XXI



El mundo entero sabe y reconoce que hay una brecha salarial entre los
hombres y las mujeres, lo que reafirma la desigualdad que existe entre
los dos sexos. Esta desigualdad salarial se revela mayormente en
profesiones y labores que tienen que ver con la tecnología y la ciencia de
datos, entre otros. Las estadísticas de la mayoría de países así lo demuestran, por ejemplo
en Francia la diferencia existente entre el salario de ambos sexos es 9%
mayor en hombres frente a las mujeres, trabajando en los mismos
puestos. Situación similar ocurre en Alemania, donde está demostrado
que las mujeres ganan en promedio 21% menos que los hombres, y aun
cuando hay leyes intentando disminuir esta brecha salarial (por ejemplo,
las empresas deben brindar información del salario de hombres y
mujeres haciendo las mismas labores a quien lo solicite), esta
desigualdad salarial continúa.

En México, la brecha en los salarios entre ambos sexos es del 16,7% a
favor de los hombres, mayor que el promedio de los 35 países de la
OCDE, mientras que en Argentina la brecha salarial ronda el 25% entre
hombres y mujeres, a favor de los primeros.
En Rusia las mujeres ganan en promedio un 26% menos que los hombres
que ejercen trabajos similares y un bajísimo porcentaje llega a ocupar
cargos de poder.

A diferencia de la gran mayoría de países del mundo en algunos países
nórdicos no hay brecha salarial entre hombres y mujeres; en este sentido
en primer lugar está Islandia, donde es ilegal pagarle menos a una u otra
persona si ambos están realizando el mismo trabajo.
Según el Foro Económico Mundial en Sudáfrica la brecha salarial ha
fluctuado entre el 15 y el 18% en los últimos 50 años; sin embargo, datos
de la empresa Stats SA en su último estudio apunta a que la brecha en
este país es del 23%.

En Estados Unidos la brecha salarial que existe entre hombres y mujeres
es del 20% y aun cuando ha habido varias iniciativas para cerrar esta
brecha, estas no han logrado disminuir efectivamente esta desigualdad.
Los anteriores datos reflejan la realidad de un mundo aún dominado por
los hombres, quienes hacen las leyes para su conveniencia, en detrimento
de la capacidad y potencial de crecimiento de las mujeres.
Sin embargo, poco a poco, la mujer ha ido ganando escaños en todos los
espacios laborales y de poder y ha luchado por disminuir esas brechas, lo
que ha permitido que ellas aporten cada vez más a la construcción de una
sociedad más justa, incluyente y próspera.

A raíz de esto, estudiaremos la brecha salarial que existe entre mujeresy hombres que se encuentran dentro los usuarios de Kaggle, nos enfocaremos en los casos de países como India y Estados Unidos.

In [100]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns
import math
import numpy as np
import statsmodels.api as sm
import pandas.plotting
from sklearn import linear_model


## Limpieza de Datos

Para mostrar efectivamente la brecha de salario que existe entre hombres y mujeres de Kaggle, consideramos el caso de países como la India y los Estados Unidos. Tomaremos ciertas variables que consideramos significativas a la hora de establecer un salario, tales como: nivel máximo de educación, número de años de experiencia y carrera universitaria.

In [22]:
data = pd.read_csv('multipleChoiceResponses.csv')
data[0:4]

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,Time from Start to Finish (seconds),Q1,Q1_OTHER_TEXT,Q2,Q3,Q4,Q5,Q6,Q6_OTHER_TEXT,Q7,...,Q49_OTHER_TEXT,Q50_Part_1,Q50_Part_2,Q50_Part_3,Q50_Part_4,Q50_Part_5,Q50_Part_6,Q50_Part_7,Q50_Part_8,Q50_OTHER_TEXT
0,Duration (in seconds),What is your gender? - Selected Choice,What is your gender? - Prefer to self-describe...,What is your age (# years)?,In which country do you currently reside?,What is the highest level of formal education ...,Which best describes your undergraduate major?...,Select the title most similar to your current ...,Select the title most similar to your current ...,In what industry is your current employer/cont...,...,What tools and methods do you use to make your...,What barriers prevent you from making your wor...,What barriers prevent you from making your wor...,What barriers prevent you from making your wor...,What barriers prevent you from making your wor...,What barriers prevent you from making your wor...,What barriers prevent you from making your wor...,What barriers prevent you from making your wor...,What barriers prevent you from making your wor...,What barriers prevent you from making your wor...
1,710,Female,-1,45-49,United States of America,Doctoral degree,Other,Consultant,-1,Other,...,-1,,,,,,,,,-1
2,434,Male,-1,30-34,Indonesia,Bachelor’s degree,Engineering (non-computer focused),Other,0,Manufacturing/Fabrication,...,-1,,,,,,,,,-1
3,718,Female,-1,30-34,United States of America,Master’s degree,"Computer science (software engineering, etc.)",Data Scientist,-1,I am a student,...,-1,,Too time-consuming,,,,,,,-1


Una vez se tienen los datos cargados se comienza a hacer una filtración de información. Las tres siguientes celdas contienen el proceso de limpieza de los datos.

In [65]:
tuple_experience=('0-1','1-2','2-3','3-4','4-5','5-10','10-15','15-20','20-25','25-30','30 +') #Una tupla con los strings que deseamos cambiar
tuple_experience_change=(0.5,1.5,2.5,3.5,4.5,7.5,12.5,17.5,22.5,27.5,30)  #Tupla de medianas para reemplazar los strings anteriores

X = data[['Q1', 'Q3' , 'Q4', 'Q8' , 'Q9']].replace(('Male','Female','Prefer not to say',\
                                                    'I do not wish to disclose my approximate yearly compensation'\
                                                    ,'No formal education past high school',\
                                                    'Some college/university study without earning a bachelor’s degree'\
                                                    ,'Bachelor’s degree'\
                                                    ,'Professional degree','Master’s degree','Doctoral degree'\
                                                    ,'Prefer to self-describe','I prefer not to answer')\
                                                   ,(0,1,math.nan,math.nan,0,1,2,3,4,5,math.nan,math.nan)).dropna().\
                                                    replace(tuple_experience,tuple_experience_change) #DataFrame filtrando Nan y Strings, y asignando strings a enteros
    
    
X.columns=['Gender(Male:0,Female:1)','Country','Formal Education','Years of Experience','Salary in USD'] #Columnas de interés
new_filter_usa=X[X['Country'].str.contains("United States of America")] #Se toman aquellos datos de usuarios residentes en Estados Unidos
new_filter_india=X[X['Country'].str.contains('India')] #Se toman aquellos datos de usuarios residentes en India


In [66]:
salary_usa=np.array(new_filter_usa['Salary in USD']) #Array de salario de Estados Unidos
salary_india=np.array(new_filter_india['Salary in USD'])#Array de salario de India

def median_salary(salary_array):
    #Input: Un arreglo de salarios de tipo str
    #Output: Arreglo de medianas de salarios de tipo float
    
    result=np.array([])
    for i,string in enumerate(salary_array): #Se usa un loop para encontrar la mediana de los salarios
        if string == '500,000+':
            result = np.append(result,500000)
        elif len(string) == 8:
            result=np.append(result,(int(string[0])+int(string[2:4]))*1000/2)
        elif len(string) == 9:
            result = np.append(result,(int(string[0:2])+int(string[3:5]))*1000/2)
        elif len(string) == 10:
            result = np.append(result,(int(string[0:2])+int(string[3:6]))*1000/2)
        elif len(string) == 11:
            result = np.append(result,(int(string[0:3])+int(string[4:7]))*1000/2)
    return result
            
new_salary_median_usa = median_salary(salary_usa) #Arreglo de medianas de los salarios en USA
new_salary_median_india = median_salary(salary_india) #Arreglo de medianas de los salarios en India



In [67]:
df_usa = new_filter_usa.drop(['Salary in USD'], axis=1) #Eliminamos la columna de salarios de nuestro DataFrame para luego reemplazarla por otra
df_india = new_filter_india.drop(['Salary in USD'], axis=1) #Repetimos lo de arriba pero para India

df_usa.index = [i for i in range(0,len(new_salary_median_usa))]
df_india.index = [i for i in range(0,len(new_salary_median_india))]

df_salary_usa=pd.DataFrame(data=new_salary_median_usa) 
df_salary_india=pd.DataFrame(data=new_salary_median_india)

df_usa[['SalaryinUSD']]=df_salary_usa #Agregamos la nueva columna de la mediana de los salarios para USA
df_india[['SalaryinUSD']]=df_salary_india #Agregamos la nueva columna de la mediana de los salarios para India

df_usa_number=df_usa[['Gender(Male:0,Female:1)','Formal Education','Years of Experience','SalaryinUSD']]
df_india_number=df_india[['Gender(Male:0,Female:1)','Formal Education','Years of Experience','SalaryinUSD']]


#Organizamos en orden ascendente para comenzar el análisis
df_usa_number=df_usa_number.sort_values(['SalaryinUSD'])
df_india_number=df_india_number.sort_values(['SalaryinUSD'])



# Análisis


En la siguiente celda podemos observar una porción de los conjuntos de datos para India y Estados Unidos, respectivamente, con los cuales vamos a trabajar.

In [68]:
df_india_number[0:10]

Unnamed: 0,"Gender(Male:0,Female:1)",Formal Education,Years of Experience,SalaryinUSD
0,0,4,0.5,5000.0
1304,0,2,0.5,5000.0
1303,0,2,0.5,5000.0
1301,0,1,2.5,5000.0
1299,0,4,0.5,5000.0
1298,1,4,12.5,5000.0
1297,0,4,0.5,5000.0
1293,0,2,1.5,5000.0
1292,0,5,2.5,5000.0
1291,1,4,0.5,5000.0


In [69]:
df_usa_number[0:10]


Unnamed: 0,"Gender(Male:0,Female:1)",Formal Education,Years of Experience,SalaryinUSD
0,1,4,0.5,5000.0
397,0,2,7.5,5000.0
2561,0,4,0.5,5000.0
2545,0,4,2.5,5000.0
1299,0,2,17.5,5000.0
2539,0,1,0.5,5000.0
1303,0,2,1.5,5000.0
1313,0,1,0.5,5000.0
2532,1,1,17.5,5000.0
376,0,4,0.5,5000.0


Como modelo incial se tomara una regresión lineal del salario como variable independiente y como varibles dependientes se tomarán el género, el nivel de educación y los años de experiencia. A continuación se ilustra dicho modelo:





$\hspace{6cm}Salary=\beta_0\text{Gender}+\beta_1\text{Formal Education}+\beta_2\text{Years of Experience}+ \alpha$

Ahora bien, hallemos las regresiones para India y Estados Unidos:

In [70]:
reg_india=linear_model.LinearRegression()
reg_india.fit(df_india_number[['Gender(Male:0,Female:1)','Formal Education','Years of Experience']],df_india_number.SalaryinUSD)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [71]:
reg_usa=linear_model.LinearRegression()
reg_usa.fit(df_usa_number[['Gender(Male:0,Female:1)','Formal Education','Years of Experience']],df_usa_number.SalaryinUSD)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)



#### Con estas regresiones podemos hallar los coeficientes correspondientes:


In [72]:
coef_genero_ind,coef_edu_ind,coef_years_ind=reg_india.coef_
intercept_ind=reg_india.intercept_
print('Rgresión para India:')
print('El coeficiente de la regresión para el género es igual a '+str(coef_genero_ind))
print('El coeficiente de la regresión para el nivel de educación es igual a '+str(coef_edu_ind))
print('El coeficiente de la regresión para los años de experiencia es igual a '+str(coef_years_ind))
print('El valor del intercepto de la regresión es igual a '+str(intercept_ind))

Rgresión para India:
El coeficiente de la regresión para el género es igual a 2380.38267668
El coeficiente de la regresión para el nivel de educación es igual a 2285.92348326
El coeficiente de la regresión para los años de experiencia es igual a 1644.5466514
El valor del intercepto de la regresión es igual a 8949.83283145


In [73]:
coef_genero_usa,coef_edu_usa,coef_years_usa=reg_usa.coef_
intercept_usa=reg_usa.intercept_
print('Rgresión para Estados Unidos:')
print('El coeficiente de la regresión para el género es igual a '+str(coef_genero_usa))
print('El coeficiente de la regresión para el nivel de educación es igual a '+str(coef_edu_usa))
print('El coeficiente de la regresión para los años de experiencia es igual a '+str(coef_years_usa))
print('El valor del intercepto de la regresión es igual a '+str(intercept_usa))

Rgresión para Estados Unidos:
El coeficiente de la regresión para el género es igual a -20691.5811666
El coeficiente de la regresión para el nivel de educación es igual a 9532.10947328
El coeficiente de la regresión para los años de experiencia es igual a 3850.15162539
El valor del intercepto de la regresión es igual a 47512.891526


#### Antes de hallar el error para cada uno de las regresiones, entendamos qué significan estos coeficientes

- El coeficiente de género hace referencia a la diferencia salarial entre el hombre y la mujer. 
- El coeficiente de nivel de educación hace referencia a la diferencia salarial entre niveles de educación, es decir, para el caso de estados unidos un Doctor en promedio gana 9600 dólares más que un Magister.
- El coeficiente que para los años de experiencia hace referencia a la diferencia salarial entre los años de educación, es decir, para India en promedio una persona que tiene un año más de experiencia que otra persona gana 1700 dólares de más. 

#### Pero entonces si tomamos en cuenta los coeficientes de género de ambos países, ¿realmente podemos evidenciar una brecha salarial?

Es claro que para el caso de Estados Unidos, existe una brecha salarial entre mujeres y hombres; una persona con la misma experiencia y nivel de educación, sólo por el hecho de ser mujer se le paga en promedio 20,000 dólares al año menos que a un hombre.

¿Y, el caso de India? Según el coeficiente de género para India, los hombres ganan 2,400 dólares al año menos que una mujer con su mismo nivel de educación. 


##### Como ejemplo de predicción, supongamos dos personas residentes en la India, una mujer y la otra hombre. Ambas con un nivel de educación de Doctor y con 5 años de experiencia, entonces según nuestro modelo, lo que se puede ganar cada una anualmente en promedio es:

In [127]:
print('Para India:')
print('Salario anual en dólares mujer según nuestro modelo: ',str(float(reg_india.predict([[1,5,5]]))))
print('Salario anual en dólares hombre según nuestro modelo: ',str(float(reg_india.predict([[0,5,5]]))))

Salario anual en dólares mujer según nuestro modelo:  30982.56618146846
Salario anual en dólares hombre según nuestro modelo:  28602.183504791392


##### Para esas dos personas, pero residiendo en Estados Unidos:

In [128]:
print('Para Estados Unidos:')
print('Salario anual en dólares mujer según nuestro modelo: ',str(float(reg_usa.predict([[1,5,5]]))))
print('Salario anual en dólares hombre según nuestro modelo: ',str(float(reg_usa.predict([[0,5,5]]))))

Para Estados Unidos:
Salario anual en dólares mujer según nuestro modelo:  93732.6158526958
Salario anual en dólares hombre según nuestro modelo:  114424.19701934018


###### Antes de seguir argumentando estas posibles conclusiones con base en una regresión que no hemos observado si realmente es confiable, revisemos el error de nuestro modelo

In [130]:
x_usa = df_usa_number[['Gender(Male:0,Female:1)','Formal Education','Years of Experience']]
Y_usa = df_usa_number[['SalaryinUSD']]
linear_model.LinearRegression().fit(x_usa,Y_usa)
X_usa = sm.add_constant(x_usa) # adding a constant
 
model = sm.OLS(Y_usa, X_usa.astype(float)).fit()
predictions = model.predict(X_usa) 
print_model = model.summary()
print(print_model)

                            OLS Regression Results                            
Dep. Variable:            SalaryinUSD   R-squared:                       0.173
Model:                            OLS   Adj. R-squared:                  0.172
Method:                 Least Squares   F-statistic:                     230.8
Date:                Mon, 03 Dec 2018   Prob (F-statistic):          5.72e-136
Time:                        23:19:45   Log-Likelihood:                -41551.
No. Observations:                3318   AIC:                         8.311e+04
Df Residuals:                    3314   BIC:                         8.313e+04
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                              coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------
const                    4

In [129]:
x_india = df_india_number[['Gender(Male:0,Female:1)','Formal Education','Years of Experience']]
Y_india = df_india_number[['SalaryinUSD']]
linear_model.LinearRegression().fit(x_india,Y_india)
X_india = sm.add_constant(x_india) # adding a constant
 
model = sm.OLS(Y_india, X_india.astype(float)).fit()
predictions = model.predict(X_india) 
print_model = model.summary()
print(print_model)

                            OLS Regression Results                            
Dep. Variable:            SalaryinUSD   R-squared:                       0.030
Model:                            OLS   Adj. R-squared:                  0.028
Method:                 Least Squares   F-statistic:                     22.95
Date:                Mon, 03 Dec 2018   Prob (F-statistic):           1.23e-14
Time:                        23:19:42   Log-Likelihood:                -27738.
No. Observations:                2265   AIC:                         5.548e+04
Df Residuals:                    2261   BIC:                         5.551e+04
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                              coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------
const                    8

In [131]:
print('R-squared para los datos relacionados a Estados Unidos:',str(0.173))
print('R-squared para los datos relacionados a India:',str(0.028))

R-squared para los datos relacionados a Estados Unidos: 0.173
R-squared para los datos relacionados a India: 0.028


## Conclusiones

Estas dos tablas nos muestran información sobre el modelo realizado para cada uno de los dos países. Es verdad que el error cuadrado da significativamente bajo, especialmente para el caso de India. ¿A qué se debe esto?

Posibles razones:

- No hay suficientes controles, es decir, aunque tuvimos en cuenta tres controles(género, nivel de eduación, años de experiencia) no fueron lo sufcientemente determinantes para establecer un modelo adecuado.

- Existen variables que no pueden ser capturadas por la regresión

- Una regresión lineal no fue un modelo adecuado para describir la situación a consideración

Sin embargo, podemos confiar hasta cierta medida (como lo indica nuestro $R^2$) en el modelo realizado en que existe una brecha salarial entre hombres y mujeres usuarios de Kaggle y residentes en Estados Unidos.


#### ¿Cómo podríamos mejorar este modelo significativamente para un futuro? 

Utilizando una técnica conocida como potenciación del gradiente o gradient boosting, esta técnica nos permitirá hacer un análisis de la regresión más adecuado y preciso.