<a href="https://colab.research.google.com/github/dagomezb/Ciencia_de_Datos/blob/main/clase_2_RL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ¿Qué factores impulsan la discriminación salarial entre hombres y mujeres en su organización?

## Objetivos

En este caso, estableceremos una comprensión básica de la estadística necesaria para la regresión lineal.

## Introducción

**Contexto empresarial**. Usted es un científico de datos en una organización de tamaño medio. Su empresa está llevando a cabo una revisión interna de sus prácticas de contratación y de la remuneración de sus empleados. En los últimos años, su empresa ha tenido poco éxito en la conversión de candidatas de alta calidad que ha querido contratar. La dirección tiene la hipótesis de que esto se debe a una posible discriminación salarial y quiere averiguar cuál es la causa.

**Como parte de la revisión interna, el departamento de recursos humanos se ha puesto en contacto con usted para que investigue específicamente la siguiente cuestión: **"En general, ¿se paga más a los hombres que a las mujeres en su organización? En caso afirmativo, ¿a qué se debe esta diferencia?

**Contexto analítico**. El departamento de recursos humanos le ha proporcionado una base de datos de empleados que contiene información sobre diversos atributos como el rendimiento, la educación, los ingresos, la antigüedad, etc. Utilizaremos técnicas de regresión lineal sobre este conjunto de datos para resolver el problema empresarial descrito anteriormente. Veremos cómo la regresión lineal cuantifica la correlación entre la variable de salida (salario) y las variables de entrada (por ejemplo, educación, ingresos, antigüedad, etc.)

El caso está estructurado de la siguiente manera: (1) realizaremos un análisis exploratorio de los datos para investigar visualmente las diferencias salariales; (2) utilizaremos los datos observados para ajustar formalmente los modelos de regresión; y finalmente (3) abordaremos el problema de la discriminación salarial.

## Exploración de datos

<table border="1" class="dataframe">  <thead>    <tr style="text-align: right;">      <th></th>      <th>job_title</th>      <th>age_years</th>      <th>performance_score</th>      <th>education</th>      <th>seniority_years</th>      <th>pay_yearly</th>      <th>male_female</th>    </tr>  </thead>  <tbody>    <tr>      <th>0</th>      <td>Project Manager</td>      <td>34</td>      <td>33.33</td>      <td>High School</td>      <td>4</td>      <td>118503</td>      <td>M</td>    </tr>    <tr>      <th>1</th>      <td>Marketing associate</td>      <td>66</td>      <td>16.67</td>      <td>High School</td>      <td>3</td>      <td>129393</td>      <td>M</td>    </tr>    <tr>      <th>2</th>      <td>Marketing associate</td>      <td>51</td>      <td>50.00</td>      <td>Masters</td>      <td>8</td>      <td>139440</td>      <td>M</td>    </tr>    <tr>      <th>3</th>      <td>Sales representative</td>      <td>26</td>      <td>16.67</td>      <td>Masters</td>      <td>3</td>      <td>118191</td>      <td>F</td>    </tr>    <tr>      <th>4</th>      <td>Account executive</td>      <td>36</td>      <td>50.00</td>      <td>PhD</td>      <td>4</td>      <td>77717</td>      <td>M</td>    </tr>  </tbody></table>

Features:

1. **job_title**: the title of the job (e.g. “Graphic Designer”, “Software Engineer”, etc)
2. **age_years**: age
3. **performance_score**: on a scale of 0 to 100, 0 being the lowest and 100 being the highest
4. **education**: different levels of education (e.g. "College", "PhD", "Masters", "Highschool")
5. **seniority_years**: years of seniority
6. **pay_yearly**: pay in dollars
7. **male_female**: male or female

Hay 241 hombres y 222 mujeres en este conjunto de datos, un total de 463 personas.

###  Ejercicio 1

#### 1.1

Este es un diagrama de caja que compara la remuneración entre hombres y mujeres. ¿Qué puedes concluir?

![](data/images/pay_gender_boxplot.png)

**Respuesta.**

-------

#### 1.2

Observe el gráfico de dispersión que aparece a continuación. ¿Qué patrones observa?

![Pay vs. Age](data/images/pay_age_scatterplot.png)

**Respuesta.**

-------

### Ejercicio 2

Analizar la siguiente tabla. ¿Qué patrones observa?

<table border="1" class="dataframe">  <thead>    <tr style="text-align: right;">      <th>Descriptive statistics of <code>pay_yearly</code></th>      <th>F</th>      <th>M</th>    </tr>  </thead>  <tbody>    <tr>      <th>count</th>      <td>222.00</td>      <td>241.00</td>    </tr>    <tr>      <th>mean</th>      <td>96255.95</td>      <td>103821.54</td>    </tr>    <tr>      <th>std</th>      <td>26971.22</td>      <td>24558.90</td>    </tr>    <tr>      <th>min</th>      <td>38006.00</td>      <td>43848.00</td>    </tr>    <tr>      <th>25%</th>      <td>76199.75</td>      <td>89361.00</td>    </tr>    <tr>      <th>50%</th>      <td>96413.50</td>      <td>103432.00</td>    </tr>    <tr>      <th>75%</th>      <td>114349.25</td>      <td>120357.00</td>    </tr>    <tr>      <th>max</th>      <td>183827.00</td>      <td>181662.00</td>    </tr>  </tbody></table>'

**Respuesta.**

-------

### Ejercicio 3

¿Cuál de las siguientes afirmaciones es cierta? Seleccione todas las que correspondan.

<ul>
I. El salario medio de los hombres es de unos 7.500 dólares más que el de las mujeres en esta organización.<br>
II. Los hombres cobran bastante más que las mujeres debido únicamente a las diferencias de género.<br>
</ul>

**Answer.**

-------

## ¿Cuáles son las variables que influyen en la remuneración?

Como hemos comentado en el ejercicio 3 y también hemos visto en la exploración de los datos, aunque existe una diferencia salarial significativa entre los géneros, también hay otros factores que influyen en esta diferencia. Por lo tanto, ignorar estos factores al abordar la discriminación salarial podría llevar a conclusiones erróneas o engañosas.

¿Cómo se tiene en cuenta la influencia de las otras variables en la remuneración? ¿Cuáles son estas variables? Un buen punto de partida es inspirarse en el análisis exploratorio de datos realizado anteriormente. La única variable numérica en este conjunto de datos es la edad, así que revisemos de nuevo nuestro gráfico de dispersión de la remuneración frente a la edad:

![Pay vs. Age](data/images/pay_age_scatterplot.png)

La remuneración parece estar positivamente correlacionada con la edad; es decir, cuanto mayor es una persona, más suele cobrar. Por lo tanto, podría darse el caso de que en nuestro conjunto de datos haya más hombres de mayor edad y la diferencia salarial entre hombres y mujeres que observamos podría ser una consecuencia de ello.

### Ejercicio 4

Aquí tiene algunos escenarios simulados. En cada uno de estos casos, adivine la correlación:

![Guess the correlation](data/images/guess_the_correlation.png)

**Answer.**

-------

### Ejercicio 5

¿Es verdadera o falsa la siguiente afirmación y por qué? "Si la correlación entre dos variables es cero, entonces las dos variables no están relacionadas".

**Answer.**

-------

Para encontrar las variables que más influyen en el salario, podemos calcular una matriz de correlación y representarla en forma de mapa de calor:

![Correlation matrix](data/images/correlation_matrix.png)

Parece que las dos variables que están más relacionadas linealmente con el salario son la edad y la antigüedad. Debemos asegurarnos de incluirlas en nuestros modelos.

## Utilización de modelos lineales para tener en cuenta las variables correlacionadas con el salario

Una vez que identificamos algunas variables que están correlacionadas con la variable de salida, podemos utilizar un modelo lineal para capturar esta relación cuantitativamente. Un modelo lineal lo hace encontrando una línea que [**mejor se asjuste**](https://mathbits.com/MathBits/TISection/Statistics1/LineFit.htm) a los puntos (datos):

![Pay vs. age line of best fit](data/images/pay_age_line_best_fit.png)

Una línea tiene dos parámetros - intercepto ($\beta_0$) y pendiente ($\beta_1$), también conocidos como los **coeficientes** de el model. Así, un modelo lineal para el salario frente a la edad puede representarse como:

$$ PAY{\_}YEARLY = \beta_0 + \beta_1 AGE{\_}YEARS + \varepsilon $$

La interpretación del coeficiente $\beta_1$ es la siguiente: un aumento de un año en la edad provocará, por término medio, un cambio de sueldo de $\beta_1$. El intercepto $\beta_0$ puede considerarse como una especie de salario "de referencia". La diferencia entre el valor previsto por la línea y el valor real (el punto de datos) es el error o **residual** (representado arriba como la letra griega $\varepsilon$ (épsilon)).

Este diagrama resume las ideas anteriores:

![Line of best fit explained](data/images/line_best_fit_explained.jpg)

## Interpretación de los resultados de un modelo lineal


La línea recta que hemos dibujado en el gráfico de dispersión de la remuneración frente a la edad se ha ajustado mediante un modelo estadístico denominado **regresión lineal**, cuyos resultados pueden verse a continuación:


<pre class="western" style="border: none; padding: 0cm; text-align: center; orphans: 2; widows: 2; background: #ffffff"><code>
OLS Regression Results
==============================================================================

<font color="red"><b>Dep. Variable:             pay_yearly</b></font>   <font color="red"><b>R-squared:                       0.238</b></font>
Model:                            OLS   Adj. R-squared:                  0.236
Method:                 Least Squares   F-statistic:                     143.8
Date:                Wed, 02 Jun 2021   Prob (F-statistic):           5.00e-29
Time:                        14:39:39   Log-Likelihood:                -5300.3
No. Observations:                 463   AIC:                         1.060e+04
Df Residuals:                     461   BIC:                         1.061e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 <font color="red"><b>coef</b></font>    std err          t      <font color="red"><b>P&gt;|t|</b></font>      [0.025      0.975]
------------------------------------------------------------------------------
<font color="red"><b>Intercept   6.384e+04</b></font>   3209.744     19.891      <font color="red"><b>0.000</b></font>    5.75e+04    7.02e+04
<font color="red"><b>age_years    873.5006</b></font>     72.840     11.992      <font color="red"><b>0.000</b></font>     730.360    1016.641
==============================================================================
Omnibus:                        2.346   Durbin-Watson:                   2.033
Prob(Omnibus):                  0.310   Jarque-Bera (JB):                2.414
Skew:                           0.151   Prob(JB):                        0.299
Kurtosis:                       2.817   Cond. No.                         134.
==============================================================================
</code></pre>


Aunque la tabla de salida anterior contiene mucha información, sólo necesitamos centrarnos en un pequeño número de cantidades. Se trata de la variable de salida (también conocida como **variable dependiente**), $R^2$, y los coeficientes (las estimaciones de $\beta_0$ y $\beta_1$) y sus valores $p$. Los hemos resaltado en rojo para su comodidad.

### Coeficientes

El intercepto $\beta_0$ es de unos 63.840 USD. Puede considerarse como el salario base, es decir, el salario esperado de una persona de cero años. A menudo, el intercepto no tiene una interpretación significativa (como en este caso), lo cual está bien siempre que lo reconozcamos y tengamos una buena explicación de por qué. La pendiente (el coeficiente $\beta_1$ para la edad) es de $\\$873,50. La interpretación de este coeficiente es la explicada anteriormente: si un empleado tiene un año más de edad, se espera que su salario aumente en 873,50 USD de media.

Las variables de entrada como la edad también se denominan **variables independientes** en el contexto de un modelo de regresión lineal.

### $p$-valores

Puede observar que para cada coeficiente en la tabla de resultados anterior, hay valores $p$ asociados. Esto se debe a que los coeficientes se estiman sobre la base de nuestros datos disponibles, por lo que pueden no representar necesariamente el "verdadero" coeficiente en toda la población. La hipótesis nula que se está probando aquí para $\beta_1$ es:

$$ H_0: \beta_1 = 0 $$ 
y la alternativa es
$$ H_a: \beta_1 \neq 0.$$

y de forma similar para $\beta_0$. El valor $p$ - de $\beta_1$ (dado en la columna: `P>|t|` de la tabla) es 0,000.  Por tanto, la diferencia entre cero y $\beta_1$ es estadísticamente significativa al nivel de significación de 0,05, y rechazamos la hipótesis nula. Esto implica que la edad está efectivamente asociada con al menos algunas de las diferencias salariales.

Si un coeficiente de su modelo no es estadísticamente significativo, significa que, suponiendo que su modelo representa la realidad de forma razonablemente correcta, no existe una asociación discernible entre esa variable y su variable de salida.

### $R$-cuadrado

Otra cantidad clave a la que debe prestarse atención al interpretar una tabla de regresión es
(https://blog.minitab.com/blog/adventures-in-statistics-2/regression-analysis-how-do-i-interpret-r-squared-and-assess-the-goodness-of-fit) (también conocido como **coeficiente de determinación**). (Obsérvese que la tabla muestra $R^2$ y $R^2$ ajustado; por ahora nos centraremos en $R^2$). Esta cantidad siempre estará entre 0 y 1. Cuanto mayor sea el $R^2$, mayor será el porcentaje de la variación observada que puede ser explicada por el modelo. Puede pensar en ello como un indicador de lo bien que sus predicciones coincidirán con los puntos de datos reales; es decir, cuando $R^2=1$ las predicciones de su modelo son perfectas, y cuando $R^2=0$ están tan lejos que son básicamente inútiles. Por lo tanto, se dice que $R^2$ es una representación de la "bondad de ajuste" del modelo.

He aquí dos ejemplos de modelos: uno con una gran bondad de ajuste y otro con una bondad de ajuste razonable pero notablemente inferior:

![High and low R squared](data/images/high_low_r_2.png)

Para el modelo de salario vs. edad, $R^2 = 0,238$. Dado que este modelo sólo explica alrededor del 23,8% de la variación, esto nos motiva a investigar si se pueden utilizar factores distintos de la edad para explicar las diferencias salariales y mejorar así nuestras predicciones.

## Considerando la edad y el género

Ahora que hemos visto que la edad explica parte de la relación con el salario, vamos a considerar un modelo en el que tengamos en cuenta la edad y el género simultáneamente. Pasaremos de ajustar una [**regresión lineal simple**](https://en.wikipedia.org/wiki/Simple_linear_regression) (una variable independiente, una variable dependiente) a ajustar una [**regresión lineal múltiple**](https://www.investopedia.com/terms/m/mlr.asp) (varias variables independientes, una variable dependiente). La edad es una variable numérica (por ejemplo, 26, 5, 32). En cambio, el género sólo toma dos valores: hombre y mujer, lo que la convierte en categórica.


Las regresiones lineales pueden incorporar variables categóricas con la misma facilidad que las numéricas. El truco consiste en codificar las categorías como números para que el modelo pueda interpretarlas. Hay [un puñado](https://stats.idre.ucla.edu/spss/faq/coding-systems-for-categorical-variables-in-regression-analysis-2) de formas de codificar las variables categóricas, pero una de las más comunes es transformarlas en conjuntos de unos y ceros. Veremos este tema con más detalle en futuros casos, pero por ahora, no hay que preocuparse demasiado porque Python suele hacer la conversión en segundo plano por ti. Sin embargo, lo que *es* necesario tener en cuenta es que la forma en que interpretamos los coeficientes de las variables categóricas en un modelo lineal es ligeramente diferente de los de las variables numéricas:


<pre class="western" style="border: none; padding: 0cm; text-align: left; orphans: 2; widows: 2; background: #ffffff"><code>
                            OLS Regression Results                            
==============================================================================
Dep. Variable:             pay_yearly   R-squared:                       0.258
Model:                            OLS   Adj. R-squared:                  0.255
Method:                 Least Squares   F-statistic:                     79.99
Date:                Wed, 02 Jun 2021   Prob (F-statistic):           1.54e-30
Time:                        20:02:08   Log-Likelihood:                -5294.0
No. Observations:                 463   AIC:                         1.059e+04
Df Residuals:                     460   BIC:                         1.061e+04
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
====================================================================================
                       coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------
Intercept         6.006e+04   3344.884     17.957      0.000    5.35e+04    6.66e+04
<font color="red"><b>male_female[T.M]  7398.3050</b></font>   2087.361      3.544      <font color="red"><b>0.000</b></font>    3296.361    1.15e+04
age_years          871.8142     71.945     12.118      0.000     730.432    1013.197
==============================================================================
Omnibus:                        3.607   Durbin-Watson:                   2.034
Prob(Omnibus):                  0.165   Jarque-Bera (JB):                3.688
Skew:                           0.203   Prob(JB):                        0.158
Kurtosis:                       2.840   Cond. No.                         146.
==============================================================================
</code></pre>

La interpretación del coeficiente de la edad es similar a la anterior: dentro de los grupos del mismo sexo, si la edad aumenta en un año, se espera que el salario aumente en 872 dólares (observe que este valor es diferente del que obtuvimos en la regresión anterior, ya que la variabilidad presente en "pay_yearly" ahora tiene que repartirse entre más variables explicativas).

Ahora, concéntrese en el coeficiente de la variable `male_female`. Sólo muestra el sexo masculino (`T.M`), porque la categoría femenina se toma como categoría por defecto. Esto significa que el coeficiente representa el `pago_anual` adicional o reducido que se produce sólo por el hecho de que alguien sea hombre frente a mujer. En última instancia, la elección de la categoría por defecto no importa: podríamos haber elegido fácilmente que la categoría por defecto fuera hombre y, por tanto, el coeficiente para el género sería `T.F`. El coeficiente \$7.398 se interpreta de la siguiente manera: para empleados *de la misma edad*, los hombres ganan de media \$7.398 dólares más que las mujeres.

Pero aún no hemos respondido satisfactoriamente a nuestra pregunta principal. Hasta ahora, sólo hemos tenido en cuenta la edad, además del sexo, para explicar las diferencias salariales. Todavía hay algunos factores más que podrían afectar a la remuneración. A continuación consideramos la educación. El siguiente gráfico muestra que los empleados con un doctorado cobran más:

![Pay vs. education](data/images/pay_education_boxplot.png)

### Ejercicio 6

Esta es la salida del modelo

$$
PAY{\_}YEARLY = \beta_0 + \beta_1 AGE{\_}YEARS + \beta_2 {MALE{\_}FEMALE} + \beta_3 EDUCATION + \varepsilon
$$

</br>

~~~plain
                        OLS Regression Results                            
==============================================================================
Dep. Variable:             pay_yearly   R-squared:                       0.290
Model:                            OLS   Adj. R-squared:                  0.283
Method:                 Least Squares   F-statistic:                     37.38
Date:                Wed, 02 Jun 2021   Prob (F-statistic):           3.93e-32
Time:                        20:42:46   Log-Likelihood:                -5283.8
No. Observations:                 463   AIC:                         1.058e+04
Df Residuals:                     457   BIC:                         1.060e+04
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
============================================================================================
                               coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------------
Intercept                  5.69e+04   3658.387     15.552      0.000    4.97e+04    6.41e+04
male_female[T.M]          7271.6447   2054.014      3.540      0.000    3235.161    1.13e+04
education[T.High School]  -259.3779   2851.527     -0.091      0.928   -5863.108    5344.353
education[T.Masters]      4890.6387   2894.975      1.689      0.092    -798.476    1.06e+04
education[T.PhD]          1.156e+04   3007.694      3.842      0.000    5645.114    1.75e+04
age_years                  859.2562     70.717     12.151      0.000     720.286     998.226
==============================================================================
Omnibus:                        2.897   Durbin-Watson:                   2.038
Prob(Omnibus):                  0.235   Jarque-Bera (JB):                2.919
Skew:                           0.192   Prob(JB):                        0.232
Kurtosis:                       2.937   Cond. No.                         203.
==============================================================================
~~~

Compara su $R^2$ con la del modelo anterior. ¿Qué conclusiones podemos sacar?

**Respuesta.**

-------

### Ejercicio 7

¿Cuál de las siguientes afirmaciones es cierta en relación con el modelo anterior? Seleccione todas las que correspondan.

<ul>
I. Tras tener en cuenta la edad y el sexo, los empleados con estudios universitarios cobran de media 11.560 dólares menos que los que tienen un doctorado.<br>
II. Tras tener en cuenta la edad y el sexo, los empleados con un máster cobran de media 4.891 dólares más que los que sólo tienen un título de secundaria.<br>
</ul>

**Respuesta.**

-------

## Modelo integrado que tiene en cuenta todas las variables

Vamos a tener en cuenta todos los demás factores que podrían explicar las diferencias salariales a la vez. Añadiendo "job_title", "performance_score" y "seniority_years":

~~~plain
                         OLS Regression Results                            
==============================================================================
Dep. Variable:             pay_yearly   R-squared:                       0.506
Model:                            OLS   Adj. R-squared:                  0.493
Method:                 Least Squares   F-statistic:                     38.41
Date:                Wed, 02 Jun 2021   Prob (F-statistic):           2.11e-61
Time:                        21:02:00   Log-Likelihood:                -5199.9
No. Observations:                 463   AIC:                         1.043e+04
Df Residuals:                     450   BIC:                         1.048e+04
Df Model:                          12                                         
Covariance Type:            nonrobust                                         
=====================================================================================================
                                        coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------------------------
Intercept                           4.41e+04   4251.087     10.373      0.000    3.57e+04    5.25e+04
job_title[T.Dog trainer]          -1.095e+04   2778.457     -3.942      0.000   -1.64e+04   -5491.545
job_title[T.Marketing associate]   1.337e+04   3368.690      3.970      0.000    6752.164       2e+04
job_title[T.Project Manager]       1.373e+04   2899.199      4.736      0.000    8032.270    1.94e+04
job_title[T.Sales representative] -1207.9643   2816.886     -0.429      0.668   -6743.848    4327.920
job_title[T.Web Designer]         -1455.6120   3307.946     -0.440      0.660   -7956.551    5045.327
education[T.High School]           -278.3053   2404.785     -0.116      0.908   -5004.309    4447.698
education[T.Masters]               4937.7643   2446.576      2.018      0.044     129.631    9745.898
education[T.PhD]                   9838.9167   2537.772      3.877      0.000    4851.562    1.48e+04
male_female[T.M]                   3709.8452   1853.780      2.001      0.046      66.704    7352.987
age_years                           666.1748     62.980     10.578      0.000     542.403     789.946
performance_score                    83.8079     31.411      2.668      0.008      22.077     145.539
seniority_years                    3613.3282    356.544     10.134      0.000    2912.630    4314.026
==============================================================================
Omnibus:                        0.094   Durbin-Watson:                   1.939
Prob(Omnibus):                  0.954   Jarque-Bera (JB):                0.062
Skew:                          -0.028   Prob(JB):                        0.969
Kurtosis:                       3.002   Cond. No.                         466.
==============================================================================
~~~

### Ejercicio 8

Teniendo en cuenta todos los factores, ¿cuál de los siguientes trabajos es el mejor pagado?

<ul>
A. Marketing associate<br>
B. Sales representative<br>
C. Project manager<br>
D. Web designer<br>
</ul>

**Respuesta.**

-------

## Revisando la cuestión de la discriminación salarial

Ahora que hemos examinado y tenido en cuenta varios atributos que están correlacionados con la remuneración, volvamos a examinar la cuestión de qué es lo que impulsa la discriminación salarial. Nuestro último modelo, que tiene en cuenta todas las variables del conjunto de datos, tiene un $R$-cuadrado del 50,6%. Se trata, sin duda, de una gran mejora con respecto al modelo simplista (salario frente a edad), que tenía un $R$-cuadrado del 23,8%.

### Ejercicio 9

Según el análisis que hemos hecho hasta ahora, ¿cuál de las siguientes afirmaciones es correcta? Seleccione todas las que correspondan.

<ul>
I. Tras tener en cuenta el puesto de trabajo, la educación, el rendimiento y la edad, la proporción de la diferencia salarial atribuible únicamente al género es pequeña.<br>
II. Hay pruebas de que la discriminación salarial entre hombres y mujeres se debe únicamente al género.<br>
III. Hay razones para creer que podría haber una cantidad desproporcionada de mujeres en los puestos de trabajo peor pagados, mientras que podría haber más hombres en los puestos mejor pagados, como director de proyecto o asociado de marketing.<br>
</ul>

**Respuesta.**

-------

## Investigación de la distribución del género a través de la antigüedad y los tipos de trabajo

Motivados por el ejercicio anterior, vamos a ver cómo se distribuyen las mujeres en función de varios factores. El siguiente gráfico muestra que los hombres y las mujeres se distribuyen de forma similar por antigüedad:

![Gender vs. seniority (MALE)](data/images/gender_seniority_male.png)
![Gender vs. seniority (FEMALE)](data/images/gender_seniority_female.png)

Sin embargo, si se observa la distribución de las mujeres en los distintos tipos de puestos de trabajo, la historia es diferente. En el siguiente gráfico de barras, vemos que las mujeres están infrarrepresentadas en los puestos de director de proyectos y asociado de marketing (que son los mejor pagados). Además, las mujeres están desproporcionadamente representadas en el puesto de entrenador de perros, que está peor pagado:

![Gender vs. job title](data/images/gender_job_title.png)


## Conclusiones

Hemos utilizado las técnicas de regresión lineal para determinar si existe o no discriminación salarial por razón de género en su organización. Modelamos el efecto de diversas variables de entrada (en este caso, la antigüedad, la edad, el rendimiento y el cargo) para explicar la variación observada de una variable de salida (en este caso, el salario). Observamos el coeficiente $R^2$ de nuestros modelos lineales para ayudarnos a medir qué porcentaje de la variación observada en el salario se explicaba por las variables de entrada.

Vimos que la diferencia de salario medio entre hombres y mujeres es estadísticamente significativa. Un análisis más detallado de los datos sugiere que un factor importante de esta diferencia se debe a que las mujeres están sobrerrepresentadas en los empleos peor pagados y subrepresentadas en los empleos mejor pagados.

Por lo tanto, se justifica una investigación sobre las prácticas de contratación, promoción y colocación de hombres y mujeres. En su informe al departamento de recursos humanos, debe pedirles que investiguen las siguientes cuestiones:

1. 1. ¿Las mujeres eligen o se ven obligadas a aceptar trabajos peor pagados?
2. 2. ¿Se discrimina a las mujeres en los procesos de contratación para trabajos mejor pagados?

## Para recordar ...

En este caso, usted aprendió a aprovechar sus habilidades en el análisis exploratorio de datos para construir un modelo lineal eficaz que diera cuenta de varios factores relacionados con el resultado de interés (la paga). De manera crucial, aprendimos que

1. No basta con observar directamente la relación entre el resultado de interés y la variable de entrada de interés, ya que puede haber varias variables de confusión.
2. Es importante llevar a cabo un EDA antes de construir un modelo para descubrir y tener en cuenta estas variables de confusión que podrían provocar variaciones en el resultado de interés.
3. $R^2$ es una cantidad importante que explica lo bien que su modelo explica la variación observada. Puede utilizarse para comparar diferentes modelos.
4. El análisis de los coeficientes de una regresión lineal para comprender cómo influyen los distintos parámetros en el resultado final es extremadamente importante: esta interpretabilidad es una parte clave para traducir los datos en acciones empresariales.

Hoy en día, los medios de comunicación se centran constantemente en los algoritmos de aprendizaje automático más avanzados, como las redes neuronales. Es importante que reconozca el inmenso valor de la regresión lineal, especialmente por su capacidad de inferencia y su interpretabilidad. Mientras que una red neuronal puede superar a la regresión lineal en ciertas tareas, es mucho más una caja negra, mientras que tener claridad sobre cómo se vinculan las entradas de un modelo con las salidas es extremadamente importante en la mayoría de los escenarios.

## Referencias

"Correlation examples2.svg", 9 May 2011, DenisBoigelot, Public Domain, https://commons.wikimedia.org/wiki/File:Correlation_examples2.svg

"R2values.svg", 6 April 2018, Debenben, CC BY-SA 4.0, https://de.wikipedia.org/wiki/Datei:R2values.svg

"Coefficient of Determination.svg", 6 September 2010, Orzetto, CC BY-SA 3.0, https://commons.wikimedia.org/wiki/File:Coefficient_of_Determination.svg