# ¿Qué factores impulsan la discriminación salarial entre hombres y mujeres en su organización?

Ejecutar regresiones lineales en Python, utilizando `statsmodels`.

In [1]:
import pandas as pd
import statsmodels.formula.api as sm

## Cargar datos

Como siempre, empecemos por leer nuestro conjunto de datos e inspeccionar algunas filas:

In [2]:
df = pd.read_csv('data/company_dataset.csv')

In [3]:
df.head()

Unnamed: 0,job_title,age_years,performance_score,education,seniority_years,pay_yearly,male_female
0,Project Manager,34,33.33,High School,4,118503,M
1,Marketing associate,66,16.67,High School,3,129393,M
2,Marketing associate,51,50.0,Masters,8,139440,M
3,Sales representative,26,16.67,Masters,3,118191,F
4,Account executive,36,50.0,PhD,4,77717,M


## Regresiones lineales simples

Durante la clase hemos ejecutado este modelo, que ahora reproduciremos utilizando el código:

$$ PAY{\_}YEARLY = \beta_0 + \beta_1 AGE{\_}YEARS + \varepsilon $$

El primer paso es transformar la fórmula matemática en una fórmula `statsmodels`. La sintaxis es la siguiente:

~~~plain
output_variable ~ input_variable
~~~

Definiremos nuestra fórmula como:

In [4]:
formula1 = 'pay_yearly ~ age_years'
formula1

'pay_yearly ~ age_years'

Utilizamos sólo los nombres de las columnas. No es necesario añadir el nombre del DataFrame (`df`) todavía.

Después de esto, creamos un modelo `statsmodels` con la función [**`ols()`**](https://www.statsmodels.org/stable/generated/statsmodels.formula.api.ols.html). OLS significa "Ordinary Least Squares", que es el nombre del proceso que minimiza la suma de los residuos al cuadrado (que vimos durante la clase). Es aquí donde le decimos a la biblioteca a qué DataFrame pertenecen las variables:

In [5]:
model1 = sm.ols(formula = formula1, data = df)

Aquí pasamos dos argumentos - la fórmula (en nuestro caso `fórmula = fórmula1`) y el DataFrame (`datos = df`).

El modelo no hace nada todavía. Es sólo una representación informática de nuestro modelo - no ha sido alimentado con ningún dato todavía, y por lo tanto no puede producir coeficientes o cualquier otra salida significativa. Para ajustar el modelo a los datos, debemos llamar al método `.fit()` de esta manera:

In [6]:
fitted1 = model1.fit()

Sin embargo, si ahora simplemente llama a la variable `fitted1` o intenta imprimirla, no verá ninguna salida significativa:

In [7]:
fitted1

<statsmodels.regression.linear_model.RegressionResultsWrapper at 0x217dd932140>

In [8]:
print(fitted1)

<statsmodels.regression.linear_model.RegressionResultsWrapper object at 0x00000217DD932140>


Para ver el resultado real de la regresión, hay que llamar al método [**`.summary()`**](https://medium.com/swlh/interpreting-linear-regression-through-statsmodels-summary-4796d359035a]) e imprimirlo:

In [9]:
print(fitted1.summary())

                            OLS Regression Results                            
Dep. Variable:             pay_yearly   R-squared:                       0.238
Model:                            OLS   Adj. R-squared:                  0.236
Method:                 Least Squares   F-statistic:                     143.8
Date:                Tue, 16 Aug 2022   Prob (F-statistic):           5.00e-29
Time:                        20:48:21   Log-Likelihood:                -5300.3
No. Observations:                 463   AIC:                         1.060e+04
Df Residuals:                     461   BIC:                         1.061e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   6.384e+04   3209.744     19.891      0.0

Ahora puede ver el resultado de la regresión. Para resumir:

1. Primero se define una fórmula `statsmodels` (`formula1 = 'pay_yearly ~ age_years'`)
2. Luego se pasa la fórmula a `ols()` (`model1 = sm.ols(formula = formula1, data = df)`)
3. Después, se ajusta el modelo con `.fit()` (`fitted1 = model1.fit()`)
4. Por último, imprime el resultado con la ayuda del método `.summary()` (`print(fitted1.summary())`)

En una sola celda:

In [10]:
formula1 = 'pay_yearly ~ age_years'
model1 = sm.ols(formula = formula1, data = df)
fitted1 = model1.fit()
print(fitted1.summary())

                            OLS Regression Results                            
Dep. Variable:             pay_yearly   R-squared:                       0.238
Model:                            OLS   Adj. R-squared:                  0.236
Method:                 Least Squares   F-statistic:                     143.8
Date:                Tue, 16 Aug 2022   Prob (F-statistic):           5.00e-29
Time:                        20:51:36   Log-Likelihood:                -5300.3
No. Observations:                 463   AIC:                         1.060e+04
Df Residuals:                     461   BIC:                         1.061e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   6.384e+04   3209.744     19.891      0.0

También puede recuperar sólo un subconjunto de la salida:

* `fitted1.params` le da los coeficientes
* `fitted1.pvalues` le da los valores $p$
* `fitted1.rsquared` le proporciona el $R^2$.

In [11]:
fitted1.params

Intercept    63844.651564
age_years      873.500614
dtype: float64

In [12]:
fitted1.pvalues

Intercept    5.113194e-64
age_years    5.001875e-29
dtype: float64

In [13]:
fitted1.rsquared

0.23777391434119666

Para obtener una lista completa de los atributos que puede recuperar, ejecute `dir(fitted1)` (la función [**`dir()`**](https://www.geeksforgeeks.org/python-dir-function) en Python le permite inspeccionar todos los atributos de un objeto).

## Regresión lineal múltiple

Los pasos para ejecutar estas regresiones en `statsmodels` son exactamente los mismos que en el caso de la regresión simple, con un pequeño cambio en la fórmula.

Este es uno de los modelos que ajustamos durante la clase:

$$ PAY{\_}YEARLY = \beta_0 + \beta_1 AGE{\_}YEARS + \beta_2 MALE{\_}FEMALE  + \varepsilon $$

La fórmula correspondiente de `statsmodels` sería:

In [None]:
formula2 = 'pay_yearly ~ age_years + male_female'

Es decir, siempre que necesite incluir una nueva variable de entrada, la adjunta a la fórmula utilizando el símbolo `+`. Si necesita tener más de dos variables de entrada, puede seguir añadiendo símbolos `+`:

~~~plain
output_variable ~ input_variable_1 + input_variable_2 + input_variable_3 + ...
~~~

### Ejercicio 1

#### 1.1

Usando la `fórmula2` anterior, cree las variables `model2` y `fitted2` e imprima la salida de su modelo lineal.

**R.**

-------

#### 1.2

¿Cuál es el $R^2$? (acceda a él directamente utilizando los atributos del modelo ajustado).

**R.**

-------

### Ejercicio 2

Codifique el siguiente modelo:

$$
PAY{\_}YEARLY = \beta_0 + \beta_1 AGE{\_}YEARS + \beta_2 {MALE{\_}FEMALE} + \beta_3 EDUCATION + \varepsilon
$$

**R.**

-------

Añadir variables categóricas al modelo es muy sencillo. No es necesario hacer nada especial: basta con incluirlas como de costumbre:

In [None]:
formula4 = 'pay_yearly ~ job_title'
model4 = sm.ols(formula = formula4, data = df)
fitted4 = model4.fit()
print(fitted4.summary())

### Ejercicio 3

Codifique el siguiente modelo e imprima sólo los *coeficientes*:

$$
PAY{\_}YEARLY = \beta_0 + \beta_1 AGE{\_}YEARS + \beta_2 {MALE{\_}FEMALE} + \beta_3 EDUCATION + \beta_4 JOB{\_}TITLE + \varepsilon
$$

**R.**

-------