<img style="float: right;" src="img/logo.png" width="500">


# Análisis de Regresión (2021-3)
## Especialización en Estadística Aplicada
#### Prof. [Sébastien Lozano Forero](https://www.linkedin.com/in/sebastienlozanoforero/) (slozanof@libertadores.edu.co)

## <font color='red'> Introducción a la Regresión Lineal Múltiple</font>

### Tabla de contenidos

* [Modelo de Regresión Lineal Múltiple](#modelo)
* [Resultados Generales](#resultados)
* [Supuestos](#supuestos)
* [Validación de Supuestos](#validacion) 
* [Influencia y Diagnóstico](#influencia)
* [Ejemplo](#ejemplo) 

### Modelo de Regresión Lineal Múltiple <a class="anchor" id="modelo"></a>

<img style="float: right;" src="img/multiple.png" width="400">

El modelo de regresión lineal simple da cuenta de la relación **lineal** y **causal** entre las variables $X_1,X_2,\cdots X_n,  Y$ ($X_1,X_2,\cdots X_n$ causan a $Y$).

Continuamos con el estudio del análisis de regresión considerando, ahora, las situaciones en las que intervienen dos o más variables predictoras o independientes. Este estudio, al que se le conoce como **análisis de regresión múltiple**, permite tomar más factores en consideración y obtener estimaciones mejores que las que son posibles con la regresión lineal simple.

El análisis de regresión múltiple estudia la relación de una variable respuesta con dos o más variables predictoras. Para denotar el número de variables predictoras independientes se suele usar $p$. A la ecuación que describe cómo está relacionada la variable respuesta $Y$ con las variables predictoras $X_1$, $X_2$, $\cdots$, $X_p$ se le conoce como **modelo de regresión múltiple** y se escribe de la siguiente forma
$$
Y=\beta_0 +\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p+\epsilon \tag{1}
$$

Donde: 
- $\beta_0, \beta_1, \cdots, \beta_p$ son parámetros poblacionales a ser estimados.
- $\epsilon$ representa un error aleatorio (Nuestra incapacidad para dar cuenta de la realidad tal cuál es)
- $Y$ representa la *variable respuesta*
- $X_1,\cdots X_p$ representan las *variables predictoras*

<img style="float: right;" src="img/red.png" width="400">

Si se conocieran los valores de $\beta_0$, $\beta_1$, $\beta_2$, $\cdots$, $\beta_p$, se podría usar la ecuación $(2)$ para calcular la media de las $Y$ para valores dados de $X_1$, $X_2$, $\cdots$, $X_p$. Desafortudamente, los valores de estos parámetros no suelen conocerse, es necesario estimarlos a partir de datos muestrales. 

Para calcular los valores de los estadísticos muestrales $\hat{\beta}_0$, $\hat{\beta}_1$, $\hat{\beta}_2$, $\cdots$, $\hat{\beta}_p$, que se usan como estimadores puntuales de los parámetros $\beta_0$, $\beta_1$, $\beta_2$, $\cdots$, $\beta_p$ se emplea una muestra aleatoria simple. Con los estadísticos muestrales se obtiene la siguiente **ecuación de regresión múltiple estimada**

$$
\widehat{Y}=\hat{\beta}_0+\hat{\beta}_1X_1+\hat{\beta}_2X_2+\cdots+\hat{\beta}_pX_p
$$
donde $\hat{\beta}_0$, $\hat{\beta}_1$, $\hat{\beta}_2$, $\cdots$, $\hat{\beta}_p$ son las estimaciones de $\beta_0$, $\beta_1$, $\beta_2$, $\cdots$, $\beta_p$ y $\widehat{Y}$ es el valor estimado de la media de $Y$.


### Supuestos <a class="anchor" id="supuestos"></a>

El modelo de regresión lineal múltiple, como tantísimos otros (casi absolutamente todos) modelos estadísticos, deberá cumplir una serie de supuestos que permitan concluir que el mismo es una buena versión simplificada de la información y, por tanto, tiene sentido usarlo para establecer dichas relaciones ded causación. De esta manera, los principales supuestos para el modelo de regresión lineal simple $y_t = \beta_0 + \beta_1x_{1t}+\beta_2x_{2t}+\cdots +\beta_kx_{kt} + \epsilon_t$ son 
- [S0] El modelo es una buena representación de la realidad (tiene sentido)
- [S1] $E(\epsilon_t)=0$
- [S2] $Cov(\epsilon_t ,\epsilon_s) = 0$ siempre que $i\neq j$
- [S3] $Var(\epsilon_t) =\sigma_t^2 =\sigma^2$ (Homoscedasticidad)
- [S4] $X$ es de rango completo
- [S5] [opcional pero recomendado] $y_t \sim N(\mu_t, \sigma^2)$

Típicamente, en todos los modelos estadísticos, la forma e validar los supuestos es a través de los residuos (Hay que tener presente que los errores son variables aleatorios, mientras que los residuos son realizaciones de tales variables). De esta manera se definen los residuos como $r_t= y_t-\hat{y}_t$, donde $\hat{y}_t$ es el valor predicho para $y_t$ por el modelo


### Resultados Generales <a class="anchor" id="modelo"></a>

<img style="float: right;" src="img/matrix.gif" width="400">

Podemos escribir el modelo de regresión muestral correspondiente al modelo $(1)$ como
$$
y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\epsilon_i, \ \ i=1,2,\cdots,n
$$
	
En notación matricial, este modelo de regresión muestral se representa como
$$
\mathbf{Y}=\mathbf{X\beta}+\mathbf{\epsilon}
$$
donde
$$
\begin{array}{cccc}
\mathbf{Y}=\begin{pmatrix}
y_1 \\
y_2 \\
\vdots \\
y_n
\end{pmatrix}, & \mathbf{X}=\begin{pmatrix}
1 & x_{11} & x_{12} & \cdots & x_{1p} \\
1 & x_{21} & x_{22} & \cdots & x_{2p} \\
\vdots & \vdots & \vdots & & \vdots \\
1 & x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{pmatrix}, 
\mathbf{\beta}=\begin{pmatrix}
\beta_0 \\
\beta_1 \\
\vdots \\
\beta_p
\end{pmatrix}, & \mathbf{\epsilon}=\begin{pmatrix}
\epsilon_1 \\
\epsilon_2 \\
\vdots \\
\epsilon_n
\end{pmatrix}
\end{array}
$$

Deseamos encontrar el vector de estimadores de mínimos cuadrados, $\mathbf{\beta}$, que minimiza

$$
Q(\mathbf{\beta})=\sum r_i^2=(\mathbf{Y-X\beta})'(\mathbf{Y-X\beta})
$$
Podemos probar que el estimador de mínimos cuadrados de $\mathbf{\beta}$ es

$$
\hat{\mathbf{\beta}}=(\mathbf{X'X})^{-1}\mathbf{X'Y}
$$
siempre que la matriz inversa $(\mathbf{X'X})^{-1}$ exista.

#### Medidas de bondad de ajuste

<img style="float: right;" src="img/decision.jpg" width="350">

##### R cuadrado ajustado

Muchos analistas prefieren ajustar $R^2$ al número de variables independientes para evitar sobreestimar el efecto que tiene agregar una variable independiente sobre la cantidad de la variabilidad explicada por la ecuación de regresión estimada. Siendo $n$ el número de observaciones y $p$ el número de variables independientes, el coeficiente de determinación ajustado se calcula como sigue.
$$
R_{adj}^2=1-(1-R^2)\frac{n-1}{n-k-1}
$$

##### Criterios de selección
El AIC se define como:

$$
AIC = - 2\text{logLik} + pk,
$$

donde  logLik corresponde al valor de log-verosimilitud del modelo para el vector de parámetros $\beta$, $p$ es un valor de penalización por el exceso de parámetros y $k$ corresponde al número de parámetros del modelo.

Se debe recordar siempre que:

- El mejor modelo es aquel que  logLik alto
- El mejor modelo es aquel que  AIC bajo
 
Cuando el valor de penalización  $k=log(n)$, entonces el AIC se llama BIC (Schwarz’s Bayesian criterion)

#### pruebas de hipótesis

<img style="float: right;" src="img/hipotesis.jpg" width="400">

En general, va a ser de nuestro interés obtener evidencia empírica de la validez estadística de los parámetros que indexan el modelo. Para esto, se hace necesario introducir pruebas de hipótesis para los parámetros. 

Considere, la prueba de las hipótesis para $\beta_i$:
\begin{align*}
H_0: \, \beta_i &=\beta_{i0} (\beta_{i0} \text{conocido})\\
H_1: \, \beta_i &\neq \beta_{i0}
\end{align*}

que tiene como estadístico de prueba:
	
$$
T_{Est}=\frac{\hat{\beta}_1-\beta_{10}}{s\{\hat{\beta}_1\}} \sim t_{(n-p-1)}
$$
	
y la regla de decisión para el nivel de significancia $\alpha$ es $p$-valor $<\alpha$ donde $p$-valor $= 2P(T>|T_{Est}|)$ con $T\sim t_{(n-p-1)}$.



### Validación de Supuestos <a class="anchor" id="validacion"></a>

Una vez planteados los supuestos, es necesario ver cómo se validarán en ejemplos prácticos. En esta situación, simularemos los datos para poder validar cada uno de los supuestos.

<img style="float: center;" src="img/residuos.png" width="600">

In [None]:
set.seed(123)
x <- rnorm(250, mean=10, sd=5) # Distribución normal
z <- rexp(250, rate=0.1) #Distribución exponencial
w <- rbinom(250, 100,0.25) #Distribución Binomial
y <- 58 + 1.8*x+4.3*z +5*w + rnorm(250, sd=3) 
head(data.frame(x=x,y=y,z=z,w=w))

Al haber simulado el modelo $y_t = 58 + 1.8x_t+4.3z_t+5w_t+\epsilon_t$ ($\beta_0=58, \beta_1=1.8, \beta_2=4.3$ y $\beta_3=5$), debe ser natural que el modelo ajustado sea similar, veamos. 

In [None]:
ajuste <- lm(y ~ x + z + w) #tarea: glm
summary(ajuste)

In [None]:
ww<- rnorm(250, mean=15, sd=2)
ajuste2 <- lm(y~x+z+ww)
summary(ajuste2)

In [None]:
options(repr.plot.width=12, repr.plot.height=12)
par(mfrow=c(2,2))
plot(ajuste)

- [S0] El modelo es una buena representación de la realidad (tiene sentido)

El día que exista una prueba de hipótesis que verifique este supuesto, todos todos los que hagamos estadística, nos quedaremos sin trabajo.

- [S1] $E(\epsilon_t)=0$

In [None]:
residuos <- residuals(ajuste)
mean(residuos)

- [S2] $Cov(\epsilon_t ,\epsilon_s) = 0$ siempre que $i\neq j$

In [None]:
# install.packages("lmtest")
library(lmtest) # ver https://en.wikipedia.org/wiki/Durbin%E2%80%93Watson_statistic
dwtest(ajuste) # H0: No hay autocorrelación en los errores

- [S3] $Var(\epsilon_t) =\sigma_t^2 =\sigma^2$ (Homoscedasticidad)

In [None]:
library(lmtest) #https://en.wikipedia.org/wiki/Breusch%E2%80%93Pagan_test
bptest(ajuste) #H0: Homoscedasticidad

- [S4] $X$ es de rango completo

In [None]:
cor(data.frame(x=x, z=z, w=w)) #Matriz de correlaciones

In [None]:
# install.packages("car")
library(car)
vif(ajuste) #Autovalores de la matriz de correlaciones

- [S5] [opcional pero recomendado] $y_t \sim N(\mu_t, \sigma^2)$

In [None]:
# install.packages("tseries")
library(tseries)#https://en.wikipedia.org/wiki/Jarque%E2%80%93Bera_test
jarque.bera.test(residuos) #H0: Normalidad

### Influencia y Diagnósitico <a class="anchor" id="influencia"></a>

#### Problemas con los errores

<img style="float: right;" src="img/influence.png" width="400">

##### Posibles problemas y controles de diagnóstico

- Es posible que los errores no se distribuyan normalmente o que no tengan el mismo varianza: qqnorm puede ayudar con esto. Puede que esto no sea demasiado importante en muestras grandes.

- La varianza puede no ser constante. También se puede abordar en una gráfica de $X$ frente a $\epsilon$ u otra tendencia indica
    varianza no constante.

- Observaciones influyentes. Qué puntos "afectan" la línea de regresión lo mas?

- Valores atípicos: puntos en los que el modelo realmente no encaja. Posiblemente errores en la transcripción de datos, errores de laboratorio, ¿quién sabe? Debiera ser reconocido y (con suerte) explicado.

##### Tipos de residuos

<img style="float: right;" src="img/ponderacion.png" width="400">

- Residuos ordinarios: $ \epsilon_i = Y_i - \widehat{Y} _i $. Estos miden el
    desviación del valor predicho del valor observado, pero su
    la distribución depende de una escala desconocida, $ \ sigma $.

- Residuos estudiados internamente (`rstandard` en R):
    $$ r_i = \epsilon_i / SE (\epsilon_i) = \frac{\epsilon_i} {\widehat{\sigma}\sqrt{1-H_{ii}}} $$
    
- Arriba, $ H $ es la matriz de "sombrero" $ H = X (X ^ TX)^{-1}X^T $. Estos son casi $ t $ distribuidos, excepto 
    $ \widehat{\sigma} $ que depende de $ \epsilon_t $.
    
- Residuos estudiados externamente (`rstudent` en R):
$$ t_i = \frac{\epsilon_i}{\widehat {\sigma_{(i)}} \sqrt {1-H_ {ii}}}\sim t_{n-p-2}. $$ Estos son exactamente $ t $ distribuidos, por lo que conocemos su distribución y puede usarlos para pruebas, si lo desea.
    
- La cantidad $ \hat {\sigma}^2_{(i)} $ es el MSE del modelo ajustado a todos los datos excepto al caso $ i $ (es decir, tiene $ n-1 $ observaciones y $ p $ características).

- Numéricamente, estos residuos están altamente correlacionados, como era de esperar.

In [None]:
options(repr.plot.width=4, repr.plot.height=4)
plot(resid(ajuste), rstudent(ajuste), bg='blue')

In [None]:
options(repr.plot.width=4, repr.plot.height=4)
plot(rstandard(ajuste), rstudent(ajuste), bg='blue')

###### Influencia de una observación

Otras gráficas proporcionan una evaluación de la "influencia" de cada observación. Por lo general, esto se hace eliminando un caso completo $ (y_i, x_i) $ del conjunto de datos y reacondicionamiento del modelo.

- En esta configuración, $ \cdot_{(i)} $ indica que la observación $ i $ -ésima  no se utiliza para ajustar el modelo.

- Por ejemplo: $ \widehat{Y}_{j (i)} $ es la función de regresión evaluados en los predictores de observación $ j $ -ésimo PERO los coeficientes $ (\widehat {\beta}_{0(i)}, \dots, \widehat {\beta}_{p(i)}) $ estaban en forma después de eliminar $ i $ -ésimo caso de los datos.

- Idea: si $\widehat{Y}_{j(i)} $ es muy diferente de $\widehat{Y}_j$ (usando todos los datos) entonces $ i $ es un punto influyente, al menos para estimando la función de regresión en $(X_{1,j},\dots, X_{p,j}) $.
    
- También podría ver la diferencia entre $\widehat{Y}_{i(i)}-\widehat{Y}_i$, o cualquier otra medida.
    
- Hay varias medidas estándar de influencia.

###### DFFITS

$$ DFFITS_i = \frac{\widehat{Y}_i - \widehat{Y}_{i(i)}} {\widehat {\sigma}_{(i)}\sqrt {H_{ii}}} $$

- Esta cantidad mide cuánto cambia la función de regresión en  el $i$-ésimo caso / observación cuando el $i$ -ésimo caso / observación es eliminada.

- Para conjuntos de datos pequeños / medianos: el valor de 1 o más es "sospechoso" (RABE). Para un conjunto de datos grande: valor de $ 2\sqrt{(p + 1)/n} $.
    
- R tiene sus propias reglas estándar similares a las anteriores para marcar una observación tan influyente.

In [None]:
2*sqrt(4/250)

In [None]:
plot(dffits(ajuste), pch=23, bg='orange', cex=0.5, ylab="DFFITS")

###### Distancia de Cook

La distancia de Cook mide cuánto toda la función de regresión cambia cuando se elimina el caso $i$-ésimo.

$$D_i = \frac{\sum_{j=1}^n(\widehat{Y}_j - \widehat{Y}_{j(i)})^2}{(p+1) \, \widehat{\sigma}^2}$$

- Debe ser comparable a $ F_ {p + 1, n-p-1} $: si el "$ p $ -valor" de $ D_i $
    es del 50 por ciento o más, entonces el caso de $ i $ -ésimo es probablemente influyente:
    investigar más a fondo. (RABE)
    
- Nuevamente, `R` tiene sus propias reglas similares a las anteriores para marcar una observación
tan influyente.

- ¿Qué hacer después de la investigación? No es una respuesta fácil.

In [None]:
plot(cooks.distance(ajuste), pch=23, bg='orange', cex=0.5, ylab="Cook's distance")

###### DFBETAS

Esta cantidad mide cuánto cambian los coeficientes cuando el $i$-ésimo caso se elimina.


$$DFBETAS_{j(i)} = \frac{\widehat{\beta}_j - \widehat{\beta}_{j(i)}}{\sqrt{\widehat{\sigma}^2_{(i)} (X^TX)^{-1}_{jj}}}.$$

   
Para conjuntos de datos pequeños / medianos: el valor absoluto de 1 o mayor es "suspicaz". Para un conjunto de datos grande: valor absoluto de $ 2/\sqrt{n} $.

In [None]:
2/sqrt(250)

In [None]:
plot(dfbetas(ajuste)[,'x'], pch=23, bg='orange', cex=0.5, ylab="DFBETA (x)")

In [None]:
plot(dfbetas(ajuste)[,'z'], pch=23, bg='orange', cex=0.5, ylab="DFBETA (z)")

###### Valores atípicos

<img style="float: right;" src="diferente.jpg" width="400">

La definición esencial de un *valor atípico* es un par de observación $(Y, X_1,\dots, X_p) $ que no sigue el modelo, mientras que la mayoría de las otras observaciones parecen seguir el modelo.

- Valor atípico en * predictores *: los valores de $ X $ de la observación pueden estar fuera de la "nube" de otros valores $ X $. Esto significa que puede ser extrapolando su modelo de manera inapropiada. Los valores $ H_{ii} $ pueden ser se utiliza para medir qué tan "atípicos" son los valores de $ X $.

- Valor atípico en *respuesta*: el valor $ Y $ de la observación puede ser muy lejos del modelo ajustado. Si los residuales studentizados son grandes: la observación puede ser un valor atípico.

##### Valores atípicos en  $ X $

Una forma de detectar valores atípicos en los *predictores*, además de observar los valores reales en sí mismos, es a través de sus valores de apalancamiento, definidos por
$$
\text{leverage}_i = H_{ii} = (X (X ^ TX) ^ {- 1} X ^ T) _ {ii}.
$$


In [None]:
plot(hatvalues(ajuste), pch=23, bg='orange', cex=0.5, ylab='Hat values')

Hasta aquí, parece terrible hacer estudios de influencia y diagnóstico. La matemática es compleja y ésta es un área todavía en estudio, por lo tanto, las cosas pueden cambiar en los próximos años. Sin embargo, no debe generar preocupación el uso de toda esta información para determinar cuáles puntos deben ser influyentes o atípicos de forma desmedida. 

In [None]:
summary(influence.measures(ajuste))

### Ejemplo <a class="anchor" id="modelo"></a>

Para este ejemplo retomaremos el conjunto de datos estudiado en la clase 3. Esta es la base de datos que da cuenta de la distribución de pagos en una empresa ¿Hay discriminación por género? 

In [None]:
base <- read.csv('glassdoordata.csv')
head(base)

Las variables son 
<img style="float: right;" src="img/genero.png" width="400">

- **job title**: Título del trabajo (e.g. “Graphic Designer”, “Software Engineer”, etc);
- **gender**: Hombre o mujer;
- **age**: edad;
- **performance**: en escala del 1 al 5, 1 siendo el más bajo y 5 siendo la más alta;
- **education**: niveles de educación (e.g. "College", "PhD", "Masters", "Highschool");
- **department**: diferentes departamentos  (e.g. "Operations", "Management", etc);
- **seniority**: en escala del 1 al 5, 1 siendo el más bajo y 5 siendo la más alta;
- **income, bonus**: Expresados en dólares

Pequeña transformación (feature engineering)

In [None]:
base$pay <-  base$income + base$bonus

In [None]:
head(base,10)

### Ejercicio 1
Construya la matriz de correlaciones de entre las variables cuantitavias de la base de datos. Qué variables parecen razonables para usar en un modelo de regresión? 

**Respuesta**.

In [None]:
cor(base[,c("age", "performance", "seniority", "pay")])

In [None]:
# install.packages("corrplot")
library(corrplot)
options(repr.plot.width=8, repr.plot.height=8)
corrplot(cor(base[,c("age", "performance", "seniority", "pay")]), method="circle")

### Ejercicio 2
Construya Figuras que permitan una comparación en la variable pay, indexada por género con las variables cualitativas de la base de datos. Qué variables parecen razonables para usar en un modelo de regresión? 

**Respuesta**.

In [None]:
library(gridExtra)
library(ggplot2)
options(repr.plot.width=16, repr.plot.height=12)
fig2 <- ggplot(base, aes(x=factor(education), y=pay, col=gender))+geom_boxplot()
fig3 <- ggplot(base, aes(x=factor(jobtitle), y=pay, col=gender))+geom_boxplot()+theme(axis.text.x = element_text(angle = 30, vjust = 0.5, hjust=1))
fig4 <- ggplot(base, aes(x=factor(performance), y=pay, col=gender))+geom_boxplot()
grid.arrange(fig2,fig3,fig4, ncol=2, nrow=2)

### Ejercicio 3 

Conluya si tiene sentido suponer que la formación académica influye en el pago. 

In [None]:
levels(base$education)

**Respuesta**.

In [None]:
ajuste2 <- lm(pay ~ factor(gender) + factor(education), data=base)
summary(ajuste2)

### Ejercicio 5

Incluya la variable age en el modelo. Tiene sentido el modelo obtenido? 

**Respuesta**.

In [None]:
ajuste3 <- lm(pay~gender + age + factor(education), data=base)
summary(ajuste3)

### Ejercicio 6 
Qué hace la línea de código `base[which(dffits(ajuste) > 0.5),]`? Qué puede interpretar de esto?


**Respuesta**.

In [None]:
base[which(dffits(ajuste) > 0.5),]

In [None]:
summary(influence.measures(ajuste))

Hay una observación que resalta por la diferencia que el modelo prediciría su salario. 

### Ejercicio 7

Monte el modelo saturado (con todas las variables). Algún cambio que llame su atención?

**Respuesta**.

In [None]:
levels(base$jobtitle)

In [None]:
ajuste3 <- lm(pay~factor(jobtitle) + age + factor(performance) + factor(education) + factor(department) + factor(seniority) + gender, data=base)
summary(ajuste3)

### Ejercicio 8

Teniendo el modelo anterior, cuáles son las áreas que mejor pagan?

(a) Marketing Associate

(b) Software Engineer

(c) Manager

(d) Graphic Designer

**Respuesta**.

(b) Manager

Considerando la diferencia en el $R^2$ de más de $80\%$ entre el modelo más sencillo y el modelo más complejo, siendo género incluido en ambos, quiere decir que hay incidencia importante sobre la variabildiad de la información en las otras variables. 

### Ejercicio 9:

Basado en lo anterior, considere las siguientes afirmaciones. 

I. Después de tener en cuenta  job title, education, performance y age, la proporción de la diferencia salarial atribuible únicamente al género es pequeña.

II. Existe evidencia de que la discriminación salarial entre hombres y mujeres se debe únicamente al género.

III. Hay motivos para creer que podría haber una cantidad desproporcionada de mujeres en trabajos peor pagados
como marketing, mientras que podría haber más hombres en trabajos mejor pagados, como gerente.

Elija la respuesta correcta:

(a) I es correcto, II y III son incorrectos.

(b) II es correcto, I y III son incorrectos.

(c) I es incorrecta, II y III son correctas.

(d) I y III son correctos, II es incorrecto.

**Respuesta**.

(d) I y III son correctos, II es incorrecto.

### Ejercicio 10:

Establezca la cantidad de hombres y mujeres en los niveles de seniority y en jobtitle. Algo que llame su atención?

In [None]:
counts <- table(base$seniority, base$gender)
counts

In [None]:
counts <- table(base$jobtitle, base$gender)
counts

In [None]:
ggplot(base, aes(x=factor(jobtitle), y=pay, col=gender))+
    geom_boxplot()+
    theme(axis.text.x = element_text(angle = 30, vjust = 0.5, hjust=1))

### Ejercicio 11:
Conclusiones del caso?

**Respuesta**.

Nuestra conclusión inicial (basada en el modelo de regresión simple) es equivocada, no podemos concluir que exista discriminación por motivos de género. Lo anterior, ya que, como se vio recientemente, el salario también resulta una función de la posición de trabajo. Por tanto, el problema que puede ser entedido de forma exógena como discriminación, realmente se debería entender como la cantidad de mujeres que están presentes en algunas posiciones. En general, hay muchas más mujeres que hombres en posiciones muy mal pagas (Marketing Associate) y muchos más hombres que mujeres en posiciones muy bien pagas (Software Engineer y Manager). Por tanto, la recomendación hacía la forma de contratar mujeres para ciertas posiciones debería ser revisado. 

-------

# Transformación de variables 

Idea central: Reducir el sesgo de los supuestos del modelo de regresión lineal que puedan presentar nuestros datos

https://www.statisticshowto.com/box-cox-transformation/#:~:text=A%20Box%20Cox%20transformation%20is,a%20broader%20number%20of%20tests.

In [None]:
x <- runif(1000, min=10, max=50)
y <- log(34 + 10*x + rnorm(1000, sd=30))
plot(x,y)

In [None]:
ajuste <- lm(y~x)
summary(ajuste)
plot(x,y)
abline(ajuste)

In [None]:
options(repr.plot.width=7, repr.plot.height=7)
par(mfrow=c(2,2))
plot(ajuste)

In [None]:
plot(x,y)

In [None]:
plot(x,exp(y))

In [None]:
y_exp <- exp(y)
ajuste <- lm(y_exp~x)
summary(ajuste)
plot(x,y)
abline(ajuste)

In [None]:
par(mfrow=c(2,2))
plot(ajuste)

In [None]:
library(MASS)

#create data
y=c(1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 6, 7, 8)
x=c(7, 7, 8, 3, 2, 4, 4, 6, 6, 7, 5, 3, 3, 5, 8)

#fit linear regression model
model <- lm(y~x)
summary(model)
plot(x,y)

In [None]:
#find optimal lambda for Box-Cox transformation 
bc <- boxcox(y ~ x)
lambda <- bc$x[which.max(bc$y)]


lambda


In [None]:
#fit new linear regression model using the Box-Cox transformation
y_trans <- y^{lambda-1}/lambda
y
y_trans
# new_model <- lm(((y^lambda-1)/lambda) ~ x)

In [None]:
plot(x,y_trans)

In [None]:
ajuste2 <- lm(y_trans~x)
summary(ajuste2)

In [None]:
initech = read.csv("initech.csv")
initech

In [None]:
plot(initech$years, initech$salary)

In [None]:
plot(initech$years, initech$salary)
ajuste <- lm(salary~years, data=initech)
summary(ajuste)
abline(ajuste)

In [None]:
par(mfrow=c(2,2))
plot(ajuste)

In [None]:
bc <- boxcox(initech$salary~initech$years)
lambda <- bc$x[which.max(bc$y)]
lambda

In [None]:
y_trans <- log(initech$salary)
plot(initech$years, y_trans)

In [None]:
ajuste_bc <- lm(y_trans~years,data=initech)
summary(ajuste_bc)
plot(initech$years, y_trans)
abline(ajuste_bc)

In [None]:
par(mfrow=c(2,2))
plot(ajuste_bc)

In [None]:
residuales <- residuals(ajuste_bc)
mean(residuales)

In [None]:
library(lmtest) # ver https://en.wikipedia.org/wiki/Durbin%E2%80%93Watson_statistic
dwtest(ajuste_bc) # H0: No hay autocorrelación en los errores

In [None]:
library(lmtest) #https://en.wikipedia.org/wiki/Breusch%E2%80%93Pagan_test
bptest(ajuste_bc) #H0: Homoscedasticidad

In [None]:
library(tseries)
jarque.bera.test(residuales)

In [None]:
brain <- read.csv('headbrain.csv')

In [None]:
head(brain)

In [None]:
plot(brain$Head.Size.cm.3., brain$Brain.Weight.grams.)

In [None]:
ajuste_brain <- lm(Brain.Weight.grams.~Head.Size.cm.3., data=brain)
summary(ajuste_brain)
plot(brain$Head.Size.cm.3., brain$Brain.Weight.grams.)
abline(ajuste_brain)

In [None]:
par(mfrow=c(2,2))
plot(ajuste_brain)

In [None]:
residuales <- residuals(ajuste_brain)
mean(residuales)


In [None]:
library(lmtest) # ver https://en.wikipedia.org/wiki/Durbin%E2%80%93Watson_statistic
dwtest(ajuste_brain) # H0: No hay autocorrelación en los errores


In [None]:
library(lmtest) #https://en.wikipedia.org/wiki/Breusch%E2%80%93Pagan_test
bptest(ajuste_brain) #H0: Homoscedasticidad


In [None]:

library(tseries)
jarque.bera.test(residuales)

In [None]:
x_trans <- log(brain$Head.Size.cm.3.)
y_trans <- log(brain$Brain.Weight.grams.)

In [None]:
options(repr.plot.width=14, repr.plot.height=7)
par(mfrow=c(1,2))
plot(brain$Head.Size.cm.3., brain$Brain.Weight.grams.)
plot(x_trans,y_trans)

In [None]:
ajuste2_brain <- lm(y_trans~x_trans)
summary(ajuste2_brain)

In [None]:
residuales <- residuals(ajuste2_brain)
mean(residuales)

In [None]:
library(lmtest) # ver https://en.wikipedia.org/wiki/Durbin%E2%80%93Watson_statistic
dwtest(ajuste2_brain) # H0: No hay autocorrelación en los errores

In [None]:
library(lmtest) #https://en.wikipedia.org/wiki/Breusch%E2%80%93Pagan_test
bptest(ajuste2_brain) #H0: Homoscedasticidad


In [None]:
library(tseries)
jarque.bera.test(residuales)