##  Test de hipótesis e Intervalos de confianza en una regresión lineal

Para este ejercicio es necesario utilizar el dataset que se encuentra en el archivo: cafeina.txt

#### Experimento:
Se dice que la cafeína ingerida oralmente es un estimulante.

Con el fin de tener alguna idea sobre el efecto físico del consumo de cafeína se realizó el siguiente experimento:

Se usaron tres niveles de consumo de cafeína: 0, 100 y 200 mg. y se entrenaron en digitación 30 hombres jovenes
de aproximadamente la misma edad y habilidad física. Una vez que el entrenamiento se completó, 10
hombres fueron asignados aleatoriamente a cada nivel de consumo de cafeína. Ni los evaluadores ni
los jovenes conocían la cantidad de cafeína consumida. 

Dos horas despues de la administración del tratamiento, se requirió a cada uno de los jóvenes un ejercicio de digitación. En el archivo se muestra el número de digitaciones por minuto de cada uno de los individuos.

#### Se pide:

**a)** **Testee la hipótesis** de que la cafeína no afecta la digitación al nivel 0.05.

**b)** Deduzca **intervalos de confianza para la diferencia de las medias** con un nivel global 0,95. Interprete
los resultados.

In [1]:
datos_cafeina <- read.table("cafeina.txt", header = T)

In [2]:
datos_cafeina$obs <- NULL
colnames(datos_cafeina) <- c('dosis_suministrada', 'digitaciones_por_minuto')

In [3]:
digitaciones_por_minuto <- datos_cafeina$digitaciones_por_minuto
dosis_suministrada <- datos_cafeina$dosis_suminstrada

In [4]:
datos_cafeina

dosis_suministrada,digitaciones_por_minuto
<int>,<int>
1,242
1,245
1,244
1,248
1,247
1,248
1,242
1,244
1,246
1,242


**a) Testee la hipótesis** de que la cafeína no afecta la digitación al nivel 0.05

**Algunas observaciones importantes:** 

* Hay 3 niveles de cafeína distintos y tenemos 10 muestras para cada nivel de cafeína
* Mi objetivo es saber si la media en cada grupo es distinta o si todas las medias son iguales.

**Llamando:** 

- $Y$ = cantidad de digitaciones por minuto 
- $Y_{1,i}$ = cantidad de digitaciones por minuto de la i-esima persona del grupo de los que consumieron 0 gramos de cafeina (1$\leqslant$i$\leqslant$10)
- $Y_{2,i}$ = cantidad de digitaciones por minuto de la i-esima persona del grupo de los que consumieron 0 gramos de cafeina (11$\leqslant$i$\leqslant$20)
- $Y_{3,i}$ = cantidad de digitaciones por minuto de la i-esima persona del grupo de los que consumieron 0 gramos de cafeina (21$\leqslant$i$\leqslant$30)

**El modelo lineal que planteamos es entonces el siguiente:**

- $Y_{1,i}$ = $\mu_{1}$ + $\epsilon_{1,i}$ (1$\leqslant$i$\leqslant$10)
- $Y_{2,i}$ = $\mu_{2}$ + $\epsilon_{2,i}$ (11$\leqslant$i$\leqslant$20)
- $Y_{3,i}$ = $\mu_{3}$ + $\epsilon_{3,i}$ (21$\leqslant$i$\leqslant$30)

**Que escrito en forma matricial resulta:**

$Y = X\beta + \epsilon$

$Y = \begin{bmatrix}Y_{1,1}\\.\\Y_{1,10}\\Y_{2,11}\\.\\Y_{2,20}\\Y_{3,21}\\.\\Y_{3,30} \end{bmatrix}$  $\hspace{20mm}$ $ X = \begin{bmatrix} 1&0&0\\.&.&.\\1&0&0\\0&1&0\\.&.&.\\0&1&0\\0&0&1\\.&.&.\\0&0&1\end{bmatrix}$ $\hspace{20mm}$  $\beta = \begin{bmatrix} \mu_{1}\\ \mu_{2}\\ \mu{3} \end{bmatrix}$

**El test de hipotesis que planteo es entonces el siguiente:**

$H_{0}: \mu_{1} = \mu_{2} = \mu_{3}$ $\hspace{10mm}$ vs. $\hspace{10mm}$ $H_{1}:$ alguno es distinto


$\phi(X) = 1${$F$ > *$F_{q, n-p, \alpha}$*} 

**Con $F$:**

$F = \frac{(c\hat\beta-\delta)^T (c(X^TX)^{-1}c^T)^{-1}(c\hat\beta-\delta)}{qS^2}$

**Observación**: Esta $F$ es un **estadístico cuya distribución es conocida bajo la aceptación de la hipótesis nula**: 

- Es un **estadístico** porque: es función de la muestra pues depende de las observaciones $X$ y para calcularse no depende de ningún parámetro desconocido (por ejemplo $\beta$ o $\sigma^2$). Es importante notar que para calcular una observación del estadistico utilizamos $\delta$ (que es conocido), el valor que adoptaria $c\beta$ (desconocido) si la hipótesis nula fuera verdadera. Esta $\delta$ es conocida por que es lo que queremos probar (queremos probar si $c\beta = \delta$ con c y $\delta$ a definirse según lo que se quiera probar)
- Además **su distribucion sólo es conocida adoptando la hipótesis nula verdadera**. Esto se debe a que, **sin adoptar la hipótesis nula** sabemos que $c\hat\beta$ ~ $N(c\beta$, $\sigma^2 c(X^TX)^{-1}c^T$): por lo que **bajo la hipótesis nula** distribuirá $N(\delta, \sigma^2 c(X^TX)^{-1}c^T)$ con $\sigma^2$ desconocido. Estimando $\sigma$ por S. Se demuestra que $\frac{(c\hat\beta-\delta)^T (c(X^TX)^{-1}c^T)^{-1}(c\hat\beta-\delta)}{qS^2}$ distribuye $F_{q,n-p}$ (conociendo ahora la distribución de $c\hat\beta$)


Dado que lo que queremos testear es si los $\beta$ (que en este caso son $\mu_{i}$) son iguales podemos definir a c y $\delta$ de la siguiente manera:

$c = \begin{bmatrix}1 & -1 & 0\\0 & 1 & -1\end{bmatrix}$ $\hspace{5mm}$ y $\delta = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$

De esta manera nuestra $H_{0}$ es: $c\beta = \begin{bmatrix} \mu_{1} -\mu_{2} \\ \mu_{2} -\mu_{3}\end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} = \delta$

**Busco los datos que necesito para hallar la estimación del estadístico F para esta muestra**

In [5]:
c <- cbind(c(1,0),c(-1,1), c(0,-1))

print(c)

     [,1] [,2] [,3]
[1,]    1   -1    0
[2,]    0    1   -1


In [6]:
X <- matrix(0, 30, 3)

for(i in 1:10){
    X[i,] <- c(1,0,0)
    X[i + 10,] <- c(0,1,0)
    X[i + 20,] <- c(0,0,1)
}

print(X)

      [,1] [,2] [,3]
 [1,]    1    0    0
 [2,]    1    0    0
 [3,]    1    0    0
 [4,]    1    0    0
 [5,]    1    0    0
 [6,]    1    0    0
 [7,]    1    0    0
 [8,]    1    0    0
 [9,]    1    0    0
[10,]    1    0    0
[11,]    0    1    0
[12,]    0    1    0
[13,]    0    1    0
[14,]    0    1    0
[15,]    0    1    0
[16,]    0    1    0
[17,]    0    1    0
[18,]    0    1    0
[19,]    0    1    0
[20,]    0    1    0
[21,]    0    0    1
[22,]    0    0    1
[23,]    0    0    1
[24,]    0    0    1
[25,]    0    0    1
[26,]    0    0    1
[27,]    0    0    1
[28,]    0    0    1
[29,]    0    0    1
[30,]    0    0    1


In [7]:
delta <- matrix(0, 2, 1)

print(delta)

     [,1]
[1,]    0
[2,]    0


In [8]:
n <- nrow(X)

p <- ncol(X)

A <- t(X) %*% X

beta_hat <- solve(A) %*% t(X) %*% digitaciones_por_minuto

y_fitted <- X %*% beta_hat

s2 <- sum((digitaciones_por_minuto - y_fitted)^2)/(n-p)

q <- nrow(c)

In [9]:
F =  ( t(c %*% beta_hat - delta) %*% solve(c %*% solve(A) %*% t(c)) %*% (c %*% beta_hat - delta) ) / (q*s2) 
F

0
6.181208


In [10]:
cuantil_f <- qf(0.95, q, n-p)
cuantil_f

In [11]:
if( F > cuantil_f){
    print("Rechazamos la hipotesis nula de que las medias de los grupos son iguales, es decir,")
    print("confirmamos con un 95% de seguridad que las medias de los grupos son distintas y por lo tanto,")
    print("concluimos que la cafeina afecta a las digitaciones por minuto")
}else{
  print("No podemos rechazar la hipotesis nula de que las medias de los grupos son iguales, es decir,")
  print("no tenemos suficiente evidencia como para poder rechazarla y por lo tanto no sabemos si son o no distintas")  
}

[1] "Rechazamos la hipotesis nula de que las medias de los grupos son iguales, es decir,"
[1] "confirmamos con un 95% de seguridad que las medias de los grupos son distintas y por lo tanto,"
[1] "concluimos que la cafeina afecta a las digitaciones por minuto"


**b)** Deduzca **intervalos de confianza** para la diferencia de las medias con un **nivel global** 0,95. Interprete los resultados.

In [12]:
q <- 3

In [13]:
cuantil_t <- qt(1- (0.05)/(2*q), n-p)

In [14]:
c1 <- c(1, -1, 0)

cotaInferior1 <-  c1 %*% beta_hat - cuantil_t * sqrt(s2) * sqrt( t(c1) %*% solve(A) %*% c1 )
cotaSuperior1 <- c1 %*% beta_hat + cuantil_t * sqrt(s2) * sqrt( t(c1) %*% solve(A) %*% c1 ) 

intervalo1 <- c(cotaInferior1, cotaSuperior1)

round(intervalo1, 2)

In [15]:
c2 <- c(0, 1, -1)

cotaInferior2 <-  c2 %*% beta_hat - cuantil_t * sqrt(s2) * sqrt( t(c2) %*% solve(A) %*% c2 )
cotaSuperior2 <- c2 %*% beta_hat + cuantil_t * sqrt(s2) * sqrt( t(c2) %*% solve(A) %*% c2 ) 

intervalo2 <- c(cotaInferior2, cotaSuperior2)

round(intervalo2, 2)

In [16]:
c3 <- c(-1, 0, 1)

cotaInferior3 <-  c3 %*% beta_hat - cuantil_t * sqrt(s2) * sqrt( t(c3) %*% solve(A) %*% c3 )
cotaSuperior3 <- c3 %*% beta_hat + cuantil_t * sqrt(s2) * sqrt( t(c3) %*% solve(A) %*% c3 ) 

intervalo3 <- c(cotaInferior3, cotaSuperior3)

round(intervalo3, 2)

El unico intervalo que no contiene al 0 es el tercero

SHEFFE

In [17]:
h1 = c(1,0)
h2 = c(0,1)
h3 = c(1,1)

c #Observar que esta es la misma C del test de hipotesis
q <- 2# cuidado q vuelve a ser 2 porque uso la misma C que antes

0,1,2
1,-1,0
0,1,-1


In [18]:
cuantil_f <- qf(1-0.05, q, n-p)
cuantil_f

In [19]:
cotaInferior1 <- t(h1) %*% c %*% beta_hat - sqrt(q * cuantil_f *s2) * sqrt(t(h1) %*% c %*% solve(A) %*% t(c) %*% h1)

In [20]:
cotaInferior1 <- t(h1) %*% c %*% beta_hat - sqrt(q * cuantil_f *s2) * sqrt(t(h1) %*% c %*% solve(A) %*% t(c) %*% h1)
cotaSuperior1 <- t(h1) %*% c %*% beta_hat + sqrt(q * cuantil_f *s2) * sqrt(t(h1) %*% c %*% solve(A) %*% t(c) %*% h1)
IC1 = c(cotaInferior1, cotaSuperior1)
round(IC1, 2)

In [21]:
cotaInferior2 <- t(h2) %*% c %*% beta_hat - sqrt(q * cuantil_f *s2) * sqrt(t(h2) %*% c %*% solve(A) %*% t(c) %*% h2)
cotaSuperior2 <- t(h2) %*% c %*% beta_hat + sqrt(q * cuantil_f *s2) * sqrt(t(h2) %*% c %*% solve(A) %*% t(c) %*% h2)
IC2 = c(cotaInferior2, cotaSuperior2)
round(IC2, 2)

In [22]:
cotaInferior3 <- t(h3) %*% c %*% beta_hat - sqrt(q * cuantil_f *s2) * sqrt(t(h3) %*% c %*% solve(A) %*% t(c) %*% h3)
cotaSuperior3 <- t(h3) %*% c %*% beta_hat + sqrt(q * cuantil_f *s2) * sqrt(t(h3) %*% c %*% solve(A) %*% t(c) %*% h3)
IC3 = c(cotaInferior3, cotaSuperior3)
round(IC3, 2)

## Dummy variables

El ejercicio anteriormente planteado es un ejercicio de **ANOVA** o **Análisis de la Varianza**. ANOVA busca comparar la media de diferentes poblaciones o de diferentes grupos dentro de una misma población que se supone tienen la misma varianza $\sigma^2$.

Para lograr una comparación de las medias de los grupos anteriormente, utilizamos una regresión lineal con el siguiente modelo:

- $Y_{1,i}$ = $\mu_{1}$ + $\epsilon_{1,i}$ (1$\leqslant$i$\leqslant$10)
- $Y_{2,i}$ = $\mu_{2}$ + $\epsilon_{2,i}$ (11$\leqslant$i$\leqslant$20)
- $Y_{2,i}$ = $\mu_{3}$ + $\epsilon_{3,i}$ (21$\leqslant$i$\leqslant$30)

Utilizando este metodo los coeficientes que estimamos $\hat\mu_1$ $\hat\mu_2$ y $\hat\mu_3$ eran las estimaciones para las medias de cada uno de los grupos pues:

- $E[Y_{1,i}]$ = $\mu_{1}$ (1$\leqslant$i$\leqslant$10)
- $E[Y_{2,i}]$ = $\mu_{2}$  (11$\leqslant$i$\leqslant$20)
- $E[Y_{3,i}]$ = $\mu_{3}$  (21$\leqslant$i$\leqslant$30)

Y por lo tanto

- $\hat{E}[Y_{1,i}]$ = $\hat\mu_{1}$ (1$\leqslant$i$\leqslant$10)
- $\hat{E}[Y_{2,i}]$ = $\hat\mu_{2}$  (11$\leqslant$i$\leqslant$20)
- $\hat{E}[Y_{3,i}]$ = $\hat\mu_{3}$  (21$\leqslant$i$\leqslant$30)

Se observa claramente que los coeficientes estimados eran estimaciones de la esperanza o media de cada uno de los grupos.

Sin embargo no es la única forma de plantear esta regresión. Una manera alternativa utiliza lo que se conocen como ¨dummy variables¨.

Las dummy variables son variables que pueden tomar unicamente dos valores: 0 ó 1. De esta forma podemos estimar la media de la cantidad de digitaciones de un grupo planteando el siguiente modelo de regresión lineal utilizando dummy variables:

$Y_i = \beta_0 + \beta_1 X_{1,i} + \beta_2 X_{2,i} + \epsilon  $ (1$\leqslant$i$\leqslant$30) 

Donde:

$X_{1,i} = \begin{cases}
    1 & \text{si el i-iesimo joven esta en el grupo que consumio 100 gramos de cafeina}\\
    0 & \text{si no}
\end{cases}$

$X_{2,i} = \begin{cases}
    1 & \text{si el i-iesimo joven esta en el grupo que consumio 200 gramos de cafeina}\\
    0 & \text{si no}
\end{cases}$

Observamos que no es necesario crear una dummy varibale $X_3$ pues cuando $X_1$ = 0 y $X_2$ = 0 se entiende que el joven esta en el grupo que consumio 0 gramos de cafeina. Es importante no agregar esta variable dummy $X_3$ para no tener un problema de colinealidad, informacion redundante (hacer esto es caer en lo que se conoce como **"dummy trap"**).

Veamos entonces que la estimacion para la media de las poblaciones se consiguen como una combinacion lineal de los coeficientes estimados $\hat\beta_0$, $\hat\beta_1$ y $\hat\beta_2$ pues:

$\hat{E}[Y_i|X_{1,i} = 0, X_{2,i} = 0] = \hat\beta_0$

$\hat{E}[Y_i|X_{1,i} = 1, X_{2,i} = 0] = \hat\beta_0 + \hat\beta_1$

$\hat{E}[Y_i|X_{1,i} = 0, X_{2,i} = 1] = \hat\beta_0 + \hat\beta_2$

Observamos que la estimacion para la media de la cantidad de digitaciones del grupo de control (el que no consumio cafeina) resulta $\hat\beta_0$

La matriz de diseño resulta de considerar en nuestros casos los valores de $X_{1,i}$ y $X_{2,i}$ observados, es entonces: 

$ X = \begin{bmatrix} 1&0&0\\.&.&.\\1&0&0\\1&1&0\\.&.&.\\1&1&0\\1&0&1\\.&.&.\\1&0&1\end{bmatrix}$

Pues: 

$x_{1,i} = 0$ y $x_{2,i} = 0$ para i entre 1 y 10

$x_{1,i} = 1$ y $x_{2,i} = 0$ para i entre 11 y 20

$x_{1,i} = 0$ y $x_{2,i} = 1$ para i entre 21 y 30


In [24]:
X <- matrix(0, 30, 3)

for(i in 1:10){
    X[i,] <- c(1,0,0)
    X[i + 10,] <- c(1,1,0)
    X[i + 20,] <- c(1,0,1)
}

print(X)

      [,1] [,2] [,3]
 [1,]    1    0    0
 [2,]    1    0    0
 [3,]    1    0    0
 [4,]    1    0    0
 [5,]    1    0    0
 [6,]    1    0    0
 [7,]    1    0    0
 [8,]    1    0    0
 [9,]    1    0    0
[10,]    1    0    0
[11,]    1    1    0
[12,]    1    1    0
[13,]    1    1    0
[14,]    1    1    0
[15,]    1    1    0
[16,]    1    1    0
[17,]    1    1    0
[18,]    1    1    0
[19,]    1    1    0
[20,]    1    1    0
[21,]    1    0    1
[22,]    1    0    1
[23,]    1    0    1
[24,]    1    0    1
[25,]    1    0    1
[26,]    1    0    1
[27,]    1    0    1
[28,]    1    0    1
[29,]    1    0    1
[30,]    1    0    1


In [26]:
beta_hat <- solve(t(X)%*%X) %*% t(X) %*% digitaciones_por_minuto

In [27]:
beta_hat

0
244.8
1.6
3.5
