# Modelos ANOVA

Los modelos ANOVA, llamados así por analysis-of-varaince (análisis de varianza), fueron creados para el análisis de experimentos biológicos. En este contexto, supongamos que un investigador aplica varios tratamientos distintos a unidades experimentales elegidas aleatoriamente, y posteriormente desea comparar las medias de cierta respuesta asociadas a los distintos tratamientos, más adelante veremos varios ejemplos de esta situación. En el modelo ANOVA hacemos uso de modelos lineales para realizar la comparación de estas medias. Este modelo frecuentemente es expresado con más parámetros de los que pueden ser estimados, lo cual resulta en una matriz $\pmb{X}'\pmb{X}$ que no puede invertirse, por lo que alternativas a los métodos de estimación y pruebas basadas en mínimos cuadrados deben ser tratadas.
Nos enfocaremos en modelos balanceados, donde se tiene el mismo número de observaciones para cada tratamiento.

## ANOVA de una vía

Supongamos que un investigador a desarrollado dos químicos aditivos para incrementar el millaje de la gasolina. Para formular el modelo podemos plantear que que sin aditivos un galón de gasolina brinda un millaje promedio de $\mu$ kilómetros. Sii el aditivo 1 es añadido, entonces el millaje promedio incrementa $\tau_1$ kilómetros por galón; y si el aditivo 2 es añadido, el millaje promedio aumenta $\tau_2$ kilómetros por galón. Si $y_1$ denota el kilometraje por galón asociado a un tanque de gasolina con el aditivo químico 1, y similarmente $y_2$ para el aditivo 2; entonces el modelo puede ser epresado como sigue:

\begin{align*}
y_1 = \mu + \tau_1 + \epsilon_1, \;  \quad \quad \; y_2 = \mu + \tau_2 + \epsilon_2
\end{align*}

Con $\epsilon_1$ y $\epsilon_2$ errores gaussianos. En este conteto es natural querer realizar estimaciones de los parámetros $\mu$, $\tau_1$ y $\tau_2$, y pruebas de hipótesis como $H_0 \, : \, \tau_1 = \tau_2$.

Supongamos que el investigador diseña un experimento en el cual se observa el kilometraje por galón para 3 tanques con el aditivo 1 y 3 tanques con el aditivo 2. Esto se puede escribir como
\begin{align*}
& y_{1,1} = \mu + \tau_1 + \epsilon_{1,1}, \; \; 
& y_{1,2} = \mu + \tau_1 + \epsilon_{1,2}, \; \;
& y_{1,3} = \mu + \tau_1 + \epsilon_{1,3}, \; \;
\\
& y_{2,1} = \mu + \tau_2 + \epsilon_{2,1}, \; \; 
& y_{2,2} = \mu + \tau_2 + \epsilon_{2,2}, \; \;
& y_{2,3} = \mu + \tau_2 + \epsilon_{2,3}, \; \;
\end{align*}
o alternativamente escrito como
\begin{align*}
     y_{i,j} = \mu + \tau_i + \epsilon_{i,j}, \; \quad \quad \; i=1,2; \; j=1,2,3 
\end{align*}
En forma matricial escribimos esto como
\begin{align*}
\left(\begin{matrix} 
y_{1,1} \\ 
y_{1,2} \\ 
y_{1,3} \\ 
y_{2,1} \\ 
y_{2,2} \\ 
y_{2,3} 
\end{matrix} \right) = 
\left( \begin{matrix}
1 & 1 & 0 \\
1 & 1 & 0 \\
1 & 1 & 0 \\
1 & 0 & 1 \\
1 & 0 & 1 \\
1 & 0 & 1
\end{matrix} \right)
\left( \begin{matrix}
\mu \\ \tau_1 \\ \tau_2
\end{matrix}\right)
+
\left(\begin{matrix} 
\epsilon_{1,1} \\ 
\epsilon_{1,2} \\ 
\epsilon_{1,3} \\ 
\epsilon_{2,1} \\ 
\epsilon_{2,2} \\ 
\epsilon_{2,3} 
\end{matrix} \right) 
\end{align*}
o alternativamente escrito como
\begin{align*}
     \pmb{y} = \pmb{X}\pmb{\beta} +\pmb{\epsilon}
\end{align*}

Observamos que $\pmb{X}'\pmb{X}$ no es invertible por lo que el estimador de mínimos cuadrados no existe para este modelo.

In [1]:
X = zeros(6,3) # Matriz de ceros para construir X
for i in 1:3
    X[i,:] = [ 1, 1, 0 ] # renglones asociados al aditivo 1
end
for i in 4:6
    X[i,:] = [ 1, 0, 1 ] # renglones asociados al aditivo 2
end
X'*X

3×3 Array{Float64,2}:
 6.0  3.0  3.0
 3.0  3.0  0.0
 3.0  0.0  3.0

La primer columna de $\pmb{X}'\pmb{X}$ menos la segunda resulta en la tercera columna por lo que la matrix no es invertible.

In [2]:
(X'*X)^(-1)

LinearAlgebra.SingularException: LinearAlgebra.SingularException(3)

Observamos que el modelo tiene 3 parámetros a estimar pero $\text{rango}(\pmb{X})=2$ por lo que decimos que el modelo está sobreparametrizado. Esto se puede ilustrar con el siguiente ejemplo. Si $\mu = 15$, $\tau_1 = 1$ y $\tau_2 = 3$ obtenemos

\begin{align*}
y_{1,j} &= 15 + 1 + \epsilon_{1,j} = 16 + \epsilon_{1,j},\; \; j=1,2,3
\\
y_{2,j} &= 15 + 3 + \epsilon_{2,j} = 18 + \epsilon_{2,j},\; \; j=1,2,3
\end{align*}
es equivalente a si $\mu = 10$, $\tau_1 = 6$ y $\tau_2 = 8$ con lo que

\begin{align*}
y_{1,j} &= 10 + 6 + \epsilon_{1,j} = 16 + \epsilon_{1,j},\; \; j=1,2,3
\\
y_{2,j} &= 10 + 8 + \epsilon_{2,j} = 18 + \epsilon_{2,j},\; \; j=1,2,3
\end{align*}
y  claramente hay una infinidad de valores para $\mu$, $\tau_1$ y $\tau_2$ que deterrminan el mismo modelo.

Veremos dos alternativas para tratar el modelo ANOVA, pero primero discutiremos el modelo ANOVA de dos vías.

## ANOVA de dos vías

Supongamos que un investigador quiere investigar el efecto de dos vitáminas y de dos mecanismo de administración con respecto a la ganancia en peso para pollos. Sean $\alpha_1$, $\alpha_2$ los efectos en la ganacia de peso para pollos asociados a las vitaminas y $\beta_1$, $\beta_2$ los efectos relacionados a los mecanismo de administracion. Entonces se puede proponer el siguiente modelo donde los efectos son aditivos
\begin{align*}
y_{1,1} &= \mu + \alpha_1 + \beta_1 + \epsilon_{1,1}, \;  \quad \quad \; y_{1,2} &= \mu + \alpha_1 + \beta_2 + \epsilon_{1,2}
\\
y_{2,1} &= \mu + \alpha_2 + \beta_1 + \epsilon_{2,1}, \;  \quad \quad \; y_{2,2} &= \mu + \alpha_2 + \beta_2 + \epsilon_{2,2}
\end{align*}
Para simplificar la exposición, suponemos que el investigador observa una observación de cada combinación vitamina - administración. En forma matricial esto se expresa como
\begin{align*}
\left(\begin{matrix} 
y_{1,1} \\ 
y_{1,2} \\ 
y_{2,1} \\ 
y_{2,2}
\end{matrix} \right) = 
\left( \begin{matrix}
1 & 1 & 0 & 1 & 0 \\
1 & 1 & 0 & 0 & 1 \\
1 & 0 & 1 & 1 & 0 \\
1 & 0 & 1 & 0 & 1
\end{matrix} \right)
\left( \begin{matrix}
\mu \\ \alpha_1 \\ \alpha_2 \\ \beta_1 \\ \beta_2
\end{matrix}\right)
+
\left(\begin{matrix} 
\epsilon_{1,1} \\ 
\epsilon_{1,2} \\ 
\epsilon_{2,1} \\ 
\epsilon_{2,2}
\end{matrix} \right) 
\end{align*}
o alternativamente
\begin{equation*}
\pmb{y} = \pmb{X}\pmb{\beta} + \pmb{\epsilon}
\end{equation*}
Observamos que  $\pmb{X}'\pmb{X}$  no es ivertible

In [6]:
X = [ [1,1,1,1] [1,1,0,0] [0,0,1,1] [1,0,1,0] [0,1,0,1] ]

4×5 Array{Int64,2}:
 1  1  0  1  0
 1  1  0  0  1
 1  0  1  1  0
 1  0  1  0  1

In [7]:
X' * X

5×5 Array{Int64,2}:
 4  2  2  2  2
 2  2  0  1  1
 2  0  2  1  1
 2  1  1  2  0
 2  1  1  0  2

La primera columna de $\pmb{X}'\pmb{X}$ menos la segunda resulta en la tercera columna por lo que la matriz no es invertible.

## Reparametrización

Veremos que si tranformamos el modelo podemos llegar a uno donde el estimador usual de mínimos cuadrados para el modelo de regresión lineal múltiple puede ser calculado. Transformamos el modelo $\pmb{y} = \pmb{X}\pmb{\beta} + \pmb{\epsilon}$ donde $\pmb{X}$ es $n \times p$ dimensional con rango $k<p\leq n$ en un modelo $\pmb{y} = \pmb{Z}\pmb{\gamma} + \pmb{\epsilon}$ con $\pmb{Z}$ $n \times k$ dimensional con rango $k$ y $\pmb{\gamma}= \pmb{U}\pmb{\beta}$ con los renglones de $\pmb{U}$ linealmente independientes. Entonces 

\begin{equation*}
\pmb{Z}\pmb{\gamma} = \pmb{Z}\pmb{U}\pmb{\beta}=\pmb{X}\pmb{\beta}
\end{equation*}
por lo que $\pmb{X}=\pmb{Z}\pmb{U}$. Dado que $\pmb{U}$ es $k\times p$ dimensional con rango $k<p$, la matriz $\pmb{U}'\pmb{U}$, análogamente a cuando discutíamos el modelo de regresión lineal múltiple, es no singular por lo que
\begin{equation*}
\pmb{Z}\pmb{U}=\pmb{X}\implies \pmb{Z}\pmb{U}\pmb{U}' = \pmb{X}\pmb{U}' \implies \pmb{Z} = \pmb{X}\pmb{U}'(\pmb{U}
\pmb{U}')^{-1}
\end{equation*}

Observamos que $\pmb{Z}$ es de rango completo ya que $\text{rango}(\pmb{Z})\geq \text{rango}(\pmb{ZU})=\text{rango}(\pmb{X})=k $ y $\text{rango}(Z)\leq \min \{ n,k \}=k $ por lo que $\text{\pmb{Z}} =k$ y podemos usar el estimador de mínimos cuadrados $\hat{\pmb{\gamma}}= (\pmb{Z}'\pmb{Z})^{-1}\pmb{Z}'\pmb{y}$.

## Condiciones adicionales

Consideramos el modelo $\pmb{y} = \pmb{X}\pmb{\beta} + \pmb{\epsilon}$ donde $\pmb{X}$ es $n \times p$ dimensional con rango $k<p\leq n$. La deficiencia en el rango de $\pmb{X}$ es de $p-k$ por lo que consideramos condiciones adicionales dadas por $\pmb{T}\pmb{\beta}=\pmb{0}$ con $\pmb{T}$ $(p-k)\times p$ dimensional tal que los correspondientes renglones son linealmente independientes entre si y entre los renglones de $\pmb{X}$. Entonces podemos considerar las ecuaciones
\begin{align*}
\pmb{y} &= \pmb{X}\pmb{\beta} + \pmb{\epsilon}
\pmb{0} &= \pmb{T}\pmb{\beta} + \pmb{0}
\end{align*}
o alternativamente 

\begin{align*}
\left( \begin{matrix}
\pmb{y}\\ \pmb{0} 
\end{matrix}\right)=
\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)\pmb{\beta} +
\left( \begin{matrix}
\pmb{\epsilon}\\ \pmb{0} 
\end{matrix}\right)
\end{align*}

La matriz $\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)$ es entonces $(n+p-k)\times p$ dimensional de rango $p$ por lo que $\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)'\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)$ es $p\times p$ dimensional de rnago $p$ y las ecuaiones normales
\begin{align*}
\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)'\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)\hat{\pmb{\beta}}
&=\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)'
\left( \begin{matrix}
\pmb{y}\\ \pmb{0} 
\end{matrix}\right)
\end{align*}
tienen la solucion única 
\begin{align*}
\hat{\pmb{\beta}} &=
\left(
\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)'\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)
\right)^{-1}
\left( \begin{matrix}
\pmb{X}\\ \pmb{T} 
\end{matrix}\right)'
\left( \begin{matrix}
\pmb{y}\\ \pmb{0} 
\end{matrix}\right)
\\ &=
\left(
\left( \begin{matrix}
\pmb{X}', \pmb{T}' 
\end{matrix}\right)\left( \begin{matrix}
\pmb{X}\\ \pmb{T}
\end{matrix}\right)
\right)^{-1}
\left( \begin{matrix}
\pmb{X}', \pmb{T}' 
\end{matrix}\right)
\left( \begin{matrix}
\pmb{y}\\ \pmb{0} 
\end{matrix}\right)
\\  &=
\left(
\pmb{X}' \pmb{X} + \pmb{T}' \pmb{T}
\right)^{-1}
\left( \pmb{X}'\pmb{y}, \pmb{T}'\pmb{0} \right)
\\ &=
\left(
\pmb{X}' \pmb{X} + \pmb{T}' \pmb{T}
\right)^{-1}
 \pmb{X}'\pmb{y}
\end{align*}

# Ejercicio de tarea

Consideramos el modelo ANOVA \begin{align*}
     y_{i,j} = \mu + \tau_i + \epsilon_{i,j}, \; \quad \quad \; i=1,2; \; j=1,2;
\end{align*} escrito en forma matricial como
\begin{align*}
\pmb{y} = \pmb{X}\pmb{\beta} + \pmb{\epsilon}
= \left( \begin{matrix}
1 & 1 & 0 \\
1 & 1 & 0 \\
1 & 0 & 1 \\
1 & 0 & 1 
\end{matrix}\right)
\left( \begin{matrix}
\mu \\ \tau_1 \\ \tau_2
\end{matrix}\right)
+
\left( \begin{matrix}
\epsilon_{1,1} \\
\epsilon_{1,2} \\
\epsilon_{2,1} \\
\epsilon_{2,2}
\end{matrix}\right)
\end{align*}

De los estimadores de mínimos cuadrados haciendo uso tanto del método de reparametrización tanto como el de condiciones adicionales, encontrando las matrices $\pmb{U}$ y $\pmb{T}$. Intente encontrar reparametrizaciones y condiciones que tengan una interpretación respecto a los parámetros del modelo.