# Módulo: Diseño de experimentos
## T12b: Análisis de varianza de un factor

# Objetivos de la clase

- Aprender y aplicar la técnica de análisis de varianza para verificar la validez de resultados experimentales.

# Motivación

Se analiza la resistencia a la tracción de 5 nuevos tipos de aleaciones de acero en que solo se cambia el contenido de carbono. Se hacen 6 ensayos para cada tipo, obteniéndose los siguientes resultados (MPa):

<center>
    <img src="figures/disexp-0.png" width="900"/>
</center>

¿Cómo poder comparar significativamente las medias muestrales obtenidas de las distintas poblaciones?

<center>
    <img src="figures/disexp-1.png" width="900"/>
</center>

<center>
    ¿Cómo poder distinguir si las medias obtenidas son significativamente distintas o solo son producto de la aleatoriedad natural del proceso de fabricación?
</center>
<br><center>
    <img src="figures/tensile-1.gif" width="600"/>
</center>

# ANOVA de un factor

## Definiciones

Los análisis de varianza (**ANOVA**) son modelos estadísticos y procedimientos asociados en los cuales se explica los distintos componentes de la varianza.

<center>
    <img src="figures/anova-1.png" width="500"/>
</center>

Se usa para evaluar el efecto de **tratamientos** o **factores** en la variabilidad de la variable respuesta.

En el caso del ANOVA de un factor se evalúa el efecto de un único tratamiento o factor, pero con distintos niveles.



## Diferencias entre medias

Dadas $k$ poblaciones independientes y normales con medias $\mu_1$, $\mu_2$, ... $\mu_k$ y varianza común $\sigma^2$, se desea obtener un procedimiento para probar la hipótesis:

\begin{equation}
H_0: \mu_1 = \mu_2 = ... = \mu_k \\
H_1: \text{Al menos dos medias no son iguales}
\end{equation}

Las estimaciones de las medias $\mu_i$ se realizan a través de las medias muestrales $\overline{y}_i$

**Ejemplo**: Para el caso de las aleaciones de acero, rechazar $H_0$ implica que hay diferencias estadísticamente significativas entre al menos dos de las muestras.



## Modelo

Suponemos que hay un total de $k$ poblaciones, para cada una de las cuales se toma una muestra de tamaño $n$.

Para el ejemplo de las aleaciones de acero hay $k=5$ muestras, cada una con $n=6$ observaciones:

<center>
    <img src="figures/tab-aceros.png" width="800"/>
</center>

Cualquier $j$-ésima observación de la $i$-ésima muestra se puede escribir de la forma:

\begin{align}
    y_{ij} = \mu_i + \epsilon_{ij}
\end{align}

donde $\epsilon_{ij}$ mide la desviación de la observación $j$ de la muestra $i$ con respecto a la media del nivel correspondiente.

<center>
    <img src="figures/tab-niveles.png" width="900"/>
</center>

Podemos establecer que cada media $\mu_i$ es igual a una media global $\mu$ más el efecto del nivel del tratamiento $\alpha_i$ sujeto a la restricción que $\sum \alpha_i = 0$.

Por lo tanto:

\begin{align}
    y_{ij} = \mu + \alpha_i + \epsilon_{ij}
\end{align}

donde la media global es:

\begin{align}
    \mu = \frac{1}{k} \sum_{i=1}^{k} \mu_i
\end{align}

y $\alpha_i$ es el efecto del $i$-esimo nivel del tratamiento.


Entonces la prueba de hipótesis anteriormente formulada puede expresarse de la siguiente forma:

\begin{equation}
H_0: \alpha_1 = \alpha_2 = ... = \alpha_k = 0 \\
H_1: \text{Al menos una de las $\alpha_i$ no es igual a cero}
\end{equation}

Esta hipótesis nula se puede rechazar con un nivel de significancia $\alpha$ cuando:

\begin{align}
    f > f_{\alpha} \left[k-1, k(n-1) \right]
\end{align}

donde $f_{\alpha}$ es el valor crítico de la distribución $F$ con $k-1$ y $k(n-1)$ grados de libertad para el nivel de significancia $\alpha$, respectivamente

En este caso la variable $f$ adopta el valor del cuociente entre los siguientes valores:

\begin{align}
    f = \frac{s_1^2}{s^2}
\end{align}


Los valores $s_1^2$ y $s^2$ son:

\begin{align}
    s_1^2 = \frac{SCT}{k-1} = \frac{n \sum_{i=1}^{k} (\overline{y_i} - \overline{y})^2 }{k-1}
\end{align}

En palabras: para cada nivel, se suma la diferencia entre el promedio del nivel y el promedio global al cuadrado. También conocida como varianza entre grupos.

\begin{align}
    s^2 = \frac{SCE}{k(n-1)} = \frac{ \sum_{i=1}^{k} \sum_{j=1}^{n} (y_{ij} - \overline{y}_i)^2 }{k(n-1)}
\end{align}

En palabras: para cada nivel, se suma la diferencia entre cada dato y el promedio del nivel al cuadrado. Luego, se suman todos los niveles. También conocida como varianza dentro de los grupos.

## Ejemplo
Volviendo al ejemplo de las aleaciones de acero tenemos que: $s_1^2 = 21339$ y $s^2 = 4961$

Entonces resulta que el estadístico de prueba es: $f = 4.3$

Suponiendo un nivel de significancia $\alpha = 0.05$ buscamos el valor crítico $f_{0.05}[5-1, 5(6-1)] = f_{0.05}[4, 25] = 2.76$

Como $f > f_{\alpha}$ podemos rechazar que todas las medias son iguales. Es decir, el tratamiento de agregar diferentes niveles de carbono sí influye significativamente en la resistencia a la tracción

# Sumario

- El análisis de varianza (ANOVA) de un factor es una técnica para detectar diferencias significativas entre las medias de varias muestras provenientes de un tratamiento o factor a varios niveles.