# Módulo: Otros Tópicos
## Diseño de experimentos

# Objetivos de la clase
- Conocer algunas definiciones y principios fundamentales del diseño de experimentos
- Aprender algunas técnicas de análisis de varianza para verificar la validez de resultados experimentales.

# Introducción al diseño experimental


## Fundamentos

<br><dl>
<dt>Experimento</dt>
<dd>Observación de un fenómeno o variable respuesta bajo determinadas condiciones </dd>
<dt>Objetivo</dt>
<dd>Aprendizaje por medio de la observación como complemento al aprendizaje teórico</dd>
<dt>Análisis estadístico</dt>
<dd>Determina qué variables o factores influyen en la variable respuesta </dd>
</dl>

En un **diseño experimental** se manipula intencionalmente los valores o niveles de los factores (variable independiente) y se observa cómo cambia la variable respuesta (variable dependiente).

<center>
    <img src="figures/expd-1.png" width="500"/>
</center>

## Clasificación de experimentos

<br><dl>
<dt>Selección de factores</dt>
<dd>A partir de un gran número de factores, se busca encontrar los que más influyen en la variable respuesta </dd>
<dt>Comparación de tratamientos</dt>
<dd>Se busca detectar diferencias entre distintos valores o niveles de uno o más factores</dd>
<dt>Superficies de respuesta</dt>
<dd>Se determina cómo o en qué grado un factor influye en la variable respuesta </dd>
</dl>

<center>
    <img src="figures/expd-2.png" width="700"/>
</center>

## Ejecución de un experimento

Se busca identificar una relación causa-efecto entre uno o más factores y la variable respuesta.

<center>
    <img src="figures/expd-3.jpg" width="500"/>
</center>

Idealmente, todos los otros factores (salvo el que está bajo estudio) deben permanecer constantes o controlados durante el experimento.

Mientras mejor pueda cumplirse esto, mejor será la calidad del experimento.

**Dos principios fundamentales:**

**Replicación:** corresponde a aplicar el mismo tratamiento a unidades experimentales diferentes. Unidad experimental se refiere al sujeto de estudio.

*Ejemplo*: aplicar el mismo medicamento a distintas personas para ver su eficacia.

**Aleatorización:** se refiere a aplicar aleatoriamente los tratamientos a distintas unidades experimentales.

*Ejemplo*: cuáles personas reciben qué medicamento se define al azar.

# Método del análisis de varianza

Suponemos que intentamos explicar el comportamiento de la variable dependiente $y$ con respecto a la variable independiente  $x$ mediante una regresión lineal. En este caso tenemos que: $\hat{y} = b_0 + b_1 x$

**Ejemplo**: se prueban distintos contenidos de cromo en una aleación de acero para ver su influencia en la resitencia a la corrosión.

<center>
    <img src="figures/expd-5.png" width="500"/>
</center>

Se puede demostrar que:

\begin{align}
    \sum_{i=1}^{n} (y_i - \overline{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \overline{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
\end{align}

\begin{align}
    STCC = SCR + SCE
\end{align}

Es decir, la suma total de los cuadrados corregida (STCC) se puede expresar como la suma de los cuadrados de la regresión (SCR) más la suma de los cuadrados del error (SCE).

Interpretación: "*la varianza de los datos se puede explicar por una componente sistemática que se puede explicar con el modelo de regresión y por una componente aleatoria que no se puede explicar con el modelo de regresión*"

En el **ejemplo**, para demostrar que efectivamente el contenido de cromo (factor) tiene influencia en la resistencia a la corrosión (variable respuesta) y que los resultados no se deben solo al azar se debe probar la hipótesis:

\begin{equation}
H_0: \beta_1 = 0 \\
H_1: \beta_1 \neq 0
\end{equation}

Es decir, la hipótesis nula indica que la variable respuesta no depende del factor en estudio:

\begin{equation}
H_0: \hat{y} = \beta_0 \\
H_1: \hat{y} \neq \beta_0
\end{equation}

La hipótesis anterior se puede rechazar cuando el estadístico de prueba:

\begin{equation}
    f = \frac{SCR}{SCE/(n-2)} = \frac{SCR}{s^2}
\end{equation}

es mayor al valor crítico $f_\alpha (1, n-2)$ para el nivel de significancia $\alpha$. 

El valor crítico $f_\alpha (1, n-2)$ se obtiene desde las tablas de la distribución F para 1 y $(n-2)$ grados de libertad, respectivamente.

Al rechazar $H_0$ se concluye que una parte significativa de la variación en la respuesta se justifica por el modelo de regresión lineal.

# Análisis de varianza en experimentos de un factor

# Motivación

Se analiza la resistencia a la tracción de 5 nuevos tipos de aleaciones de acero. Se hacen 6 ensayos para cada tipo, obteniéndose los siguientes resultados (MPa):

<center>
    <img src="figures/disexp-0.png" width="900"/>
</center>

¿Cómo poder comparar significativamente las medias muestrales obtenidas de las distintas poblaciones?

<center>
    <img src="figures/disexp-1.png" width="900"/>
</center>

<center>
    ¿Cómo poder distinguir si las medias obtenidas son significativamente distintas o solo son producto de la aleatoriedad natural del proceso de fabricación?
</center>
<br><center>
    <img src="figures/tensile-1.gif" width="600"/>
</center>

## Fundamentos

Los análisis de varianza (**ANOVA**) son modelos estadísticos y procedimientos asociados en los cuales se explica los distintos componentes de la varianza.

<center>
    <img src="figures/anova-1.png" width="500"/>
</center>

Se usa para evaluar el efecto de **tratamientos** en la variabilidad de la variable respuesta.

Tratamiento es un término general para designar distintas clasificaciones de las poblaciones bajo estudio.




Dadas $k$ poblaciones independientes y normales con medias $\mu_1$, $\mu_2$, ... $\mu_k$ y varianza común $\sigma^2$, se desea obtener un procedimiento para probar la hipótesis:

\begin{equation}
H_0: \mu_1 = \mu_2 = ... = \mu_k \\
H_1: \text{Al menos dos medias no son iguales}
\end{equation}

Las estimaciones de las medias $\mu_i$ se realizan a través de las medias muestrales $\overline{y}_i$

**Ejemplo**: Para el caso de las aleaciones de acero, rechazar $H_0$ implica que hay diferencias estadísticamente significativas entre al menos dos de las muestras.

<center>
    <img src="figures/disexp-0.png" width="700"/>
</center>



## Modelo

Suponemos que hay un total de $k$ poblaciones, para cada una de las cuales se toma una muestra de tamaño $n$.

Para el ejemplo de las aleaciones de acero hay $k=5$ muestras, cada una con $n=6$ observaciones:<

| Aleación | 1 | 2 | 3 | 4 | 5 |
| --- | --- | --- | --- | --- | --- |
| Obs. 1 | 551 | 595 | 639 | 417 | 563 |
| Obs. 2 | 457 | 580 | 615 | 449 | 631 |
| Obs. 3 | 450 | 508 | 511 | 517 | 522 |
| Obs. 4 | 731 | 583 | 573 | 438 | 613 |
| Obs. 5 | 499 | 633 | 648 | 415 | 656 |
| Obs. 6 | 632 | 517 | 677 | 555 | 679 |
|  **Media** |  **553.33** | **569.33** |  **610.50** |  **465.17** |  **610.67** |

Cualquier $j$-ésima observación de la $i$-ésima muestra se puede escribir de la forma:

\begin{align}
    y_{ij} = \mu_i + \epsilon_{ij}
\end{align}

donde $\epsilon_{ij}$ mide la desviación de la observación $j$ de la muestra $i$ con respecto a la media del tratamiento correspondiente.

| Tratamiento | 1 | ... | $i$ | ... | $k$ |
| --- | --- | --- | --- | --- | --- |
| Obs. 1 | $y_{11}$ | ... | $y_{i1}$ | ... | $y_{k1}$ |
| Obs. 2 | $y_{12}$ | ... | $y_{i2}$ | ... | $y_{k2}$ |
| ... | ... | ... | ... | ... | ... |
| Obs. $j$ | $y_{1j}$ | ... | $y_{ij}$ | ... | $y_{kj}$ |
| ... | ... | ... | ... | ... | ... |
| Obs. $n$ | $y_{1n}$ | ... | $y_{in}$ | ... | $y_{kn}$ |
|  Media | Media 1 | ... | Media $i$ | ... | Media $k$ |

Podemos establecer que cada media $\mu_i$ es igual a una media global $\mu$ más el efecto del tratamiento $\alpha_i$ sujeto a la restricción que $\sum \alpha_i = 0$.

Por lo tanto:

\begin{align}
    y_{ij} = \mu + \alpha_i + \epsilon_{ij}
\end{align}

donde la media global es:

\begin{align}
    \mu = \frac{1}{k} \sum_{i=1}^{k} \mu_i
\end{align}

y $\alpha_i$ es el efecto del $i$-esimo tratamiento.


Entonces la prueba de hipótesis anteriormente formulada puede expresarse de la siguiente forma:

\begin{equation}
H_0: \alpha_1 = \alpha_2 = ... = \alpha_k = 0 \\
H_1: \text{Al menos una de las $\alpha_i$ no es igual a cero}
\end{equation}

Esta hipótesis nula se puede rechazar con un nivel de significancia $\alpha$ cuando:

\begin{align}
    f > f_{\alpha} \left[k-1, k(n-1) \right]
\end{align}

donde $f_{\alpha}$ es el valor crítico de la distribución $F$ con $k-1$ y $k(n-1)$ grados de libertad para el nivel de significancia $\alpha$

En este caso la variable $f$ adopta el valor del cuociente entre los siguientes valores:

\begin{align}
    f = \frac{s_1^2}{s^2}
\end{align}


Los valores $s_1^2$ y $s^2$ son:

\begin{align}
    s_1^2 = \frac{SCT}{k-1} = \frac{n \sum_{i=1}^{k} (\overline{y_i} - \overline{y})^2 }{k-1}
\end{align}

\begin{align}
    s^2 = \frac{SCE}{k(n-1)} = \frac{ \sum_{i=1}^{k} \sum_{j=1}^{n} (y_{ij} - \overline{y}_i)^2 }{k(n-1)}
\end{align}

Las tablas de la distribución F son de la siguiente forma:

<center>
    <img src="figures/distr-f-1.png" width="700"/>
</center>



# Sumario
- Los experimentos para aprender sobre un fenómeno deben ejecutarse de forma correcta y el análisis estadístico debe verificar que los resultados obtenidos sean significativos.
- Los métodos de análisis de varianza entregan herramientas para distintos casos en donde podemos establecer que la variabilidad de los resultados es significativa.