# Módulo: Diseño Experimental
## T12a: Fundamentos y pruebas sobre experimentos

# Objetivos de la clase
- Conocer algunas definiciones y principios fundamentales del diseño de experimentos
- Aprender algunas técnicas para verificar la validez de resultados experimentales.

# Conceptos fundamentales


## Definiciones

<br><dl>
<dt>Experimento</dt>
<dd>Observación de un fenómeno o variable respuesta bajo determinadas condiciones </dd>
<dt>Objetivo del experimento</dt>
<dd>Aprendizaje por medio de la observación como complemento al aprendizaje teórico</dd>
<dt>Análisis estadístico</dt>
<dd>Determina qué variables o factores influyen en la variable respuesta </dd>
</dl>

En un **diseño experimental** se manipula intencionalmente los valores o **niveles** de los **factores** (variable independiente) y se observa cómo cambia la variable respuesta (variable dependiente).

<center>
    <img src="figures/expd-1.png" width="500"/>
</center>

Un **tratamiento** corresponde a cada uno de los niveles de un factor que se le aplica a una **unidad experimental** para estudiar su influencia

**Ejemplo**: Aplicación de tratamientos a los pasteles (unidades experimentales)

&#10148; Efecto de añadir o no azúcar
- Hay un solo factor o tratamiento (con o sin azúcar)
- Se requieren 2 grupos de unidades experimentales para estudiar la influencia.
- A un grupo se le aplica el tratamiento y a otro no

&#10148; Efecto de añadir 1, 2 o 3 huevos
- Hay un solo factor (huevo) con 3 niveles o tratamientos (1, 2 o 3)
- Se requieren 3 grupos de unidades experimentales para estudiar la influencia.
- A cada grupo se le aplica uno de los tratamientos (cantidad de huevos)



## Clasificación de experimentos

<br><dl>
<dt>Selección de factores</dt>
<dd>A partir de un gran número de factores, se busca encontrar los que más influyen en la variable respuesta </dd>
<dt>Comparación de tratamientos</dt>
<dd>Se busca detectar diferencias entre distintos valores o niveles de uno o más factores</dd>
<dt>Superficies de respuesta</dt>
<dd>Se determina cómo o en qué grado un factor influye en la variable respuesta </dd>
</dl>

<center>
    <img src="figures/expd-2.png" width="700"/>
</center>

## Ejecución de un experimento

Se busca identificar una relación causa-efecto entre uno o más factores y la variable respuesta.

<center>
    <img src="figures/expd-3.jpg" width="500"/>
</center>

Idealmente, todos los otros factores (salvo el que está bajo estudio) deben permanecer constantes o controlados durante el experimento.

Mientras mejor pueda cumplirse esto, mejor será la calidad del experimento.

**Dos principios fundamentales:**

**Replicación:** corresponde a aplicar el mismo tratamiento a unidades experimentales diferentes. Unidad experimental se refiere al sujeto de estudio.

*Ejemplo*: aplicar el mismo medicamento a distintas personas para ver su eficacia.

**Aleatorización:** se refiere a aplicar aleatoriamente los tratamientos a distintas unidades experimentales.

*Ejemplo*: cuáles personas reciben qué medicamento se define al azar.

# Pruebas sobre dos medias

## Un tratamiento y dos muestras

**Ejemplo**: Se estudia la capacidad de un medicamento para aumentar el nivel de plaquetas en la sangre. Se tienen dos muestras de personas aleatorias y se le aplica el medicamento (tratamiento) a una de ellas. Se registran los niveles de plaquetas luego de esto.

<center>
    <img src="figures/tab-med-1.png" width="500"/>
</center>

¿Se puede concluir que efectivamente el medicamento es efectivo en aumentar el nivel de plaquetas?

## Varianzas conocidas

Si las varianzas (poblacionales) de cada grupo son conocidas y aplican las condiciones del TLC, el estadístico de prueba para $H_0: \mu_1 = \mu_2$ es:

\begin{align}
    z = \frac{  \overline{x}_1 - \overline{x}_2  }{ \sqrt{ \sigma_1^2 / n_1 + \sigma_2^2 / n_2} }
\end{align}

que tiene distribución normal.

La prueba alternativa bilateral $H_1: \mu_1 \neq \mu_2$ se rechaza si $z > z_{\alpha /2}$ o $z < -z_{\alpha /2}$, donde $\alpha$ es el nivel de significancia

Para el caso unilateral se debe comparar $z$ con $z_{\alpha}$ según corresponda

## Varianzas desconocidas

Si las varianzas (poblacionales) de cada grupo son desconocidas y la población es normal, el estadístico de prueba para $H_0: \mu_1 = \mu_2$ es:

\begin{align}
    t = \frac{  \overline{x}_1 - \overline{x}_2  }{ \sqrt{ s_1^2 / n_1 + s_2^2 / n_2} }
\end{align}

que tiene distribución $t$ con $\nu$ grados de libertad

\begin{align}
    \nu = \frac{  (s_1^2 / n_1 + s_2^2 / n_2)^2  }{ (s_1^2 / n_1)^2/(n_1-1) + (s_2^2 / n_2)^2/(n_2-1) }
\end{align}

La prueba alternativa bilateral $H_1: \mu_1 \neq \mu_2$ se rechaza si $t > t_{\alpha /2}$ o $t < -t_{\alpha /2}$. Para el caso unilateral se debe comparar $t$ con $t_{\alpha}$ según corresponda

**Ejemplo**: Para el caso del medicamento para las plaquetas calculamos el estadístico de prueba $t$ como sigue:

\begin{align}
    t = \frac{  149.8 - 154  }{ \sqrt{ 1.48^2 / 5 + 5.24^2 / 5} } = -1.72
\end{align}

Para comprobar que el promedio con medicamento es mayor, planteamos $H_1: \mu_1 < \mu_2$. Los grados de libertad $\nu$ son: 

\begin{align}
    \nu = \frac{  (1.48^2 / 5 + 5.24^2 / 5)^2  }{ (1.48^2 / 5)^2/4 + (5.24^2 / 5)^2/4 } = 4.6 \approx 5
\end{align}
 
Suponiendo $\alpha = 0.05$, el valor crítico para la cola izquierda es: $-t_{\alpha} = -2.015$. Es decir, no se puede rechazar que los promedios sean iguales.

En este caso resulta un valor $P \approx 0.073$

# Prueba sobre una recta de regresión

Suponemos que intentamos explicar el comportamiento de la variable dependiente $y$ con respecto a la variable independiente  $x$ mediante una regresión lineal. En este caso tenemos que: $\hat{y} = b_0 + b_1 x$

**Ejemplo**: se prueban distintos contenidos de cromo en una aleación de acero para ver su influencia en la resistencia a la corrosión.

<center>
    <img src="figures/expd-5.png" width="500"/>
</center>

De acuerdo a estos datos, ¿influye efectivamente el cromo en la resistencia a la corrosión o el comportamiento observado se debe al azar?

Se puede demostrar que:

\begin{align}
    \sum_{i=1}^{n} (y_i - \overline{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \overline{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
\end{align}

\begin{align}
    STCC = SCR + SCE
\end{align}

Es decir, la suma total de los cuadrados corregida (STCC) se puede expresar como la suma de los cuadrados de la regresión (SCR) más la suma de los cuadrados del error (SCE).

Interpretación: "*la varianza de los datos se puede explicar por una componente sistemática que se puede explicar con el modelo de regresión y por una componente aleatoria que no se puede explicar con el modelo de regresión*"

En el **ejemplo**, para demostrar que efectivamente el contenido de cromo (factor) tiene influencia en la resistencia a la corrosión (variable respuesta) y que los resultados no se deben solo al azar se debe probar la hipótesis:

\begin{equation}
H_0: \beta_1 = 0 \\
H_1: \beta_1 \neq 0
\end{equation}

Es decir, la hipótesis nula indica que la variable respuesta no depende del factor en estudio:

\begin{equation}
H_0: y = \beta_0 + \epsilon \\
H_1: y \neq \beta_0 + \epsilon
\end{equation}

La hipótesis anterior se puede rechazar cuando el estadístico de prueba:

\begin{equation}
    f = \frac{SCR}{SCE/(n-2)} = \frac{SCR}{s^2}
\end{equation}

es mayor al valor crítico $f_\alpha (1, n-2)$ para el nivel de significancia $\alpha$. 

El valor crítico $f_\alpha (1, n-2)$ se obtiene desde las tablas de la distribución $F$ para 1 y $(n-2)$ grados de libertad, respectivamente.

Al rechazar $H_0$ se concluye que una parte significativa de la variación en la respuesta se justifica por el modelo de regresión lineal.

Supongamos los siguientes datos del **ejemplo** del cromo y la corrosión:

<center>
    <img src="figures/tab-regre-inf.png" width="500"/>
</center>

En este caso resulta: $SCR = 207.90$, $SCE = 33.84$ y $n=7$.

El estadístico de prueba resulta ser: $f = 30.72$

Suponiendo un nivel de significancia $\alpha = 0.05$ buscamos en las tablas el valor crítico $f_{0.05}(1, 5)$

<center>
    <img src="figures/distr-f-regre.png" width="1000"/>
</center>

Como $f = 30.72 > f_{\alpha} = 6.61$ podemos rechazar $H_0: \beta_1 = 0$ a favor de $H_1: \beta_1 \neq 0$

Es decir, efectivamente la variabilidad de la resistencia a la corrosión se explica en parte por la variabilidad del contenido de cromo.

# Sumario
- Los experimentos para aprender sobre un fenómeno deben ejecutarse de forma correcta y el análisis estadístico debe verificar que los resultados obtenidos sean significativos.
- Las pruebas estadísticas son técnicas que permiten cuantificar la significancia de los resultados. 
- La prueba t entre dos muestras permite determinar si hay diferencia significativa entre dos medias de dos poblaciones (o dos tratamientos).
- La prueba de la pendiente de regresión permite determinar la influencia lineal de una variable independiente en otra dependiente.