# Estadística para Ciencia de los Datos - Lección 6

Autor: Saúl Calderón, Juan Esquivel, Yuliana Mora, Jorge Castro

# Diseño de Experimentos

Los experimentos son parte esencial del método científico. En el contexto
de ciencias de los datos, es frecuente la evaluación del impacto al
modificar uno o más parámetros de un modelo para un conjunto de datos,
con relevancia estadística. 

Más específicamente, tómese como ejemplo el entrenamiento y evaluación de una red neuronal profunda, la cual tiene como objetivo clasificar archivos de audio de acuerdo a las especies de pájaros que vocalizan.

Supongamos que queremos ajustar dos hiperparámetros de la red neuronal $x_{1}$ y $x_{2}$, los cuales influyen de manera decisiva en la exactitud final de la red. El hiperparámetro
$x_{1}$ es binario (verdadero o falso) y $x_{2}$ es
un parámetro numérico discreto en el intervalo $\left[4,8\right]$. En la nomenclatura de diseño de experimentos estadísticos, los dos
hiperparámetros se refieren como los **factores del experimento**, donde el factor $x_{1}$ presenta dos **niveles** o valores
posibles distintos, y el factor $x_{2}$ presenta 5 niveles.



![](https://drive.google.com/uc?export=view&id=15_-DoGca3h72apA_iDepg1pLH36TX6nF)



Un diseño de experimentos apropiado, posibilita realizar las siguientes
evaluaciones en un sistema basado en aprendizaje automático:

1. Determinar cuáles son los **factores $x$ que tienen mayor influencia** sobre la respuesta $y$.
2. Determinar cuál es el ajuste de las $x$ que tiene mayor influencia para que $y$ esté cerca del **valor deseado**.
3. Determinar cuál es el ajuste de las $x$ que tiene mayor influencia para que la **variabilidad de $y$ sea reducida**.
4. Determinar cuál es el ajuste de las $x$ que tiene mayor influencia para que los **efectos de las variables no controlables $z_{1},z_{2},\dots, z_{m}$ sean mínimos**



El objetivo, la mayoría de las veces, es desarrollar un proceso robusto, es decir, un proceso que sea afectado en forma mínima por fuentes de variabilidad externas.


El diseño estadístico de experimentos se refiere al proceso para planear el experimento de tal forma que se recaben datos adecuados que puedan analizarse con métodos estadísticos que llevarán a conclusiones válidas y objetivas.



## Pautas generales para diseñar experimentos


1. **Identificación y exposición del problema:** Definición de la hipótesis que motiva el experimento, por ejemplo, mejorar el desempeño del modelo en un 20%.
2. **Elección de los factores, niveles y rangos:** Se deben considerar todos los factores que produzcan variabilidad en el proceso. Pueden clasificarse como factores controlables, no controlables y de ruido. En esta etapa se deben definir los rangos en los que varían los factores y los niveles con los que se realizaran las corridas.


3. **Selección de la variable respuesta:** En algunos casos el promedio o la desviación estándar de la característica medida es la variable respuesta.

4. **Elección del diseño experimental:** Implica la consideración del tamaño de la muestra y selección de un orden de corridas. En muchos experimentos se sabe de antemano que algunos niveles de los factores producirán valores diferentes de la respuesta. En estos casos, el interés se centra en identificar qué factores causan esta diferencia y estimar la magnitud del cambio de la respuesta. 
5. **Realización del experimento:** Es conveniente en muchas ocasiones realizar algunas corridas piloto o de prueba.Estas pruebas proporcionan una aproximación del error experimental y permiten poner en práctica la técnica experimental global.
6.  **Análisis estadístico de los datos:** Análisis estadístico para determinar la relevancia
de los resultados. En el ejemplo, el análisis podría consistir en
calcular los intervalos de confianza para cada tratamiento
específico, análisis gráfico, análisis residual y verificación de la adecuación del modelo.
7.  **Conclusiones y recomendaciones:** Conclusiones aprendidas respecto a la conjetura o hipótesis propuesta. Muchas veces el experimento puede contribuir
a redefinir




## Algunos diseños experimentales 


**Experimentos de un solo factor: Análisis de varianza**
![](https://drive.google.com/uc?export=view&id=1kvoxLTYEM6f1JjKwC8cpp527ekMaJsOn)


**Diseño de bloques aleatorizados**
![](https://drive.google.com/uc?export=view&id=1jZpysCYyoDvV2Cc7-9eVxoQ6p1Z1-LBy)



**Diseños factoriales**
![](https://drive.google.com/uc?export=view&id=1PLgeBniWg6CQ60xrRyxIiaUf19eQibw8)


![](https://drive.google.com/uc?export=view&id=1sU97Lie7520iyw2WsTRkiZ9HcZM1AS_H)


![](https://drive.google.com/uc?export=view&id=1oyfZownbvS7ny2NSmsLqYqZlUxufJZLb)

A continuación se examinará el Análisis de Varianza (ANOVA), como
método estadístico de análisis de resultados experimentales. Los experimentos
diseñados con criterio estadístico, permiten validar con **objetividad
científica** las conjeturas, y construir conclusiones con bases robustas.

# Análisis de Varianza

Considere el siguiente ejemplo: 


Un mercadólogo está analizando cómo afectan los anuncios publicitarios para hacer que los consumidores recuerden un producto.  Se realizó un diseño de experimentos para estimar cómo se podía llegar a un máximo de recordación. Una forma de medir recordación en mercadeo es el número promedio de veces que un individuo recordó un producto que se observó en los anuncios. El mercadólogo evaluó la recordación con un comercial de tres duraciones distintas: 10 seg, 20 seg y 30 seg. ¿Existen diferencias en la recordación del producto de acuerdo con la duración del comercial?



Suponga que se tienen $a$ **tratamientos** o **niveles** diferentes de un **factor** y desean compararse. La respuesta observada de cada uno de los $a$ tratamientos es una variable aleatoria. 
![](https://drive.google.com/uc?export=view&id=1Dm_Ip_dsJl5P-AASUkx2Ozp_5NbYlBrj)


Donde: 

 
- $y_{i.}=\sum_{i=1}^{n}y_{i,j}$: corresponde a la **sumatoria de las observaciones para el tratamiento** $i$. 
- $\overline{y}_{i.}=\frac{y_{i.}}{n}$:  corresponde a la **media de las observaciones para el tratamiento** $i$.
- $y_{..}=\sum_{i=1}^{a}\sum_{j=1}^{n}y_{i,j}$: gran total y representa el total de todas las observaciones para todos los tratamientos.

- $\overline{y_{..}}=\frac{y_{..}}{N}$: gran promedio y representa el promedio de todas las observaciones para todos los tratamientos. Con $N=an$.




Las entradas de la tabla anterior pueden expresarse en la matriz $y_{i,j}$ para la observación $j$ tomada bajo el tratamiento $i$. En general, habrán n observaciones bajo el tratamiento *i-ésimo*. El orden en que se tomen las observaciones debe ser aleatorio, garantizando que el experimento sea lo más uniforme posible, por tanto, se trata de un **diseño completamente aleatorizado**.


Estas observaciones pueden ser descritas bajo el siguiente modelo lineal estadístico:
\begin{equation}
y_{i,j}=\mu_{i}+\epsilon_{i,j}=\mu+\tau_{i}+\epsilon_{i,j}\quad\begin{cases}
i=1,2,\ldots,a & (\textrm{niveles})\\
j=1,2,\ldots,n & (\textrm{observaciones})
\end{cases}
\end{equation}

Donde: 

 - $\mu$:   corresponde a la **media global**. Es el promedio de todos los tratamientos para todas las observaciones. 
 - $\tau_{i}$: se trata de un parámetro asociado al tratamiento *i-ésimo* y se conoce como **efecto del tratamiento $i$**. Se interpreta como la desviación de $\mu$ cuando se aplica el tratamiento $i$.
 - $\epsilon_{i,j}$: es un componente de **error aleatorio** que incorpora todas las fuentes de variabilidad (factores no controlables, ruido por factores de tiempo o ambientales, diferencias en las unidades experimenrales, etc).
 
 
 ### Supuestos del análisis de varianza
 
 1. Los errores $\epsilon_{ij}$ son variables aleatorias independientes que siguen una distribución normal con media $0$ y varianza $\sigma^2$. 
 
2. $\sigma^2$ es constante para todos los niveles del factor.

Lo anterior implica: 

\begin{equation}
y_{ij} \sim \mathcal{N} (\mu+\tau_{i},\sigma^2)
\end{equation}


Con este modelo se intenta probar la siguiente hipotesis de igualdad de medias de los tratamientos:

\begin{equation}
H_{0}:\mu_{1}=\mu_{1}=\dots=\mu_{a} \\
H_{1}: \mu_{i}\neq\mu_{j} \space \text{para al menos un par (i,j)}
\end{equation}

Esta hipotesis puede re expresarme en términos de los efectos de los tratamientos de la siguiente manera: 

\begin{equation}
H_{0}:\tau_{1}=\tau_{1}=\dots=\tau_{a} = 0\\
H_{1}: \tau_{i}=0 \space \text{para al menos una i}
\end{equation}


\begin{equation}
\sum_{i=1}^{a}\tau_{i}=0.
\end{equation}

![](https://drive.google.com/uc?export=view&id=1pNG1JL4-7SMSHR_ZYKBb1D1MOj_ivhPz)
 







### Medición de variabilidad
El ANOVA particiona la variabilidad total, descrita por la suma total
de cuadrados: 

\begin{equation}
SS_{T}=\sum_{i=1}^{a}\sum_{j=1}^{n}\left(y_{i,j}-\overline{y}_{..}\right)^{2}
\end{equation}

de la siguiente forma: 

\begin{equation}
SS_{T}=\sum_{i=1}^{a}\sum_{j=1}^{n}\left[(y_{i,j}-\overline{y_{i.}})+(\overline{y}_{i.}-\overline{y}_{..}\right)]^{2}=\sum_{i=1}^{a}\sum_{j=1}^{n}\left(y_{i,j}-\overline{y}_{i.}\right)^{2}+\sum_{i=1}^{a}\sum_{j=1}^{n}\left(\overline{y}_{i.}-\overline{y_{..}}\right)^{2}
\end{equation}

y como el segundo término no depende de $j$, entonces: 

\begin{equation}
SS_{T}=\sum_{i=1}^{a}\sum_{j=1}^{n}\left(y_{i,j}-\overline{y}_{i.}\right)^{2}+n\sum_{i=1}^{a}\left(\overline{y}_{i.}-\overline{y_{..}}\right)^{2}
\end{equation}

donde los términos se renombran como: 

\begin{equation}
SS_{T}=SS_{\textrm{error}}+SS_{\textrm{tratamiento}}
\end{equation}

donde: 

- $SS_{\textrm{error}}$:
corresponde a la desviación de las observaciones respecto a cada media de tratamiento $\overline{y}_{i.}$, es decir es la variación dentro de los tratamientos. 
- $SS_{\textrm{tratamiento}}$:
corresponde a la desviación de cada media de tratamiento $\overline{y}_{i.}$
respecto a la gran media $\overline{y_{..}}$ , es decir es la variación entre los tratamientos.

Las diferentencias capturadas por $SS_{\textrm{tratamiento}}$ reflejan la posible variación real entre tratamientos aplicados. Por otro lado,  las variaciones detectadas por $SS_{\textrm{error}}$ deberían ser causadas únicamente por errores aleatorios.



### Esperanza componentes ANOVA
Como hemos abordado anteriormente, para poder hacer una prueba de hipótesis es necesario basarla en la esperanza de un evento, para poder definir intervalos de confianza.

Siguiendo la definición bipartita anterior, podemos desagregar la esperanza de cada uno de los componentes. Primero, la esperanza de la variación entre medias de tratamiento y la media global está dada por:

\begin{equation}
\mathrm{E}\left(SS_{\textrm{tratamiento}}\right)=(a-1)\sigma^2+n\sum_{i=1}^{a}\tau_i^2
\end{equation}

Para la variación dentro de tratamiento la esperanza está dada por:

\begin{equation}
\mathrm{E}\left(SS_{\textrm{error}}\right)=a(n-1)\sigma^2
\end{equation}

El número de grados de libertad no es el mismo para los dos componentes. En el caso de la **variación entre tratamientos ($SS_{tratamiento}$)**, no depende de las repeticiones, sólo de los tratamientos $a$. Por lo tanto, tiene $a-1$ grados de libertad y la **variación dentro de tratamientos ($SS_{eror}$)**  tiene $N-a$ grados de libertad. Los grados de libertad de la **variabilidad total** $(SS_{T})$ son $N-1$.

### Cuadrado medio para variación dentro y entre
El objetivo final planteado es evaluar si la hipótesis nula, que dice que los tratamientos no se diferencian, se puede abordar analizando la variación entre tratamientos. Podemos utilizar un estimador de la varianza de $SS_{\textrm{tratamiento}}$:

\begin{equation}
\textrm{MS}_\textrm{tratamiento}=\dfrac{SS_{\textrm{tratamiento}}}{a-1}
\end{equation}

Si $H_0$ es cierta $\textrm{MS}_\textrm{tratamiento}$ es un estimador no sesgado porque $\sum_{i=1}^a\tau_i=0$. En caso contrario, cuando $H_1$ se cumple, $\textrm{MS}_\textrm{tratamiento}$ estima $\sigma^2$ más un valor positivo que explica la variación sistemática entre tratamientos.

Podemos hacer un ejercicio análogo para la variación dentro de tratamienros, utilizando los grados de libertad correspondientes:

\begin{equation}
\textrm{MS}_\textrm{error}=\dfrac{SS_{\textrm{error}}}{a(n-1)}
\end{equation}

En este caso $\textrm{MS}_\textrm{eror}$si es un estimador sin sesgo de $\sigma^2$, independiente de $H_0$.

###Evaluación de la prueba de hipótesis

Tomando como base las dos proporciones anteriores, definimos una estadística que nos permitirá aceptar o rechazar la hipótesis:

\begin{equation}
F_0=\dfrac{\textrm{MS}_\textrm{tratamiento}}{\textrm{MS}_\textrm{error}}
\end{equation}

$F_0$ sigue una distribución $F$ con $a-1$ y $N-a$ grados de libertad, y deberíamos rechazar $H_0$ en caso que la estadística sea grande. Numéricamente, rechazamos cuando

\begin{equation}
F_0>F_{\alpha,a-1,N-a}
\end{equation}

La tabla a continuación resume los componentes que deben calcularse para evaluar la hipótesis.

![](https://drive.google.com/uc?export=view&id=1dKlHBYXf9sJ-BmO_Yyi4zcpohb8c9SGR)

##Ejemplo

Un mercadólogo está analizando cómo afectan los anuncios publicitarios para hacer que los consumidores recuerden un producto.  Se realizó un diseño de experimentos para estimar cómo se podía llegar a un máximo de recordación. Una forma de medir recordación en mercadeo es el número promedio de veces que un individuo recordó un producto que se observó en los anuncios. El mercadólogo evaluó la recordación con un comercial de tres duraciones distintas: 10 seg, 20 seg y 30 seg. ¿Existen diferencias en la recordación del producto de acuerdo con la duración del comercial?


In [60]:
from google.colab import drive
from pandas import read_csv
from pandas import researchpy

pip install researchpy
import researchpy as rp
 
  
import statsmodels.api as sm
from statsmodels.formula.api import ols

 from scipy.stats import f

drive.mount('/content/drive')

merca = '/content/drive/My Drive/Colab Notebooks/merca .csv'
dataset = read_csv(merca, sep=';')

print(dataset)

#descriptivas
print(rp.summary_cont(dataset['y']))
print(rp.summary_cont(dataset['y'].groupby(dataset['tiempo'])))


##modelo lineal
results = ols('y ~ C(tiempo)', data=dataset).fit()
print(results.summary())


##ANOVA
aov_table = sm.stats.anova_lm(results, typ=2)
print(aov_table)


#Valor crítico
#gl numerador=a-1=2
#gl denominador=N-a=12
print(f.ppf(0.95, 2, 12))

       y  tiempo
0   1.80      10
1   2.10      10
2   1.85      10
3   1.75      10
4   1.95      10
5   1.75      20
6   2.00      20
7   2.10      20
8   1.80      20
9   1.65      20
10  2.00      30
11  2.80      30
12  1.75      30
13  2.45      30
14  2.35      30


  Variable     N      Mean        SD       SE  95% Conf.  Interval
0        y  15.0  2.006667  0.316152  0.08163   1.831587  2.181746


        N  Mean        SD        SE  95% Conf.  Interval
tiempo                                                  
10      5  1.89  0.138744  0.062048   1.754031  2.025969
20      5  1.86  0.185068  0.082765   1.678634  2.041366
30      5  2.27  0.407124  0.182071   1.871018  2.668982
                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.373
Model:                            OLS   Adj. R-squared:                  0.269
Method:                 Least Squares   F-statistic:                

  "anyway, n=%i" % int(n))
