# Diseño de experimentos



El diseño de experimentos consiste en idear una manera de generar nuevos conocimientos sobre relaciones causa-efecto entre variables de un problema científico. 

En este contexto, un **experimento** representa un cambio en las condiciones del problema de estudio. 

En el problema hay **variables independientes** y **variables dependientes**. 

Las variables independientes son los **factores** que, idealmente, el investigador puede manipular.

Para el diseño de experimentos, también se consideran **niveles** y **tratamientos** de estos factores. 

Los niveles son los valores que toman las variables independientes. 

Los tratamientos son las combinaciones de valores únicos que se obtienen de los niveles del experimento.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({
    "x1": np.random.randint(0, 3, size = 20), # Factor 1
    'x2' : np.random.randint(0, 360, size = 20) # Factor 2
})
df['y'] = df.x1 * np.deg2rad(df.x2) + np.random.random() # Variable dependiente
df

Unnamed: 0,x1,x2,y
0,1,242,5.045442
1,0,0,0.821745
2,1,111,2.759061
3,0,97,0.821745
4,0,147,0.821745
5,2,111,4.696376
6,1,205,4.39967
7,0,34,0.821745
8,2,1,0.856652
9,0,19,0.821745


Donde $x_1$ corresponde con valores aleatorios en el conjunto $\{0, 1, 2\}$, mientras que los valoes que puede tomar $x_2$ se encuentran en el rango $[0, 360] \in \mathbb{N}$. Para este caso, los niveles para $x_1$ podrían ser los valores $\{0, 1, 2\}$. Sin embargo, para $x_2$, se pueden especificar niveles en rangos que vayan en incrementos de cada $10, 20, 45\ldots$ La siguiente tabla muestra un ejemplo de estos niveles asociados a sus tratamientos.

In [7]:
niveles1 = [0, 1, 2]
niveles2 = [0, 45, 90, 135, 180, 225, 270, 315, 360]

n1 = [] # Niveles para x1
n2 = [] # Niveles para x2
t = [] # Tratamientos
k = 0
for i in range(len(niveles1)):
    for j in range(len(niveles2)):
        n1.append(niveles1[i])
        n2.append(niveles2[j])
        t.append(k)
        k += 1

df_tratamientos = pd.DataFrame({
    'n1' : n1,
    'n2' : n2,
    't' : t
})

df_tratamientos

Unnamed: 0,n1,n2,t
0,0,0,0
1,0,45,1
2,0,90,2
3,0,135,3
4,0,180,4
5,0,225,5
6,0,270,6
7,0,315,7
8,0,360,8
9,1,0,9


La **cantidad de tratamientos** es la combinación de elementos de $n_1$ y $n_2$, es decir $2 \times 9 = 27$. Estas combinaciones de niveles, dados por los tratamientos, pueden procesarse mediante algún modelo y estudiar los resultados obtenidos de manera estadística. 

En el ámbito del aprendizaje automático, es común realizar un diseño de experimentos que incluya métricas de evaluación como variable de estudio.

## GridSearchCV



In [4]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

iris = load_iris()
X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [5]:
model = RandomForestClassifier()

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

In [9]:
import multiprocessing

multiprocessing.cpu_count()

20

In [10]:
grid_search = GridSearchCV(
    estimator = model, # Modelo a utilizar
    param_grid = param_grid, 
    cv = 5, 
    n_jobs = 10
)

grid_search.fit(X_train, y_train)

In [11]:
# Obtener los mejores hiperparámetros
best_params = grid_search.best_params_
print(f"Mejores hiperparámetros: {best_params}")

# Obtener el mejor modelo
best_model = grid_search.best_estimator_

# Realizar predicciones en el conjunto de prueba
y_pred = best_model.predict(X_test)

# Evaluar el modelo
print(classification_report(y_test, y_pred))

Mejores hiperparámetros: {'max_depth': 10, 'min_samples_leaf': 4, 'min_samples_split': 2, 'n_estimators': 50}
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        17
           1       0.90      0.90      0.90        10
           2       0.94      0.94      0.94        18

    accuracy                           0.96        45
   macro avg       0.95      0.95      0.95        45
weighted avg       0.96      0.96      0.96        45



### Ejemplo manual

In [24]:
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

n1 = []
n2 = []
n3 = []
n4 = []
tratamientos = []
m = 0
for i in param_grid['n_estimators']:
    for j in param_grid['max_depth']:
        for k in param_grid['min_samples_split']: 
            for l in param_grid['min_samples_leaf']: 
                n1.append(i)
                n2.append(j)
                n3.append(k)
                n4.append(l)
                tratamientos.append(m)
                m += 1
                
df_de = pd.DataFrame(data = {
    'n_estimators': n1, 
    'max_depth': n2, 
    'min_samples_split': n3, 
    'min_samples_leaf': n4}, 
    index = tratamientos
)
df_de

Unnamed: 0,n_estimators,max_depth,min_samples_split,min_samples_leaf
0,50,,2,1
1,50,,2,2
2,50,,2,4
3,50,,5,1
4,50,,5,2
...,...,...,...,...
103,200,30.0,5,2
104,200,30.0,5,4
105,200,30.0,10,1
106,200,30.0,10,2


In [29]:
# Carga de datos
iris = load_iris()
X, y = iris.data, iris.target
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [31]:
# Se quieren hacer 5 cortes de entrenamiento y prueba con valores de prueba móviles
len(X) / 5

30.0

In [50]:
df_X = pd.DataFrame(X)
df_X

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [53]:
for i in range(30, 180, 30):
    df_test = df_X.iloc[i - 30: i - 1, ] # Valores de prueba
    df_train = df_X.drop(df_test.index)

       0    1    2    3
29   4.7  3.2  1.6  0.2
30   4.8  3.1  1.6  0.2
31   5.4  3.4  1.5  0.4
32   5.2  4.1  1.5  0.1
33   5.5  4.2  1.4  0.2
..   ...  ...  ...  ...
145  6.7  3.0  5.2  2.3
146  6.3  2.5  5.0  1.9
147  6.5  3.0  5.2  2.0
148  6.2  3.4  5.4  2.3
149  5.9  3.0  5.1  1.8

[121 rows x 4 columns]
       0    1    2    3
0    5.1  3.5  1.4  0.2
1    4.9  3.0  1.4  0.2
2    4.7  3.2  1.3  0.2
3    4.6  3.1  1.5  0.2
4    5.0  3.6  1.4  0.2
..   ...  ...  ...  ...
145  6.7  3.0  5.2  2.3
146  6.3  2.5  5.0  1.9
147  6.5  3.0  5.2  2.0
148  6.2  3.4  5.4  2.3
149  5.9  3.0  5.1  1.8

[121 rows x 4 columns]


In [None]:
for r, v in df_de.iterrows():
    model = RandomForestClassifier(
        n_estimators = v['n_estimators'],
        max_depth = v['max_depth'],
        min_samples_split = v['min_samples_split'],
        min_samples_leaf = v['min_samples_leaf']
    )
    for i in range(30, 180, 30):
        df_test = df_X.iloc[i - 30: i - 1, ] # Valores de prueba
        df_train = df_X.drop(df_test.index)
        
        model.fit(df_train, y[df_train.index])
        model.predict(df_test, y[df_test.index])
        # [ ] Hacemos las métricas que nos interesen
        # [ ] Guardamos para cada tratamiento, cada conjunto de entrenamiento y prueba, los resultados
        # [ ] (ordenamos del mejor al peor...) Se comparan mediante pruebas estadísticas

## Tarea 9 (10 puntos)

- Realizar un diseño de experimentos para tu problema de estudio en la que indiques los niveles y tratamientos de interés.
- Prepara una breve presentación (máximo 10 minutos y 10 diapositivas) en la que se destaquen tus resultados para presentar la siguiente clase.

# Referencias

- https://pingouin-stats.org/build/html/index.html
- https://nicoleeic.github.io/Brain_and_Code/2019/09/01/Hypothesis_tests.html
- https://machinelearningmastery.com/a-gentle-introduction-to-normality-tests-in-python/
- https://machinelearningmastery.com/parametric-statistical-significance-tests-in-python/
- https://machinelearningmastery.com/nonparametric-statistical-significance-tests-in-python/