In [1]:
# Estructuras de datos
import pandas as pd
import numpy as np

# Librerías de optimización de hiperparámetros
import optuna

# Modelo
from sklearn.ensemble import RandomForestClassifier

# Evaluación del modelo
from sklearn.metrics import accuracy_score

# Cargar los datos
from data_and_submissions import *

# Métodos para los entrenamientos con CV
from train_cv_methods import *

In [2]:
X_train, X_test, y_train, y_test, test_kaggle = load_data()
print("Tamaño del dataset de train:", X_train.shape)
print("Tamaño del dataset de test:", X_test.shape)

Tamaño del dataset de train: (68, 410)
Tamaño del dataset de test: (18, 410)


# Anexo A: sobre la optimización de los hiperparámetros en métodos de cross-validación

Al principio de este estudio, se observó que en varias ocasiones distintas ejecuciones del mismo código podían retornar distintos resultados de accuracy en la partición de test. Más en concreto, se retornaban diferentes modelos óptimos si se repetían las ejecuciones de los métodos de optimización de hiperparámetros, dando lugar a valores de accuracy distintos.

El motivo de esto es que las pruebas en la búsqueda de los hiperparámetros no se realizan siempre en el mismo orden y por tanto, el óptimo devuelto en cada ejecución sería la primera combinación de hiperparámetros probada que diese lugar al accuracy máximo obtenido en las pruebas, aunque no fuese el único con ese valor.

El código debajo permite demostrar lo anterior, sobre un modelo clasificador de XGBoost optimizado mediante cross-validación de ``optuna``.

In [5]:
import warnings
import xgboost as xgb
from xgboost import XGBClassifier

warnings.filterwarnings("ignore")
xgb.set_config(verbosity=0)

# Modelo e hiperparámetros sobre los que se realizan las pruebas
model_XGB = XGBClassifier(eval_metric="logloss", random_state=0, use_label_encoder=False)
param_grid_XGB_optuna = {
    "booster": optuna.distributions.CategoricalDistribution(["gbtree", "gblinear", "dart"]),
    "learning_rate": optuna.distributions.CategoricalDistribution([0.001, 0.05, 0.1, 0.5])
}

In [8]:
optuna.logging.set_verbosity(optuna.logging.WARNING)

optuna_search = optuna.integration.OptunaSearchCV(model_XGB, param_grid_XGB_optuna, cv=4)
optuna_search.fit(X_train, y_train)

for trial in optuna_search.trials_:
    print(trial.params)

{'booster': 'dart', 'learning_rate': 0.1}
{'booster': 'dart', 'learning_rate': 0.05}
{'booster': 'gblinear', 'learning_rate': 0.001}
{'booster': 'dart', 'learning_rate': 0.1}
{'booster': 'gblinear', 'learning_rate': 0.001}
{'booster': 'dart', 'learning_rate': 0.05}
{'booster': 'gblinear', 'learning_rate': 0.05}
{'booster': 'dart', 'learning_rate': 0.001}
{'booster': 'dart', 'learning_rate': 0.001}
{'booster': 'gbtree', 'learning_rate': 0.1}


In [9]:
optuna_search = optuna.integration.OptunaSearchCV(model_XGB, param_grid_XGB_optuna, cv=4)
optuna_search.fit(X_train, y_train)

for trial in optuna_search.trials_:
    print(trial.params)

{'booster': 'gbtree', 'learning_rate': 0.5}
{'booster': 'gbtree', 'learning_rate': 0.5}
{'booster': 'gbtree', 'learning_rate': 0.001}
{'booster': 'gbtree', 'learning_rate': 0.5}
{'booster': 'gblinear', 'learning_rate': 0.1}
{'booster': 'gblinear', 'learning_rate': 0.001}
{'booster': 'gbtree', 'learning_rate': 0.5}
{'booster': 'gbtree', 'learning_rate': 0.05}
{'booster': 'gblinear', 'learning_rate': 0.05}
{'booster': 'gbtree', 'learning_rate': 0.5}


Como se puede observar, el método de optimización empleado hace que el orden en el que se realizan las pruebas no sea siempre el mismo.

En este caso, este problema se puede solucionar fijando una semilla en el optimizador mediante el parámetro ``random_state=0``.
Sin embargo, esta observación dió pie al siguiente planteamiento: sean o no reproducibles los resultados, el optimizador siempre va a retornar la primera combinación de parámetros que haya probado que genere la máxima accuracy en las pruebas y aunque esto a priori no parece ser un problema, podría estar causando una pérdida de precisión en aquellos métodos que usan cross-validación.

El motivo de lo anterior se encuentra en la propia forma de entrenamiento de este tipo de métodos. La forma en la que se comprueba el accuracy de un modelo durante el entrenamiento para escoger un óptimo es, en este caso que se utiliza una cross-validación con 4 folds, calcular el accuracy en cada partición de entrenamiento, esto es, el 75% de los datos (los valores se guardan en los arrays ``split0_train_score``, ``split1_train_score``, ``split2_train_score`` y ``split3_train_score``) y la precisión final se estima promediando estos 4 valores (``mean_test_score``). 

Veamos un ejemplo.

In [10]:
param_grid_XGB_GridSearch = {
    "booster": ["gbtree", "gblinear", "dart"],
    "learning_rate": [0.001, 0.05, 0.1, 0.5]
}

In [11]:
def train_model(model, param_grid, X_train=X_train, X_test=X_test, y_train=y_train, y_test=y_test):
    '''
    Función para realizar el entrenamiento y el ajuste de parámetros.
    Adicionalmente retorna varias propiedades del método de cross-validación para hacer estas comprobaciones
    '''
    grid_search_XGB = GridSearchCV(estimator=model, param_grid=param_grid, cv=4, return_train_score=True)
    grid_search_XGB.fit(X_train, y_train)
    model_XGB_opt = grid_search_XGB.best_estimator_
    
    # Predicción en partición de test
    y_pred_XGB = model_XGB_opt.predict(X_test)
    
    # Precisión en partición de test
    accuracy = accuracy_score(y_test, y_pred_XGB)
    
    return accuracy, grid_search_XGB, grid_search_XGB.cv_results_

In [12]:
accuracy, grid, cv_results = train_model(model_XGB, param_grid_XGB_GridSearch)

In [13]:
print(cv_results["split0_train_score"])
print(cv_results["split1_train_score"])
print(cv_results["split2_train_score"])
print(cv_results["split3_train_score"])

[0.96078431 1.         1.         1.         0.98039216 1.
 1.         1.         0.96078431 1.         1.         1.        ]
[1.         1.         1.         1.         0.98039216 1.
 1.         1.         1.         1.         1.         1.        ]
[0.98039216 1.         1.         1.         0.96078431 1.
 1.         1.         0.98039216 1.         1.         1.        ]
[0.94117647 1.         1.         1.         0.94117647 1.
 1.         1.         0.94117647 1.         1.         1.        ]


In [14]:
cv_results["mean_test_score"]

array([0.5       , 0.52941176, 0.54411765, 0.58823529, 0.63235294,
       0.63235294, 0.63235294, 0.63235294, 0.5       , 0.52941176,
       0.54411765, 0.58823529])

Se observa que hay por tanto 4 modelos que alcanzan la misma accuracy. En particular los siguientes:

In [15]:
cv_results["params"][4:8]

[{'booster': 'gblinear', 'learning_rate': 0.001},
 {'booster': 'gblinear', 'learning_rate': 0.05},
 {'booster': 'gblinear', 'learning_rate': 0.1},
 {'booster': 'gblinear', 'learning_rate': 0.5}]

De entre los resultados que se devuelven, generalmente los que mejor precisión en test permitan obtener serán aquellos más grandes o complejos, entendiendo en este caso mayor complejidad como un learning_rate más pequeño. El motivo de esto es que al hacer cross-validación el conjunto de entrenamiento es más pequeño (75% de los datos de train), por lo que al entrenar un modelo sobre el 100% de los datos, modelos menos complejos pueden resultar excesivamente sencillos al aplicarlos sobre un dataset más grande.

Debajo incluimos la precisión en test de los 4 modelos anteriores, ordenados desde el más simple hasta el más complejo para observar este hecho.

In [16]:
# Definir y entrenar el modelo
XGBoost_lr1 = XGBClassifier(eval_metric="logloss", booster="gblinear", learning_rate=0.5, 
                            random_state=0, use_label_encoder=False)  
XGBoost_lr1.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGBoost_lr1 = XGBoost_lr1.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGBoost_lr1)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Accuracy: 72.22%


In [17]:
# Definir y entrenar el modelo
XGBoost_lr2 = XGBClassifier(eval_metric="logloss", booster="gblinear", learning_rate=0.1, 
                            random_state=0, use_label_encoder=False)  
XGBoost_lr2.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGBoost_lr2 = XGBoost_lr2.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGBoost_lr2)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Accuracy: 72.22%


In [18]:
# Definir y entrenar el modelo
XGBoost_lr3 = XGBClassifier(eval_metric="logloss", booster="gblinear", learning_rate=0.05, 
                            random_state=0, use_label_encoder=False)  
XGBoost_lr3.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGBoost_lr3 = XGBoost_lr3.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGBoost_lr3)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Accuracy: 72.22%


In [19]:
# Definir y entrenar el modelo
XGBoost_lr4 = XGBClassifier(eval_metric="logloss", booster="gblinear", learning_rate=0.001, 
                            random_state=0, use_label_encoder=False)  
XGBoost_lr4.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGBoost_lr4 = XGBoost_lr4.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGBoost_lr4)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Accuracy: 83.33%


### Observaciones adicionales:

Si se repite la anterior comprobación podríamos obtener valores de accuracy diferentes incluso durante el propio entrenamiento de cross-validación y para los mismos modelos.

In [20]:
cv_results["mean_test_score"]

array([0.5       , 0.52941176, 0.54411765, 0.58823529, 0.63235294,
       0.63235294, 0.63235294, 0.63235294, 0.5       , 0.52941176,
       0.54411765, 0.58823529])

In [23]:
accuracy, grid, cv_results = train_model(model_XGB, param_grid_XGB_GridSearch)
cv_results["mean_test_score"]

array([0.5       , 0.52941176, 0.54411765, 0.58823529, 0.63235294,
       0.63235294, 0.63235294, 0.64705882, 0.5       , 0.52941176,
       0.54411765, 0.58823529])

Las variaciones se deben a las pruebas que utilizan el método ``solver = gblinear``. Este solver cuando con un algoritmo por defecto ``shotgun``, que es no determinista. El problema se soluciona si se sustituye el algoritmo de base por otro ``coord_descent`` que sí es determinista.

In [24]:
model_XGB2 = XGBClassifier(eval_metric="logloss", random_state=0, use_label_encoder=False, updater="coord_descent")

accuracy, grid, cv_results = train_model(model_XGB2, param_grid_XGB_GridSearch)
cv_results["mean_test_score"]

array([       nan,        nan,        nan,        nan, 0.63235294,
       0.63235294, 0.63235294, 0.69117647,        nan,        nan,
              nan,        nan])

In [25]:
accuracy, grid, cv_results = train_model(model_XGB2, param_grid_XGB_GridSearch)
cv_results["mean_test_score"]

array([       nan,        nan,        nan,        nan, 0.63235294,
       0.63235294, 0.63235294, 0.69117647,        nan,        nan,
              nan,        nan])

# Anexo B: Optuna TPE vs. búsqueda aleatoria de hiperparámetros

Para la optimización de los modelos con ``optuna``, se han probado dos métodos de "sampler": GridSampler y TPE, siendo este último algoritmo de especial interés ya que, si resulta ser efectivo, al hacer una búsqueda inteligente de los hiperparámetros más adecuados podría ahorrar mucho tiempo y recursos de computación respecto a cualquiera de las otras alternativas vistas en este trabajo.

Para comprobar la eficacia de este modelo vamos a realizar una prueba en la que compararemos 20 combinaciones de los hiperparámetros de manera aleatoria y 20 combinaciones (iteraciones) con este algoritmo de Optuna. Si TPE es eficaz, lo que se espera es que los resultados de este algoritmo mejoren los resultados de la búsqueda aleatoria y que cada iteración sea mejor que la anterior.

In [30]:
param_grid_RF = {
    "n_estimators": range(50, 1050, 50),
    "criterion": ["gini", "entropy"],
    "max_depth": range(1, 21)
}

### Resultados prueba aleatoria

En primer lugar, se generan 20 combinaciones aleatorias de parámetros (de las 20 * 2 * 20 = 800 combinaciones existentes).

In [32]:
import random

random.seed(0)

random_params = {}
for key in param_grid_RF.keys():
    random_params[key] = random.choices(param_grid_RF[key], k=20)

In [33]:
for i in range(20):
    # Definir y entrenar el modelo
    modelRF_random = RandomForestClassifier(criterion=random_params["criterion"][i], max_depth=random_params["max_depth"][i], 
                                            n_estimators=random_params["n_estimators"][i], random_state=0)  
    modelRF_random.fit(X_train, y_train)

    # Predicción en partición de test
    y_pred_RF_random = modelRF_random.predict(X_test)

    # Precisión en partición de test
    accuracy = accuracy_score(y_test, y_pred_RF_random)
    print("Prueba aleatoria {} ------ Accuracy: {:0.2f}%".format(i, accuracy * 100))

Prueba aleatoria 0 ------ Accuracy: 61.11%
Prueba aleatoria 1 ------ Accuracy: 88.89%
Prueba aleatoria 2 ------ Accuracy: 83.33%
Prueba aleatoria 3 ------ Accuracy: 77.78%
Prueba aleatoria 4 ------ Accuracy: 66.67%
Prueba aleatoria 5 ------ Accuracy: 66.67%
Prueba aleatoria 6 ------ Accuracy: 66.67%
Prueba aleatoria 7 ------ Accuracy: 83.33%
Prueba aleatoria 8 ------ Accuracy: 77.78%
Prueba aleatoria 9 ------ Accuracy: 77.78%
Prueba aleatoria 10 ------ Accuracy: 72.22%
Prueba aleatoria 11 ------ Accuracy: 77.78%
Prueba aleatoria 12 ------ Accuracy: 66.67%
Prueba aleatoria 13 ------ Accuracy: 88.89%
Prueba aleatoria 14 ------ Accuracy: 77.78%
Prueba aleatoria 15 ------ Accuracy: 72.22%
Prueba aleatoria 16 ------ Accuracy: 77.78%
Prueba aleatoria 17 ------ Accuracy: 72.22%
Prueba aleatoria 18 ------ Accuracy: 88.89%
Prueba aleatoria 19 ------ Accuracy: 88.89%


### Resultados prueba con Optuna + TPE sampler

In [36]:
def objectiveRF_TPE(trial):
    '''
    Define la función a optimizar por medio de un sampler de tipo TPE.
    En este caso se trata de maximizar el accuracy
    '''
    n_estimators =  trial.suggest_int("n_estimators", 50, 1000, 50) # optuna incluye en el rango el máximo y el mínimo
    criterion = trial.suggest_categorical("criterion", ["gini", "entropy"])
    max_depth = trial.suggest_int("max_depth", 1, 20)
    
    modelRF_optuna = RandomForestClassifier(criterion = criterion, max_depth = max_depth, n_estimators = n_estimators, 
                                            random_state=0)
    
    modelRF_optuna.fit(X_train, y_train)

    y_pred_RF_optuna = modelRF_optuna.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred_RF_optuna)
    return accuracy

In [37]:
# Prueba con TPE
optuna.logging.set_verbosity(optuna.logging.INFO)

sampler = optuna.samplers.TPESampler(seed=0)  # Asegurar los reproducibilidad de los resultados
study_TPE = optuna.create_study(direction="maximize", sampler=sampler)
study_TPE.optimize(objectiveRF_TPE, n_trials=20)

[32m[I 2022-07-02 20:08:53,155][0m A new study created in memory with name: no-name-1fc80066-6add-4f4e-bd48-6b6458d3a37c[0m
[32m[I 2022-07-02 20:08:56,910][0m Trial 0 finished with value: 0.6666666666666666 and parameters: {'n_estimators': 550, 'criterion': 'gini', 'max_depth': 11}. Best is trial 0 with value: 0.6666666666666666.[0m
[32m[I 2022-07-02 20:09:01,108][0m Trial 1 finished with value: 0.6666666666666666 and parameters: {'n_estimators': 450, 'criterion': 'gini', 'max_depth': 18}. Best is trial 0 with value: 0.6666666666666666.[0m
[32m[I 2022-07-02 20:09:11,390][0m Trial 2 finished with value: 0.8888888888888888 and parameters: {'n_estimators': 1000, 'criterion': 'entropy', 'max_depth': 11}. Best is trial 2 with value: 0.8888888888888888.[0m
[32m[I 2022-07-02 20:09:16,588][0m Trial 3 finished with value: 0.6666666666666666 and parameters: {'n_estimators': 600, 'criterion': 'gini', 'max_depth': 2}. Best is trial 2 with value: 0.8888888888888888.[0m
[32m[I 2022-0

**Prueba sobre otro conjunto de datos**

In [38]:
from sklearn.datasets import load_breast_cancer

data2 = load_breast_cancer()

X2, y2 = data2['data'], data2['target']
X_train2, X_test2, y_train2, y_test2 = train_test_split(X2, y2, test_size=0.2, random_state=0)

In [39]:
for i in range(20):
    # Definir y entrenar el modelo
    modelRF_random = RandomForestClassifier(criterion=random_params["criterion"][i], max_depth=random_params["max_depth"][i], 
                                            n_estimators=random_params["n_estimators"][i], random_state=0)  
    modelRF_random.fit(X_train2, y_train2)

    # Predicción en partición de test
    y_pred_RF_random2 = modelRF_random.predict(X_test2)

    # Precisión en partición de test
    accuracy = accuracy_score(y_test2, y_pred_RF_random2)
    print("Prueba aleatoria {} ------ Accuracy: {:0.2f}%".format(i, accuracy * 100))

Prueba aleatoria 0 ------ Accuracy: 96.49%
Prueba aleatoria 1 ------ Accuracy: 97.37%
Prueba aleatoria 2 ------ Accuracy: 97.37%
Prueba aleatoria 3 ------ Accuracy: 96.49%
Prueba aleatoria 4 ------ Accuracy: 97.37%
Prueba aleatoria 5 ------ Accuracy: 97.37%
Prueba aleatoria 6 ------ Accuracy: 96.49%
Prueba aleatoria 7 ------ Accuracy: 97.37%
Prueba aleatoria 8 ------ Accuracy: 96.49%
Prueba aleatoria 9 ------ Accuracy: 97.37%
Prueba aleatoria 10 ------ Accuracy: 96.49%
Prueba aleatoria 11 ------ Accuracy: 97.37%
Prueba aleatoria 12 ------ Accuracy: 96.49%
Prueba aleatoria 13 ------ Accuracy: 97.37%
Prueba aleatoria 14 ------ Accuracy: 97.37%
Prueba aleatoria 15 ------ Accuracy: 98.25%
Prueba aleatoria 16 ------ Accuracy: 95.61%
Prueba aleatoria 17 ------ Accuracy: 96.49%
Prueba aleatoria 18 ------ Accuracy: 97.37%
Prueba aleatoria 19 ------ Accuracy: 97.37%


In [40]:
def objectiveRF_TPE2(trial):
    '''
    Define la función a optimizar por medio de un sampler de tipo TPE.
    En este caso se trata de maximizar el accuracy
    '''
    n_estimators =  trial.suggest_int("n_estimators", 50, 1000, 50) # optuna incluye en el rango el máximo y el mínimo
    criterion = trial.suggest_categorical("criterion", ["gini", "entropy"])
    max_depth = trial.suggest_int("max_depth", 1, 20)
    
    modelRF_optuna = RandomForestClassifier(criterion = criterion, max_depth = max_depth, n_estimators = n_estimators, 
                                            random_state=0)
    
    modelRF_optuna.fit(X_train2, y_train2)

    y_pred_RF_optuna2 = modelRF_optuna.predict(X_test2)
    accuracy = accuracy_score(y_test2, y_pred_RF_optuna2)
    return accuracy

In [41]:
# Prueba con TPE
optuna.logging.set_verbosity(optuna.logging.INFO)

sampler = optuna.samplers.TPESampler(seed=0)  # Asegurar los reproducibilidad de los resultados
study_TPE = optuna.create_study(direction="maximize", sampler=sampler)
study_TPE.optimize(objectiveRF_TPE2, n_trials=20)

[32m[I 2022-07-02 20:13:07,125][0m A new study created in memory with name: no-name-cbbb2365-136f-4508-9c4f-853781df1179[0m
[32m[I 2022-07-02 20:13:12,394][0m Trial 0 finished with value: 0.9736842105263158 and parameters: {'n_estimators': 550, 'criterion': 'gini', 'max_depth': 11}. Best is trial 0 with value: 0.9736842105263158.[0m
[32m[I 2022-07-02 20:13:16,748][0m Trial 1 finished with value: 0.9736842105263158 and parameters: {'n_estimators': 450, 'criterion': 'gini', 'max_depth': 18}. Best is trial 0 with value: 0.9736842105263158.[0m
[32m[I 2022-07-02 20:13:26,475][0m Trial 2 finished with value: 0.9736842105263158 and parameters: {'n_estimators': 1000, 'criterion': 'entropy', 'max_depth': 11}. Best is trial 0 with value: 0.9736842105263158.[0m
[32m[I 2022-07-02 20:13:31,283][0m Trial 3 finished with value: 0.9649122807017544 and parameters: {'n_estimators': 600, 'criterion': 'gini', 'max_depth': 2}. Best is trial 0 with value: 0.9736842105263158.[0m
[32m[I 2022-0