# Optimización de un modelo de XGBoost

Este notebook recoge los resultados de la búsqueda del mejor modelo de clasificación mediante XGBoost (= eXtreme Gradient Boosting). Se trata de un método de boosting, por tanto, la idea es generar un modelo robusto a partir de varios modelos "débiles". Sin embargo, se le considera extreme gradient boosting ya que es generalmente bastante más rápido que otras implementaciones de gradient boosting y suele tener un buen rendimiento sobre datos estructurados.

Para buscar el mejor modelo posible, se tratará de buscar los mejores hiperparámetros para:

* El tipo de booster que se va a utilizar.
* El paso del método de boosting.
* La mínima reducción de loss exigida para hacer una nueva partición de una rama cuando el booster sea de tal tipo.
* La profundidad máxima de los árboles cuando el booster sea de tal tipo.

### Preparación de los datos

In [3]:
# Estructuras de datos
import pandas as pd
import numpy as np

# Librerías de optimización de hiperparámetros
import optuna

# Accuracy
from sklearn.metrics import accuracy_score

# Model
import xgboost as xgb
from xgboost import XGBClassifier

# Cargar los datos
from data_and_submissions import *

# Métodos para los entrenamientos con CV
from train_cv_methods import *

Vamos a usar la siguiente partición de los datos:

* 60% train $\sim$ 50 datos
* 20% validation $\sim$ 18 datos (se define al aplicar cross-validación en el ajuste)
* 20% test $\sim$ 18 datos

In [2]:
X_train, X_test, y_train, y_test, test_kaggle = load_data()
print("Tamaño del dataset de train:", X_train.shape)
print("Tamaño del dataset de test:", X_test.shape)

Tamaño del dataset de train: (68, 410)
Tamaño del dataset de test: (18, 410)


### Modelo

Búsqueda de hiperparámetros mediante ``GridSearchCV`` de ``sklearn``:

In [4]:
import warnings
warnings.filterwarnings("ignore") # Suprimir warning de versiones
xgb.set_config(verbosity=0)

# Definir y entrenar el modelo
model_XGB = XGBClassifier(eval_metric="logloss", random_state=0, use_label_encoder=False)
param_grid_XGB = {
    "booster": ["gbtree", "gblinear", "dart"],
    "learning_rate": [0.0001, 0.001, 0.01, 0.1, 1],
    "gamma": [0.0001, 0.001, 0.01, 0.1, 1],
    "max_depth": np.arange(0, 21, 2) # 0 = ninguna restricción
}

In [25]:
a = [0.0001, 0.001, 0.01, 0.1, 1]
b = [-4, -3, -2, -1, 0]
b2 = []
for i in b:
    b2.append(10**i)
    
a == b2

True

In [26]:
b2

[0.0001, 0.001, 0.01, 0.1, 1]

In [5]:
# Definir y entrenar el modelo
cv_results_XGB = train_GridSearchCV(model_XGB, param_grid_XGB, X_train, X_test, y_train, y_test)
top_acc = top_acc_GridSearchCV(cv_results_XGB["mean_test_score"])
models_same_acc_GridSearchCV(cv_results_XGB, top_acc)

[{'booster': 'gblinear', 'gamma': 0, 'learning_rate': 1, 'max_depth': 14},
 {'booster': 'gblinear', 'gamma': 0, 'learning_rate': 1, 'max_depth': 16},
 {'booster': 'gblinear', 'gamma': 0.05, 'learning_rate': 1, 'max_depth': 2},
 {'booster': 'gblinear', 'gamma': 0.1, 'learning_rate': 0.5, 'max_depth': 10},
 {'booster': 'gblinear', 'gamma': 0.1, 'learning_rate': 1, 'max_depth': 18}]

In [6]:
model_XGB_opt = XGBClassifier(eval_metric="logloss", booster="gblinear", gamma=0.1, learning_rate=1, max_depth=18,
                              random_state=0, use_label_encoder=False)
model_XGB_opt.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGBoost = model_XGB_opt.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGBoost)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Accuracy: 61.11%


Búsqueda mediante la librería ``optuna`` probando 2 métodos de búsqueda de hiperparámetros:

* **GridSampler:** equivalente a la anterior búsqueda de grid de sklearn. Lo usaremos para que los resultados sean comparables.
* **TPE:** algoritmo para hacer una "búsqueda inteligente" de hiperparámetros. Debería ahorrar intentos de combinaciones haciendo una selección inteligente de las pruebas. En nuestro caso le permitiremos probar un 10% del número de combinaciones posibles. 

In [7]:
def objectiveXGBoost_Grid(trial):
    '''
    Define la función a optimizar por medio de un sampler de tipo GridSampler.
    En este caso se trata de maximizar el accuracy
    '''
    booster = trial.suggest_categorical("booster", ["gbtree", "gblinear", "dart"])
    learning_rate = trial.suggest_float("learning_rate", 0, 1)
    gamma = trial.suggest_float("gamma", 0, 1)
    max_depth = trial.suggest_int("max_depth", 0, 20)
    
    modelXGBoost_optuna = XGBClassifier(eval_metric="logloss", booster=booster, learning_rate=learning_rate, gamma=gamma,
                                        max_depth=max_depth, random_state=0, use_label_encoder=False)
    
    modelXGBoost_optuna.fit(X_train, y_train)

    y_pred_XGBoost_optuna = modelXGBoost_optuna.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred_XGBoost_optuna)
    return accuracy

In [8]:
# Prueba con GridSampler
optuna.logging.set_verbosity(optuna.logging.WARNING)

search_space = {"booster": ["gbtree", "gblinear", "dart"], 
                "learning_rate": np.arange(0.001, 1, 0.1665),
                "gamma": np.arange(0, 0.1, 0.025),
                "max_depth": range(0, 20, 2)
               }
sampler = optuna.samplers.GridSampler(search_space)
study_Grid = optuna.create_study(direction="maximize", sampler=sampler)
study_Grid.optimize(objectiveXGBoost_Grid)

In [9]:
study_Grid.best_trial

FrozenTrial(number=0, values=[0.8333333333333334], datetime_start=datetime.datetime(2022, 6, 11, 23, 12, 52, 659897), datetime_complete=datetime.datetime(2022, 6, 11, 23, 12, 53, 550274), params={'booster': 'gblinear', 'learning_rate': 0.001, 'gamma': 0.05, 'max_depth': 18}, distributions={'booster': CategoricalDistribution(choices=('gbtree', 'gblinear', 'dart')), 'learning_rate': UniformDistribution(high=1.0, low=0.0), 'gamma': UniformDistribution(high=1.0, low=0.0), 'max_depth': IntUniformDistribution(high=20, low=0, step=1)}, user_attrs={}, system_attrs={'search_space': OrderedDict([('booster', ['dart', 'gblinear', 'gbtree']), ('gamma', [0.0, 0.025, 0.05, 0.07500000000000001]), ('learning_rate', [0.001, 0.1675, 0.334, 0.5005000000000001, 0.667, 0.8335]), ('max_depth', [0, 2, 4, 6, 8, 10, 12, 14, 16, 18])]), 'grid_id': 369}, intermediate_values={}, trial_id=0, state=TrialState.COMPLETE, value=None)

In [10]:
# Definir y entrenar el modelo
modelXGBoost_optuna_Grid = XGBClassifier(eval_metric="logloss", booster="gblinear", learning_rate=0.001, gamma=0.05,
                                         max_depth=18, random_state=0, use_label_encoder=False)  
modelXGBoost_optuna_Grid.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGBoost_optuna_Grid = modelXGBoost_optuna_Grid.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGBoost_optuna_Grid)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Accuracy: 83.33%


In [11]:
def objectiveXGBoost_TPE(trial):
    '''
    Define la función a optimizar por medio de un sampler de tipo TPE.
    En este caso se trata de maximizar el accuracy
    '''
    booster = trial.suggest_categorical("booster", ["gbtree", "gblinear", "dart"])
    learning_rate = trial.suggest_float("learning_rate", 0.001, 1, step=0.1665)
    gamma = trial.suggest_float("gamma", 0, 0.1, step=0.025)
    max_depth = trial.suggest_int("max_depth", 0, 20, 2)
    
    modelXGBoost_optuna = XGBClassifier(eval_metric="logloss", booster=booster, learning_rate=learning_rate, gamma=gamma,
                                        max_depth=max_depth, random_state=0, use_label_encoder=False)
    
    modelXGBoost_optuna.fit(X_train, y_train)

    y_pred_XGBoost_optuna = modelXGBoost_optuna.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred_XGBoost_optuna)
    return accuracy

In [12]:
# Prueba con TPE
optuna.logging.set_verbosity(optuna.logging.WARNING)

sampler = optuna.samplers.TPESampler(seed=0)  # Asegurar los reproducibilidad de los resultados
study_TPE = optuna.create_study(direction="maximize", sampler=sampler)
study_TPE.optimize(objectiveXGBoost_TPE, n_trials=80)
# n_trials = (3 x 6 x 4 x 11) * 0.1 = 79.2 ~ 80

In [13]:
study_TPE.best_trial

FrozenTrial(number=2, values=[0.8333333333333334], datetime_start=datetime.datetime(2022, 7, 2, 12, 50, 31, 196428), datetime_complete=datetime.datetime(2022, 7, 2, 12, 50, 31, 446137), params={'booster': 'gblinear', 'learning_rate': 0.001, 'gamma': 0.0, 'max_depth': 18}, distributions={'booster': CategoricalDistribution(choices=('gbtree', 'gblinear', 'dart')), 'learning_rate': DiscreteUniformDistribution(high=1.0, low=0.001, q=0.1665), 'gamma': DiscreteUniformDistribution(high=0.1, low=0.0, q=0.025), 'max_depth': IntUniformDistribution(high=20, low=0, step=2)}, user_attrs={}, system_attrs={}, intermediate_values={}, trial_id=2, state=TrialState.COMPLETE, value=None)

In [14]:
# Definir y entrenar el modelo
modelXGBoost_optuna_TPE = XGBClassifier(eval_metric="logloss", booster="gblinear", learning_rate=0.001, gamma=0,
                                        max_depth=18, random_state=0, use_label_encoder=False) 
modelXGBoost_optuna_TPE.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGBoost_optuna_TPE = modelXGBoost_optuna_TPE.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGBoost_optuna_TPE)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Accuracy: 83.33%


Búsqueda mediante ``optuna`` con ``OptunaSearchCV``:

In [15]:
optuna.logging.set_verbosity(optuna.logging.WARNING)

# Definir y entrenar el modelo
model_XGB = XGBClassifier(eval_metric="logloss", random_state=0, use_label_encoder=False)
param_grid_XGB = {
    "booster": optuna.distributions.CategoricalDistribution(["gbtree", "gblinear", "dart"]),
    "learning_rate": optuna.distributions.DiscreteUniformDistribution(0.001, 1, 0.1665),
    "gamma": optuna.distributions.DiscreteUniformDistribution(0, 0.1, 0.025),
    "max_depth": optuna.distributions.IntUniformDistribution(0, 20, 2) # 0 = ninguna restricción
}
# Probamos también 6 valores de learning_rate, aunque ahora el paso entre uno y otro es necesariamente el mismo

optuna_search = optuna.integration.OptunaSearchCV(model_XGB, param_grid_XGB, cv=4, n_trials=792, refit=True, random_state=0)
# n_trials = 3 x 6 x 4 x 11 = 792
optuna_search.fit(X_train, y_train)

OptunaSearchCV(cv=4,
               estimator=XGBClassifier(base_score=None, booster=None,
                                       colsample_bylevel=None,
                                       colsample_bynode=None,
                                       colsample_bytree=None,
                                       enable_categorical=False,
                                       eval_metric='logloss', gamma=None,
                                       gpu_id=None, importance_type=None,
                                       interaction_constraints=None,
                                       learning_rate=None, max_delta_step=None,
                                       max_depth=None, min_child_weight=None,
                                       missing=nan, mo...
                                       validate_parameters=None,
                                       verbosity=None),
               n_trials=792,
               param_distributions={'booster': CategoricalDistribution(cho

In [17]:
top_acc = top_acc_OptunaSearchCV(optuna_search.trials_)
models_same_acc_OptunaSearchCV(optuna_search.trials_, top_acc)

[{'booster': 'gblinear',
  'learning_rate': 1.0,
  'gamma': 0.07500000000000001,
  'max_depth': 16}]

In [26]:
optunaCV_opt = XGBClassifier(eval_metric="logloss", booster="gblinear", learning_rate=0.667, gamma=0.05,
                             max_depth=20, random_state=0, use_label_encoder=False)
optunaCV_opt.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGB_optuna = optunaCV_opt.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGB_optuna)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Accuracy: 72.22%


Comparamos las predicciones de cualquiera de los dos modelos con misma accuracy máxima:

In [33]:
results = {"Optuna & GridSampler": y_pred_XGBoost_optuna_Grid, "Optuna & TPE": y_pred_XGBoost_optuna_TPE}

results_df = pd.DataFrame(results)    
results_df["All the same"] = results_df.eq(results_df.iloc[:, 0], axis=0).all(1)
results_df

Unnamed: 0,Optuna & GridSampler,Optuna & TPE,All the same
0,1,1,True
1,1,1,True
2,0,0,True
3,0,0,True
4,1,1,True
5,0,0,True
6,1,1,True
7,0,0,True
8,0,0,True
9,0,0,True


Ambos modelos generan las mismas predicciones, usamos cualquiera de ellos para generar el submit para Kaggle:

In [34]:
pred_submit = modelXGBoost_optuna_Grid.predict(test_kaggle)

create_submission(pred_submit, "XGBoost_submit_opt1")

(119748, 2)
