# Taller de búsqueda de hiperparámetros

En este taller vamos a explorar la búsqueda de hiperparámetros de manera automática. 

In [None]:
import time
import numpy as np

from sklearn.datasets import load_breast_cancer
from sklearn.metrics import f1_score, accuracy_score
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

In [None]:
X, y = load_breast_cancer(return_X_y=True)

In [None]:
test_size=0.25
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size)

**Ejemplo 1:** encuentra los mejores hiperparámetros usando `GridSearchCV`

In [None]:
clf = DecisionTreeClassifier()

# define los valores que usarás en la búsqueda del
# hiperparametro C
param_grid = {
    "max_depth": (3, 6, 12, 18),
    "min_samples_leaf": (1, 2, 3),
    "criterion": ["gini", "entropy"]
}

gs = GridSearchCV(clf, param_grid, scoring='f1', cv=8)

t0 = time.time()
gs.fit(X_train, y_train)
print("Tiempo de búsqueda: {:.3f}s".format(time.time() - t0))

Tiempo de búsqueda: 1.558s


podemos ver que el atributo `cv_results_` nos entrega los resultados de toda la búsqueda.

In [None]:
gs.cv_results_



{'mean_fit_time': array([0.00334531, 0.00325891, 0.00324371, 0.0051921 , 0.00502348,
        0.00494787, 0.0055778 , 0.00521228, 0.00492683, 0.00556526,
        0.00524962, 0.00494587, 0.00611812, 0.00609088, 0.00607732,
        0.0081071 , 0.00797057, 0.0079211 , 0.00811949, 0.00798762,
        0.0079436 , 0.00811273, 0.00800294, 0.00790957]),
 'mean_score_time': array([0.00048876, 0.00044215, 0.00044364, 0.00044873, 0.00044391,
        0.0004538 , 0.00043577, 0.00048253, 0.0004499 , 0.000442  ,
        0.00044426, 0.00045928, 0.00044927, 0.00044411, 0.00044578,
        0.00044569, 0.00043899, 0.0004355 , 0.00044963, 0.00044626,
        0.00046128, 0.00045091, 0.0004411 , 0.00043598]),
 'mean_test_score': array([0.95240514, 0.95034258, 0.95431667, 0.95958765, 0.95147795,
        0.95180545, 0.9439244 , 0.93364287, 0.9556671 , 0.95174477,
        0.93918121, 0.95393275, 0.9344567 , 0.93669364, 0.93665825,
        0.93525087, 0.94874553, 0.94100992, 0.94486212, 0.94864474,
        0.944

Lo más importante es extraer los hiperparámetros del modelo que mejor error en de validación sacaron

In [None]:
gs.best_params_

{'criterion': 'gini', 'max_depth': 6, 'min_samples_leaf': 1}

También es posible el mejor resultado en la métrica usada

In [None]:
gs.best_score_

0.9595876465518061

Finalmente, es posible extraer directamente un estimador que que ha sido creado con los mejores hiperparámetros.

In [None]:
gs.best_estimator_

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=6,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

**Ejemplo 2:** la clase `RandomizedSearchCV` se puede usar casi de la misma manera, solo que esta vez se debe escoger un número de combinaciones a evaluar; las cuales se escogeran de manera aleatoria.




In [None]:
clf = DecisionTreeClassifier()

# define los valores que usarás en la búsqueda del
# hiperparametro C
param_dist = {
    "max_depth": (3, 6, 12, 18),
    "min_samples_leaf": (1, 2, 3),
    "criterion": ["gini", "entropy"]
}

rs = RandomizedSearchCV(clf, param_dist, scoring='f1', cv=8, n_iter=5)

t0 = time.time()
rs.fit(X_train, y_train)
print("Tiempo de búsqueda: {:.3f}s".format(time.time() - t0))

Tiempo de búsqueda: 0.301s


In [None]:
rs.best_score_

0.9557509289029757

Podemos ver que aunque se demoró mucho menos, el resultado no es tan bueno.