# 4.1.2 Búsqueda Exhaustiva de hiperparámetros usando GridSearchCV

En muchos casos, los modelos contienen diferentes hiperparámetros que controlan su configuración y la estimación de los parámetros. Por ejemplo, en el ejemplo del ajuste del polinomio, el grado $n$ es un hiperparámetro. En este tutorial, se presenta como abordar el problema cuando hay más de un hiperparámetro que debe ser ajustado.

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

import warnings
warnings.filterwarnings("ignore")

## 4.1.2.1 Parametrización de la búsqueda

In [None]:
#
# Aca se usara una SVM. Dependiendo del tipo de kernel cambian los parámetros
# que pueden ajustarse.
#
# La variable tuned_parameters es una lista de diccionarios que contiene los
# valores que pueden ajustarse.
#
param_grid = [
    # -------------------------------------------------------------------------
    # Primera malla de parámetros
    {
        "kernel": ["rbf"],
        "gamma": [1e-3, 1e-4],
        "C": [1, 10, 100, 1000],
    },
    # -------------------------------------------------------------------------
    # Segunda malla de parámetros
    {
        "kernel": ["linear"],
        "C": [1, 10, 100, 1000],
    },
]

gridSearchCV = GridSearchCV(
    # --------------------------------------------------------------------------
    # This is assumed to implement the scikit-learn estimator interface.
    estimator=SVC(),
    # --------------------------------------------------------------------------
    # Dictionary with parameters names (str) as keys and lists of parameter
    # settings to try as values, or a list of such dictionaries
    param_grid=param_grid,
    # --------------------------------------------------------------------------
    # Determines the cross-validation splitting strategy.
    cv=5,
    # --------------------------------------------------------------------------
    # Strategy to evaluate the performance of the cross-validated model on the
    # test set.
    scoring="accuracy",
    # --------------------------------------------------------------------------
    # Refit an estimator using the best found parameters on the whole dataset.
    refit=True,
    # --------------------------------------------------------------------------
    # If False, the cv_results_ attribute will not include training scores.
    return_train_score=False,
)

## 4.1.2.2 Principales métricas disponibles para el scoring

link: https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

- Clasificacion
    - accuracy
    - balanced_accuracy

- Regresion
    - neg_mean_absolute_error
    - neg_mean_squared_error
    - neg_root_mean_squared_error
    - r2

## 4.1.2.3 Preparación de los datos  

In [None]:
digits = load_digits()

n_samples = len(digits.images)
X = digits.images.reshape((n_samples, -1))
y = digits.target

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.5,
    random_state=0,
)

## 4.1.2.4 Realización de la búsqueda

In [None]:
gridSearchCV.fit(X_train, y_train)

## 4.1.2.5 Valores retornados

In [None]:
gridSearchCV.cv_results_

In [None]:
#
# Estimator that was chosen by the search, i.e. estimator which gave highest
# score (or smallest loss if specified) on the left out data.
#
gridSearchCV.best_estimator_

In [None]:
gridSearchCV.best_score_

In [None]:
gridSearchCV.best_params_

## 4.1.2.6 Pronóstico con el mejor modelo

In [None]:
gridSearchCV.predict(X_train)

In [None]:
print('ok_')