# Resumen búsqueda hiperparámetros

Para saber qué hiperparámetros probar, revisar la documentación o el "1.CheatSheetHiperparametros"

Tener en cuenta el `model` puede ser un estimador o un pipelline. El nombre del hiperparámetro es:
- Si el modelo es un estimador, el nombre tal cual. e.g. `max_depth`
- Si es un pipeline, `<nombre_del_step>__<nombre_hiperparámentro>`. e,g, `regressor__max_depth`

## Grid-search

In [None]:
%%time
from sklearn.model_selection import GridSearchCV

# Definimos el grid de hiperparámetros que queremos probar
param_grid = {
    'classifier__learning_rate': (0.01, 0.1, 1, 10),
    'classifier__max_leaf_nodes': (3, 10, 31, 50)
}

model_grid_search = GridSearchCV(model, param_grid=param_grid, cv=2)

model_grid_search.fit(data_train,target_train)

In [None]:
# Mostramos los mejores hiperparámetros encontrados
model_grid_search.best_params_

In [None]:
# Mostramos el mejor estimador encontrado
model_grid_search.best_estimator_


# Evaluarmos el mejor score con datos de tests (accuracy o r2 por defecto)
score = model_grid_search.score(data_test, target_test)

Es recomendable revisar y graficar los resultados para evaluar cómo contribuyen al score

In [None]:
# Mostramos los resultados de la validación cruzada
model_grid_search.cv_results_


# Transformamos los resultados en un DataFrame para visualizarlos mejor
cv_results = pd.DataFrame(model_grid_search.cv_results_).sort_values(
    "mean_test_score", ascending=False)
cv_results

## Randomized-search

Para la búsqueda aleatoria pdoemos usar funciones o clases de generación de distribuciones de datos, como `loguniform` de `scipy.stats`.

In [None]:
%%time
from sklearn.model_selection import RandomizedSearchCV

param_distributions = {
    'classifier__l2_regularization': loguniform(1e-6, 1e3),
    'classifier__learning_rate': loguniform(0.001, 10),
    'classifier__max_leaf_nodes': loguniform_int(2, 256),
    'classifier__min_samples_leaf': loguniform_int(1, 100),
    'classifier__max_bins': loguniform_int(2, 255),
}

model_random_search = RandomizedSearchCV(
    model, param_distributions=param_distributions, n_iter=5,
    cv=5, verbose=1, random_state=0
)

model_random_search.fit(data_train, target_train)

In [None]:
# Mostramos los mejores hiperparámetros encontrados
model_random_search.best_params_

In [None]:
# Mostramos el mejor estimador encontrado
model_random_search.best_estimator_


# Evaluarmos el mejor score con datos de tests (accuracy o r2 por defecto)
score = model_random_search.score(data_test, target_test)

Es recomendable revisar y graficar los resultados para evaluar cómo contribuyen al score

In [None]:
# Mostramos los resultados de la validación cruzada
model_random_search.cv_results_


# Transformamos los resultados en un DataFrame para visualizarlos mejor
cv_results = pd.DataFrame(model_random_search.cv_results_).sort_values(
    "mean_test_score", ascending=False)
cv_results