<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_optimizacion_005_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Ajuste de hiperpar√°metros por grid-search</font>**

<p align="justify">
‚ô• En el Colab anterior, vimos que los hiperpar√°metros pueden afectar el rendimiento de generalizaci√≥n de un modelo. En este Colab, mostraremos c√≥mo optimizar los hiperpar√°metros utilizando un enfoque de b√∫squeda en cuadr√≠cula.

 ## **<font color="DeepPink">Carga de las librer√≠as</font>**

In [None]:
import numpy as np
import pandas as pd

In [None]:
import plotly.express as px

 ## **<font color="DeepPink">Carga del conjunto de datos</font>**

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")
adult_census

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,Private,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
48838,40,Private,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
48839,58,Private,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
48840,22,Private,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


 ## **<font color="DeepPink">Separamos la variable objetivo y las variables explicativas</font>**

<p align="justify">
üëÄ Asignamos a un objeto la variable objetivo:
</p>


In [None]:
target_name = "class"
y = adult_census[target_name]
y

0         <=50K
1         <=50K
2          >50K
3          >50K
4         <=50K
          ...  
48837     <=50K
48838      >50K
48839     <=50K
48840     <=50K
48841      >50K
Name: class, Length: 48842, dtype: object

<p align="justify">
üëÄ Eliminamos de nuestros datos la variable objetivo y la columna <code>education-num</code> que duplica la informaci√≥n de la columna <code>education</code>.

In [None]:
X = adult_census.drop(columns=[target_name, "education-num"])
X.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States


 ## **<font color="DeepPink">Conjunto de entrenamiento y conjunto de prueba</font>**

üëÄ Dividimos en conjunto de entrenamiento y prueba

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

 ## **<font color="DeepPink">Pipeline</font>**

<p align="justify">
‚úÖ Definiremos un Pipeline que va a manejar caracter√≠sticas num√©ricas como categ√≥ricas. El primer paso es seleccionar todas las columnas categ√≥ricas...

In [None]:
from sklearn.compose import make_column_selector as selector

In [None]:
categorical_columns_selector = selector(dtype_include=object)
categorical_columns = categorical_columns_selector(X)

üëÄ Vemos las columnas categ√≥ricas...

In [None]:
categorical_columns

['workclass',
 'education',
 'marital-status',
 'occupation',
 'relationship',
 'race',
 'sex',
 'native-country']

<p align="justify">
Usaremos un modelo basado en √°rboles de decisi√≥n (es decir, <code>HistGradientBoostingClassifier</code>). Eso significa que:

* Las variables num√©ricas no necesitan escala;
* Las variables categ√≥ricas se pueden tratar con un `OrdinalEncoder` incluso si el orden de codificaci√≥n no es significativo;
* Para modelos basados en √°rboles, `OrdinalEncoder` evita tener representaciones de alta dimensi√≥n.

<br>


<p align="justify">
‚úÖ Ahora construimos nuestro <code>OrdinalEncoder</code> pas√°ndole las categor√≠as conocidas.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

In [None]:
categorical_preprocessor = OrdinalEncoder(handle_unknown="use_encoded_value",
                                          unknown_value=-1)

In [None]:
categorical_preprocessor

<p align="justify">
‚úÖ Luego usamos un <code>ColumnTransformer</code> para seleccionar las columnas categ√≥ricas y les aplicamos el <code>OrdinalEncoder</code>

In [None]:
from sklearn.compose import ColumnTransformer

In [None]:
preprocessor = ColumnTransformer([
    ('cat_preprocessor', categorical_preprocessor, categorical_columns)],
    remainder='passthrough', sparse_threshold=0)

In [None]:
preprocessor

<p align="justify">
‚úÖ Finalmente, usamos un clasificador basado en √°rboles (histogram gradient-boosting) para predecir si una persona gana o no m√°s de 50 k$ al a√±o.

In [None]:
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.pipeline import Pipeline

In [None]:
model = Pipeline([("preprocessor", preprocessor),
                  ("classifier", HistGradientBoostingClassifier(random_state=42,
                                                                max_leaf_nodes=4))])

In [None]:
model

 # **<font color="DeepPink">Ajuste mediante grid-search</font>**

<p align="justify">
Anteriormente, usamos <code>for</code> para encontrar valores √≥ptimos de los par√°metros.
<br><br>
<code>GridSearchCV</code> es una clase de <code>scikit-learn</code> que implementa una l√≥gica muy similar con un c√≥digo menos repetitivo.
Veamos c√≥mo usar el estimador <code>GridSearchCV</code> para realizar dicha b√∫squeda. Dado que la b√∫squeda ser√° costosa, solo exploraremos la combinaci√≥n de tasa de aprendizaje y el n√∫mero m√°ximo de nodos.
<br><br>
Grid-search es una t√©cnica utilizada para encontrar la combinaci√≥n √≥ptima de hiperpar√°metros para un modelo de aprendizaje autom√°tico. Los hiperpar√°metros son par√°metros que no se aprenden directamente del conjunto de datos, pero afectan el rendimiento y la capacidad del modelo.
<br><br>
Grid-search implica especificar una cuadr√≠cula de valores posibles para diferentes hiperpar√°metros y luego evaluar el rendimiento del modelo en cada combinaci√≥n de valores. Esto implica entrenar y evaluar el modelo con todas las posibles combinaciones de hiperpar√°metros.

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
param_grid = {
    'classifier__learning_rate': [0.01, 0.1, 1, 10], #corchete o parentesis
    'classifier__max_leaf_nodes': (3, 10, 30)}

In [None]:
model_grid_search = GridSearchCV(model, param_grid=param_grid, n_jobs=2, cv=2)
model_grid_search.fit(X_train, y_train)

<p align="justify">
‚úÖ Finalmente, comprobamos el <code>accuracy</code> del modelo usando el conjunto de prueba.

In [None]:
accuracy = model_grid_search.score(X_test, y_test)

In [None]:
print("")
print(f"The test accuracy score of the grid-searched pipeline is: "f"{accuracy:.2f}")


The test accuracy score of the grid-searched pipeline is: 0.88


<p align="justify">
üõë Advertencia
<br><br>
Tenga en cuenta que la evaluaci√≥n normalmente debe realizarse a trav√©s de la validaci√≥n cruzada al proporcionar <code>model_grid_search</code> como modelo para la funci√≥n <code>cross_validate</code>.
<br><br>
Aqu√≠, usamos una sola divisi√≥n de entrenamiento y prueba para evaluar <code>model_grid_search</code>. En un Colab futuro, entraremos en m√°s detalles sobre la validaci√≥n cruzada anidada, cuando se use la validaci√≥n cruzada tanto para el ajuste de hiperpar√°metros, como para la evaluaci√≥n del modelo.

<p align="justify">
El estimador <code>GridSearchCV</code> toma un par√°metro <code>param_grid</code> que define todos los hiperpar√°metros y sus valores asociados. El <code>grid-search</code> se encargar√° de crear todas las combinaciones posibles y probarlas.
<br><br>
El n√∫mero de combinaciones ser√° igual al producto del n√∫mero de valores a explorar para cada par√°metro (por ejemplo, en nuestro ejemplo, combinaciones $4 √ó 3$). Por lo tanto, agregar nuevos par√°metros con sus valores asociados para ser explorados se vuelve r√°pidamente computacionalmente costoso.
<br><br>
Una vez que se ajusta grid-search, se puede usar como cualquier otro predictor llamando a <code>predict</code> y <code>predict_proba</code>. Internamente, utilizar√° el modelo con los mejores par√°metros encontrados durante el <code>fit</code>.
<br><br>
Ahora vamos a obtener las predicciones para las $5$ primeras muestras usando el estimador con los mejores par√°metros.

In [None]:
model_grid_search.predict(X_test.iloc[0:5])

array([' <=50K', ' <=50K', ' >50K', ' <=50K', ' >50K'], dtype=object)

<p align="justify">
üëÄ Puede conocer estos par√°metros mirando el atributo <code>best_params_</code>.

In [None]:
print("")
print(f"The best set of parameters is: "
      f"{model_grid_search.best_params_}")


The best set of parameters is: {'classifier__learning_rate': 0.1, 'classifier__max_leaf_nodes': 30}


<p align="justify">
La <code>accuracy</code> y los mejores par√°metros del Pipeline buscados  (grid-searched pipeline) son similares a los que encontramos anteriormente, donde buscamos los mejores par√°metros "a mano" a trav√©s de un bucle <code>for</code>.
<br><br>
Adem√°s, podemos inspeccionar todos los resultados que se almacenan en el atributo <code>cv_results_</code> de la b√∫squeda en grid-search. Filtraremos algunas columnas espec√≠ficas de estos resultados.

In [None]:
cv_results = pd.DataFrame(model_grid_search.cv_results_).sort_values("mean_test_score", ascending=False)
cv_results.head()

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_classifier__learning_rate,param_classifier__max_leaf_nodes,params,split0_test_score,split1_test_score,mean_test_score,std_test_score,rank_test_score
5,0.910507,0.081211,0.337949,0.02403,0.1,30,"{'classifier__learning_rate': 0.1, 'classifier...",0.868912,0.867213,0.868063,0.00085,1
4,0.681341,0.003319,0.321939,0.005325,0.1,10,"{'classifier__learning_rate': 0.1, 'classifier...",0.866783,0.866066,0.866425,0.000359,2
7,0.231593,0.014162,0.151712,0.005427,1.0,10,"{'classifier__learning_rate': 1, 'classifier__...",0.858648,0.862408,0.860528,0.00188,3
6,0.25825,0.008097,0.166133,0.00243,1.0,3,"{'classifier__learning_rate': 1, 'classifier__...",0.859358,0.859514,0.859436,7.8e-05,4
8,0.246942,0.012513,0.1569,0.014335,1.0,30,"{'classifier__learning_rate': 1, 'classifier__...",0.855536,0.856129,0.855832,0.000296,5


<p align="justify">
Centr√©monos en las columnas m√°s interesantes y acortemos los nombres de los par√°metros para eliminar el prefijo <code>param_classifier__</code> para facilitar la lectura:

In [None]:
column_results = [f"param_{name}" for name in param_grid.keys()]

In [None]:
column_results += ["mean_test_score", "std_test_score", "rank_test_score"]

In [None]:
cv_results = cv_results[column_results]

In [None]:
cv_results

Unnamed: 0,param_classifier__learning_rate,param_classifier__max_leaf_nodes,mean_test_score,std_test_score,rank_test_score
5,0.1,30,0.868063,0.00085,1
4,0.1,10,0.866425,0.000359,2
7,1.0,10,0.860528,0.00188,3
6,1.0,3,0.859436,7.8e-05,4
8,1.0,30,0.855832,0.000296,5
3,0.1,3,0.853266,0.000515,6
2,0.01,30,0.84333,0.002917,7
1,0.01,10,0.817832,0.001124,8
0,0.01,3,0.797166,0.000715,9
11,10.0,30,0.2882,0.050539,10


In [None]:
def shorten_param(param_name):
    if "__" in param_name:
        return param_name.rsplit("__", 1)[1]
    return param_name

In [None]:
cv_results = cv_results.rename(shorten_param, axis=1)
cv_results

Unnamed: 0,learning_rate,max_leaf_nodes,mean_test_score,std_test_score,rank_test_score
5,0.1,30,0.868063,0.00085,1
4,0.1,10,0.866425,0.000359,2
7,1.0,10,0.860528,0.00188,3
6,1.0,3,0.859436,7.8e-05,4
8,1.0,30,0.855832,0.000296,5
3,0.1,3,0.853266,0.000515,6
2,0.01,30,0.84333,0.002917,7
1,0.01,10,0.817832,0.001124,8
0,0.01,3,0.797166,0.000715,9
11,10.0,30,0.2882,0.050539,10


<p align="justify">
Con solo $2$ par√°metros, es posible que queramos visualizar grid-search como un mapa de calor. Necesitamos transformar nuestro <code>cv_results</code> en un <code>DataFrame</code> donde:

- Las filas corresponder√°n a los valores de la tasa de aprendizaje;
- Las columnas corresponder√°n al n√∫mero m√°ximo de hojas;
- El contenido del <code>DataFrame</code> ser√°n las puntuaciones medias de las pruebas.

In [None]:
pivoted_cv_results = cv_results.pivot_table(
    values="mean_test_score", index=["learning_rate"],
    columns=["max_leaf_nodes"])

In [None]:
pivoted_cv_results

max_leaf_nodes,3,10,30
learning_rate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.01,0.797166,0.817832,0.84333
0.1,0.853266,0.866425,0.868063
1.0,0.859436,0.860528,0.855832
10.0,0.283476,0.262564,0.2882


üëÄ Generando el mapa de calor

In [None]:
pivoted_cv_results.columns = ["3","10","30"]
pivoted_cv_results.index = ["0.01", "0.10", "1.00", "10.00"]

In [None]:
fig = px.imshow(pivoted_cv_results.round(2),
                text_auto=True,
                aspect="auto",
                title="Mapa de Calor",
                labels=dict(x="Max leaf nodes",
                            y="Learning rate",
                            color="Mean Test Score"))

fig.show()

<p align="justify">
üìä El mapa de calor destaca lo siguiente:

- Para valores demasiado altos de `learning_rate`, el rendimiento de generalizaci√≥n del modelo est√° degradado y no se puede corregir ajustando con  `max_leaf_nodes`.
- Se observa que la elecci√≥n √≥ptima de `max_leaf_nodes` depende del valor de `learning_rate`.
- En particular, se observa una "diagonal" de buenos modelos con una `accuracy` cerca de 0.87: cuando el valor de `max_leaf_nodes` es  aumentado, se debe disminuir el valor de `learning_rate`, para conservar una buena precisi√≥n.

<br>
<p align="justify">
üõë El significado preciso de esos dos par√°metros se explicar√° m√°s adelante.
<br><br>
Por ahora notaremos que, en general, <b>no existe un √∫nico par√°metro √≥ptimo</b>, 4 modelos de las 12 configuraciones de par√°metros alcanzan la m√°xima
precisi√≥n.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:
<br><br>
‚úÖ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>
‚úÖ Generamos un Pipeline.
<br>  
‚úÖ Separamos en un conjunto de entrenamiento y un conjunto de prueba.
<br>
‚úÖ Optimizamos los hiperpar√°metros de un modelo predictivo a trav√©s del grid-search.
<br>
‚úÖ Constatamos que buscar m√°s de dos hiperpar√°metros es demasiado costoso.
<br>
‚úÖ Vimos que una b√∫squeda en grid-search no necesariamente encuentra una soluci√≥n √≥ptima.



<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
