<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_optimizacion_007_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Evaluaci√≥n y ajuste de hiperpar√°metros</font>**

<p align="justify">
‚ô• En el Colab anterior, vimos dos enfoques para ajustar los hiperpar√°metros. Sin embargo, no se presento un marco adecuado para evaluar los modelos ajustados. En su lugar, nos concentramos en el mecanismo utilizado para encontrar el mejor conjunto de par√°metros.
<br><br>
En este Colab, reutilizaremos algunos conocimientos para mostrar c√≥mo evaluar modelos en los que es necesario ajustar los hiperpar√°metros. Por eso, primero cargaremos el dataset y crearemos el modelo predictivo que queremos optimizar y posteriormente evaluar.

 ## **<font color="DeepPink">Carga de las librer√≠as</font>**

In [None]:
import numpy as np
import pandas as pd

In [None]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import plotly.express as px

 ## **<font color="DeepPink">Carga del conjunto de datos</font>**

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")
adult_census.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


 ## **<font color="DeepPink">Separamos la variable objetivo y las variables explicativas</font>**

<p align="justify">
üëÄ Asignamos a un objeto la variable objetivo:
</p>


In [None]:
target_name = "class"
y = adult_census[target_name]
y

0         <=50K
1         <=50K
2          >50K
3          >50K
4         <=50K
          ...  
48837     <=50K
48838      >50K
48839     <=50K
48840     <=50K
48841      >50K
Name: class, Length: 48842, dtype: object

<p align="justify">
üëÄ Eliminamos de nuestros datos la variable objetivo y la columna <code>education-num</code> que duplica la informaci√≥n de la columna <code>education</code>.

In [None]:
X = adult_census.drop(columns=[target_name, "education-num"])
X.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States


 ## **<font color="DeepPink">Conjunto de entrenamiento y conjunto de prueba</font>**

üëÄ Dividimos en conjunto de entrenamiento y prueba

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

 # **<font color="DeepPink">Nuestro modelo predictivo</font>**

<p align="justify">
üëÄ Ahora creamos el modelo predictivo que queremos optimizar. Tenga en cuenta que este pipeline es id√©ntico al que usamos en el Colab anterior.

<p align="justify">
‚úÖ Definiremos un Pipeline que va a manejar caracter√≠sticas categ√≥ricas.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OrdinalEncoder
from sklearn.compose import make_column_selector as selector

In [None]:
categorical_columns_selector = selector(dtype_include=object)
categorical_columns = categorical_columns_selector(X)

In [None]:
categorical_preprocessor = OrdinalEncoder(
    handle_unknown="use_encoded_value", unknown_value=-1)

In [None]:
preprocessor = ColumnTransformer(
    [('cat_preprocessor', categorical_preprocessor, categorical_columns),],
    remainder='passthrough',
    sparse_threshold=0,)

In [None]:
preprocessor

<p align="justify">
‚úÖ Usamos un clasificador basado en √°rboles (histogram gradient-boosting) para predecir si una persona gana o no m√°s de 50 k$ al a√±o.

In [None]:
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.pipeline import Pipeline

In [None]:
model = Pipeline([("preprocessor", preprocessor),
                  ("classifier", HistGradientBoostingClassifier(random_state=42,
                                                                max_leaf_nodes=4)),])

In [None]:
model

 # **<font color="DeepPink">Evaluaci√≥n del modelo</font>**

 ## **<font color="DeepPink">Sin ajuste de hiperpar√°metros</font>**

<p align="justify">
Anteriormente vimos que se debe usar la validaci√≥n cruzada para evaluar el modelo. La validaci√≥n cruzada permite obtener una distribuci√≥n de las puntuaciones del modelo. As√≠, teniendo esta distribuci√≥n a mano, podemos llegar a evaluar la variabilidad de nuestra estimaci√≥n del rendimiento de generalizaci√≥n del modelo.
<br><br>
Ahora recordamos las herramientas de <code>scikit-learn</code> necesarias para obtener la media y la desviaci√≥n est√°ndar de las puntuaciones.

In [None]:
from sklearn.model_selection import cross_validate

In [None]:
cv_results = cross_validate(model, X, y, cv=5)
cv_results = pd.DataFrame(cv_results)
cv_results

Unnamed: 0,fit_time,score_time,test_score
0,0.581936,0.087895,0.863241
1,0.529134,0.105229,0.860784
2,0.531778,0.084779,0.86036
3,0.558694,0.087248,0.862408
4,0.669932,0.161379,0.866912


In [None]:
print("")
print("Generalization score without hyperparameters tuning:\n"
     f"{cv_results['test_score'].mean():.3f} ¬± {cv_results['test_score'].std():.3f}")


Generalization score without hyperparameters tuning:
0.863 ¬± 0.003


 ## **<font color="DeepPink">Con ajuste de hiperpar√°metros</font>**

<p align="justify">
üëÄ Ahora utilizaremos una estrategia de grid-search y reproduciremos los pasos realizados anteriormente. Primero, tenemos que incrustar nuestro modelo en grid-search y especificar los par√°metros y los valores de los par√°metros que queremos explorar.

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
param_grid = {'classifier__learning_rate': (0.05, 0.5),
              'classifier__max_leaf_nodes': (10, 30),}

In [None]:
model_grid_search = GridSearchCV(model,
                                 param_grid=param_grid,
                                 n_jobs=2,
                                 cv=2)

In [None]:
model_grid_search.fit(X, y)

<p align="justify">
Como se vio anteriormente, al llamar al m√©todo de ajuste, el modelo incrustado en grid-search se entrena con todas las combinaciones posibles de par√°metros resultantes de la cuadr√≠cula de par√°metros. La mejor combinaci√≥n se selecciona manteniendo la combinaci√≥n que conduce a la mejor puntuaci√≥n media de validaci√≥n cruzada.

In [None]:
cv_results = pd.DataFrame(model_grid_search.cv_results_)
cv_results[[
    "param_classifier__learning_rate",
    "param_classifier__max_leaf_nodes",
    "mean_test_score",
    "std_test_score",
    "rank_test_score"]]

Unnamed: 0,param_classifier__learning_rate,param_classifier__max_leaf_nodes,mean_test_score,std_test_score,rank_test_score
0,0.05,10,0.864195,6.1e-05,4
1,0.05,30,0.87091,6.1e-05,1
2,0.5,10,0.869743,0.000532,2
3,0.5,30,0.866058,0.001515,3


In [None]:
model_grid_search.best_params_

{'classifier__learning_rate': 0.05, 'classifier__max_leaf_nodes': 30}

<p align="justify">
üõë Una advertencia importante aqu√≠ se refiere a la evaluaci√≥n del rendimiento de la generalizaci√≥n. De hecho, la media y la desviaci√≥n est√°ndar de las puntuaciones calculadas por la validaci√≥n cruzada en grid-search no son potencialmente buenas estimaciones del rendimiento de generalizaci√≥n que obtendr√≠amos al reajustar un modelo con la mejor combinaci√≥n de valores de hiperpar√°metros en el conjunto de datos completo.
<br><br>
Tenga en cuenta que <code>scikit-learn</code> realiza autom√°ticamente este ajuste de forma predeterminada cuando llama a <code>model_grid_search.fit.</code> Este modelo reacondicionado se entrena con m√°s datos que los diferentes modelos entrenados internamente durante la validaci√≥n cruzada de la b√∫squeda en cuadr√≠cula.
<br><br>
Por lo tanto, utilizamos el conocimiento del conjunto de datos completo para decidir los hiperpar√°metros de nuestro modelo y para entrenar el modelo reajustado. Debido a lo anterior, se debe mantener un equipo de prueba externo para la evaluaci√≥n final del modelo reacondicionado. Destacamos aqu√≠ el proceso que utiliza una sola divisi√≥n de entrenamiento y prueba.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
data_train, data_test, target_train, target_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

In [None]:
model_grid_search.fit(data_train, target_train)
accuracy = model_grid_search.score(data_test, target_test)
print("")
print(f"Accuracy on test set: {accuracy:.3f}")


Accuracy on test set: 0.877


<p align="justify">
La medida de puntuaci√≥n en el conjunto de prueba final est√° casi dentro del rango de la puntuaci√≥n CV interna para la mejor combinaci√≥n de hiperpar√°metros. Esto es tranquilizador, ya que significa que el procedimiento de ajuste no caus√≥ un sobreajuste significativo en s√≠ mismo (de lo contrario, la puntuaci√≥n final de la prueba habr√≠a sido m√°s baja que las puntuaciones CV internas).
<br><br>
Eso era de esperar porque nuestra b√∫squeda en cuadr√≠cula explor√≥ muy pocas combinaciones de hiperpar√°metros en aras de la velocidad. La puntuaci√≥n de la prueba del modelo final es en realidad un poco m√°s alta de lo que podr√≠amos haber esperado de la validaci√≥n cruzada interna.
<br><br>
Esto tambi√©n se espera porque el modelo reajustado se entrena en un conjunto de datos m√°s grande que los modelos evaluados en el ciclo de CV interno del procedimiento de grid-search. Este suele ser el caso de que los modelos entrenados en un mayor n√∫mero de muestras tienden a generalizar mejor.
<br><br>
Anteriormente la selecci√≥n de los mejores hiperpar√°metros se realiz√≥ solo en el conjunto de entrenamiento de la divisi√≥n de prueba y entrenamiento inicial. Luego, evaluamos el rendimiento de generalizaci√≥n de nuestro modelo ajustado en el conjunto de prueba omitido. Esto se puede mostrar esquem√°ticamente de la siguiente manera:

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Validacion-002.png?raw=true" width="600">
</p>


<p align="justify">
<b>Nota</b>: Esta figura muestra el caso particular de la estrategia de validaci√≥n cruzada <code>K-fold</code> usando <code>n_splits = 5</code> para dividir a√∫n m√°s el conjunto de entrenamiento que proviene de una divisi√≥n de prueba de entrenamiento. Para cada divisi√≥n de validaci√≥n cruzada, el procedimiento entrena un modelo en todas las muestras rojas, eval√∫a la puntuaci√≥n de un conjunto dado de hiperpar√°metros en las muestras verdes. Los mejores hiperpar√°metros se seleccionan en funci√≥n de esas puntuaciones intermedias.
<br><br>
Luego, se ajusta un modelo final sintonizado con esos hiperpar√°metros en la concatenaci√≥n de las muestras roja y verde y se eval√∫a en las muestras azules.
Las muestras verdes a veces se denominan conjuntos de validaci√≥n para diferenciarlos del conjunto de prueba final en azul.
<br><br>
Sin embargo, esta evaluaci√≥n solo nos proporciona una estimaci√≥n puntual √∫nica del rendimiento de la generalizaci√≥n. Como recordamos al comienzo de este Colab, es beneficioso tener una idea aproximada de la incertidumbre de nuestro rendimiento de generalizaci√≥n estimado. Por lo tanto, deber√≠amos usar una validaci√≥n cruzada adicional para esta evaluaci√≥n.
<br><br>
Este patr√≥n se denomina validaci√≥n cruzada anidada. Usamos una validaci√≥n cruzada interna para la selecci√≥n de los hiperpar√°metros y una validaci√≥n cruzada externa para la evaluaci√≥n del rendimiento de generalizaci√≥n del modelo ajustado reajustado.
<br><br>
En la pr√°ctica, solo necesitamos incrustar en grid-search la funci√≥n <code>cross_validate</code> para realizar dicha evaluaci√≥n.

In [None]:
cv_results = cross_validate(
    model_grid_search, X, y, cv=5, n_jobs=2, return_estimator=True)

In [None]:
cv_results = pd.DataFrame(cv_results)
cv_test_scores = cv_results['test_score']
print("")
print(
    "Generalization score with hyperparameters tuning:\n"
    f"{cv_test_scores.mean():.3f} ¬± {cv_test_scores.std():.3f}")


Generalization score with hyperparameters tuning:
0.871 ¬± 0.003


<p align="justify">
Este resultado es compatible con la puntuaci√≥n de la prueba medida con la divisi√≥n de prueba y prueba exterior. Sin embargo, en este caso, podemos aprender la variabilidad de nuestra estimaci√≥n del rendimiento de generalizaci√≥n gracias a la medida de la desviaci√≥n est√°ndar de las puntuaciones medidas en la validaci√≥n cruzada externa.
<br><br>
Aqu√≠ hay una representaci√≥n esquem√°tica del procedimiento completo de validaci√≥n cruzada anidada:

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Validacion-003.png?raw=true" width="600">
</p>


<p align="justify">
<b>Nota</b>: Esta figura ilustra la estrategia de validaci√≥n cruzada anidada usando <code>cv_inner = KFold(n_splits=4)</code> y <code>cv_outer = KFold(n_splits=5)</code>.
<br><br>
Para cada divisi√≥n interna de validaci√≥n cruzada (indexada en el lado izquierdo), el procedimiento entrena un modelo en todas las muestras rojas y eval√∫a la calidad de los hiperpar√°metros en las muestras verdes.
<br><br>
Para cada divisi√≥n externa de validaci√≥n cruzada (indexada en el lado derecho), se seleccionan los mejores hiperpar√°metros en funci√≥n de los puntajes de validaci√≥n (calculados en las muestras de codicia) y se reajusta un modelo en la concatenaci√≥n de las muestras roja y verde.
<br><br>
A continuaci√≥n, se eval√∫a el rendimiento de generalizaci√≥n de los 5 modelos reacondicionados del bucle CV externo en las muestras azules para obtener las puntuaciones finales. Adem√°s, pasando el par√°metro <code>return_estimator=True</code>, podemos comprobar el valor de los mejores hiperpar√°metros obtenidos para cada pliegue de la validaci√≥n cruzada exterior.

In [None]:
for cv_fold, estimator_in_fold in enumerate(cv_results["estimator"]):
    print(f"Best hyperparameters for fold #{cv_fold + 1}:\n"
          f"{estimator_in_fold.best_params_}")

Best hyperparameters for fold #1:
{'classifier__learning_rate': 0.05, 'classifier__max_leaf_nodes': 30}
Best hyperparameters for fold #2:
{'classifier__learning_rate': 0.05, 'classifier__max_leaf_nodes': 30}
Best hyperparameters for fold #3:
{'classifier__learning_rate': 0.05, 'classifier__max_leaf_nodes': 30}
Best hyperparameters for fold #4:
{'classifier__learning_rate': 0.05, 'classifier__max_leaf_nodes': 30}
Best hyperparameters for fold #5:
{'classifier__learning_rate': 0.05, 'classifier__max_leaf_nodes': 30}


<p align="justify">
Es interesante ver si el procedimiento de ajuste de hiperpar√°metros siempre selecciona valores similares para los hiperpar√°metros. Si es el caso, entonces todo est√° bien. Significa que podemos implementar un ajuste de modelo con esos hiperpar√°metros y esperar que tenga un rendimiento predictivo real cercano al que medimos en la validaci√≥n cruzada externa.
<br><br>
Pero tambi√©n es posible que algunos hiperpar√°metros no importen en absoluto y, como resultado, en diferentes sesiones de ajuste den resultados diferentes. En este caso, cualquier valor servir√°. Normalmente, esto se puede confirmar haciendo un gr√°fico de coordenadas paralelas de los resultados de una gran b√∫squeda de hiperpar√°metros como se ve en los ejercicios.
<br><br>
Desde el punto de vista de la implementaci√≥n, tambi√©n se podr√≠a optar por implementar todos los modelos encontrados por el ciclo externo de validaci√≥n cruzada y hacer que voten para obtener las predicciones finales. Sin embargo, esto puede causar problemas operativos porque usa m√°s memoria y hace que la predicci√≥n sea m√°s lenta, lo que resulta en un mayor uso de recursos computacionales por predicci√≥n.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:
<br><br>
‚úÖ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>
‚úÖ Generamos un Pipeline.
<br>
‚úÖ Optimizamos los hiperpar√°metros de un modelo predictivo.
<br>
‚úÖ Vimos c√≥mo evaluar el rendimiento predictivo de un modelo con hiperpar√°metros ajustados mediante el procedimiento de validaci√≥n cruzada anidada..
<br><br>


<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
