<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_optimizacion_006_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Ajuste de hiperpar√°metros con b√∫squeda aleatoria (Randomized Search)</font>**

<p align="justify">
‚ô• En el Colab anterior, mostramos c√≥mo usar un enfoque de grid-search para buscar los mejores hiperpar√°metros que maximicen el rendimiento de generalizaci√≥n de un modelo predictivo.
<br><br>
Sin embargo, un enfoque de grid-search tiene limitaciones. No se escala cuando aumenta el n√∫mero de par√°metros a ajustar.
<br><br>
Adem√°s, la grid-search impondr√° una regularidad durante la b√∫squeda que podr√≠a ser problem√°tica.
En este Colab, presentaremos otro m√©todo para ajustar hiperpar√°metros denominado randomized search (b√∫squeda aleatoria) .

 ## **<font color="DeepPink">Carga de las librer√≠as</font>**

In [None]:
import numpy as np
import pandas as pd

In [None]:
import plotly.express as px

 ## **<font color="DeepPink">Carga del conjunto de datos</font>**

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")
adult_census.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


 ## **<font color="DeepPink">Separamos la variable objetivo y las variables explicativas</font>**

<p align="justify">
üëÄ Asignamos a un objeto la variable objetivo:
</p>


In [None]:
target_name = "class"
y = adult_census[target_name]
y

0         <=50K
1         <=50K
2          >50K
3          >50K
4         <=50K
          ...  
48837     <=50K
48838      >50K
48839     <=50K
48840     <=50K
48841      >50K
Name: class, Length: 48842, dtype: object

<p align="justify">
üëÄ Eliminamos de nuestros datos la variable objetivo y la columna <code>education-num</code> que duplica la informaci√≥n de la columna <code>education</code>.

In [None]:
X = adult_census.drop(columns=[target_name, "education-num"])
X.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States


 ## **<font color="DeepPink">Conjunto de entrenamiento y conjunto de prueba</font>**

üëÄ Dividimos en conjunto de entrenamiento y prueba

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

 ## **<font color="DeepPink">Pipeline</font>**

<p align="justify">
‚úÖ Definiremos un Pipeline que va a manejar caracter√≠sticas categ√≥ricas.

In [None]:
from sklearn.compose import make_column_selector as selector
from sklearn.preprocessing import OrdinalEncoder
from sklearn.compose import ColumnTransformer

<p align="justify">
‚úÖ Seleccionamos las columnas categoricas.

In [None]:
categorical_columns_selector = selector(dtype_include=object)
categorical_columns = categorical_columns_selector(X)

<p align="justify">
‚úÖ Ahora codificamos con <code>OrdinalEncoder</code>.

In [None]:
categorical_preprocessor = OrdinalEncoder(handle_unknown="use_encoded_value",
                                          unknown_value=-1)

<p align="justify">
‚úÖ Luego usamos un <code>ColumnTransformer</code> para seleccionar las columnas categ√≥ricas y les aplicamos el <code>OrdinalEncoder</code>

In [None]:
preprocessor = ColumnTransformer([
    ('cat_preprocessor', categorical_preprocessor, categorical_columns)],
    remainder='passthrough', sparse_threshold=0)

In [None]:
preprocessor

<p align="justify">
‚úÖ Finalmente, usamos un clasificador basado en √°rboles (histogram gradient-boosting) para predecir si una persona gana o no m√°s de 50 k$ al a√±o.

In [None]:
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.pipeline import Pipeline

In [None]:
model = Pipeline([("preprocessor", preprocessor),
                  ("classifier", HistGradientBoostingClassifier(random_state=42,
                                                                max_leaf_nodes=4))])

In [None]:
model

 # **<font color="DeepPink">Ajuste mediante randomized search</font>**

<p align="justify">
Con el estimador <code>GridSearchCV</code>, los par√°metros deben especificarse expl√≠citamente. Ya mencionamos que explorar una gran cantidad de valores para diferentes par√°metros ser√° r√°pidamente intratable.
<br><br>
En su lugar, podemos generar aleatoriamente los par√°metros candidatos. De hecho, tal enfoque evita la regularidad de la red. Por lo tanto, agregar m√°s evaluaciones puede aumentar la resoluci√≥n en cada direcci√≥n. Este es el caso en la situaci√≥n frecuente en la que la elecci√≥n de algunos hiperpar√°metros no es muy importante, como ocurre con el hiperpar√°metro 2 en la figura siguiente.

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Optimizacion-001.png?raw=true" width="450">
</p>


<p align="justify">
De hecho, el n√∫mero de puntos de evaluaci√≥n debe dividirse entre los dos hiperpar√°metros diferentes. Con una grilla, el peligro es que la regi√≥n de buenos hiperpar√°metros quede entre la l√≠nea de la grilla: esta regi√≥n est√° alineada con la grilla dado que el hiperpar√°metro $2$ tiene una influencia d√©bil.
<br><br>
M√°s bien, la b√∫squeda estoc√°stica muestrear√° el hiperpar√°metro $1$ independientemente del hiperpar√°metro $2$ y encontrar√° la regi√≥n √≥ptima.
<br><br>
La clase <code>RandomizedSearchCV</code> permite dicha b√∫squeda estoc√°stica. Se usa de manera similar a <code>GridSearchCV</code>, pero es necesario especificar las distribuciones de muestreo en lugar de los valores de los par√°metros.
<br><br>
Por ejemplo, dibujaremos candidatos usando una distribuci√≥n logar√≠tmica uniforme porque los par√°metros que nos interesan toman valores positivos con una escala logar√≠tmica natural ($.1$ es tan cercano a $1$ como $10$).
<br><br>
La b√∫squeda aleatoria (con <code>RandomizedSearchCV</code>) suele ser beneficiosa en comparaci√≥n con la b√∫squeda en cuadr√≠cula (con <code>GridSearchCV</code>) para optimizar $3$ o m√°s hiperpar√°metros.

<p align="justify">
Optimizaremos otros $3$ par√°metros adem√°s de los que optimizamos en el Colab que muestra <code>GridSearchCV</code>:

- `l2_regularizaci√≥n`: corresponde a la regularizaci√≥n;
- `min_samples_leaf`: corresponde al n√∫mero m√≠nimo de muestras requeridas en una hoja;
- `max_bins`: corresponde al n√∫mero m√°ximo de bins para construir los histogramas.

<p align="justify">
Recordamos el significado de los $2$ par√°metros restantes:

- `learning_rate`: corresponde a la velocidad que el boosting corregir√° los residuos en cada iteraci√≥n;
- `max_leaf_nodes`: corresponde al n√∫mero m√°ximo de hojas para cada √°rbol del conjunto.

<p align="justify">
<code>scipy.stats.loguniform</code> se puede usar para generar n√∫meros float. Para generar valores aleatorios para par√°metros con valores enteros (por ejemplo, <code>min_samples_leaf</code>), podemos adaptar lo siguiente:

In [None]:
from scipy.stats import loguniform

In [None]:
class loguniform_int:
    """Integer valued version of the log-uniform distribution"""
    def __init__(self, a, b):
        self._distribution = loguniform(a, b)

    def rvs(self, *args, **kwargs):
        """Random variable sample"""
        return self._distribution.rvs(*args, **kwargs).astype(int)

<p align="justify">
Ahora, podemos definir la b√∫squeda aleatoria usando las diferentes distribuciones. Ejecutar $10$ iteraciones de validaci√≥n cruzada de $5$ veces para parametrizaciones aleatorias de este modelo en este conjunto de datos puede llevar de $10$ segundos a varios minutos, seg√∫n la velocidad de la computadora y la cantidad de procesadores disponibles.

In [None]:
from sklearn.model_selection import RandomizedSearchCV

In [None]:
param_distributions = {'classifier__l2_regularization': loguniform(1e-6, 1e3),
                       'classifier__learning_rate': loguniform(0.001, 10),
                       'classifier__max_leaf_nodes': loguniform_int(2, 256),
                       'classifier__min_samples_leaf': loguniform_int(1, 100),
                       'classifier__max_bins': loguniform_int(2, 255),}

In [None]:
model_random_search = RandomizedSearchCV(
    model, param_distributions=param_distributions, n_iter=20,
    cv=5, verbose=1,)

In [None]:
model_random_search.fit(X_train, y_train)

Fitting 5 folds for each of 20 candidates, totalling 100 fits


<p align="justify">
üëÄ Podemos computar el <code>Accuracy</code> score sobre el conjunto de prueba.

In [None]:
accuracy = model_random_search.score(X_test, y_test)

In [None]:
print("")
print(f"The test accuracy score of the best model is "
      f"{accuracy:.2f}")


The test accuracy score of the best model is 0.87


In [None]:
from pprint import pprint

In [None]:
print("")
print("The best parameters are:")
pprint(model_random_search.best_params_)


The best parameters are:
{'classifier__l2_regularization': 719.14606696981,
 'classifier__learning_rate': 0.06581555639826125,
 'classifier__max_bins': 237,
 'classifier__max_leaf_nodes': 30,
 'classifier__min_samples_leaf': 2}


<p align="justify">
üëÄ Podemos inspeccionar el resultado, usando el atributo <code>cv_results</code>.

In [None]:
column_results = [
    f"param_{name}" for name in param_distributions.keys()]

In [None]:
column_results += [
    "mean_test_score", "std_test_score", "rank_test_score"]

In [None]:
cv_results = pd.DataFrame(model_random_search.cv_results_)
cv_results = cv_results[column_results].sort_values(
    "mean_test_score", ascending=False)

In [None]:
def shorten_param(param_name):
    if "__" in param_name:
        return param_name.rsplit("__", 1)[1]
    return param_name

In [None]:
cv_results = cv_results.rename(shorten_param, axis=1)
cv_results.head()

Unnamed: 0,l2_regularization,learning_rate,max_leaf_nodes,min_samples_leaf,max_bins,mean_test_score,std_test_score,rank_test_score
9,719.146067,0.065816,30,2,237,0.857662,0.002716,1
13,7e-06,0.039471,39,9,49,0.856051,0.002766,2
0,3.030224,0.082923,5,58,59,0.855969,0.003865,3
2,7e-06,0.111775,71,1,50,0.853376,0.004185,4
4,0.003731,0.024465,36,6,27,0.85283,0.003146,5


<p align="justify">
Hay que tener en cuenta que el ajuste est√° limitado por la cantidad de combinaciones diferentes de par√°metros que se punt√∫an mediante la b√∫squeda aleatoria. De hecho, puede haber otros conjuntos de par√°metros que conduzcan a resultados de generalizaci√≥n similares o mejores, pero que no se probaron en la b√∫squeda.
<br><br>
En la pr√°ctica, una b√∫squeda aleatoria de hiperpar√°metros suele ejecutarse con un gran n√∫mero de iteraciones.

 # **<font color="DeepPink">Visualizacion</font>**

<p align="justify">
Como tenemos m√°s de $2$ par√°metros en nuestra b√∫squeda aleatoria, no podemos visualizar los resultados usando un mapa de calor. Se podr√≠a hacer por parejas, pero se tendr√≠a una proyecci√≥n bidimensional de un problema multidimensional y eso puede conducir a una interpretaci√≥n incorrecta de las puntuaciones.

In [None]:
df = pd.DataFrame(
    {"max_leaf_nodes": cv_results["max_leaf_nodes"],
     "learning_rate": cv_results["learning_rate"],
     "score_bin": pd.cut(cv_results["mean_test_score"], bins=np.linspace(0.5, 1.0, 6)),
    })

In [None]:
df.head()

Unnamed: 0,max_leaf_nodes,learning_rate,score_bin
9,30,0.065816,"(0.8, 0.9]"
13,39,0.039471,"(0.8, 0.9]"
0,5,0.082923,"(0.8, 0.9]"
2,71,0.111775,"(0.8, 0.9]"
4,36,0.024465,"(0.8, 0.9]"


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 9 to 8
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   max_leaf_nodes  20 non-null     object  
 1   learning_rate   20 non-null     object  
 2   score_bin       20 non-null     category
dtypes: category(1), object(2)
memory usage: 752.0+ bytes


In [None]:
df.score_bin.value_counts()

(0.8, 0.9]    12
(0.7, 0.8]     8
(0.5, 0.6]     0
(0.6, 0.7]     0
(0.9, 1.0]     0
Name: score_bin, dtype: int64

In [None]:
df.score_bin = df.score_bin.astype(object)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 9 to 8
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   max_leaf_nodes  20 non-null     object
 1   learning_rate   20 non-null     object
 2   score_bin       20 non-null     object
dtypes: object(3)
memory usage: 640.0+ bytes


In [None]:
df.score_bin.value_counts()

(0.8, 0.9]    12
(0.7, 0.8]     8
Name: score_bin, dtype: int64

In [None]:
px.scatter(df,
           x="max_leaf_nodes",
           y="learning_rate",
           color="score_bin",
           template="gridon")

<p align="justify">
üëÄ En el gr√°fico anterior, vemos que los valores de mayor rendimiento se ubican en un rango de tasa de aprendizaje entre 0,01 y 1,0, pero no tenemos control sobre c√≥mo interact√∫an los otros hiperpar√°metros con dichos valores para la tasa de aprendizaje.
<br><br>
En su lugar, podemos visualizar todos los hiperpar√°metros al mismo tiempo utilizando un gr√°fico de coordenadas paralelas.

In [None]:
cv_results.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 9 to 8
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   l2_regularization  20 non-null     object 
 1   learning_rate      20 non-null     object 
 2   max_leaf_nodes     20 non-null     object 
 3   min_samples_leaf   20 non-null     object 
 4   max_bins           20 non-null     object 
 5   mean_test_score    20 non-null     float64
 6   std_test_score     20 non-null     float64
 7   rank_test_score    20 non-null     int32  
dtypes: float64(2), int32(1), object(5)
memory usage: 1.3+ KB


In [None]:
cv_results = cv_results.astype("float")

In [None]:
cv_results.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 9 to 8
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   l2_regularization  20 non-null     float64
 1   learning_rate      20 non-null     float64
 2   max_leaf_nodes     20 non-null     float64
 3   min_samples_leaf   20 non-null     float64
 4   max_bins           20 non-null     float64
 5   mean_test_score    20 non-null     float64
 6   std_test_score     20 non-null     float64
 7   rank_test_score    20 non-null     float64
dtypes: float64(8)
memory usage: 1.4 KB


In [None]:
px.parallel_coordinates(cv_results,
                        color="mean_test_score",
                        color_continuous_scale=px.colors.sequential.Viridis)

<p align="justify">
üõë <b>Nota</b>: Transformamos la mayor√≠a de los valores de los ejes tomando $log10$ o $log2$ para distribuir los rangos activos y mejorar la legibilidad de la gr√°fica.

In [None]:
fig = px.parallel_coordinates(
    cv_results.rename(shorten_param, axis=1).apply(
        {"learning_rate": np.log10,
         "max_leaf_nodes": np.log2,
         "max_bins": np.log2,
         "min_samples_leaf": np.log10,
         "l2_regularization": np.log10,
         "mean_test_score": lambda x: x,}),
    color="mean_test_score",
    color_continuous_scale=px.colors.sequential.Viridis,)

fig.show()

<p align="justify">
El gr√°fico de coordenadas paralelas mostrar√° los valores de los hiperpar√°metros en diferentes columnas, mientras que la m√©trica de rendimiento est√° codificada por colores. Por lo tanto, podemos inspeccionar r√°pidamente si hay un rango de hiperpar√°metros que funcionan o no.
<br><br>
Es posible seleccionar un rango de resultados haciendo clic y manteniendo presionado cualquier eje del gr√°fico de coordenadas paralelas. Luego puede deslizar (mover) la selecci√≥n de rango y cruzar dos selecciones para ver las intersecciones. Podemos deshacer una selecci√≥n haciendo clic una vez m√°s en el mismo eje.
<br><br>
En particular para esta b√∫squeda de hiperpar√°metros, es interesante confirmar que las l√≠neas amarillas (modelos de mejor rendimiento) alcanzan valores intermedios para la tasa de aprendizaje, es decir, valores de marca entre $-2$ y $0$ que corresponden a valores de tasa de aprendizaje de $0,01$ a $1,0$ una vez que invertimos la transformaci√≥n $log10$ para ese eje.
<br><br>
Pero ahora tambi√©n podemos observar que no es posible seleccionar los modelos de mayor rendimiento seleccionando l√≠neas en el eje <code>max_bins</code> con valores entre $1$ y $3$.
<br><br>
Los otros hiperpar√°metros no son muy sensibles. Podemos comprobar que si seleccionamos los valores del eje <code>learning_rate</code> entre $-1,5$ y $-0,5$ y los valores de <code>max_bins</code> entre $5$ y $8$, siempre seleccionamos los modelos de mejor rendimiento, independientemente de los valores de los otros hiperpar√°metros.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:
<br><br>
‚úÖ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>
‚úÖ Generamos un Pipeline.
<br>
‚úÖ Separamos en un conjunto de entrenamiento y un conjunto de prueba.
<br>
‚úÖ Optimizamos los hiperpar√°metros de un modelo predictivo a trav√©s del randomized search.
<br>
‚úÖ Visualizamos los valores de los hiperpar√°metros con un gr√°fico de coordenadas paralelas.
<br><br>
En particular, observamos que algunos hiperpar√°metros tienen muy poco impacto en el puntaje de validaci√≥n cruzada, mientras que otros deben ajustarse dentro de un rango espec√≠fico para obtener modelos con buena precisi√≥n predictiva.

<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
