<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_optimizacion_004_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Establecer y obtener hiperparámetros en scikit-learn</font>**

<p align="justify">
♥ En los Colabs anteriores, mostramos cómo crear, entrenar, predecir e incluso evaluar un modelo predictivo. Sin embargo, no cambiamos los parámetros de los modelos que se pueden dar al crear una instancia.
<br><br>
Por ejemplo, para k-vecinos más cercanos, inicialmente usamos este parámetro predeterminado: <code>n_neighbors=5</code> antes de probar otros parámetros del modelo.
<br><br>
Estos parámetros se denominan <b>hiperparámetros</b>: son parámetros utilizados para controlar el proceso de aprendizaje, por ejemplo, el parámetro $k$ de los k-vecinos más cercanos. Los hiperparámetros los especifica el usuario, a menudo se ajustan manualmente (o mediante una búsqueda automática exhaustiva) y no se pueden estimar a partir de los datos.
<br><br>
No deben confundirse con los demás parámetros que se infieren durante el proceso de entrenamiento. Estos parámetros definen el propio modelo, por ejemplo <code>coef_</code> para los modelos lineales.
<br><br>
En este Colab, primero mostraremos que los hiperparámetros tienen un impacto en el rendimiento del modelo y que los valores predeterminados no son necesariamente la mejor opción.
<br><br>
Posteriormente, mostraremos cómo configurar hiperparámetros en un modelo <code>scikit-learn</code>. Finalmente, mostraremos estrategias que permitan recoger una combinación de hiperparámetros que maximice el rendimiento del modelo.

 ## **<font color="DeepPink">Carga de las librerías</font>**

In [None]:
import numpy as np
import pandas as pd

In [None]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import plotly.express as px

<p align="justify">
El proceso de aprendizaje de un modelo predictivo está impulsado por un conjunto de parámetros internos y un conjunto de datos de entrenamiento. Estos parámetros internos se denominan hiperparámetros y son específicos para cada familia de modelos. Además, un conjunto específico de hiperparámetros es óptimo para un conjunto de datos específico y, por lo tanto, deben optimizarse.
<br><br>
🛑 <b>Nota</b>: En este Colab usaremos las palabras "hiperparámetros" y "parámetros" indistintamente. (Lo cual no es correcto).
<br><br>
Este Colab muestra cómo se puede obtener y establecer el valor de un hiperparámetro en un estimador de <code>scikit-learn</code>. Recordamos que los hiperparámetros se refieren al parámetro que controlará el proceso de aprendizaje y no deben confundirse con los parámetros ajustados, resultantes del entrenamiento.
<br><br>
Estos parámetros ajustados son reconocibles en <code>scikit-learn</code> porque se escriben con un guión bajo final, por ejemplo, <code>model.coef_</code>.
<br><br>
Comenzaremos cargando el conjunto de datos del censo de adultos y usaremos las características numéricas.

 ## **<font color="DeepPink">Carga del conjunto de datos</font>**

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")
adult_census

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,Private,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
48838,40,Private,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
48839,58,Private,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
48840,22,Private,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


 ## **<font color="DeepPink">Separamos la variable objetivo y las variables explicativas</font>**

<p align="justify">
👀 Asignamos a un objeto la variable objetivo:
</p>


In [None]:
target_name = "class"

<p align="justify">
👀 Generamos la lista de las variables (columnas) numericas.
</p>

In [None]:
numerical_columns = ["age",
                     "capital-gain",
                     "capital-loss",
                     "hours-per-week"]

<p align="justify">
👀 Dividimos en variable objetivo y variables explicativas.
</p>

In [None]:
y = adult_census[target_name]
X = adult_census[numerical_columns]

<p align="justify">
👀 Vemos las variables explicativas.
</p>

In [None]:
X

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week
0,25,0,0,40
1,38,0,0,50
2,28,0,0,40
3,44,7688,0,40
4,18,0,0,30
...,...,...,...,...
48837,27,0,0,38
48838,40,0,0,40
48839,58,0,0,40
48840,22,0,0,20


 # **<font color="DeepPink">Creando un pipeline</font>**

<p align="justify">
👀 Vamos a crear un pipeline para un modelo predictivo de un clasificador de regresión logística.
<br><br>
Como se mencionó anteriormente, muchos modelos, incluidos los lineales, funcionan mejor si todas las funciones tienen una escala similar. Para este propósito, usamos un <code>StandardScaler</code>, que transforma los datos redimensionando las características.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

In [None]:
model = Pipeline(steps=[("preprocessor", StandardScaler()),
                        ("classifier", LogisticRegression())])

 # **<font color="DeepPink">Evaluación del modelo</font>**

<p align="justify">
👀 Podemos evaluar el rendimiento de generalización del modelo a través de la validación cruzada...

In [None]:
from sklearn.model_selection import cross_validate

In [None]:
cv_results = cross_validate(model, X, y)
scores = cv_results["test_score"]

In [None]:
print("")
print(f"Accuracy score via cross-validation:\n"
      f"{scores.mean():.3f} ± {scores.std():.3f}")


Accuracy score via cross-validation:
0.800 ± 0.003


<p align="justify">
Hemos creado un modelo con el valor predeterminado de $C$ que es igual a $1$.
<br><br>
Si quisiéramos usar un parámetro $C$ diferente, podríamos haberlo hecho cuando creamos el objeto <code>LogisticRegression</code> con el siguiente valor (C=1e-3).
<br><br>
<b>Nota</b>: Para obtener más información sobre el hiperparámetro $C$ del modelo, consulte la <a class="reference external" href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html">documentación</a>.
<br><br>
Tenga en cuenta que nos centraremos en modelos lineales más adelante.
<br><br>
También podemos cambiar el parámetro de un modelo después de que se haya creado con el método <code>set_params</code>, que está disponible para todos los estimadores de <code>scikit-learn</code>. Por ejemplo, podemos establecer (C=1e-3), ajustar y evaluar el modelo:

In [None]:
model.set_params(classifier__C=1e-3)

In [None]:
cv_results = cross_validate(model, X, y)
scores = cv_results["test_score"]

In [None]:
print("")
print(f"Accuracy score via cross-validation:\n"
      f"{scores.mean():.3f} ± {scores.std():.3f}")


Accuracy score via cross-validation:
0.787 ± 0.002


<p align="justify">
Los nombres de los parámetros tienen la siguiente forma <code>nombre_modelo__nombre_parámetro</code> (doble guión bajo en el medio).
<br><br>
En nuestro caso, <code>classifier</code> viene de la definición del <code>Pipeline</code> y $C$ es el nombre del parámetro de <code>LogisticRegression</code>.

 # **<font color="DeepPink">Parámetros del modelo</font>**

<p align="justify">
En general, puede usar el método <code>get_params</code> en los modelos <code>scikit-learn</code> para enumerar todos los parámetros con sus valores.
<br><br>
Por ejemplo, si se desea todos los nombres de los parámetros, entonces:

In [None]:
model.get_params()

{'memory': None,
 'steps': [('preprocessor', StandardScaler()),
  ('classifier', LogisticRegression(C=0.001))],
 'verbose': False,
 'preprocessor': StandardScaler(),
 'classifier': LogisticRegression(C=0.001),
 'preprocessor__copy': True,
 'preprocessor__with_mean': True,
 'preprocessor__with_std': True,
 'classifier__C': 0.001,
 'classifier__class_weight': None,
 'classifier__dual': False,
 'classifier__fit_intercept': True,
 'classifier__intercept_scaling': 1,
 'classifier__l1_ratio': None,
 'classifier__max_iter': 100,
 'classifier__multi_class': 'auto',
 'classifier__n_jobs': None,
 'classifier__penalty': 'l2',
 'classifier__random_state': None,
 'classifier__solver': 'lbfgs',
 'classifier__tol': 0.0001,
 'classifier__verbose': 0,
 'classifier__warm_start': False}

<p align="justify">
👀 Consultando solo los parámetros...

In [None]:
for i in model.get_params():
    print(i)

memory
steps
verbose
preprocessor
classifier
preprocessor__copy
preprocessor__with_mean
preprocessor__with_std
classifier__C
classifier__class_weight
classifier__dual
classifier__fit_intercept
classifier__intercept_scaling
classifier__l1_ratio
classifier__max_iter
classifier__multi_class
classifier__n_jobs
classifier__penalty
classifier__random_state
classifier__solver
classifier__tol
classifier__verbose
classifier__warm_start


<p align="justify">
<code>.get_params()</code> devuelve un diccionario cuyas claves son los nombres de los parámetros y cuyos valores son los valores de los parámetros. Si se desea obtener el valor de un solo parámetro, por ejemplo <code>clasificador__C</code>, puede usar:

In [None]:
model.get_params()['classifier__C']

0.001

 # **<font color="DeepPink">Valores óptimos de los parámetros</font>**

<p align="justify">
Podemos variar sistemáticamente el valor de $C$ para ver si hay un valor óptimo.

In [None]:
for C in [1e-3, 1e-2, 1e-1, 1, 10, 100]:
    model.set_params(classifier__C=C)
    cv_results = cross_validate(model, X, y)
    scores = cv_results["test_score"]
    print(f"Accuracy score via cross-validation with C={C}:\n"
          f"{scores.mean():.3f} ± {scores.std():.3f}")

Accuracy score via cross-validation with C=0.001:
0.787 ± 0.002
Accuracy score via cross-validation with C=0.01:
0.799 ± 0.003
Accuracy score via cross-validation with C=0.1:
0.800 ± 0.003
Accuracy score via cross-validation with C=1:
0.800 ± 0.003
Accuracy score via cross-validation with C=10:
0.800 ± 0.003
Accuracy score via cross-validation with C=100:
0.800 ± 0.003


<p align="justify">
Podemos ver que mientras $C$ sea lo suficientemente alto, el modelo parece funcionar bien.
<br><br>
Lo que hicimos aquí es muy manual: implica escanear los valores de $C$ y elegir el mejor valor manualmente. En el próximo Colab, veremos cómo hacer esta tarea automáticamente.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:
<br><br>
✅ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br>
✅ Examinamos las variables numéricas.
<br>
✅ Hicimos un modelo de regresión logística con todo el conjunto de datos.
<br>
✅ Usamos <code>get_params</code> y <code>set_params</code> para obtener los parámetros de un modelo y para configurarlos.

<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
