# Optimizando los hiperparámetros con Optuna

Optuna es una librería dedicada a la optimización de hiperparámetros, tanto para problemas de machine learning como para otras tareas más genéricas, siempre y cuando podamos definir una función __objetivo__.


Características:

- Interface muy intuitivo
- Ofrece muchas estrategias de muestreo y poda para personalizar el proceso de búsqueda
- Ligero en cuanto a dependencias
- Fácilmente distribuible
- Ofrece paneles de visualización con los resultados
- Puede funcionar con cualquier tipo de código en el que haya que optimizar una función objetivo

`conda install -c conda-forge optuna`

In [None]:
import optuna

## Sintaxis básica de Optuna

En Optuna, el proceso de optimización se denomina un __estudio__ (_study_). Un estudio necesita una __función objetivo para optimizar.__


### La función objetivo

Tipicamente esta la define el usuario; ha de llamarse `objective` y tener la siguiente estructura:

In [None]:
def objective(trial: optuna.Trial, **params):
    """Conventional optimization function
    signature for optuna.
    """
    custom_metric = ...
    return custom_metric

Ha de aceptar un objeto `optuna.Trial` como parámetro y los parámetros opcionales que sean necesarios. Devuelve la métrica que estamos optimizando.




### El Estudio

Un estudio es una colección de __pruebas__ (`trials`) en la que en cada una evaluamos la función objetivo usando un juego de hiperparámetros dentro del espacio de búsqueda. Cada prueba es un objeto de la clase `optuna.Trial`. Esta clase es la que Optuna usa para buscar los valores óptimos.

El estudio se crea especificando si queremos maximizar (ROC AUC, accuracy, etc.) o minimizar (RMSE, RMSLE, log loss, etc.) la función objetivo

In [None]:
study = optuna.create_study(direction="maximize")

Finalmente, se optimiza el estudio pasando la función objetivo y el número de pruebas.

In [None]:
# Optimization with 100 trials
study.optimize(objective, n_trials=100)

## Definiendo la función objetivo

En nuestro caso, la función objetivo ha de contener el algoritmo de ML. Por lo tanto, tendrá que:

- Definir el modelo
- Entrenarlo
- Predecir los nuevos datos
- Calcular la métrica a optimizar


In [None]:

def objective(trial, X, y):
    rf_params = {
        "n_estimators": trial.suggest_int(name="n_estimators", low=100, high=2000),
        "max_depth": trial.suggest_float("max_depth", 3, 8),
        "max_features": trial.suggest_categorical("max_features", choices=["sqrt", "log2"]
        ),
        "n_jobs": -1,
        "random_state": 1121218,
    }
    rf = RandomForestRegressor(**rf_params)
    
    scores = cross_val_score(rf, X, y, n_jobs=-1)
    return scores.mean()

Para reducir el espacio de búsqueda, `suggest_float` y `suggest_int` pueden tomar argumentos `log` y `step`:

In [None]:
def objective(trial, X, y):
    rf_params = {
        "n_estimators": trial.suggest_int(name="n_estimators", low=10, high=3000, log=True),
        "max_depth": trial.suggest_float("max_depth", 1, 8, step = 2),
        "max_features": trial.suggest_categorical("max_features", choices=["sqrt", "log2"]
        ),
        "n_jobs": -1,
        "random_state": 1121218,
    }
    
    rf = RandomForestRegressor(**rf_params)
    
    scores = cross_val_score(rf, X, y, n_jobs=-1)
    return scores.mean()

## ¿Cómo se muestrean los hiperparámetros?

Hay varias opciones:

- GridSampler: lo mismo que el `GridSearch` de `sklearn`. No muy recomendable excepto para casos muy concretos
- RandomSampler: lo mismo que el `RandomizedSearch` de `sklearn`. 
- TPESampler: (Tree-structured Parzen Estimator) - método bayesiano de muestreo
- CmaEsSampler: muestreo basado el el algoritmo CMA ES (no admite hiperparámetros categóricos).



El TPESampler es el usado por defecto: típicamente muestrea los hiperparámetros tratando de mejorar la última prueba.  

> On each trial, for each parameter, TPE fits one Gaussian Mixture Model (GMM) l(x) to the set of parameter values associated with the best objective values, and another GMM g(x) to the remaining parameter values. It chooses the parameter value x that maximizes the ratio l(x)/g(x).

Para cambiar el método de muestreo se hace del siguiente modo:

In [None]:
from optuna.samplers import CmaEsSampler, RandomSampler, GridSampler

# Study with a random sampler
study = optuna.create_study(sampler=RandomSampler(seed=1121218))

# Study with a CMA ES sampler
study = optuna.create_study(sampler=CmaEsSampler(seed=1121218))

# Ejemplo detallado

In [None]:
import warnings
warnings.filterwarnings('ignore')
from sklearn import datasets
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

sns.set() # Sobreescribe los parámetros de matplotlib
plt.rcParams['figure.figsize'] = [10, 5]

from sklearn import linear_model
from sklearn.preprocessing import PolynomialFeatures

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_validate


from sklearn.impute import SimpleImputer
from sklearn.preprocessing import PowerTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.decomposition import TruncatedSVD


from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

from sklearn.metrics import cohen_kappa_score, make_scorer
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score

from sklearn.ensemble import RandomForestClassifier


In [None]:
## Leemos los datos 
fraude = pd.read_csv('../data/01_datos_4_training_cut.txt', sep='|', nrows= 100000)
RS = 1
fraude = fraude.sample(frac=1, random_state = RS) 

# Los limpiamos

fraude.drop(['IDTX'], axis = 1, inplace=True)
fraude.FECHATRX = pd.to_datetime(fraude.FECHATRX)

columnas_sin_cambios = ['IDTX', 'FECHATRX','VALOR_TRX']

for columna in fraude.columns:
    if columna not in columnas_sin_cambios:
        fraude[columna] = fraude[columna].astype('category')
        

# Definimos los predictores
numericos = [fraude.columns[-2]]
categoricos = list(fraude.columns[i] for i in [3,4,5,6,13,14,15,17])
target = list(fraude.columns[i] for i in [0,1,2,7,9,10,12,16])


# Definimos los vectores de predictores y la respuesta
y = fraude['REPORTE_DE_FRAUDE']
X = fraude[numericos + categoricos]




In [None]:
X.info()

## El Random Forest

`class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)`




> __Para entender qué hace cada hiperparámetro__, es obvio que necesitamos tener un conocimiento muy extenso y experiencia con el algoritmo que estamos usando




Para cada algoritmo, necesitamos conocer:

- Cuáles son __los hiperparámetros más críticos__
- Si aumentar sus valores aumenta o disminuye __la complejidad del algoritmo.__


> La complejidad del algoritmo es la que le hace oscilar del underfittig al overfitting. Necesitamos encontrar el valor medio donde se equilibran los errores

---

__Recordemos:__ Un modelo poco complejo tiene mucho sesgo (underfitting), pero uno muy complejo mucha varianza (overfitting). __Necesitamos hacer por tanto el proceso de selección de hiperparámetros con un conjunto de datos _externo___

<img src="../images/tress_hp.png" width="900px;" align="center"/>

- n_estimators: El número de árboles. A diferencia el lgbm, meter más árboles no conduce al overfitting. Este parámetro es mejor fijarlo a mano. Un valor bajo hace underfit, pero a partir de un cierto valor, añadir más no conduce a nada y lleva más tiempo entrenar. 50-100 es un buen valor para trabajar.
- max_depth: `None` es profundidad ilimitada del árbol (overfitting máximo). Se puede controlar dando valores menores o a través de otros parámetros de regulariación, como el `min_samples_split`. Un valor alrededor de 7 es bueno para empezar.
- `max_features` es el número de features que miro en cada división. Hay un valor entre medias de una o el máximo que es el óptimo, y está relacionada con el número de árboles del bosque. Afecta también a la velocidad.
- `min_samples_split` controla el número mínimo de observaciones que tenemos que tener en una hoja para hacer una división. El mínimo es 2.


Vamos a tratar de fijar primero el número de árboles.

Pero antes, necesitamos encapsular nuestra función de scoring para poder usarla con la API de `sklearn`

In [None]:
from sklearn.metrics import  make_scorer


def recall_at_cutoff(y_test, y_prob, positive_class = 'SI', alarm = None):
    
    if not alarm:
        alarm = sum(y_test == positive_class)/len(y_test)
    
    resultados = pd.DataFrame({'Prob':y_prob, 'Label':y_test.values})
    resultados.sort_values('Prob', axis=0, ascending=False, inplace=True)
    resultados.reset_index(inplace=True)
    alarmas = int(alarm*len(y_test))
    #return sum(y_test == positive_class)
    return sum(resultados[0:alarmas].Label==positive_class)/sum(resultados.Label == positive_class)

my_scorer = make_scorer(recall_at_cutoff, needs_proba=True)


In [None]:
rf_params = {
        "n_estimators": 50,
        "min_samples_split": 2,
        "max_depth":None,
        "max_features":"sqrt",
        "n_jobs": -1,
        "random_state": 1121218,
    }

## Definimos la cañería para las columnas numéricas
steps_num = [('Imputador', SimpleImputer(strategy='median')),
             ('BoxCox', PowerTransformer(method='yeo-johnson'))]

numeric_transformer = Pipeline(steps_num)

## Lo mismo para las categóricas
steps_cat = [('Imputador', SimpleImputer(strategy='most_frequent')),
            ('OneHot', OneHotEncoder(handle_unknown='ignore'))]

categorical_transformer = Pipeline(steps_cat)

## Ensamblo las dos cañerías con ColumnTransformer

preprocesado = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numericos),
        ('cat', categorical_transformer, categoricos)])

## Y ahora ensamblo el algoritmo

steps = [('feat_prepro', preprocesado), 
         ('predictor', RandomForestClassifier(**rf_params))]

pipe = Pipeline(steps)

pipe.fit(X, y)


scores = cross_val_score(pipe, X, y, cv= 5, scoring=my_scorer, n_jobs=-1)

scores

In [None]:
scores.mean()  ## array([0.0625    , 0.1875    , 0.21875   , 0.03125   , 0.12121212])


## Busquemos los mejor hiperparámetros con Optuna

Para ello hay que envolver todo el modelo con la función `objective`

In [None]:

def objective(trial, X, y, cv, scoring):
    rf_params = {
        "n_estimators": trial.suggest_int(name="n_estimators", low=10, high=400, log=True),
        "min_samples_split": 2,
        "max_depth":None,
        "max_features":"sqrt",
        "n_jobs": -1,
        "random_state": 1121218
    }
    
    ## Definimos la cañería para las columnas numéricas
    steps_num = [('Imputador', SimpleImputer(strategy='median')),
                 ('BoxCox', PowerTransformer(method='yeo-johnson'))]

    numeric_transformer = Pipeline(steps_num)

    ## Lo mismo para las categóricas
    steps_cat = [('Imputador', SimpleImputer(strategy='most_frequent')),
                ('OneHot', OneHotEncoder(handle_unknown='ignore'))]

    categorical_transformer = Pipeline(steps_cat)

    ## Ensamblo las dos cañerías con ColumnTransformer

    preprocesado = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, numericos),
            ('cat', categorical_transformer, categoricos)])

    ## Y ahora ensamblo el algoritmo

    steps = [('feat_prepro', preprocesado), 
             ('predictor', RandomForestClassifier(**rf_params))]

    pipe = Pipeline(steps)
    scores = cross_val_score(pipe, X, y, cv=cv,  scoring=scoring, n_jobs=-1)
    return scores.mean()
    #rf = RandomForestRegressor()

In [None]:
%%time

from sklearn.model_selection import KFold
kf = KFold(n_splits=5, shuffle=True)


# Create study that maximizes
study = optuna.create_study(direction="maximize")


# Pass additional arguments inside another function
func = lambda trial: objective(trial, X, y, cv=kf,  scoring=my_scorer)

# Start optimizing with 100 trials
study.optimize(func, n_trials=10)

# Visualizando el estudio

La verdad es que para obtener el mejor `n_estimators` tampoco era necesario usar optuna: un gridsearch corriente hubiera bastando... Pero lo que es muy interesante es la _visualización_ del estudio. 

In [None]:
#importing all the plot functions
from optuna.visualization import plot_edf
from optuna.visualization import plot_optimization_history
from optuna.visualization import plot_parallel_coordinate
from optuna.visualization import plot_param_importances
from optuna.visualization import plot_slice

In [None]:
# Visualize the optimization history. See :func:`~optuna.visualization.plot_optimization_history` for the details.
plot_optimization_history(study)

In [None]:
# Visualize high-dimensional parameter relationships. See :func:`~optuna.visualization.plot_parallel_coordinate` for the details.
plot_parallel_coordinate(study)

In [None]:
# Visualize individual hyperparameters as slice plot. See :func:`~optuna.visualization.plot_slice` for the details.
plot_slice(study)

Vamos a fija el número de árboles lo más bajo posible dentro de los mejores resultados. De este modo nos curamos del OF y no son demasiados para no reventar el tiempo de cálculo.

## Optimicemos el resto de parámetros

Los hiperparámetros más críticos en el árbol ya sabemos que son:

1. max_features
2. max_depth
3. min_samples_split 

Para estimar sus intervalos de variación necesitamos conocer bien las dimensiones del problema.

In [None]:
steps_prepro = [('feat_prepro', preprocesado)]
prepro = Pipeline(steps_prepro)
dimensiones = prepro.fit_transform(X).shape
dimensiones

In [None]:
dim_train = dimensiones[0]*4/5

In [None]:
np.log2(dim_train)

In [None]:
np.sqrt(dimensiones[1])

In [None]:
from sklearn.ensemble import RandomForestClassifier

def objective(trial, X, y, cv, scoring):
    rf_params = {
        "min_samples_split": trial.suggest_int(name="min_samples_split", low=2, high=200, log=True),
        "max_features":  trial.suggest_int(name="max_features", low=4, high=90, log=True),
        "max_depth": trial.suggest_int(name="max_depth", low=15, high=1000, log=True),
        "n_estimators": 150,
        "n_jobs": -1,
        "random_state": 1121218
    }
    
    ## Definimos la cañería para las columnas numéricas
    steps_num = [('Imputador', SimpleImputer(strategy='median')),
             ('BoxCox', PowerTransformer(method='yeo-johnson'))]

    numeric_transformer = Pipeline(steps_num)

    ## Lo mismo para las categóricas
    steps_cat = [('Imputador', SimpleImputer(strategy='most_frequent')),
             ('OneHot', OneHotEncoder(handle_unknown='ignore'))]

    categorical_transformer = Pipeline(steps_cat)

    ## Ensamblo las dos cañerías con ColumnTransformer

    preprocesado = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, numericos),
            ('cat', categorical_transformer, categoricos)])

    ## Y ahora ensamblo el algoritmo

    steps = [('feat_prepro', preprocesado), 
             ('predictor', RandomForestClassifier(**rf_params))]

    pipe = Pipeline(steps)
    scores = cross_val_score(pipe, X, y, cv=cv, scoring=my_scorer, n_jobs=-1)
    return scores.mean()
    #rf = RandomForestRegressor()


In [None]:
%%time

#from sklearn.model_selection import KFold

# Create study that maximizes
study = optuna.create_study(direction="maximize")

# Wrap the objective inside a lambda with the relevant arguments
kf = KFold(n_splits=5, shuffle=True, random_state=20201004)
# Pass additional arguments inside another function
func = lambda trial: objective(trial, X, y, cv=kf, scoring=my_scorer)

# Start optimizing with 100 trials
study.optimize(func, n_trials=20)



In [None]:
# To get the dictionary of parameter name and parameter values:
print("Return a dictionary of parameter name and parameter values:",study.best_params)
 
# To get the best observed value of the objective function:
print("Return the best observed value of the objective function:",study.best_value)
 
# To get the best trial:
print("Return the best trial:",study.best_trial)
 
# To get all trials:
#print("Return all the trials:", study.trials)

# Visualizando el estudio

In [None]:
# Visualize the optimization history. See :func:`~optuna.visualization.plot_optimization_history` for the details.
plot_optimization_history(study)

In [None]:
# Visualize high-dimensional parameter relationships. See :func:`~optuna.visualization.plot_parallel_coordinate` for the details.
plot_parallel_coordinate(study)

In [None]:
# Visualize individual hyperparameters as slice plot. See :func:`~optuna.visualization.plot_slice` for the details.
plot_slice(study)

In [None]:
# Visualize parameter importances. See :func:`~optuna.visualization.plot_param_importances` for the details.
#In this case, we have only one parameter.
plot_param_importances(study)

In [None]:
# Visualize empirical distribution function. See :func:`~optuna.visualization.plot_edf` for the details.
plot_edf(study)

## El modelo completo

# ¿Es el número que he obtenido una buena estimación del error de mi modelo?

> Pregunta: ¿Es una buena estrategia lo que hemos hecho de ir probando algoritmos sobre el conjunto de test para ir subiendo el score? ¿Por qué? ¿Es el número que sacamos una estimación fiable del error? 

Para poder estimar el error del modelo, tenemos que llevar a cabo una validación cruzada que separe el conjunto de datos en train y test. Pero para eso, tenemos que haber seleccionado previamente los hiperparámetros con los que entrenar.

> Necesitamos por lo tanto correr dos bucles de validación uno dentro de otro!

<img src="../images/grid.jpg" width="900px;" align="center"/>

In [None]:
steps_num = [('Imputador', SimpleImputer(strategy='median')),
         ('BoxCox', PowerTransformer(method='yeo-johnson'))]

numeric_transformer = Pipeline(steps_num)

## Lo mismo para las categóricas
steps_cat = [('Imputador', SimpleImputer(strategy='most_frequent')),
         ('OneHot', OneHotEncoder(handle_unknown='ignore'))]

categorical_transformer = Pipeline(steps_cat)

## Ensamblo las dos cañerías con ColumnTransformer

preprocesado = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numericos),
        ('cat', categorical_transformer, categoricos)])

## Y ahora ensamblo el algoritmo

steps = [('feat_prepro', preprocesado), 
         ('predictor', RandomForestClassifier(**study.best_params))]

pipe = Pipeline(steps)
cv_results = cross_validate(pipe, 
                            X, y, 
                            cv=5, 
                            return_train_score=True,
                            scoring=my_scorer, n_jobs=-1)


In [None]:
print(cv_results)
print(cv_results['train_score'].mean())
print(cv_results['test_score'].mean())

## Ejercicio

Optimizar los hiperparámetros del algoritmos incorporando las variables codificadas como `Target`


# Moraleja de todo esto

- Las operaciones de preprocesado (cuáles aplicar y a qué variables), los parámetros del algoritmo e incluso el algoritmo en sí __son elementos del modelo en pie de igualdad__, y para _seleccionar_ aquellas que son más adecuadas a mis datos __tengo que realiza un proceso riguroso de validación, tomando como criterio de selección la función objetivo que me he asignado__   

# ¿Cómo seguir mejorando?

- Utilizar técnicas de remuestreo para equilibrar las clases
- Realizar el entrenamiento _por grupos_ de tarjeta
- Introducir la estructura temporal
- ¿Qué variables es legítimo usar?? Es importante no hacerse trampas al solitario