# Una forma avanzada de optimizar hiperparámetros: la optimización bayesiana

<img src="montaña.jfif">

- La optimización bayesiana es una técnica para la búsqueda de los mejores hiperparámetros, alternativa al Grid Search y el Random Search.
- Permite llegar a óptimos muy cercanos al óptimo global, en una fracción del tiempo que nos llevaría hacerlo con un Grid Search.
- Es muy útil sobretodo en modelos como el XGBoost, con muchos hiperparámetros a optimizar.
- Típicamente son suficientes entre 50 y 100 iteraciones para alcanzar un desempeño muy cercano al óptimo.

Como funciona:
- Nos enfrentamos al problema de la optimización global de una función objetivo (**la búsqueda de los mejores hiperparámetros**). 
- La optimización bayesiana nos provee una técnica basada en el Teorema de Bayes, a fin de resolver este problema de optimización global, que sea a la vez eficaz y eficiente. **La función objetivo será la  métrica que querramos optimizar: AUC, F1, accuracy, etc.**
- Funciona construyendo un modelo probabilístico de la función objetivo, llamada función sustituta o *surrogate*. 
- Esta función surrogate se actualiza, a su vez, con una función de adquisición, que es la responsable de encontrar nuevos puntos para evaluar la función objetivo real.
- La función surrogate se basa en la *estadística bayesiana*, en el sentido de actualizar una probabilidad o creencia a priori a la luz de nueva información para generar una creencia o probabilidad a posteriori.


*El objetivo final es reducir el número de combinaciones de hiperparámetros con las que se evalúa el modelo, eligiendo únicamente los mejores candidatos.*

Formamos la función surrogate a partir de los puntos muestrados, siendo x el conjunto de hiperparámetros y c(x) la métrica a optimizar:

<img src="bo_1.png">

Basados en la función surrogate, identificamos qué puntos son mínimos prometedores. Muestreamos más puntos de estas regiones prometedoras y actualizamos la función surrogate...


<img src="bo_2.png">

La función de adquisición tiene un trade-off de exploración-explotación:
- La explotación busca casos adonde el modelo surrogate predice un buen valor de la métrica objetivo. Es decir, que saca provecho de una región conocida y prometedora.
- La exploración busca casos en lugares adonde hay mucha incertidumbre. Esto se asegura que no haya grandes regiones del espacio sin explorar.  

Una función de adquisición que alienta demasiada explotación con poca exploración llevará a un modelo con un mínimo local allá donde lo encuentre primero, mientras que una función de adquisición que aliente lo puesto nunca hallará un mínimo, ya sea local o global.


¿Quieren más teoría?
- https://machinelearningmastery.com/what-is-bayesian-optimization/
- https://towardsdatascience.com/the-beauty-of-bayesian-optimization-explained-in-simple-terms-81f3ee13b10f

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier
from sklearn.model_selection import train_test_split, KFold
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV, cross_val_score, StratifiedKFold
from sklearn.metrics import auc, RocCurveDisplay 
from xgboost import XGBClassifier

In [4]:
#Atención: copiar el dataset de la clase 39 a la carpeta Data

data_raw = pd.read_csv('./Data/datasets_222487_478477_framingham.csv')
data = data_raw.dropna()
data.shape


(3656, 16)

In [5]:
#Proporción de clase
data.TenYearCHD.value_counts() / data_raw.shape[0]

TenYearCHD
0    0.731241
1    0.131430
Name: count, dtype: float64

In [6]:
data.dtypes

male                 int64
age                  int64
education          float64
currentSmoker        int64
cigsPerDay         float64
BPMeds             float64
prevalentStroke      int64
prevalentHyp         int64
diabetes             int64
totChol            float64
sysBP              float64
diaBP              float64
BMI                float64
heartRate          float64
glucose            float64
TenYearCHD           int64
dtype: object

In [7]:
data.head()

Unnamed: 0,male,age,education,currentSmoker,cigsPerDay,BPMeds,prevalentStroke,prevalentHyp,diabetes,totChol,sysBP,diaBP,BMI,heartRate,glucose,TenYearCHD
0,1,39,4.0,0,0.0,0.0,0,0,0,195.0,106.0,70.0,26.97,80.0,77.0,0
1,0,46,2.0,0,0.0,0.0,0,0,0,250.0,121.0,81.0,28.73,95.0,76.0,0
2,1,48,1.0,1,20.0,0.0,0,0,0,245.0,127.5,80.0,25.34,75.0,70.0,0
3,0,61,3.0,1,30.0,0.0,0,1,0,225.0,150.0,95.0,28.58,65.0,103.0,1
4,0,46,3.0,1,23.0,0.0,0,0,0,285.0,130.0,84.0,23.1,85.0,85.0,0


In [8]:
X=data.drop(["TenYearCHD"],axis=1)
y=data["TenYearCHD"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=717)
X_test.reset_index(inplace=True,drop=True)

### Y ahora... un poco de código...

In [12]:
# pip install scikit-optimize

In [10]:
# Inicializamos el espacio de búsqueda de hiperparámetros

from skopt.space import Integer, Real,Categorical
search_space = {'learning_rate': Real(0.01, 1.0, 'uniform'),
                 'max_depth': Integer(2, 12),
                 'subsample': Real(0.1, 1.0, 'uniform'),
                 'colsample_bytree': Real(0.1, 1.0, 'uniform'), # subsample ratio of columns by tree
                 'reg_lambda': Real(1e-9, 100., 'uniform'), # L2 regularization
                 'reg_alpha': Real(1e-9, 100., 'uniform'), # L1 regularization
                 'n_estimators': Integer(50, 1000)
   }

In [11]:
from skopt import BayesSearchCV

#Instanciamos el objeto BayesSearchCV
opt = BayesSearchCV(
    XGBClassifier(),
    search_spaces=search_space,
    scoring='roc_auc',
    n_iter=10,
    cv=5,
    random_state=42
)

#Ajustamos el objeto
opt.fit(X_train, y_train)

print("val. score: %s" % round(opt.best_score_,2))
print("test score: %s" % round(opt.score(X_test, y_test),2))

val. score: 0.72
test score: 0.71


- Vemos que mejoramos significativamente el score obtenido con Random Search en CV (0.72 vs 0.70).
- También podríamos haber utilizado las mejores combinaciones de HPs obtenidos en Random Search a modo de semilla de la optimización bayesiana