# Class ** - Hyperparameter Optimization 

---
## Parameters in ML models
> - O objetivo de um algoritmo de aprendizado típico é encontrar uma função `f` que minimize uma certa `perda` sobre um `conjunto de dados`.
> - O algoritmo de aprendizado produz `f` através da otimização de um critério de treinamento em relação a um conjunto de `parâmetros`.

---

## Hiperparâmetros em modelos de ML
> - Hiperparâmetros são parâmetros que não são aprendidos diretamente pelo algoritmo de aprendizado.
> - Os hiperparâmetros são especificados fora do procedimento de treinamento.
> - Os hiperparâmetros controlam a capacidade do modelo, ou seja, o quão flexível o modelo é para ajustar os dados.
> - Evite o ajuste excessivo.
> - Os hiperparâmetros podem ter um grande impacto no desempenho do algoritmo de aprendizado.
> - As configurações ideais de hiperparâmetros geralmente diferem para diferentes conjuntos de dados. Portanto, eles devem ser otimizados para cada conjunto de dados.
---

## Natureza do hiperparâmetro
>- Alguns hiperparâmetros são discretos: Número de estimadores em modelos de conjunto.
>- Alguns hiperparâmetros são contínuos: Coeficiente de penalização, Número de amostras por divisão.
>- Alguns hiperparâmetros são categóricos: Perda (deviance, exponencial), Regularização (Lasso, Ridge)

---

## Parâmetros vs Hiperparâmetros

|Parâmetros | Hiperparâmetros |
|:-------------------------|---------------------- :|
| - Intrínseco à equação do modelo | - Definido antes do treino |
| - Otimizado durante o treinamento | - Restringir o algoritmo|

> - O processo de encontrar os melhores hiperparâmetros para um determinado conjunto de dados é chamado de `Ajuste de hiperparâmetro` ou `Otimização de hiperparâmetro`.

---

## Desafios
>- Não podemos definir uma fórmula para encontrar os hiperparâmetros.
>- Experimente diferentes combinações de hiperparâmetros e avalie o desempenho do modelo. O passo crítico é escolher quantas combinações diferentes vamos testar.

O número de combinações de hiperparâmetros ---> a chance de obter um modelo melhor ---> Custo computacional

>- Como encontramos as combinações de hiperparâmetros para maximizar o desempenho enquanto diminuímos os custos computacionais?

---

## Métodos
Diferentes estratégias de otimização de hiperparâmetros:
>- Pesquisa manual
>- Pesquisa em Grade
>- Pesquisa Aleatória
>- Otimização bayesiana

---

## Generalização x Sobreajuste
> A generalização é a capacidade de um algoritmo ser eficaz em várias entradas. O desempenho do modelo de aprendizado de máquina é constante em diferentes conjuntos de dados (com a mesma distribuição nos dados de treinamento). Quando o modelo funciona bem no conjunto de treinamento, mas não em dados novos/ingênuos, o modelo superajusta os dados de treinamento.

---

## Como treinar um modelo de aprendizado de máquina
> Para evitar o ajuste excessivo, é prática comum:
> - Separe os dados em um trem e um conjunto de teste.
> - Treine o modelo no conjunto de trens.
> - Avalie no conjunto de teste.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

N_FOLDS = 5
MAX_EVALS = 5

In [None]:
data = pd.read_csv('/dbfs/FileStore/CDS2023/titanic.csv')
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22,S,,,"Montreal, PQ / Chesterville, ON"


In [None]:
X = data.drop(['pclass', 'name', 'home.dest', 'sex', 'cabin', 'embarked'], axis=1)
Y = data['pclass']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 42)

X_train.shape, X_test.shape

## Random search

## Pesquisa aleatória

A pesquisa aleatória é surpreendentemente eficiente em comparação com a pesquisa em grade. Ele faz um trabalho melhor ao explorar o espaço de busca e, portanto, geralmente pode encontrar uma boa combinação de hiperparâmetros em muito menos iterações. Ele configura uma grade de valores de hiperparâmetros e seleciona **combinações aleatórias** da grade para treinar o modelo e pontuar. O número de iterações de pesquisa é definido com base no tempo/recursos.

In [None]:
# define model
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()

In [None]:
# define evaluation
from sklearn.model_selection import RepeatedStratifiedKFold
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)

Em seguida, podemos definir o espaço de busca.

Este é um dicionário onde os nomes são argumentos para o modelo e os valores são distribuições das quais se extraem amostras. Otimizaremos o solucionador, a penalidade e os hiperparâmetros C do modelo com distribuições discretas para o tipo de solucionador e penalidade e uma distribuição log-uniforme de 1e-5 a 100 para o valor C.

Log-uniforme é útil para pesquisar valores de penalidade, pois geralmente exploramos valores em diferentes ordens de magnitude, pelo menos como uma primeira etapa.

In [None]:
# define search space
from scipy.stats import loguniform

space = dict()
space['solver'] = ['newton-cg', 'lbfgs', 'liblinear']
space['penalty'] = ['none', 'l2', 'elasticnet']
space['C'] = loguniform(1e-5, 100)

In [None]:
# define search
from sklearn.model_selection import RandomizedSearchCV
search = RandomizedSearchCV(model, space, n_iter=500, scoring='accuracy', n_jobs=-1, cv=cv, random_state=1)

In [None]:
# execute search
result = search.fit(X, Y)
# summarize result
print('Best Score: %s' % result.best_score_)
print('Best Hyperparameters: %s' % result.best_params_)

## Pesquisa em Grade
  Ele configura uma grade de valores de hiperparâmetros e, para cada combinação, treina um modelo e pontua nos dados de validação. Nesta abordagem, **cada combinação única de valores de hiperparâmetros é tentada**, o que pode ser muito ineficiente!

>- Pesquisa exaustiva por meio de um subconjunto especificado de hiperparâmetros de um algoritmo de aprendizado.
>- Examina todas as combinações possíveis dos hiperparâmetros especificados (produto cartesiano de hiperparâmetros).

### Limitações
>- Maldição da dimensionalidade: as combinações possíveis crescem exponencialmente com o número de hiperparâmetros.
>- Computacionalmente caro.
>- Os valores dos hiperparâmetros são determinados manualmente.
>- Não é ideal para hiperparâmetros contínuos.
>- Não explora todo o espaço de hiperparâmetros (não é viável).
>- Tem um desempenho pior do que outras pesquisas (para modelos com espaços de hiperparâmetros complexos).

### Vantagens
>- Para modelos com espaços de hiperparâmetros mais simples funciona bem.
>- Pode ser paralelizado.

Grid Search é o método mais caro em termos de tempo total de computação. No entanto, se executado em paralelo, é rápido em termos de tempo de relógio de parede. Às vezes, executamos uma pequena grade, determinamos onde está o ótimo e expandimos a grade nessa direção.

In [None]:
# define search space
space = dict()
space['solver'] = ['newton-cg', 'lbfgs', 'liblinear']
space['penalty'] = ['none', 'l1', 'l2', 'elasticnet']
space['C'] = [1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 1, 10, 100]

In [None]:
# define search
from sklearn.model_selection import GridSearchCV
search = GridSearchCV(model, space, scoring='accuracy', n_jobs=-1, cv=cv)

In [None]:
# execute search
result = search.fit(X, Y)
# summarize result
print('Best Score: %s' % result.best_score_)
print('Best Hyperparameters: %s' % result.best_params_)

# Tuning with Optuna

In [None]:
pip install optuna

# Ajustando XGBoost com Optuna

Neste exemplo, os hiperparâmetros `learning_rate`, `max_depth`, `n_estimators` e `min_child_weight` são ajustados usando a biblioteca Optuna. A função objetivo é definida para retornar a precisão negativa no conjunto de teste, pois Optuna minimiza a função objetivo. A função `study.optimize` é usada para executar o ajuste do hiperparâmetro, com `n_trials` especificando o número de tentativas a serem executadas. O desempenho final do classificador sintonizado é avaliado no conjunto de teste.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
import optuna

# Load the breast cancer dataset
data = load_breast_cancer()
X = data.data
y = data.target

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

def objective(trial):
    # Define the hyperparameters to tune
    learning_rate = trial.suggest_float("learning_rate", 1e-5, 1e-1)
    max_depth = trial.suggest_int("max_depth", 3, 7)
    n_estimators = trial.suggest_int("n_estimators", 100, 1000)
    min_child_weight = trial.suggest_int("min_child_weight", 1, 5)
    
    # Create an XGBoost classifier
    clf = XGBClassifier(
        learning_rate=learning_rate, 
        max_depth=max_depth,
        n_estimators=n_estimators, 
        min_child_weight=min_child_weight
    )
    
    # Train the classifier and calculate the accuracy on the validation set
    clf.fit(X_train, y_train)
    score = clf.score(X_test, y_test)
    
    return 1.0 - score

# Use Optuna to tune the hyperparameters
study = optuna.create_study()
study.optimize(objective, n_trials=100)

# Print the best hyperparameters and the best score
print("Best hyperparameters: ", study.best_params)
print("Best score: ", 1.0 - study.best_value)

# Train the classifier with the best hyperparameters on the full training set
best_params = study.best_params
clf = XGBClassifier(
    learning_rate=best_params["learning_rate"], 
    max_depth=best_params["max_depth"],
    n_estimators=best_params["n_estimators"], 
    min_child_weight=best_params["min_child_weight"]
)
clf.fit(X, y)

# Evaluate the tuned classifier on the test set
score = clf.score(X_test, y_test)
print("Test set accuracy: ", score)

# Ajustando Random Forest com Optuna

Neste exemplo, os hiperparâmetros `n_estimators`, `max_depth`, `min_samples_split` e `min_samples_leaf` são ajustados usando a biblioteca Optuna. A função objetivo é definida para retornar a precisão negativa no conjunto de teste, pois Optuna minimiza a função objetivo. A função `study.optimize` é usada para executar o ajuste do hiperparâmetro, com `n_trials` especificando o número de tentativas a serem executadas. O desempenho final do classificador sintonizado é avaliado em

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Load the breast cancer dataset
data = load_breast_cancer()
X = data.data
y = data.target

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

def objective(trial):
    # Define the hyperparameters to tune
    n_estimators = trial.suggest_int("n_estimators", 100, 1000)
    max_depth = trial.suggest_int("max_depth", 3, 7)
    min_samples_split = trial.suggest_int("min_samples_split", 2, 5)
    min_samples_leaf = trial.suggest_int("min_samples_leaf", 1, 5)
    
    # Create a random forest classifier
    clf = RandomForestClassifier(
        n_estimators=n_estimators, 
        max_depth=max_depth,
        min_samples_split=min_samples_split, 
        min_samples_leaf=min_samples_leaf
    )
    
    # Train the classifier and calculate the accuracy on the validation set
    clf.fit(X_train, y_train)
    score = clf.score(X_test, y_test)
    
    return 1.0 - score

# Use Optuna to tune the hyperparameters
study = optuna.create_study()
study.optimize(objective, n_trials=100)

# Print the best hyperparameters and the best score
print("Best hyperparameters: ", study.best_params)
print("Best score: ", 1.0 - study.best_value)

# Train the classifier with the best hyperparameters on the full training set
best_params = study.best_params
clf = RandomForestClassifier(
    n_estimators=best_params["n_estimators"], 
    max_depth=best_params["max_depth"],
    min_samples_split=best_params["min_samples_split"], 
    min_samples_leaf=best_params["min_samples_leaf"]
)
clf.fit(X, y)

# Evaluate the tuned classifier on the test set
score = clf.score(X_test, y_test)
print("Test set accuracy: ", score)

## Pesquisa Aleatória

>- Os valores de hiperparâmetros são selecionados por sorteios independentes (aleatórios) da distribuição uniforme do espaço de hiperparâmetros. A Pesquisa aleatória seleciona as combinações de valores de hiperparâmetros aleatoriamente de todas as combinações possíveis, dado um espaço de hiperparâmetros.

---

## Pesquisa Aleatória vs Pesquisa em Grade
>- Alguns parâmetros afetam muito o desempenho e outros não (Low Effective Dimension).

| Pesquisa Aleatória | Pesquisa em grade |

|:------------------------------------------------ -------------------|------------------------------ ----------:|

| Permite a exploração de mais dimensões de parâmetros importantes | Perder tempo explorando dimensões não importantes |

| Selecione valores de uma distribuição de valores de parâmetros | Os parâmetros são definidos manualmente |

| Bom para parâmetros contínuos | Bom para parâmetros discretos |

---

## Considerações
>- Escolhemos um orçamento (computacional) independentemente do número de parâmetros e valores possíveis.
>- Adicionar parâmetros que não influenciam o desempenho não diminui a eficiência da pesquisa (se forem permitidas iterações suficientes).
>- Importante especificar uma distribuição contínua do hiperparâmetro para aproveitar ao máximo a randomização.



**References:** 

https://www.kaggle.com/code/willkoehrsen/intro-to-model-tuning-grid-and-random-search/notebook 

https://www.kaggle.com/code/faressayah/hyperparameter-optimization-for-machine-learning 

https://github.com/optuna/optuna-examples/blob/main/xgboost/xgboost_simple.py