In [None]:
# Importando as bibliotecas para os modelos
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

import numpy as np

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, f1_score, roc_auc_score, roc_curve, ConfusionMatrixDisplay, RocCurveDisplay, confusion_matrix, classification_report, plot_roc_curve

# Modelos de Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.preprocessing import StandardScaler, MinMaxScaler

from sklearn.model_selection import GridSearchCV
from google_drive_downloader import GoogleDriveDownloader as gdd


# Plot dos gráficos
import matplotlib.pyplot as plt
import matplotlib
from matplotlib import colors
import seaborn as sns

# Hiperparâmetros

## Hiperparâmetros

Alguns parâmetros de algortitmos de Machine Learning não são treinados, mas influenciam diretamente nas métricas do nosso modelo. Esses parâmetros são conhecidos como Hiperparâmetros. 

Por exemplo na Arvore de Decisões temos o número de camadas no sklearn.

Uma forma de trabalhar com os hiperparâmetros é com o **Grid Search**, que é uma técnica de busca exaustiva para encontrar os melhores valores para os hiperparâmetros.


Para essa técnica vamos usar a validação cruzada, onde iremos encontrar os melhores parâmetros para o nosso modelo usando apenas o conjunto de treinamento. A imagem a seguir ilustra a divisão do conjunto de dados quando usamos a validação cruzada:



<center>
<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png" width="500">

fonte: https://scikit-learn.org/stable/modules/cross_validation.html

O objetivo do Grid Search é fazer uma busca para encontar os melhores hiperparâmetros do nosso moelo para posteriormente retreinar o modelo usando o resultado obtido por ele. A imagem a seguir ilustra esse processo:




<center>
<img src="https://scikit-learn.org/stable/_images/grid_search_workflow.png" width="500">

fonte: https://scikit-learn.org/stable/modules/cross_validation.html

Vamos fazer um exemplo com um conjunto de dados para classificação com o objetivo de verificar os conceitos de hiperparâmetros:

## Exemplo Regressão

Vamos agora ver um exemplo com modelos de regressão

### Recebendo os dados:

In [None]:
# Importando o pandas
import pandas as pd

# Recebendo os dados:
from google_drive_downloader import GoogleDriveDownloader as gdd

data_google_id = '1jmwTi7Xao7ZzOTwFGV9S68b-HXHbdWci'
gdd.download_file_from_google_drive(file_id=data_google_id, 
                                    dest_path = './data_2.csv', # Faz o download dos dados e salva o mesmo num arquivo nomeado data.csv
                                    showsize = True)

# Armazenandos os dados em um DataFrame
dados_reg = pd.read_csv("data_2.csv")

Downloading 1jmwTi7Xao7ZzOTwFGV9S68b-HXHbdWci into ./data_2.csv... 
32.0 KiB Done.


### Analisando os nossos dados

### Dividindo o nosso conjunto de dados

### Treinando os modelos e obtendo suas métricas

Vamos começar com a Regressão Linear. Para esse modelo não iremos usar nenhum hiperparâmetro.

Árvore de Decisões para os modelos de Regressão:

Modelo de Gradient Boosting Regressor:

## Exemplo Classificadores

Os dados do exemplo a seguir podem ser vistos em: https://www.kaggle.com/datasets/kukuroo3/body-performance-data

### Recebendo os dados:

In [None]:
# Importando o pandas
import pandas as pd

# Recebendo os dados:
from google_drive_downloader import GoogleDriveDownloader as gdd

data_google_id = '1k8p7DtV5wXCh9XSgazTWxcqzSAYB_685'
gdd.download_file_from_google_drive(file_id=data_google_id, 
                                    dest_path = './data.csv', # Faz o download dos dados e salva o mesmo num arquivo nomeado data.csv
                                    showsize = True)

# Armazenandos os dados em um DataFrame
dados = pd.read_csv("data.csv", sep = ',')

Downloading 1k8p7DtV5wXCh9XSgazTWxcqzSAYB_685 into ./data.csv... 
736.0 KiB Done.


### Analisando os nossos dados

As saídas podem ser mantidas em A,B,C e D, pois o sklearn aceita que a classe a ser estimada possua valores categóricos.

### Dividindo o nosso conjunto de dados

### Treinando os modelos e obtendo suas métricas

Obs.: TODAS AS ETAPAS QUE FORAM REALIZADOS O GRID SEARCH EXIGEM UM TEMPO CONSIDERÁVEL DE EXECUÇÃO PARA SEREM CONCLUÍDAS PARA O CONJUNTO DE DADOS SELECIONADO PARA ESSA AULA. RECOMENDA-SE EXECUTAR APENAS OS TREINAMENTOS COM OS RESULTADOS OBTIDOS NA EXECUÇÃO PRÉVIA DO GRID SEARCH

Vamos começar com o k-NN:

In [None]:
# Definindo o modelo
modelo = KNeighborsClassifier()

# Cria o GridSearchCV
parametros = {'n_neighbors':range(3,50)}
modelo_GS = GridSearchCV(modelo, parametros)

# Esse modelo trabalha com k-fold cross validation
modelo_GS.fit(X_train, y_train)
modelo_GS.best_params_

{'n_neighbors': 42}

Árvore de Decisões:

In [None]:
# Definindo o modelo
modelo = DecisionTreeClassifier()

# Cria o GridSearchCV
parametros = {'max_depth':range(2,20), 'min_samples_leaf':range(2,10)}
modelo_GS = GridSearchCV(modelo, parametros)

# Esse modelo trabalha com k-fold cross validation
modelo_GS.fit(X_train, y_train)
modelo_GS.best_params_

{'max_depth': 12, 'min_samples_leaf': 8}

Random Forest:

In [None]:
# Definindo o modelo
modelo = RandomForestClassifier()

# Cria o GridSearchCV
parametros = {'max_depth':range(2,10), 'min_samples_leaf':range(2,10)}
modelo_GS = GridSearchCV(modelo, parametros)

# Esse modelo trabalha com k-fold cross validation
modelo_GS.fit(X_train, y_train)
modelo_GS.best_params_

{'max_depth': 9, 'min_samples_leaf': 4}

Gradient Boosting Classifier:




In [None]:
# Definindo o modelo
modelo = GradientBoostingClassifier()

# Cria o GridSearchCV
parametros = {'max_depth':range(2,10), 'min_samples_leaf':range(2,10)}
modelo_GS = GridSearchCV(modelo, parametros)

# Esse modelo trabalha com k-fold cross validation
modelo_GS.fit(X_train, y_train)
modelo_GS.best_params_

Support Vector Machine:

In [None]:
# Definindo o modelo
modelo = SVC()

# Cria o GridSearchCV
parametros = {'kernel' : ['rbf', 'linear', 'poly', 'sigmoid']}
modelo_GS = GridSearchCV(modelo, parametros)

# Esse modelo trabalha com k-fold cross validation
modelo_GS.fit(X_train, y_train)
modelo_GS.best_params_

{'kernel': 'poly'}