## Técnicas de otimização e ajuste fino

No aprendizado de máquina supervisionado, a otimização e o ajuste fino são etapas cruciais para alcançar o melhor desempenho possível de um modelo. O objetivo é ajustar de forma precisa os hiperparâmetros para melhorar a capacidade de generalização e robustez do modelo, evitando problemas como overfitting ou underfitting.

Uma técnica importante para otimização é o Grid Search, que consiste em testar diferentes combinações de hiperparâmetros e comparar o desempenho do modelo com base em uma métrica escolhida. Embora seja eficaz, pode ser computacionalmente caro, principalmente quando há muitos parâmetros ou valores possíveis para testar.

Outro conceito fundamental é a validação cruzada, que é usada para avaliar a capacidade de generalização do modelo. Ao invés de dividir os dados apenas uma vez entre treino e teste, a validação cruzada divide os dados em várias partes (folds), e o modelo é treinado e validado em diferentes subconjuntos. A técnica mais comum é o K-Fold Cross-Validation, onde os dados são divididos em k partes, e o modelo é treinado e avaliado k vezes, com cada parte servindo como conjunto de validação uma vez. Isso ajuda a reduzir a variabilidade nos resultados, fornecendo uma estimativa mais robusta de como o modelo vai se comportar em dados não vistos. Quando há desequilíbrio nas classes do conjunto de dados, utiliza-se o Stratified K-Fold, que mantém a proporção de classes em cada fold. Já o Leave-One-Out Cross-Validation utiliza uma amostra por vez para validação, oferecendo uma avaliação muito detalhada, mas com um custo computacional elevado.

Os conceitos de overfitting e underfitting são centrais nesse contexto. O overfitting ocorre quando o modelo se adapta demais aos dados de treinamento, aprendendo padrões específicos que não se generalizam bem para dados novos. Isso pode acontecer quando o modelo é excessivamente complexo, quando há muito pouco dado de treinamento ou quando o treinamento é realizado por tempo demais. Já o underfitting acontece quando o modelo não aprende o suficiente com os dados, seja por ser muito simples, por não ter dados suficientes ou por não ser treinado adequadamente, resultando em um desempenho ruim.

Para evitar o overfitting e o underfitting, algumas estratégias são adotadas. O aumento do conjunto de dados pode ajudar a melhorar a generalização, fornecendo mais exemplos para o modelo aprender. Além disso, a limpeza de dados, removendo ruídos e outliers, pode melhorar a qualidade do treinamento. A validação cruzada é essencial para garantir que o modelo não está apenas decorando os dados de treino, mas sim aprendendo padrões que se aplicam a dados novos. A seleção de modelos também é crucial, pois escolher o modelo com a complexidade correta pode ajudar a evitar o overfitting (com modelos muito complexos) e o underfitting (com modelos muito simples).

Técnicas como dropout, usadas em redes neurais, ajudam a evitar que o modelo se dependa demais de neurônios específicos durante o treinamento, tornando-o mais robusto. O early stopping é outra técnica que interrompe o treinamento do modelo assim que o desempenho no conjunto de validação começa a piorar, evitando que o modelo aprenda padrões específicos demais do conjunto de treinamento.

No final, o objetivo é encontrar o equilíbrio entre overfitting e underfitting. Isso pode ser feito usando técnicas como validação cruzada e ajustando os hiperparâmetros do modelo. A chave é treinar o modelo de forma adequada, garantindo que ele aprenda os padrões corretos dos dados, sem memorizar excessivamente os detalhes, e seja capaz de generalizar bem para novos exemplos.

In [None]:
import pandas as pd 
import numpy as np  
from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import train_test_split 
from sklearn.model_selection import KFold 
from sklearn.linear_model import LinearRegression 
from sklearn.metrics import mean_absolute_percentage_error 

In [None]:
df = pd.read_csv(".\datasets\kc_house_data.csv", encoding = 'utf-8', sep= ';')
df = df[['price', 'bedrooms', 'bathrooms', 'sqft_living', 
'sqft_lot', 'floors', 'waterfront']] 
 
x = df.drop('price', axis=1) 
y = df['price'] 
 
# normalização dos dados 
min_max_scaler = StandardScaler() 
x = min_max_scaler.fit_transform(x) 

# Criando o modelo de regressão linear 
linear_regressor = LinearRegression() 
 
# Definindo o número de folds 
k = 5 
 
# Criando o objeto KFold 
kf = KFold(n_splits=k, shuffle=True, random_state=42) 
 
# Armazenará os scores de cada fold 
mape_scores = [] 
 
# Realizando o K-Fold Cross-Validation 
for train_index, val_index in kf.split(x): 
    x_train, x_val = x[train_index], x[val_index] 
    y_train, y_val = y[train_index], y[val_index] 
 
    # Treinando o modelo no conjunto de treino 
    linear_regressor.fit(x_train, y_train) 
 
    # Fazendo previsões no conjunto de validação 
    y_pred = linear_regressor.predict(x_val) 
 
    # Calculando o erro percentual absoluto médio (MAPE) 
    mape = mean_absolute_percentage_error(y_val, y_pred) 
 
    # Armazenando o MAPE para cada fold 
    mape_scores.append(mape)

# Calculando o MAPE médio 
mape_mean = np.mean(mape_scores) 
print(f"MAPE médio: {mape_mean}") 

In [None]:
# Separando os dados de treino (para a validação cruzada) e de teste 
x_train, x_test, y_train, y_test = train_test_split(x, y, 
test_size=0.1, random_state=0) 

# Criando o modelo de regressão linear 
linear_regressor = LinearRegression() 

# Definindo o número de folds 
k = 5 

# Criando o objeto KFold 
kf = KFold(n_splits=k, shuffle=True, random_state=42) 

# Armazenará os scores de cada fold 
mape_scores = [] 

# Realizando o K-Fold Cross-Validation 
for train_index, val_index in kf.split(x_train, y_train): 
    x_train_cv, x_val = x[train_index], x[val_index] 
    y_train_cv, y_val = y[train_index], y[val_index] 

    # Treinando o modelo no conjunto de treino 
    linear_regressor.fit(x_train_cv, y_train_cv) 

    # Fazendo previsões no conjunto de validação 
    y_pred = linear_regressor.predict(x_val) 
 
    # Calculando o erro percentual absoluto médio (MAPE) 
    mape = mean_absolute_percentage_error(y_val, y_pred) 
 
    # Armazenando o MAPE para cada fold 
    mape_scores.append(mape) 
 
# Calculando o MAPE médio 
mape_mean = np.mean(mape_scores) 
 
print(f"MAPE médio: {mape_mean}") 

In [None]:
# Vendo a performance agora do modelo para o conjunto de teste 
 
# Fazendo previsões no conjunto de teste 
y_pred_2 = linear_regressor.predict(x_test) 
 
# Calculando o erro percentual absoluto médio (MAPE) 
mape_test = mean_absolute_percentage_error(y_test, y_pred_2) 
 
print(f"MAPE: {mape_test}") 

In [None]:
from sklearn.model_selection import GridSearchCV 
from sklearn.svm import SVR 

x_train, x_test, y_train, y_test = train_test_split(x, y, 
test_size=0.1, random_state=0) 
 
# Definindo os parâmetros a serem ajustados 
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]} 
 
# Criando o modelo 
svr = SVR() 
 
# Ajuste fino 
clf = GridSearchCV(svr, parameters) 
 
# Treinando o modelo com otimização 
clf.fit(x_train, y_train)

In [None]:
print(clf.cv_results_['params']) 

In [None]:
print(clf.best_params_) 

In [None]:
df_results = pd.DataFrame(clf.cv_results_) 
df_results.query("rank_test_score == 1")['params'] 

In [None]:
from sklearn.svm import SVR 
from sklearn.model_selection import GridSearchCV 
x_train, x_test, y_train, y_test = train_test_split(x, y, 
test_size=0.1, random_state=0) 
# Definindo os parâmetros a serem ajustados 
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]} 
# Criando o modelo 
svr = SVR() 
# Ajuste fino com validação cruzada 
clf = GridSearchCV(svr, parameters, cv=10) 
# Treinando o modelo com otimização 
clf.fit(x_train, y_train)

In [None]:
print(clf.best_params_) 