<a href="https://colab.research.google.com/github/marcelogarret/reconpad/blob/main/aula5a_gridsearch_garret_v3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
## Importando o dataset
from sklearn.datasets import load_diabetes
X, y = load_diabetes(return_X_y=True)
X.shape, y.shape

((442, 10), (442,))

In [2]:
## Importando bibliotecas de seleção de modelos, métricas, pré-processamento e pipeline
from sklearn.metrics import mean_squared_error, make_scorer
from sklearn.model_selection import cross_validate, RepeatedKFold
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import numpy as np

## Configuração 1 do Pipeline ##
## Construindo o Pipeline com o pré-processamento e o modelo de regressão Knn
pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('clf', KNeighborsRegressor())
])

## Definindo parãmetros de ajuste
param = {'scaler__with_mean': [True, False],
         'scaler__with_std': [True, False],
         'clf__n_neighbors': [1, 3, 5]}

## Definindo modelo aninhado com Pipeline interno ao GridSearchcV
modeloAninhado = GridSearchCV(pipe, param, verbose=0, cv=5,
                      scoring=make_scorer(mean_squared_error,
                                          greater_is_better=False,
                                          squared=False))

## Realizando a validação cruzada com 5 folds e retornando o resultado do treinamento
scores = cross_validate(modeloAninhado, X, y, cv=5, return_estimator=True,
                        scoring=make_scorer(mean_squared_error, squared=False), return_train_score=True)

## Comparando o resultado médio dos treinamentos e dos testes da validação cruzada
print(f"RMSE Treinamento = {np.mean(scores['train_score'])}\nRMSE Teste = {np.mean(scores['test_score'])}")

RMSE Treinamento = 49.279290542124045
RMSE Teste = 60.26724369587026


In [3]:
## Configuração 2 do Pipeline ##

## Definindo parãmetros de ajuste
param2 = {'n_neighbors': [1, 3, 5]}

## Definindo modelo de GridSearach com KNN
GridSearchKNN = GridSearchCV(KNeighborsRegressor(), param2, verbose=0, cv=5,
                      scoring=make_scorer(mean_squared_error,
                                          greater_is_better=False,
                                          squared=False))

## Construindo o Pipeline com o pré-processamento e o modelo de GridSearchKNN
modeloAninhado2 = Pipeline([
    ('scaler', StandardScaler()),
    ('clf', GridSearchKNN)
])

## Realizando a validação cruzada com 5 folds e retornando o resultado do treinamento
scores = cross_validate(modeloAninhado2, X, y, cv=5, return_estimator=True,
                        scoring=make_scorer(mean_squared_error, squared=False), return_train_score=True)

## Comparando o resultado médio dos treinamentos e dos testes da validação cruzada
print(f"RMSE Treinamento = {np.mean(scores['train_score'])}\nRMSE Teste = {np.mean(scores['test_score'])}")

RMSE Treinamento = 49.506690555367115
RMSE Teste = 60.45860455510717
