# Data de entrega: 20/06/2024
**Trabalho II – Entrega individual.**

* O GridSearchCV é uma ferramenta usada para automatizar o processo de ajuste dos parâmetros de um algoritmo, pois ele fará de maneira sistemática diversas combinações dos parâmetros e depois de avaliá-los os armazenará num único objeto.

* No Trabalho prático II, você deverá realizar uma avaliação de uma base de dados, usando o modelo de ajustes de parâmetros GridSearchCV com StratifiedKFolds.

* A escolha da base de dados, técnica de classificação, parâmetros testados, números de folds, deverá ser uma decisão tomada e justificada.

* A entrega será dois arquivos, a serem submetidos pelo Moodle. O primeiro arquivo será na extensão “ipynb”, contendo as fontes do código testado, e o segundo arquivo (formato .pdf), será um relatório contendo no máximo duas páginas, apresentando a descrição do que foi realizado, base de dados, classificador, parâmetros testados, análise e conclusão.

* *Abaixo, segue um exemplo com detalhes do uso do GridSearchCV, bem como exemplos didáticos.*

In [None]:
from sklearn import datasets
import pandas as pd

# Dados de Câncer de mama.
cancer = datasets.load_breast_cancer()

# Criação do dataset features e vetor labels.
features = cancer.data
labels = cancer.target

In [None]:
# Importação do AdaBoost.
from sklearn.ensemble import AdaBoostClassifier

# Uso do constructor do AdaBoost para criar um classifier.
clf = AdaBoostClassifier() # Sem nada dentro, pois vamos "variar" os parâmetros.

In [None]:
# Exemplo dos parâmetros que quero testar.
parametros = {'n_estimators':[1, 5, 10],
              'learning_rate':[0.1, 1, 2]}

In [None]:
# Criação do objeto do GridSearchCV.
from sklearn.model_selection import GridSearchCV
grid = GridSearchCV(estimator = clf,
                    param_grid = parametros,
                    scoring = 'accuracy',
                    cv = 20)

In [None]:
# Treinando o grid.
grid.fit(features, labels)

# Imprimindo os resultados.
pd.DataFrame(grid.cv_results_)



In [None]:
#Após a criação do objeto do GridSearchCV, pode-se treinar e imprimir os resultados.
#Há muitas colunas nesse resultado, então vamos fazer um subset escolhendo as colunas de interesse.
pd.DataFrame(grid.cv_results_)[['params','rank_test_score','mean_test_score']]

In [None]:
#Conforme a tabela acima, o melhor resultado de accuracy é produzido pelos parâmetros {'learning_rate': 1, 'n_estimators': 10}.
#O atributo .best_params_ pode ser usado também para obter os melhores parâmetros.
# Imprime os parâmetros que produziram o ".best_score_".
grid.best_params_

{'learning_rate': 1, 'n_estimators': 10}

In [None]:
# Imprimindo o score.
grid.best_score_

0.9525862068965519

In [None]:
# Exemplo para o uso do StratifiedKFolds com 5 folds.
grid_2 = GridSearchCV(estimator = clf,
                      param_grid = parametros,
                      cv = 5,
                      scoring = 'accuracy')

# Imprime o f1
grid_2.fit(features,labels).best_score_

0.9402421984163949

In [None]:
#O cv também aceita a atribuição de um objeto do StratifiedShuffleSplit,
#neste caso é necessário a definição da quantidade de n_splits e o tamanho do dataset de testes.

# Exemplo para o uso do StratifiedShuffleSplit.

# Importação do módulo do StratifiedShuffleSplit.
from sklearn.model_selection import StratifiedShuffleSplit

# Usando o constructor para criar o objeto sss
sss = StratifiedShuffleSplit(n_splits = 20,       # 20 simulações.
                             test_size = 0.2,     # 20% do dataset será de testes.
                             random_state = 42)   # Permitir a reprodutibilidade.

# Criando um objeto do GridSearchCV
grid_3 = GridSearchCV(estimator = clf,
                      param_grid = parametros,
                      cv = sss,
                      scoring = 'accuracy')

# Imprime o f1
grid_3.fit(features,labels).best_score_

0.9469298245614034

In [None]:
#Por fim, há a opção de não usar o cv do GridSearchCV, isto seria feito omitindo-o.
# Exemplo do GridSearchCV sem cv. Demanda um cv manual.

# Criando um objeto do GridSearchCV sem cv.
grid_4 = GridSearchCV(estimator = clf,
                      param_grid = parametros,
                      scoring = 'accuracy')

# Imprime o f1
grid_4.fit(features,labels).best_score_

0.9402421984163949