# **Pipeline**

In [1]:
# importe as principais bibliotecas
import numpy as np
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

## **TOC:**
Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) [Introdução ao Problema](#intro)
    - 1.1) [Stratify](#stratify)
    - 1.2) [Transformando os dados](#transform)

- 2) [Pipeline](#pipe)
- 3) [Grid search](#grid)
    - 3.1) [Cross validation](#crossvalidation)

---

## 1) **Introdução ao Problema** <a class="anchor" id="intro"></a>

### 1.1) **Stratify** <a class="anchor" id="stratify"></a>


Nesse dataset o target não esta balanceado.

Quando separamos o dataset queremos que a distribuição de probabilidades da variável target no treino e no test sejam as mesmas. 
Para fazer isso utilizamos o parâmetro ```stratify```.

Em outras palavras, a quantidade de cada desfecho da variável ```y``` é igual no treino e no test.

### 1.2) **Transformando os dados** <a class="anchor" id="transform"></a>

O primeiro processo que pode ser feito para tunning do KNN é a **transformação das features**. 

Devido ao KNN utilizar **distâncias** como critério para classificação, ter as variaveis transformadas garante que sejam eliminados viéses relacionados à escala dos dados.

Para **normalizar os dados**, o sklearn nos apresenta a ferramenta [standard scaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

Outra opção é transformar os dados com o [min max scaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)

<font color = "orange"><b>Importante:</b></font> treine os scalers **apenas nos dados de treino** para evitar que informação dos dados de teste sejam passadas para o scaler! (Mais informações [aqui](https://datascience.stackexchange.com/questions/38395/standardscaler-before-and-after-splitting-data))

Observe como a performance do modelo mudou!

Mas será que é possível melhorar ainda mais? Vamos agora aprender como é possível testar diferentes parâmetros de uma única vez!

____

______

## 2) **Pipeline** <a class="anchor" id="intro"></a>

O [Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html) é uma estrutura que o sklearn proporciona a fim de garantir que possamos em uma única estrutura passar **o estimador e o transformador**. Para maiores informações, [clique aqui](https://scikit-learn.org/stable/modules/compose.html#pipeline). 

Vamos ver a seguir como esta estrutura funciona:

______

## 3) **Gridsearch** <a class="anchor" id="grid"></a>


O [Gridsearch](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) é uma estrutura que o sklearn proporciona para que seja feita **a busca exaustiva de hiperparâmetros de um modelo**.

Na prática, o que o gridsearch faz é **treinar diversos modelos com diferentes combinações de hiperparâmetros**, de modo a manter o melhor deles como o modelo final, tudo automaticamente! Tudo o que precisamos fazer é indicar quais os hiperparâmetros que queremos procurar: a **grade**!

É muito comum também passarmos o **pipeline** como argumento do gridsearch!

Para maiores informações, [clique aqui](https://scikit-learn.org/stable/modules/grid_search.html#grid-search). 

Vamos ver a seguir como esta estrutura funciona:

O Gridsearch avalia o melhor modelo segundo a métrica que passamos em `scoring`. [Clique aqui](https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter) para ver as métricas disponíveis por padrão.

### 3.1) **Cross validation** <a class="anchor" id="crossvalidation"></a>

Mas o GS vai além: ele não calcula a métrica uma única vez, mas sim **várias vezes**, conforme especificado pelo parâmetro `cv`. No fim, o melhor modelo é o que tem o melhor scoring **médio** entre as vezes que é calculado.

O "cv" quer dizer **Cross Validation**, o método mais seguro de realizar um treinamento e avaliação de um modelo:

<center><img src="https://ethen8181.github.io/machine-learning/model_selection/img/kfolds.png" width=600></center>

Naturalmente, cada um dos folds são feitos de modo **aleatório**, garantindo assim uma avaliação justa do modelo, **e que faça uso de toda a base de dados!!**

O GS treinado tem diversos atributos super úteis e interessantes! Vamos dar uma olhada neles:

`.best_estimator_`: retorna quais as escolhas do Pipeline que produziram o melhor modelo. No que diz respeito ao modelo, temos exatamente quais os parâmetros escolhidos!

`.best_params_`: retorna os parâmetros testados na grade que produziram o melhor modelo.

`.best_score_`: retorna a **média cross-validada da métrica de interesse** do melhor modelo. Como esse é o valor médio construído usando CV, este é estatisticamente o valor mais realístico a ser atribuído à performance do modelo!

`.cv_results_`: diversas informações do processo feito pelo GS