# Aula - Avaliando modelos

Vamos ver outras estratégias para tentar escolher modelos por algum tipo de previsão do nosso erro de generalização.

- 1) Holdout
- 2) Leave One Out Cross Validation (LOOCV)
- 3) Cross Validation (CV)

## 1) Estratégia "Holdout set": Conjuntos de treino, validação e teste

Como vimos, no aprendizado de máquina nós temos alguns dados (__conjunto de treino__), e depois fazemos um experimento com uma amostra de dados que nunca vimos (__conjunto de teste__) para saber o quão bem o modelo consegue generalizar.

Assim, temos o erro dentro do conjunto de treino, $E_{in}$, e o erro de generalização, pra dados daquele tipo fora desse conjunto, $E_{out}$. 
<br><br>

<div>
    <img src="images/treino_teste.png" width=500>
</div>

O problema é que, __se usarmos o conjunto de teste de qualquer forma para aprendizado, o erro que obtivermos nele deixa de refletir o erro de generalização__. 

Por exemplo, se treinarmos 3 modelos, e compararmos eles usando o conjunto de teste, o erro no teste não reflete mais o $E_{out}$.

Outro exemplo são certas transformações dos nossos dados. Imagina que pegamos nossos dados, "normalizamos" eles (ou seja, pegamos nossas features e transformamos elas de forma que tenham um range de 0 a 1), e então fazemos a divisão entre conjunto de treino e conjunto de teste. Nesse caso, você já usou o conjunto de teste para "aprender" algo (para normalizar, a gente usa o maior valor da feature na tabela). Logo, sua medida de $E_{out}$ não vale mais. 

O que fazer então? Nós usamos o __conjunto de validação__ (ou _hold-out set_).
<br><br>
<div>
    <img src="images/treino_validacao.png" width=500>
</div>

Ao separar uma amostra (conjunto de validação), e usá-la apenas para seleção de modelos, nós assumimos que esse uso não afeta muito o erro. Então vamos dizer que o erro de validação, $E_{val}$, __aproxima de certa forma o erro de generalização__.

Isso foi o que fizemos nas últimas aulas.

Após validar e escolher o modelo, nós queremos sempre seguir adiante com o melhor modelo possível. Assim, para melhorar o modelo, nós aumentamos o número de dados para treinar o modelo final.

Então aí sim, nós juntamos treino, validação e teste em uma única base, e treinamos o modelo final. Entende-se que os erros do nosso algoritmo só tendem a diminuir, quando fazemos isso.

## 2) Leave One Out Cross Validation (LOOCV)

Nós usamos, até agora, a estratégia de "hold-out set" (ou de conjunto de validação) para podermos comparar modelos.

Porém, ela tem algumas fraquezas. Especificamente, a gente precisa de dados suficientes no conjunto de validação para tentar aproximar melhor o erro de generalização. Mas isso faz com que tenhamos cada vez menos dados de treino, para treinar o melhor modelo possível!

Será que teria alguma forma de garantirmos uma boa validação, mas ainda tendo o máximo possível de dados pra treino? 

A resposta é __sim__. Entra em cena o __Leave One Out Cross Validation (LOOCV)__.
<br><br>
<div>
    <img src="images/LOOCV.png" width=600>
</div>
<br>

Ele funciona assim:
- Nós tiramos 1 ponto dos dados de treino
- Treinamos o modelo nos outros N-1 pontos
- Avaliamos o modelo naquele ponto que tiramos
- Repete esse procedimento para _todos_ os pontos da base de treino 

Embora o Scikit-Learn tenha ferramentas para usarmos o LOOCV, raramente esse método é aplicado na prática. O motivo disso é que ele é __muito custoso computacionalmente__, e esse custo aumenta cada vez mais quanto mais dados de treino tivermos.

Nós não vamos testar esse método devido a isso, e vamos focar no seu primo mais econômico: a validação cruzada.

## 3) Cross Validation (CV)

ref: Material de aulas do prof. Sandro Saorin

O __Cross Validation (CV)__ (ou validação cruzada, em português) é uma técnica muito utilizada para estimar o erro de generalização do modelo. Ele é semelhante ao LOOCV, mas invés de separarmos apenas 1 ponto de cada vez, nós separamos um __bloco de pontos__.

Com ela podemos testar a capacidade de generalização de um modelo. A técnica faz divisões na base de dados de treino e teste e permite treinar e validar seus dados em diversos grupos distintos. Dessa forma, conseguimos mensurar a flexibilidade ou capacidade de generalização de um modelo antes mesmo da chegada de novos dados.

<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png" width=600>

Vamos discutir o passo a passo do que está acontecendo:
- Como sempre, primeiro temos que garantir que a validação não aconteça usando a base de teste.
- A gente separa a nossa base de treino em diversas partes (o mais comum são 3, 5 ou 10).
- Cada parte vai ser usada 1 vez como base de validação, para um treino realizado nas outras partes. (Na figura, por exemplo, temos 5 rodadas, e em cada rodada um bloco diferente é usado como validação, enquanto os outros 4 são usados para treino).
- Calculamos as métricas de avaliação em cada uma dessas rodadas, para a base de validação.
- Por fim, temos como resultado o score médio para o nosso modelo (tirando a média das métricas para cada parte usada como validação), ou seja, o quão bom ele está generalizando.

<br><br>

O scikit-learn tem diversas ferramentas para aplicarmos o Cross Validation.

Podemos testar diretamente o nosso modelo com o uso da função [__cross_val_score__](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html).

Podemos usar também classes que controlam essas separações em _folds_, que são o [__K-Fold__](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) e o [__Stratified K-Fold__](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html?highlight=stratifiedkfold#sklearn.model_selection.StratifiedKFold).
<br><br>

A diferença entre as duas é semelhante ao que discutimos sobre usar ou não o parâmetro "stratify" da função "train_test_split". O __K-Fold__ faz uma quebra sem se preocupar com a distribuição das classes, enquanto o __Stratified K-Fold__ garante a mesma proporção em todos os _folds_.

A gente pode usar o _stratified k-fold_ para quaisquer problemas que quisermos, embora o mais comum seja ele ser usado quando as nossas classes _target_ são muito __desbalanceadas__. Se uma das classes aparece muito menos que a outra, é possível que tenhamos uma quebra muito ruim. Em casos extremos, se uma classe aparece muito pouco, é possível que, sem a estratificação, ela sequer apareça em alguns _folds_.

<br><br>

Vamos ver como funciona a validação cruzada na prática.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
with open('datasets/bank-names.txt', 'r') as fp:
    print(fp.read())

In [None]:
# Carregando o dataset e olhando para os nossos dados
df = pd.read_csv('datasets/bank-full.csv', sep=';')
df.head()

In [None]:
# Vamos dar uma olhada em como está os nossos dados
df.info()

In [None]:
# Verificando a proporção da target
df['y'].value_counts()

In [None]:
# Dropando a target e a duração da chamada das nossas features
X = df.drop(columns=['y', 'duration'])

As nossas variáveis categóricas precisam ser transformadas em dados numéricos.
Até agora, no máximo transformamos em um número de 0 a N.

Contundo, geralmente essas variáveis não tem uma ordem. ('assalariado' é maior ou menor do que 'aposentado'?) Quando colocamos 0 a N, nós sem querer introduzimos essa ordem artificialmente.

Assim, muitas vezes o ideal é quebrar aquela coluna em variáveis "indicadoras".

Vão ser várias colunas, com valor 0 ou 1, sendo 0 quando não é aquele valor, e 1 quando é aquele valor. Chamamos isso de __One Hot Encoding__.

In [None]:
# Vamos ver um exemplo na prática.
pontos = pd.DataFrame({'a':[1, 2, 1, 2, 1, 2],
                       'b':[0.45, 0.1, 0.23, 0.98, 0.1, 0.999]})

print("Como era nosso dataframe original:")
display(pontos)

print("Como ele fica após fazermos One Hot Encoding:")
display(pd.get_dummies(pontos, prefix_sep='_', columns=['a']))

O sklearn também tem uma ferramenta para realizar o mesmo procedimento, que é uma classe chamada "OneHotEncoding", mas não usaremos ele nessa aula. 

In [None]:
# Fazendo um get_dummies para colunar as nossas variáveis categóricas
X_with_dummies = pd.get_dummies(X, prefix_sep = '_', columns=['job', 
                                                              'marital', 
                                                              'education',
                                                              'default',
                                                              'housing',
                                                              'loan',
                                                              'contact',
                                                              'month',
                                                              'poutcome'])

In [None]:
# transformando a target
y_target = np.where(df['y'] == 'yes', 1, 0)
y_target

In [None]:
#Separando em train e test
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_with_dummies, 
                                                    y_target, 
                                                    test_size=0.3, 
                                                    random_state=42,
                                                    stratify = y_target)

In [None]:
# Testando com o modelo DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state = 42)

Vamos utilizar agora o "cross_vasl_score":

In [None]:
# Utilizando o Cross Validation
from sklearn.model_selection import cross_val_score

print(cross_val_score(model, X_train, y_train, scoring='accuracy', cv=5))

Agora testando o _Stratified K-Fold_:

In [None]:
# Utilizando o StratifiedKFold
from sklearn.model_selection import StratifiedKFold

kf = StratifiedKFold(n_splits=5)
kf.get_n_splits(X_train)

In [None]:
# Vamos transformar o X de treino em array do numpy para facilitar manipulação
X_train_arr = X_train.values

In [None]:
# Neste caso, teremos que montar manualmente cada iteração.
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

list_accuracy = []
list_precision = []
list_recall = []
list_f1_score = []

i = 1
for train_index, val_index in kf.split(X_train, y_train):
    
    print("============================================================================================")
    print("Fold ", i)
    print("TRAIN:", train_index, "VALIDATION:", val_index)
    
    # Pegando o X e o y de treino e de validação para aquela iteração
    KFold_X_train, KFold_X_val = X_train_arr[train_index], X_train_arr[val_index]
    KFold_y_train, KFold_y_val = y_train[train_index], y_train[val_index]
    
    # Treinando o modelo da iteração
    model.fit(KFold_X_train, KFold_y_train)
    
    # Fazendo as previsões no "fold" de validação
    y_pred = model.predict(KFold_X_val)
    
    #Calcula as métricas
    acc = accuracy_score(KFold_y_val, y_pred)
    prec = precision_score(KFold_y_val, y_pred)
    recall = recall_score(KFold_y_val, y_pred)
    f1 = f1_score(KFold_y_val, y_pred)
    
    # Mostrando em tela as métricas
    print("Accuracy: ", acc)
    print("Precison: ", prec)
    print("Recal:    ", recall)
    print("F1-Score: ", f1)
    
    # Salvando as métricas na lista
    list_accuracy.append(acc)
    list_precision.append(prec)
    list_recall.append(recall)
    list_f1_score.append(f1)
    i += 1
print("============================================================================================")

## Exercícios

Para a próxima aula.

__1)__ Vamos repetir nosso exercício com o conjunto de dados "Ames Housing". 
Porém, desta vez, iremos comparar os modelos usando a validação cruzada.

Como este é um caso de regressão, não faz sentido usarmos validação cruzada estratificada, então devemos usar a validação cruzada comum.