# Métodos e Métricas de Avaliação

**Leia o dataset iris e armazene em uma variável chamada ds. Os próximos exercícios serão utilizando esses dataset.**

In [2]:
import pandas as pd

ds = pd.read_csv('datasets/iris.csv')
ds.head()

Unnamed: 0.1,Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,3.0,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa


**Considerando que o dataset seja avaliado utilizando K-Fold Cross Validation com K = 2, quantos dados existirão em cada fold? Existe algum nome específico ao fazer uso de K = 2?**

In [3]:
ds.shape

(150, 6)

Considerando que existem 150 instâncias no conjunto de dados, ao fazer um K-Fold Cross Validation com 2 folds, teremos 75 instâncias em cada fold. Isso lembra uma técnica conhecida como Hold Out, com a diferença que no Hold Out a proporção de treino e teste pode ser diferente (aqui 50% é treino e 50% é teste) e e que no Cross Validation, como o próprio nome salienta, ora uma parte será usada para treino, ora para teste.

**Considerando que o dataset seja avaliado utilizando K-Fold Cross Validation com K = 150, quantos dados existirão em cada fold? Existe algum nome específico ao fazer uso de K = 150?**

 Existirá 1 instância em cada fold. Nesses casos, pode ser chamado também de Leave One Out.

**Em sua visão, considerando que todos os dados disponíveis para uso são o que estão em ds, qual dos K (2 ou 150) deve ser utilizado? Por que?**

 Como existem poucas instâncias, faz sentido utilizar K = 150, já que demandará de pouco poder computacional.

**No conjunto de dados apresentado, existiria algum problema em determinar o folds de forma sequencial? Por que?**

In [12]:
ds.iloc[:50, -1].unique()

array(['setosa'], dtype=object)

In [9]:
ds.iloc[51:100, -1].unique()

array(['versicolor'], dtype=object)

In [10]:
ds.iloc[-50:, -1].unique()

array(['virginica'], dtype=object)

Como os dados estão dispostos na base de forma que as primeiras 50 linhas pertençam apenas à classe setosa, as 50 próximas à classe versicolor e as 50 últimas à classe virgínica, não é interessante que os folds sejam separados de forma sequencial, já que assim as amostras que estariam sendo usadas para teste e treino não estariam fazendo ujma boa representação da base completa/realidade.

**Qual a vantagem de separar os dados de forma estratiticada?**

 A principal vantagem é manter uma aproximação da base original no que diz respeito à proporção de classes.

**Utilizando a biblioteca sklearn, separe os dados de teste e treino, com 75% para treino, de forma sequencial. Observe o que acontece com as classes. Essa é a melhor forma de separar? Caso contrário, o que pode ser feito?**

In [16]:
from sklearn.model_selection import train_test_split 

ds_treino, ds_teste = train_test_split(ds, train_size = 0.75, test_size = 0.25, shuffle = False)

In [19]:
ds_treino.Species.value_counts()

setosa        50
versicolor    50
virginica     12
Name: Species, dtype: int64

In [20]:
ds_teste.Species.value_counts() 

virginica    38
Name: Species, dtype: int64

Essa não é uma boa forma de separar por não manter uma proporção de classes condizente com a realidade/base original. O que pode ser feito é um embaralhamento das instâncias, determinando que parâmetro shuffle receba o True.

**Separe o conjunto de dados em treino e teste, utilizando K-Fold Cross Validation, com K = 10. Calcule a média e mediana da variável Sepal.Length de cada conjunto (treino e teste) em cada iteração.**

In [28]:
from sklearn.model_selection import KFold
import numpy as np

kf = KFold(n_splits = 10, shuffle = True)

for i_treino, i_teste in kf.split(ds):
    
    ds_treino = ds.iloc[i_treino, :].loc[:, 'Sepal.Length']
    ds_teste = ds.iloc[i_teste, :].loc[:, 'Sepal.Length']
    
    print('Média treino:', round(np.mean(ds_treino), 2))
    print('Média teste:', round(np.mean(ds_teste)))
    
    print('Mediana treino:', round(np.median(ds_treino)))
    print('Mediana teste:', round(np.median(ds_teste)))
    
    print('====================')

Média treino: 5.84
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 6.0
Média treino: 5.88
Média teste: 5.0
Mediana treino: 6.0
Mediana teste: 6.0
Média treino: 5.85
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 6.0
Média treino: 5.82
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 6.0
Média treino: 5.84
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 6.0
Média treino: 5.84
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 6.0
Média treino: 5.86
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 5.0
Média treino: 5.79
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 6.0
Média treino: 5.86
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 6.0
Média treino: 5.85
Média teste: 6.0
Mediana treino: 6.0
Mediana teste: 6.0


**Da mesma forma que a questão anterior, separe o conjunto de dados em treino e teste, utilizando K-Fold Cross Validation, com K = 10. Padronize os dados da variável Sepal.Length para que fiquem entre 0 e 1. Dica: é importante tomar cuidado com data leak.**

In [38]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(copy = False)

for i_treino, i_teste in kf.split(ds):
    
    ds_treino = ds.iloc[i_treino, :].loc[:, 'Sepal.Length']
    ds_teste = ds.iloc[i_teste, :].loc[:, 'Sepal.Length']
    
    # MinMaxScaler pede que os dados estejam em um array de 2 dimensões
    ds_treino = ds_treino.values.reshape(-1, 1)
    ds_teste = ds_teste.values.reshape(-1, 1)
    
    scaler.fit_transform(ds_treino)
    scaler.transform(ds_teste)
    
    print('Min/Max do treino:', ds_treino.min(), ds_treino.max())
    print('Min/Max do teste:', ds_teste.min(), ds_teste.max())
    
    print('====================')

Min/Max do treino: 0.0 1.0
Min/Max do teste: 0.0277777777777779 0.8055555555555556
Min/Max do treino: 0.0 1.0
Min/Max do teste: 0.11111111111111116 0.7222222222222223
Min/Max do treino: 0.0 1.0
Min/Max do teste: 0.16666666666666674 0.9444444444444442
Min/Max do treino: 0.0 1.0
Min/Max do teste: 0.11111111111111116 0.7222222222222223
Min/Max do treino: 0.0 1.0
Min/Max do teste: 0.13888888888888884 0.8611111111111112
Min/Max do treino: 0.0 1.0
Min/Max do teste: 0.08333333333333326 0.9444444444444442
Min/Max do treino: 0.0 1.0
Min/Max do teste: 0.08333333333333326 0.9444444444444442
Min/Max do treino: 0.0 1.0
Min/Max do teste: -0.028571428571428692 0.657142857142857
Min/Max do treino: 0.0 0.9999999999999998
Min/Max do teste: 0.02941176470588247 1.0588235294117647
Min/Max do treino: 0.0 1.0
Min/Max do teste: 0.13888888888888884 0.9444444444444442


**Leia o arquivo *saidas.csv*. Calcule a acurácia, precisão e revocação de y1_pred e y1_real.**

In [44]:
saidas = pd.read_csv('datasets/saidas.csv')

from sklearn.metrics import accuracy_score, precision_score, recall_score

print('Acurácia:', accuracy_score(saidas.y1_real, saidas.y1_pred))
print('Precisão:', precision_score(saidas.y1_real, saidas.y1_pred))
print('Revocação:', recall_score(saidas.y1_real, saidas.y1_pred))

Acurácia: 0.865
Precisão: 0.8475247524752475
Revocação: 0.8806584362139918


**Leia o arquivo saidas.csv. Calcule a acurácia, precisão e revocação de y2_pred1 e y2_real. Tenha atenção especial para as classes desse problema. É possível verificar algum problema? O que pode ser feito?**

In [45]:
print('Acurácia:', accuracy_score(saidas.y2_real, saidas.y2_pred1))
print('Precisão:', precision_score(saidas.y2_real, saidas.y2_pred1))
print('Revocação:', recall_score(saidas.y2_real, saidas.y2_pred1)) 

Acurácia: 0.944
Precisão: 0.944
Revocação: 1.0


In [46]:
saidas.y2_real.value_counts()

1    944
0     56
Name: y2_real, dtype: int64

In [47]:
saidas.y2_pred1.value_counts()

1    1000
Name: y2_pred1, dtype: int64

As classes estão extremamente desbalanceadas, o que faz com que métricas de acurácia, precisão e revocação não sejam boas para concluir se um modelo está fazendo boas predições ou não. Nesse caso, o modelo simplesmente previu que todas as classes eram pertencentes à classe majoritária e ainda assim obveteve acurácia de 94%. Outras métricas de avaliação devem ser usadas nesses casos, ou ainda fazer um balanceamento por meio de undersampling ou oversampling.

**Leia o arquivo saidas.csv. Observe as saídas y2_real, y2_pred1 e y2_pred2. Qual a melhor métrica para comparar os modelos que geraram essa saída?**

Boas métricas para casos desbalanceados são Area Under the ROC Curve (AUC) ou Gini.

In [51]:
from sklearn.metrics import roc_auc_score


print('AUC Modelo 1:', roc_auc_score(saidas.y2_real, saidas.y2_pred1))
print('Gini Modelo 1:', (2*roc_auc_score(saidas.y2_real, saidas.y2_pred1) - 1))
print()
print('AUC Modelo 2:', roc_auc_score(saidas.y2_real, saidas.y2_pred2))
print('Gini Modelo 2:', (2*roc_auc_score(saidas.y2_real, saidas.y2_pred2) - 1))

AUC Modelo 1: 0.5
Gini Modelo 1: 0.0

AUC Modelo 2: 0.9533898305084746
Gini Modelo 2: 0.9067796610169492
