# **VALIDAÇÃO**

---


Neste hands on vamos trabalhar com as diferentes tipos de divisão de dados para treino e validação, no qual temos os 3 tipos mais usados:

* Divisão Treino-Teste.

* Validação Cruzada.

* Leave-one-out.

Cada uma com sua devisa aplicação. Vamos usar o sklearn para realizar essas aplicações.

In [1]:
#Primeiro, vamos importar nossas bibliotecas padrões de uso
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
#Agora vamos upar nosso dataset
df = pd.read_csv(r'dataset_37_diabetes.csv')

In [3]:
#Agora que rodamos e lemos nosso dataset, vamos verificar se nosso dataset está correto
df.head()

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,tested_positive
1,1,85,66,29,0,26.6,0.351,31,tested_negative
2,8,183,64,0,0,23.3,0.672,32,tested_positive
3,1,89,66,23,94,28.1,0.167,21,tested_negative
4,0,137,40,35,168,43.1,2.288,33,tested_positive


*   preg: number of times pregnant
*   plas: Plasma glucose concentration a 2 hours in an oral glucose tolerance test
*   pres: Diastolic blood pressure (mm Hg)
*   skin: Triceps skin fold thickness (mm)
*   insu: 2-Hour serum insulin (mu U/ml)
*   mass: Body mass index (weight in kg/(height in m)^2)
*   pedi: Diabetes pedigree function
*   age: Age (years)
*   class: Class variable (tested_positive or tested_negative)

In [4]:
#Vamos avaliar nosso dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   preg    768 non-null    int64  
 1   plas    768 non-null    int64  
 2   pres    768 non-null    int64  
 3   skin    768 non-null    int64  
 4   insu    768 non-null    int64  
 5   mass    768 non-null    float64
 6   pedi    768 non-null    float64
 7   age     768 non-null    int64  
 8   class   768 non-null    object 
dtypes: float64(2), int64(6), object(1)
memory usage: 54.1+ KB


## **Pré-processamento**


In [5]:
#Vamos realizar uma mudança na variável class para que o mesmo seja tido como categorico e binário
nome_para_class = {
    'tested_negative': 0,
    'tested_positive': 1
}

#Mapeando agora a coluna
df['class'] = df['class'].map(nome_para_class)

df.head() #check

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [6]:
#Agora vamos avaliar todos os parâmetros
df.describe()

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [9]:
#Agora vamos transformar nosso dataframe em arrays
feature_list = list(df)

label_diab = np.array(df['class'])
data_slice = df.drop('class', axis = 1)
data_diab = np.array(data_slice)

In [10]:
#Checando
feature_list

['preg', 'plas', 'pres', 'skin', 'insu', 'mass', 'pedi', 'age', 'class']

## **Treino-Teste**

Vamos trablhar de forma bem mais aprofundada olhando o uso e o funcionamento desta técnica e seu algoritmo no sklearn

In [11]:
#Vamos importar o nosso algoritmo
from sklearn.model_selection import train_test_split

In [12]:
#Agora vamos aplicar o algoritmo de 3 formas diferentes e ver os resultados
train_data1, test_data1, train_label1, test_label1 = train_test_split(data_diab, label_diab,
                                                                     test_size = 0.25,
                                                                     random_state = 42)

In [13]:
train_data2, test_data2, train_label2, test_label2 = train_test_split(data_diab, label_diab,
                                                                     test_size = 0.25,
                                                                     random_state = 123)

In [14]:
train_data3, test_data3, train_label3, test_label3 = train_test_split(data_diab, label_diab,
                                                                     test_size = 0.35,
                                                                     random_state = 42)

### Modelagem com Treino-Teste

Lembre-se, não há uma tecnica ou tamanho mágico para o conjunto de teste. Tipicamente é utilizado entre 20% e 40%.

#### Random Forest Classifiers

In [16]:
#importando o modelo Random Forest
from sklearn.ensemble import RandomForestClassifier

#Agora vamos treinar 3 classificadores
classifier_train_test1 = RandomForestClassifier(n_estimators=10, random_state = 42)
classifier_train_test2 = RandomForestClassifier(n_estimators=10, random_state = 42)
classifier_train_test3 = RandomForestClassifier(n_estimators=10, random_state = 42)

In [17]:
#Treinando e realizando a previsão com validação
classifier_train_test1.fit(train_data1, train_label1)
classifier_train_test2.fit(train_data2, train_label2)
classifier_train_test3.fit(train_data3, train_label3)

#Previsão
predict_train_test1 = classifier_train_test1.predict(test_data1)
predict_train_test2 = classifier_train_test2.predict(test_data2)
predict_train_test3 = classifier_train_test3.predict(test_data3)

#Criando dataframe de comparação
df_train_test1 = pd.DataFrame({'Real':test_label1, 'Previsão':predict_train_test1})
df_train_test1.head(10)

Unnamed: 0,Real,Previsão
0,0,0
1,0,0
2,0,0
3,0,0
4,0,0
5,0,1
6,0,0
7,0,1
8,0,1
9,0,1


In [18]:
df_train_test2 = pd.DataFrame({'Real':test_label2, 'Previsão':predict_train_test2})
df_train_test2.head(10)

Unnamed: 0,Real,Previsão
0,1,1
1,0,0
2,0,1
3,0,0
4,0,0
5,1,1
6,1,1
7,1,1
8,1,0
9,0,0


In [19]:
df_train_test3 = pd.DataFrame({'Real':test_label3, 'Previsão':predict_train_test3})
df_train_test3.head(10)

Unnamed: 0,Real,Previsão
0,0,0
1,0,0
2,0,0
3,0,0
4,0,1
5,0,0
6,0,0
7,0,1
8,0,1
9,0,1


In [20]:
#Agora vamos avaliar as métricas de cada modelo
from sklearn import metrics

In [21]:
print('Acurácia modelo 1: ', metrics.accuracy_score(test_label1, predict_train_test1))
print('Acurácia modelo 2: ', metrics.accuracy_score(test_label2, predict_train_test2))
print('Acurácia modelo 3: ', metrics.accuracy_score(test_label3, predict_train_test3))

Acurácia modelo 1:  0.7395833333333334
Acurácia modelo 2:  0.7447916666666666
Acurácia modelo 3:  0.758364312267658


Resumindo as métricas...

In [22]:
print('Classification Report 1: \n', metrics.classification_report(test_label1, predict_train_test1))
print('\nClassification Report 2: \n', metrics.classification_report(test_label2, predict_train_test2))
print('\nClassification Report 3: \n', metrics.classification_report(test_label3, predict_train_test3))

Classification Report 1: 
               precision    recall  f1-score   support

           0       0.80      0.79      0.80       123
           1       0.63      0.65      0.64        69

    accuracy                           0.74       192
   macro avg       0.72      0.72      0.72       192
weighted avg       0.74      0.74      0.74       192


Classification Report 2: 
               precision    recall  f1-score   support

           0       0.77      0.84      0.80       119
           1       0.69      0.59      0.64        73

    accuracy                           0.74       192
   macro avg       0.73      0.71      0.72       192
weighted avg       0.74      0.74      0.74       192


Classification Report 3: 
               precision    recall  f1-score   support

           0       0.81      0.85      0.82       181
           1       0.65      0.58      0.61        88

    accuracy                           0.76       269
   macro avg       0.73      0.71      0.72  

##  Validação Cruzada

Agora vamos trabalhar com um algoritmo de separação mais complexo e bem mais efetivo e robusto que a sepração com train_test. Este vai criar k separações e vai utilizar k-1 como treino e o resto como test e vai fazer isso k vezes, para diminuir o vies e melhorar a forma com que o modelo é treinado

In [24]:
df.head(10) #já temos nossa base mapeada e pronta para trabalhar

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
5,5,116,74,0,0,25.6,0.201,30,0
6,3,78,50,32,88,31.0,0.248,26,1
7,10,115,0,0,0,35.3,0.134,29,0
8,2,197,70,45,543,30.5,0.158,53,1
9,8,125,96,0,0,0.0,0.232,54,1


Vamos usar a função cross_val_score do sklearn.model_selection 

In [25]:
#Vamos chamar nossa biblioteca e algoritmo
from sklearn.model_selection import cross_val_score

classifier_cv = RandomForestClassifier(n_estimators=10 , random_state= 42)
score_cv = cross_val_score(classifier_cv, data_diab, label_diab, cv = 5)
score_cv

array([0.74025974, 0.69480519, 0.77922078, 0.79738562, 0.74509804])

In [27]:
#Vamos avaliar a média com desvio padrão
print('Acurácia: %0.2f (+/- %0.2f)' %(score_cv.mean(), score_cv.std()*2))

Acurácia: 0.75 (+/- 0.07)


Agora vamos mostrar a aplicação do cross_val_score com outras métricas para analisar o resultado.

In [28]:
score_cv_precision = cross_val_score(classifier_cv, data_diab, 
                                    label_diab, cv = 5, scoring='precision')
score_cv_recall = cross_val_score(classifier_cv, data_diab, label_diab,
                                 cv = 5, scoring='recall')
score_cv_f1 = cross_val_score(classifier_cv, data_diab, label_diab, cv = 5,
                             scoring= 'f1')

In [29]:
#Vamos printar os resultados e os devidos desvios

print('Precision: %0.2f (+/- %0.2f)' %(score_cv_precision.mean(), score_cv_precision.std()*2))
print('Recall: %0.2f (+/- %0.2f)' %(score_cv_recall.mean(), score_cv_recall.std()*2))
print('F1: %0.2f (+/- %0.2f)' %(score_cv_f1.mean(), score_cv_f1.std()*2))

Precision: 0.70 (+/- 0.18)
Recall: 0.52 (+/- 0.12)
F1: 0.59 (+/- 0.10)


Vamos fazer alguns testes agora com CV = 10 para conferir o que pode gerar ao se aumentar o numero de partições no k - fold

In [31]:
score_cv = cross_val_score(classifier_cv, data_diab, label_diab,
                          cv = 10)
score_cv_precision = cross_val_score(classifier_cv, data_diab, 
                                    label_diab, cv = 10, scoring='precision')
score_cv_recall = cross_val_score(classifier_cv, data_diab, label_diab,
                                 cv = 10, scoring='recall')
score_cv_f1 = cross_val_score(classifier_cv, data_diab, label_diab, cv = 10,
                             scoring= 'f1')

#Agora vamos chegar as métricas
print('Acurácia: %0.2f (+/- %0.2f)' %(score_cv.mean(), score_cv.std()*2))
print('Precision: %0.2f (+/- %0.2f)' %(score_cv_precision.mean(), score_cv_precision.std()*2))
print('Recall: %0.2f (+/- %0.2f)' %(score_cv_recall.mean(), score_cv_recall.std()*2))
print('F1: %0.2f (+/- %0.2f)' %(score_cv_f1.mean(), score_cv_f1.std()*2))

Acurácia: 0.76 (+/- 0.09)
Precision: 0.74 (+/- 0.24)
Recall: 0.54 (+/- 0.14)
F1: 0.61 (+/- 0.12)


Agora vamos fazer uma variação do k - fold que é a versão estratificada, que é muito útil em cenários de dados desbalanceados, pois ajuda na configuração dos k conjuntos e até mesmo no treinamento do modelo.

In [33]:
#Vamos importar a biblioteca
from sklearn.model_selection import StratifiedKFold

cv_strat = StratifiedKFold (n_splits = 10)

score_cv = cross_val_score(classifier_cv, data_diab, label_diab,
                          cv = cv_strat)
score_cv_precision = cross_val_score(classifier_cv, data_diab, 
                                    label_diab, cv = cv_strat, scoring='precision')
score_cv_recall = cross_val_score(classifier_cv, data_diab, label_diab,
                                 cv = cv_strat, scoring='recall')
score_cv_f1 = cross_val_score(classifier_cv, data_diab, label_diab, cv = cv_strat,
                             scoring= 'f1')

#Agora vamos chegar as métricas
print('Acurácia: %0.2f (+/- %0.2f)' %(score_cv.mean(), score_cv.std()*2))
print('Precision: %0.2f (+/- %0.2f)' %(score_cv_precision.mean(), score_cv_precision.std()*2))
print('Recall: %0.2f (+/- %0.2f)' %(score_cv_recall.mean(), score_cv_recall.std()*2))
print('F1: %0.2f (+/- %0.2f)' %(score_cv_f1.mean(), score_cv_f1.std()*2))

Acurácia: 0.76 (+/- 0.09)
Precision: 0.74 (+/- 0.24)
Recall: 0.54 (+/- 0.14)
F1: 0.61 (+/- 0.12)


Coincidência? Não, é porque temos uma base bem comportada, sem muito desbalanceamento sem muita variação, o que faz com que a própria validação cruzada funcione muito bem sem a estratificação

## Leave-one-out
---
Técnica que reduz drasticamente o viés das amostras mas tem um custo computacional absurdo.

A técnica é uma variação da cross validation, porém ela leva ela ao limite, dividindo o nosso conjunto com k = nº de amostras que temos, ou melhor dizendo, se temos 3milhões de instâncias, teremos k = 3milhões.
Temos que tomar cuidado ao usar ela, pois o custo computacional é altissimo e isso muitas vezes não é aplicável e necessário.

In [34]:
#importando as bibliotecas necessárias 
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()

score_cv_loo = cross_val_score(classifier_cv, data_diab, label_diab, cv = loo)

print('Acurária: %0.2f (+/- %0.2f)' %(score_cv_loo.mean(), score_cv_loo.std()*2))

Acurária: 0.75 (+/- 0.87)


Variabilidade altissíma e faz sentido, pois ele testa 0 ou 1, e varia dessa forma acertando ou errando, o que causa uma variabilidade altíssima. É bem simples de avaliar, pois não há precision ou recall e consequentemente não há f1 para avaliar.

**CONCLUSÃO** : a validação cruzada é a melhor para se utilizar, tomando cuidado com dados desbalanceados e usar a variação estratificada para esse tipo de caso.