# Validação Cruzada

Validação cruzada é um método de treinamento utilizado para explorar seu modelo e seus dados, e o quão suceptível à overfitting ele é. Consiste em um método de validação onde divide-se o modelo em alguns subsets de dados, treinando e validando de forma cruzada, e avaliando métricas.

- K-Fold e Stratified K-fold

Consiste em dividir seu dataset em K pastas, treinando em (K-1) pastas e validando na K-ésima pasta. Esse processo é repetido K vezes, alternando sempre a pasta de validação. A versão Stratified tenta manter uma proporção do mesmo número de elementos por classe em cada um dos folds.

- Leave-One-Out (LOO)

Semelante ao método K-Fold. Para um dataset de n amostras, treina-se em (n-1) amostras e valida-se na n-ésima amostra. Esse processo é repetido n vezes, sempre alterando a amostra de validação. É mais custoso que o K-Fold, porque treina n modelos, porém é mais efetivo em relação à métricas, porque treina com mais dados por modelo.

- Leave-P-Out (LPO)

Semelhante ao método LOO, porém pode-se definir o número p de amostras para validação.

- ShuffleSplit e Stratified ShuffleSplit

Semelhante ao K-Fold, porém as amostras serão embaralhadas antes da divisão entre os folds. A versão Stratified tenta manter a proporção de classes ao longo do folds.

In [1]:
# Importando as libs
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [2]:
# Importando o dataset
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]]
y = dataset.iloc[:, 4]

In [3]:
dataset.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19.0,19000.0,0
1,15810944,Male,35.0,20000.0,0
2,15668575,Female,26.0,43000.0,0
3,15603246,Female,27.0,57000.0,0
4,15804002,Male,19.0,76000.0,0


In [4]:
# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit_transform(X)

In [5]:
X

array([[-1.78179743, -1.49004624],
       [-0.25358736, -1.46068138],
       [-1.11320552, -0.78528968],
       [-1.01769239, -0.37418169],
       [-1.78179743,  0.18375059],
       [-1.01769239, -0.34481683],
       [-1.01769239,  0.41866944],
       [-0.54012675,  2.35674998],
       [-1.20871865, -1.07893824],
       [-0.25358736, -0.13926283],
       [-1.11320552,  0.30121002],
       [-1.11320552, -0.52100597],
       [-1.6862843 ,  0.47739916],
       [-0.54012675, -1.51941109],
       [-1.87731056,  0.35993973],
       [-0.82666613,  0.30121002],
       [ 0.89257019, -1.3138571 ],
       [ 0.70154394, -1.28449224],
       [ 0.79705706, -1.22576253],
       [ 0.98808332, -1.19639767],
       [ 0.70154394, -1.40195167],
       [ 0.89257019, -0.60910054],
       [ 0.98808332, -0.84401939],
       [ 0.70154394, -1.40195167],
       [ 0.79705706, -1.37258681],
       [ 0.89257019, -1.46068138],
       [ 1.08359645, -1.22576253],
       [ 0.89257019, -1.16703281],
       [-0.82666613,

In [18]:
# Criando um classificador
from sklearn.svm import SVC
classifier = SVC(kernel = 'rbf', random_state = 0)

## Usando cada um dos métodos descritos no início da sessão
### K-Fold e Stratified K-Fold:

In [15]:
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

kf = KFold(n_splits = 10, random_state = 0)
acc = []
for train, test in kf.split(X):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()
acc_std = np.array(acc).std()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

As acurácias foram:
[0.9, 0.9, 0.925, 0.95, 0.95, 0.65, 0.925, 0.75, 0.925, 0.8]

O valor médio e desvio foi de: 0.87 +/- 0.10


In [8]:
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score

skf = StratifiedKFold(n_splits = 10, random_state = 0)
acc = []
for train, test in skf.split(X, y):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()
acc_std = np.array(acc).std()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

As acurácias foram:
[1.0, 0.8536585365853658, 0.9024390243902439, 1.0, 0.95, 0.875, 0.85, 0.7948717948717948, 0.8717948717948718, 0.9487179487179487]

O valor médio e desvio foi de: 0.90 +/- 0.06


## Leave-One-Out 

In [16]:
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()
acc = []
for train, test in loo.split(X):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio foi de: {:0.2f}".format(acc_mean))

As acurácias foram:
[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0,

## Shuffle Split e Stratified Shuffle Split

In [17]:
from sklearn.model_selection import ShuffleSplit

ss = ShuffleSplit(n_splits = 10, random_state = 0, test_size=0.25)
acc = []
for train, test in ss.split(X):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()
acc_std = np.array(acc).std()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

As acurácias foram:
[0.93, 0.9, 0.88, 0.87, 0.88, 0.91, 0.92, 0.83, 0.87, 0.87]

O valor médio e desvio foi de: 0.89 +/- 0.03


In [11]:
from sklearn.model_selection import StratifiedShuffleSplit

sss = StratifiedShuffleSplit(n_splits = 10, random_state = 0, test_size = 0.25)
acc = []
for train, test in sss.split(X, y):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()
acc_std = np.array(acc).std()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

As acurácias foram:
[0.89, 0.94, 0.95, 0.91, 0.92, 0.9, 0.89, 0.87, 0.94, 0.9]

O valor médio e desvio foi de: 0.91 +/- 0.02


### Por último, uma demonstração de um helper que já retorna as métricas de validação por K-Fold

In [19]:
## Dividindo em treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

In [20]:
# Aplicando um método de validação
from sklearn.model_selection import cross_val_score
accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 10, scoring = 'accuracy')
acc_mean = accuracies.mean()
acc_std = accuracies.std()

In [21]:
print("As acurácias foram:")
print(accuracies)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

As acurácias foram:
[0.80645161 0.96666667 0.8        0.93333333 0.86666667 0.8
 0.93333333 0.93333333 0.96666667 0.96551724]

O valor médio e desvio foi de: 0.90 +/- 0.07
