# Validação Cruzada

Validação cruzada é um método de treinamento utilizado para explorar seu modelo e seus dados, e o quão suceptível à overfitting ele é. Consiste em um método de validação onde divide-se o modelo em alguns subsets de dados, treinando e validando de forma cruzada, e avaliando métricas.

- K-Fold e Stratified K-fold

Consiste em dividir seu dataset em K pastas, treinando em (K-1) pastas e validando na K-ésima pasta. Esse processo é repetido K vezes, alternando sempre a pasta de validação. A versão Stratified tenta manter uma proporção do mesmo número de elementos por classe em cada um dos folds.

- Leave-One-Out (LOO)

Semelante ao método K-Fold. Para um dataset de n amostras, treina-se em (n-1) amostras e valida-se na n-ésima amostra. Esse processo é repetido n vezes, sempre alterando a amostra de validação. É mais custoso que o K-Fold, porque treina n modelos, porém é mais efetivo em relação à métricas, porque treina com mais dados por modelo.

- Leave-P-Out (LPO)

Semelhante ao método LOO, porém pode-se definir o número p de amostras para validação.

- ShuffleSplit e Stratified ShuffleSplit

Semelhante ao K-Fold, porém as amostras serão embaralhadas antes da divisão entre os folds. A versão Stratified tenta manter a proporção de classes ao longo do folds.

In [None]:
# Importando as libs
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
# Importando o dataset
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]]
y = dataset.iloc[:, 4]

In [None]:
X.head()

In [None]:
# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit_transform(X)

In [None]:
# Criando um classificador
from sklearn.svm import SVC
classifier = SVC(kernel = 'rbf', random_state = 0)

## Usando cada um dos métodos descritos no início da sessão
### K-Fold e Stratified K-Fold:

In [None]:
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

kf = KFold(n_splits = 10, random_state = 0)
acc = []
for train, test in kf.split(X):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()
acc_std = np.array(acc).std()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

In [None]:
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score

skf = StratifiedKFold(n_splits = 10, random_state = 0)
acc = []
for train, test in skf.split(X, y):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()
acc_std = np.array(acc).std()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

## Leave-One-Out 

In [None]:
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()
acc = []
for train, test in loo.split(X):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio foi de: {:0.2f}".format(acc_mean))

## Shuffle Split e Stratified Shuffle Split

In [None]:
from sklearn.model_selection import ShuffleSplit

ss = ShuffleSplit(n_splits = 10, random_state = 0, test_size=0.25)
acc = []
for train, test in ss.split(X):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()
acc_std = np.array(acc).std()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit

sss = StratifiedShuffleSplit(n_splits = 10, random_state = 0, test_size = 0.25)
acc = []
for train, test in sss.split(X, y):
    X_train, X_test, y_train, y_test = X[train,:], X[test,:], y[train], y[test]
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    acc.append(accuracy_score(y_test, y_pred))
    
acc_mean = np.array(acc).mean()
acc_std = np.array(acc).std()

print("As acurácias foram:")
print(acc)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))

### Por último, uma demonstração de um helper que já retorna as métricas de validação por K-Fold

In [None]:
## Dividindo em treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

In [None]:
# Aplicando um método de validação
from sklearn.model_selection import cross_val_score, cross_val_predict
accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 10, scoring = 'accuracy')
acc_mean = accuracies.mean()
acc_std = accuracies.std()

In [None]:
print("As acurácias foram:")
print(accuracies)
print()
print("O valor médio e desvio foi de: {:0.2f} +/- {:0.2f}".format(acc_mean, acc_std))