# Holdout x Cross Validation

### Bibliotecas

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn import svm
from sklearn.linear_model import LogisticRegression

### Dataframe

In [2]:
df = pd.read_csv("iris.csv", sep=',')
df

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### Dummies - Breve ajuste na tabela para prosseguir

In [3]:
cols = ['class']
# Aplicando LabelEncoder para coluna class
# dados categóricos em (0 e 1)
for col in cols:
    encoder = LabelEncoder().fit(df[col])
    df[col] = encoder.transform(df[col])

In [4]:
display(df.head())

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


# holdout

In [5]:
# Reservando a variavel alvo
X = df.drop('class', axis=1)
y = df['class']

In [6]:
# separando treino e teste (train_test_split)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.35)

In [7]:
# Instancia o classificador SVM e LR (para escolha)
csf = svm.SVC(gamma='auto')
lr = LogisticRegression()

In [8]:
# Treina e gera um modelo (comente ou descomnete o classif desejado)
#csf.fit(X_train, y_train)
lr.fit(X_train, y_train)

LogisticRegression()

In [9]:
# Testa o modelo (mude a instancia do classif desejado)
acc = lr.score(X_test, y_test)
print(f'Acurácia: {acc:,.2%}')

Acurácia: 96.23%


#### NOTA: Como no método Holdout os dados de train e test são aleatórios com apenas um 'Fold', sempre que treinamos o modelo a acurácia muda.

# Cross Validation

Parametros:
- Classificador = svm
- Tabela = X
- Variavel alvo = y
- cv = 5 : realizar 5 fold's (5 testes)
- Método de avaliação: acurácia 

OBS: Avaliação poderia ser f1_score, recall, matriz de confusão, etc.


In [10]:
# Confiurando CV
scores = cross_val_score(csf, X, y, cv=5, scoring='accuracy')
# Vai me retornar uma lista de resultados dos 5 testes
scores

array([0.96666667, 1.        , 0.96666667, 0.96666667, 1.        ])

### Comparando resultados

In [11]:
# Resumo dos resultados (execute todo código para ver a variação)
print('--- Holdout ----------')
print(f'Acurácia: {acc:,.2%}')

print('---Cross Validation---')
for i in range(len(scores)):
    print(f'Score {i+1}: {scores[i]:,.2%}')
print("----------------------")
print(f'Média de acurácia: {scores.mean():,.2%}')    

--- Holdout ----------
Acurácia: 96.23%
---Cross Validation---
Score 1: 96.67%
Score 2: 100.00%
Score 3: 96.67%
Score 4: 96.67%
Score 5: 100.00%
----------------------
Média de acurácia: 98.00%


#### NOTA: Note que agora tivemos uma variação mínima da acurácia, pois realizamos 5 testes e tiramos uma média, então resumimos que o cross validation deixa a acurácia mais fiel.