# Objetivo

Usar o método de K-Fold Cross Validation para treinar um modelo que prevê a espécie de uma flor íris baseando-se nas medidas de suas pétalas de séptalas.

# Código

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split #função que faz a partição do conjunto de dados em conjuntos de treino e teste
from sklearn.model_selection import cross_val_score #função que realiza a K-Fold Cross validation
from sklearn import datasets #importa os datasets padrões do sklearn para aprendizado
from sklearn import svm #pacote que cria modelos do tipo Support Vector Machine

iris = datasets.load_iris() #carrega o dataset das flores

É possível fazer uma única separação de conjuntos de dados para treino e teste através da train_test_split:

In [11]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=0)
#iris.data contem as medidas das flores
#X_train contem 60% dos dados de iris.data, X_test contém 40%, como especificado no parâmetro test_size
#iris.target contem as classificações corretas para cada flor em iris.data
#y_train contem 60% dos dados de iris.data, y_test contém 40%
#random_state garante que os dados são separados sempre do mesmo jeito, garantindo reprodutibilidade resultados

clf = svm.SVC(kernel="linear", C=1).fit(X_train, y_train)
#svc é uma implementação do svm 
#o kernel é o conjunto de funções matemáticas usadas pelo modelo na definição dos hiperplanos e classificação dos dados
#C é o parâmetro de regularização, quanto maior ele é menor é a margem dos hiperplanos e mais enviesada é a classificação, quanto menor ele é maior é a margem e maior é a variância das classificações
#método fit encaixa (treina) o modelo nos dados de treino passados

clf.score(X_test, y_test) #método score testa a acurácia do modelo com os dados de teste passados
#o modelo clf tenta prever a classificação dos elementos de X_test e o y_test são as classificações (respostas) corretas

0.9666666666666667

O método score retornou uma acurácia de ~96% para o modelo clf

Agora, vamos tentar criar um modelo com o mesmo objetivo, mas usando K-Fold Cross Validation:

In [10]:
clf2 = svm.SVC(kernel="linear", C=1)
scores = cross_val_score(clf2, iris.data, iris.target, cv=5)
#clf2 é o modelo SVM que será treinado
#o parâmetro cv determina o número de partições dos dados de data e target
#o modelo será treinado com 5 combinações diferentes de partições e testado com 5 partições diferentes também
print(scores)
print(scores.mean()) #a média dos scores de cada teste é a acurácia final do nosso modelo

[0.96666667 1.         0.96666667 0.96666667 1.        ]
0.9800000000000001


Ou seja, o modelo treinado com a K-Fold Cross Validation se mostrou mais preciso que o treinado apenas com 1 divisão de dados treino/teste.

Agora vamos tentar aumentar essa precisão utilizado um kernel (conjunto de funções matemáticas) mais sofisiticado para determinar os hiperplanos. Usaremos o kernel polinomial:

In [18]:
clf3 = svm.SVC(kernel="poly", C=1)
scores2 = cross_val_score(clf3, iris.data, iris.target, cv=5)
print(scores2)
print(scores2.mean())

[0.96666667 1.         0.96666667 0.96666667 1.        ]
0.9800000000000001


Não houve mudança, ou seja, utilizamos um modelo mais complexo e não obtivemos vantagem. Possivelmente houve aumento na variância e diminuição no viés de forma equilibrada.