In [1]:
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split, KFold

In [2]:
wine = datasets.load_wine()
x = wine.data
y = wine.target

In [3]:
print(f"Rows: {x.shape[0]}")
print(f"Columns: {x.shape[1]}")
print(f"Classes: {len(np.unique(y))}")

Rows: 178
Columns: 13
Classes: 3


In [5]:
# Amostragem holdout

# separa em subconjunto treinamento/teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.4, random_state=42)
print(f"train (60%): {len(x_train)}")
print(f"test (40%): {len(x_test)}")

# realiza aprendizagem sobre o subconjunto de treinamento
clf = LogisticRegression(solver="liblinear")
clf.fit(x_train, y_train)

# classifica os dados não vistos no subconjunto de teste
y_pred = clf.predict(x_test)

# compara resultados reais e preditos
print(f"accuracy: {accuracy_score(y_test, y_pred)}")

train (60%): 106
test (40%): 72
accuracy: 0.9305555555555556


In [7]:
# Validação cruzada

acc = []

# realiza aprendizagem por validação cruzada
kf = KFold(n_splits=5)

for train_index, test_index in kf.split(x):
    # constrói os subconjuntos de trainmento/teste para cada partição
    x_train, y_train = x[train_index], y[train_index]
    x_test, y_test = x[test_index], y[test_index]

    # realiza aprendizagem sobre o subconjunto de treinamento
    clf = LogisticRegression(solver="liblinear")
    clf.fit(x_train, y_train)

    # classifica os dados não vistos no subconjunto de teste
    y_pred = clf.predict(x_test)

    # calcula e armazena a acuracia do modelo atual 
    acc.append(accuracy_score(y_test, y_pred))

print(f"accuracy: {np.mean(acc)} +- {np.std(acc)}")

accuracy: 0.9330158730158731 +- 0.037591242822113
