In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, KFold
from sklearn.metrics import *
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler

## Загрузим готовый датасет Breast Cancer из библиотеки Sklearn и разделим данные на train/test

In [2]:
X, y = load_breast_cancer(return_X_y = True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.15, shuffle=True, random_state=0)

# Стандартизируем данные
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [3]:
# Разделим данные на 10 равных частей для использования метода перекрестной валидации

In [7]:
# Класс KFold  создает модель для перекрестной валидации
kfold = KFold(n_splits=10, shuffle = True, random_state=0)

train_acc=[]
test_acc = []

for train, test in kfold.split(X):
#     Метод split случайно выбирает 10% индексов данных для проверочной выборки, а остальные 90% 
#     индексов строк данных отделяются для тренировки
#     В следующем повтроеннии, будут выбраны 10% новых индексов для теста и т.д.
#     Важно!!! переменные train and test будут содержать в себе только индексы выбранных строк данных,
#     а не сами данные!
    #print('train: %s, test: %s' % (train, test))
    
# Воспользуемся моделью персептрона из класса SGDClassifier для тренировки
    model = SGDClassifier(loss='perceptron', shuffle=True, random_state=42)
    model.fit(X[train], y[train])
    y_train_pred = model.predict(X[train])
    y_test_pred = model.predict(X[test])

    tr_acc = accuracy_score(y[train], y_train_pred)
    train_acc.append(tr_acc)

    te_acc = accuracy_score(y[test], y_test_pred)
    test_acc.append(te_acc)

    
print("Mean train accuracy across 10 folds ", np.mean(train_acc))
print("Mean test accuracy across 10 folds ", np.mean(test_acc))


Mean train accuracy across 10 folds  0.8611583211500975
Mean test accuracy across 10 folds  0.8768483709273183
