In [10]:
from sklearn import datasets
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

import numpy as np
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(font_scale=1.5)

## Кросс-валидация

Загрузим уже знакомый вам датасет о диабете.

In [11]:
data = datasets.load_diabetes()
X = data['data']
y = data['target']


Мы хотим посмотреть, насколько хорошо работают наши модели при различных разбиениях данных. На лекции вы ознакомилимь в принципами работы  `k-Fold` кросс-валидации, давайте посмотрим как это работает на практике.

Выберем кол-во сплитов, на которое мы хотим разделить наши данные.

In [12]:
kf = KFold(n_splits=5)

Посмотрим, что выдает функция разбиения.

In [13]:
kf.split(X, y)

<generator object _BaseKFold.split at 0x79d5cc2ce110>

Мы получаем генератор, посмотрим подробнее на небольшой подвыборке для наглядности.

In [14]:
for train, test in kf.split(X[:10], y[:10]): 
    print('Train: ', train, 'Test: ', test)


Train:  [2 3 4 5 6 7 8 9] Test:  [0 1]
Train:  [0 1 4 5 6 7 8 9] Test:  [2 3]
Train:  [0 1 2 3 6 7 8 9] Test:  [4 5]
Train:  [0 1 2 3 4 5 8 9] Test:  [6 7]
Train:  [0 1 2 3 4 5 6 7] Test:  [8 9]


При каждой итерации мы получаем два списка с индексами: тренировочные индексы и тестовые. Благодарая им мы можем на каждой итерации отделять разные тестовые выборки, чтобы посчитать метрики качества на них. На каждой итерации необходимо заново обучать модель и делать предсказания.




In [24]:
mse = []
mape = []
for train, test in kf.split(X, y): 
    # инициализируйте и обучите модель решающего дерева
    model = DecisionTreeRegressor(random_state=207)
    model.fit(X[train], y[train])
    

    # сделайте предсказание
    pred = model.predict(X[test])

    # посчитайте метрики и сохраните их
    mse.append(mean_squared_error(y[test], pred))
    mape.append(mean_absolute_percentage_error(y[test], pred))

Посмотрим, как меняются метрики качества во время кросс-валидации.

In [25]:
mse

[6553.0224719101125,
 6782.269662921349,
 6849.386363636364,
 4741.227272727273,
 7372.0]

In [26]:
mape

[0.5980233883408058,
 0.5454432005543316,
 0.5323196167440241,
 0.38235571640104654,
 0.604986794805532]

Вывод: ошибки примерно одинаковые для всех выборок -> данные распределены хорошо