**Корректность проверена на Python 3.6:**
+ numpy 1.15.4
+ sklearn 0.20.2

# Sklearn

## sklearn.model_selection

документация: http://scikit-learn.org/stable/modules/cross_validation.html

In [2]:
from sklearn import model_selection, datasets
import numpy as np

### Разовое разбиение данных на обучение и тест с помощью train_test_split

In [3]:
iris = datasets.load_iris()
type(iris)

sklearn.utils.Bunch

In [4]:
# получаем разибитые данные на обучающую выборку и отложенную (тестовую) выборку

train_data, test_data, train_labels, test_labels = model_selection.train_test_split(iris.data, iris.target, 
                                                                                     test_size = 0.3)

In [5]:
#убедимся, что тестовая выборка действительно составляет 0.3 от всех данных
len(test_labels)/len(iris.data)

0.3

In [6]:
# вываедем размеры выборок
print('Размер обучающей выборки: {} объектов \nРазмер тестовой выборки: {} объектов'.format(len(train_data),
                                                                                            len(test_data)))

Размер обучающей выборки: 105 объектов 
Размер тестовой выборки: 45 объектов


In [7]:
# Выведем часть выборок
print('Обучающая выборка:\n', train_data[:5])
print('\n')
print('Тестовая выборка:\n', test_data[:5])

Обучающая выборка:
 [[6.  2.2 4.  1. ]
 [6.2 2.8 4.8 1.8]
 [5.4 3.4 1.5 0.4]
 [7.6 3.  6.6 2.1]
 [5.  3.5 1.6 0.6]]


Тестовая выборка:
 [[4.9 3.  1.4 0.2]
 [6.3 3.4 5.6 2.4]
 [6.1 2.8 4.  1.3]
 [4.9 2.4 3.3 1. ]
 [4.5 2.3 1.3 0.3]]


In [8]:
# Под labels видиом понимается ответы для объектов.
print('Метки классов на обучающей выборке:\n', train_labels)
print('\n')
print('Метки классов на тестовой выборке:\n', test_labels)

Метки классов на обучающей выборке:
 [1 2 0 2 0 1 1 1 2 1 0 0 0 0 0 2 2 2 2 0 2 2 2 1 1 0 0 0 0 2 1 1 1 1 2 1 0
 0 1 0 2 2 2 1 2 1 1 1 2 2 0 2 1 0 0 1 1 2 1 1 1 2 2 2 2 0 0 0 1 1 0 2 2 2
 1 2 2 2 0 1 0 0 2 1 2 2 1 2 1 2 0 2 0 0 2 1 1 0 0 2 0 1 2 0 1]


Метки классов на тестовой выборке:
 [0 2 1 1 0 1 0 0 2 2 2 2 0 0 1 1 0 0 1 1 0 2 1 0 1 1 0 2 2 0 0 0 1 0 0 1 0
 1 1 2 1 2 2 1 0]


### Стратегии проведения кросс-валидации

In [9]:
#сгенерируем короткое подобие датасета, где элементы совпадают с порядковым номером
X = range(0,10)
X

range(0, 10)

#### KFold

In [10]:
kf = model_selection.KFold(n_splits = 5)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices)

[2 3 4 5 6 7 8 9] [0 1]
[0 1 4 5 6 7 8 9] [2 3]
[0 1 2 3 6 7 8 9] [4 5]
[0 1 2 3 4 5 8 9] [6 7]
[0 1 2 3 4 5 6 7] [8 9]


In [11]:
# разделение объектов при перемешивании исходной выборки. За это отвечает параметр shuffle
kf = model_selection.KFold(n_splits = 2, shuffle = True)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices)

[1 2 4 5 8] [0 3 6 7 9]
[0 3 6 7 9] [1 2 4 5 8]


In [12]:
# если мы хотим разбить случайны образом, но зафиксировать этот порядок.
# Видимо предпологается использовать конкретное ядро для генерации случайного разделения.
kf = model_selection.KFold(n_splits = 2, shuffle = True, random_state = 1)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices)
    
# Это может помочь, если мы хотим, чтобы результаты работы были воспроизводимы.

[1 3 5 7 8] [0 2 4 6 9]
[0 2 4 6 9] [1 3 5 7 8]


#### StratifiedKFold

In [13]:
# Данный подход сохраняет соотношение классов в обучающей и отложенной выборке.Stratified - стратификация.

y = np.array([0] * 5 + [1] * 5)
print(y)

skf = model_selection.StratifiedKFold(n_splits = 2, shuffle = True, random_state = 0)
for train_indices, test_indices in skf.split(X, y):
    print(train_indices, test_indices)

[0 0 0 0 0 1 1 1 1 1]
[3 4 6 8 9] [0 1 2 5 7]
[0 1 2 5 7] [3 4 6 8 9]


In [14]:
target = np.array([0, 1] * 5)
print(target)

skf = model_selection.StratifiedKFold(n_splits = 2,shuffle = True)
for train_indices, test_indices in skf.split(X, target):
    print(train_indices, test_indices)

[0 1 0 1 0 1 0 1 0 1]
[1 2 3 7 8] [0 4 5 6 9]
[0 4 5 6 9] [1 2 3 7 8]


Вопрос

Подумайте, а зачем может быть нужна стратификация при разбиении на фолды?

#### ShuffleSplit

In [16]:
# Можно получить различные разбиения, которые будут не зависеть друг от друга. 
# Нет отдельной спецификации какой объект должен сколько раз появиться в каких выборках.
# Это называется действие с возвращением - получаем разбиение и можно стоить другое независимо от предыдущего. 

ss = model_selection.ShuffleSplit(n_splits = 10, test_size = 0.2)

for train_indices, test_indices in ss.split(X):
    print(train_indices, test_indices)

[0 9 6 1 5 2 4 8] [7 3]
[3 8 9 5 4 6 1 2] [0 7]
[8 2 4 0 9 6 5 3] [7 1]
[5 3 9 1 7 6 0 4] [2 8]
[9 8 6 4 3 1 7 5] [0 2]
[7 8 0 1 3 4 6 5] [9 2]
[1 9 0 8 4 6 3 5] [7 2]
[4 7 5 8 3 0 1 9] [2 6]
[3 1 6 5 7 4 8 2] [9 0]
[3 0 7 8 9 6 5 1] [2 4]


#### StratifiedShuffleSplit

In [28]:
# ShuffleSplit можно стратифицировать. И в этом случае мы будем получать выбоки, которые имеют исходные соотношения классов.

target = np.array([0] * 5 + [1] * 5)
print(target)

sss = model_selection.StratifiedShuffleSplit(n_splits = 4, test_size = 0.2)
for train_indices, test_indices in sss.split(X, target):
    print(train_indices, test_indices)
    
# вдино, что в тесте есть объект 0 класса и 1 класса. 

[0 0 0 0 0 1 1 1 1 1]
[4 6 8 0 5 3 2 7] [9 1]
[1 6 0 4 9 5 3 8] [7 2]
[3 4 7 1 9 6 5 2] [8 0]
[5 3 1 4 7 6 9 2] [0 8]


#### Leave-One-Out

In [None]:
# Это статегия позволяет оставить каждый объект в тесте один раз.
# Эта очень удобная стратегия кроссвалидации, 
# которая хорошо использватья, когда мы имеем небольшую выборку данных. 

loo = model_selection.LeaveOneOut()

for train_indices, test_index in loo.split(X):
    print(train_indices, test_index)

Больше стратегий проведения кросс-валидации доступно здесь: http://scikit-learn.org/stable/modules/cross_validation.html#cross-validation-iterators