# Sklearn

## sklearn.model_selection

документация: http://scikit-learn.org/stable/modules/cross_validation.html

In [1]:
from sklearn import model_selection, datasets

import numpy as np

### Разовое разбиение данных на обучение и тест с помощью train_test_split

In [2]:
iris = datasets.load_iris()

In [3]:
train_data, test_data, train_labels, test_labels = model_selection.train_test_split(iris.data, iris.target, 
                                                                                     test_size = 0.3)

In [4]:
#убедимся, что тестовая выборка действительно составляет 0.3 от всех данных
float(len(test_labels))/len(iris.data)

0.3

In [5]:
print('Размер обучающей выборки: {} объектов \nРазмер тестовой выборки: {} объектов'.format(len(train_data),
                                                                                            len(test_data)))

Размер обучающей выборки: 105 объектов 
Размер тестовой выборки: 45 объектов


In [6]:
print('Обучающая выборка:\n', train_data[:5])
print('\n')
print('Тестовая выборка:\n', test_data[:5])

Обучающая выборка:
 [[6.3 3.3 6.  2.5]
 [5.  3.5 1.3 0.3]
 [6.1 2.9 4.7 1.4]
 [6.9 3.1 5.4 2.1]
 [6.  2.9 4.5 1.5]]


Тестовая выборка:
 [[6.5 3.2 5.1 2. ]
 [6.1 2.8 4.7 1.2]
 [6.3 3.4 5.6 2.4]
 [6.3 2.3 4.4 1.3]
 [7.6 3.  6.6 2.1]]


In [7]:
print('Метки классов на обучающей выборке:\n', train_labels)
print('\n')
print('Метки классов на тестовой выборке:\n', test_labels)

Метки классов на обучающей выборке:
 [2 0 1 2 1 0 2 2 0 2 0 2 1 1 0 1 2 0 0 1 0 1 2 0 0 2 2 2 1 0 2 0 0 1 2 2 1
 0 0 1 1 2 1 1 1 1 0 2 1 0 0 0 2 0 2 1 0 0 2 1 2 1 2 0 0 2 2 1 0 2 2 2 2 1
 1 0 0 0 0 1 2 1 2 0 1 2 2 2 0 1 0 0 2 0 1 1 0 1 2 1 1 2 0 0 2]


Метки классов на тестовой выборке:
 [2 1 2 1 2 2 0 0 0 2 2 1 1 2 0 1 2 2 0 1 2 0 2 1 0 1 1 1 2 2 0 1 1 0 0 1 2
 1 1 0 1 1 0 1 0]


### Стратегии проведения кросс-валидации

In [8]:
#сгенерируем короткое подобие датасета, где элементы совпадают с порядковым номером
X = range(0,50)

#### KFold

In [9]:
kf = model_selection.KFold(n_splits = 5)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices)

[10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49] [0 1 2 3 4 5 6 7 8 9]
[ 0  1  2  3  4  5  6  7  8  9 20 21 22 23 24 25 26 27 28 29 30 31 32 33
 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49] [10 11 12 13 14 15 16 17 18 19]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 30 31 32 33
 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49] [20 21 22 23 24 25 26 27 28 29]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 40 41 42 43 44 45 46 47 48 49] [30 31 32 33 34 35 36 37 38 39]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39] [40 41 42 43 44 45 46 47 48 49]


In [10]:
kf = model_selection.KFold(n_splits = 2, shuffle = True)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices)

[ 0  4  5  7  9 13 14 15 17 18 19 20 21 22 24 25 30 32 33 37 38 41 46 47
 49] [ 1  2  3  6  8 10 11 12 16 23 26 27 28 29 31 34 35 36 39 40 42 43 44 45
 48]
[ 1  2  3  6  8 10 11 12 16 23 26 27 28 29 31 34 35 36 39 40 42 43 44 45
 48] [ 0  4  5  7  9 13 14 15 17 18 19 20 21 22 24 25 30 32 33 37 38 41 46 47
 49]


In [11]:
kf = model_selection.KFold(n_splits = 2, shuffle = True, random_state = 1)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices)

[ 0  1  4  5  6  7  8  9 10 11 12 14 15 16 18 20 25 28 30 33 34 37 43 44
 47] [ 2  3 13 17 19 21 22 23 24 26 27 29 31 32 35 36 38 39 40 41 42 45 46 48
 49]
[ 2  3 13 17 19 21 22 23 24 26 27 29 31 32 35 36 38 39 40 41 42 45 46 48
 49] [ 0  1  4  5  6  7  8  9 10 11 12 14 15 16 18 20 25 28 30 33 34 37 43 44
 47]


#### ShuffleSplit

In [14]:
ss = model_selection.ShuffleSplit(n_splits = 10, test_size = 0.2)

for train_indices, test_indices in ss.split(X):
    print(train_indices, test_indices)

[19 37 46 22 29 14  7  6 12 48  1 35  3 34  5 31 13 28 25  8 11 15  4 39
 30 36 44  9 18 16 23 17 20 47 21  2 42 27 40 41] [38 10  0 49 32 45 26 24 33 43]
[10 32 19 17 48  8 29 37  3 11 15 33 23 28 43 31  0  9 30 26 22 42 25 35
  7 40 38 14 36 27 44  2 12 47 49 18  5  4 21 39] [41 45 13 20 34 24  6 16  1 46]
[40 27 37 29 32 48 20 14 26 36 17  7 30 49 35 24 42  0 21 46 45 22 31 16
 44  3 19  8 13 33  4 25 12 47 39  9  6  5 15 41] [ 1  2 11 10 43 38 18 34 23 28]
[18 27  6  1 41  2 46 29 44 11 36 35 25 30 19 31 26 16  7 48  3 22 34 39
 33 38 47 37  9 40  0 32 23  5  8 42  4 21 28 20] [43 17 15 24 14 49 45 12 10 13]
[23 28 32 31 16 30 12 33 27 43 25 47 46 22 44  5  2  8 38 19 13 24  9  0
 49 21 29 48 15 37 35  7  4  3 41  1 11 42 10 34] [18 26 45 20 14 39  6 17 40 36]
[33  8 47  4  3 17 18 29 44 12 19 24 39 26 32 45 23  7 25  2  6 37 38 48
 40  0 13 41 20 43 30 21 27 15 46 31  5  9 10 36] [42 22 49 28 16 11  1 35 34 14]
[26 32 24 45 34 21 30 47 38  7 36 37 17 15  0 40 12 25 48  4  2 43 46 

#### Leave-One-Out

In [16]:
loo = model_selection.LeaveOneOut()

for train_indices, test_index in loo.split(X):
    print(train_indices, test_index)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49] [0]
[ 0  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49] [1]
[ 0  1  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49] [2]
[ 0  1  2  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49] [3]
[ 0  1  2  3  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49] [4]
[ 0  1  2  3  4  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49] [5]
[ 0  1  2  3  4  5  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 