# Крос-валідація. Sklearn.model_selection

Документація: http://scikit-learn.org/stable/modules/cross_validation.html

In [1]:
from sklearn import model_selection, datasets

import numpy as np

### Разове разбиття даних на навчання та тест з допомогою  train_test_split

In [2]:
iris = datasets.load_iris()
print(len(iris))
print(iris.keys())

7
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [3]:
train_data, test_data, train_labels, test_labels = model_selection.train_test_split(iris.data, 
                                                    iris.target, test_size = 0.3)

In [4]:
# Переконаємося, що тестова вибірка дійсно становить 0.3 від всіх даних
float(len(test_labels)) / len(iris.data)

0.3

In [5]:
print ('Розмір навчальної вибірки: {} обєктів \nРазмер тестової вибірки: {} обєктів'.
       format(len(train_data),len(test_data)))

Розмір навчальної вибірки: 105 обєктів 
Размер тестової вибірки: 45 обєктів


In [6]:
print ('Навчальна вибірка: \n', train_data [: 5])
print ('\n')
print ('Тестова вибірка: \n', test_data [: 5])

Навчальна вибірка: 
 [[5.  3.5 1.3 0.3]
 [5.1 3.3 1.7 0.5]
 [6.2 2.9 4.3 1.3]
 [5.6 2.9 3.6 1.3]
 [6.  2.7 5.1 1.6]]


Тестова вибірка: 
 [[5.5 2.6 4.4 1.2]
 [4.7 3.2 1.3 0.2]
 [4.4 3.  1.3 0.2]
 [4.4 3.2 1.3 0.2]
 [5.  2.  3.5 1. ]]


In [7]:
print ('Мітки класів на навчальній вибірці: \n', train_labels)
print ('\n')
print ('Мітки класів на тестовій вибірці:  \n', test_labels)

Мітки класів на навчальній вибірці: 
 [0 0 1 1 1 1 2 0 1 2 2 2 2 2 0 2 0 1 1 2 0 1 1 1 0 0 1 1 1 0 0 2 1 0 1 2 2
 2 0 0 1 1 1 1 0 2 2 1 0 1 2 0 1 2 0 2 2 0 0 2 1 2 2 1 1 2 0 1 2 2 2 2 2 1
 1 0 1 0 1 0 1 2 0 0 0 0 1 1 0 2 2 0 0 2 0 0 1 0 0 2 1 0 2 2 1]


Мітки класів на тестовій вибірці:  
 [1 0 0 0 1 2 2 2 1 1 0 1 0 2 0 0 1 1 2 0 0 1 0 2 1 2 0 1 0 1 2 1 2 2 2 2 0
 2 2 1 0 2 1 2 0]


### Стратегії проведення крос-валідаціі¶

In [8]:
# Сгенеруємо  короткий  датасет
X = np.arange (10,20)
print(X)

[10 11 12 13 14 15 16 17 18 19]


#### KFold

In [10]:
# Функція KFold не будує  розбивку вихідних даних. Вона повертає  пари індексів: 
# індекси з навчання й індекси з тестів
kf = model_selection.KFold(n_splits = 5)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices, end="      ")
    print(X[train_indices], X[test_indices])

[2 3 4 5 6 7 8 9] [0 1]      [12 13 14 15 16 17 18 19] [10 11]
[0 1 4 5 6 7 8 9] [2 3]      [10 11 14 15 16 17 18 19] [12 13]
[0 1 2 3 6 7 8 9] [4 5]      [10 11 12 13 16 17 18 19] [14 15]
[0 1 2 3 4 5 8 9] [6 7]      [10 11 12 13 14 15 18 19] [16 17]
[0 1 2 3 4 5 6 7] [8 9]      [10 11 12 13 14 15 16 17] [18 19]


In [12]:
# перемішуємо елементи 
kf = model_selection.KFold(n_splits = 5, shuffle = True)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices, end="      ")
    print(X[train_indices], X[test_indices])

[0 2 3 5 6 7 8 9] [1 4]      [10 12 13 15 16 17 18 19] [11 14]
[0 1 2 3 4 7 8 9] [5 6]      [10 11 12 13 14 17 18 19] [15 16]
[1 2 4 5 6 7 8 9] [0 3]      [11 12 14 15 16 17 18 19] [10 13]
[0 1 3 4 5 6 7 9] [2 8]      [10 11 13 14 15 16 17 19] [12 18]
[0 1 2 3 4 5 6 8] [7 9]      [10 11 12 13 14 15 16 18] [17 19]


In [14]:
kf = model_selection.KFold(n_splits = 5, shuffle = True, random_state = 1)
for train_indices, test_indices in kf.split(X):
    print(train_indices, test_indices, end="      ")
    print(X[train_indices], X[test_indices])   

[0 1 3 4 5 6 7 8] [2 9]      [10 11 13 14 15 16 17 18] [12 19]
[0 1 2 3 5 7 8 9] [4 6]      [10 11 12 13 15 17 18 19] [14 16]
[1 2 4 5 6 7 8 9] [0 3]      [11 12 14 15 16 17 18 19] [10 13]
[0 2 3 4 5 6 8 9] [1 7]      [10 12 13 14 15 16 18 19] [11 17]
[0 1 2 3 4 6 7 9] [5 8]      [10 11 12 13 14 16 17 19] [15 18]


#### StratifiedKFold

In [15]:
# Зберігаємо співвідношення класів у навчальним і тестових подвибірках
y = np.array([0] * 5 + [1] * 5)
print(y)

[0 0 0 0 0 1 1 1 1 1]


In [16]:
# Зберігаємо співвідношення класів у навчальним і тестових подвибірках
skf = model_selection.StratifiedKFold(n_splits = 5, shuffle = True, random_state = 1)
for train_indices, test_indices in skf.split(X, y):
    print(train_indices, test_indices)
    print(y[train_indices], y[test_indices], "Індекси Класи "'\n')

[0 1 2 4 6 7 8 9] [3 5]
[0 0 0 0 1 1 1 1] [0 1] Індекси Класи 

[0 2 3 4 5 6 7 8] [1 9]
[0 0 0 0 1 1 1 1] [0 1] Індекси Класи 

[1 2 3 4 5 7 8 9] [0 6]
[0 0 0 0 1 1 1 1] [0 1] Індекси Класи 

[0 1 2 3 5 6 7 9] [4 8]
[0 0 0 0 1 1 1 1] [0 1] Індекси Класи 

[0 1 3 4 5 6 8 9] [2 7]
[0 0 0 0 1 1 1 1] [0 1] Індекси Класи 



In [17]:
target = np.array([0, 1] * 5)
print(target)

[0 1 0 1 0 1 0 1 0 1]


In [18]:
skf = model_selection.StratifiedKFold(n_splits = 5, shuffle = True, random_state = 1)
for train_indices, test_indices in skf.split(X, target):
    print(train_indices, test_indices)
    print(y[train_indices], y[test_indices], "Індекси Класи "'\n')

[0 2 3 4 5 7 8 9] [1 6]
[0 0 0 0 1 1 1 1] [0 1] Індекси Класи 

[0 1 3 4 5 6 7 8] [2 9]
[0 0 0 0 1 1 1 1] [0 1] Індекси Класи 

[1 2 4 5 6 7 8 9] [0 3]
[0 0 0 1 1 1 1 1] [0 0] Індекси Класи 

[0 1 2 3 4 5 6 9] [7 8]
[0 0 0 0 0 1 1 1] [1 1] Індекси Класи 

[0 1 2 3 6 7 8 9] [4 5]
[0 0 0 0 1 1 1 1] [0 1] Індекси Класи 



#### ShuffleSplit

In [22]:
# Можемо  будувати   випадкові перестановки. Можемо одержати дуже багато вибірок. 
# Відсутня гарантя, що всі поля будуть різними
# Вибірки з поверненням
ss = model_selection.ShuffleSplit(n_splits = 10, test_size = 0.2)

for train_indices, test_indices in ss.split(X):
    print(train_indices, test_indices)
    print(y[train_indices], y[test_indices], "Індекси Класи "'\n')

[2 6 8 5 9 7 3 0] [1 4]
[0 1 1 1 1 1 0 0] [0 0] Індекси Класи 

[4 5 1 2 9 0 8 6] [7 3]
[0 1 0 0 1 0 1 1] [1 0] Індекси Класи 

[0 8 7 1 6 5 4 3] [2 9]
[0 1 1 0 1 1 0 0] [0 1] Індекси Класи 

[7 5 6 1 9 2 0 4] [8 3]
[1 1 1 0 1 0 0 0] [1 0] Індекси Класи 

[7 6 1 9 3 0 2 5] [4 8]
[1 1 0 1 0 0 0 1] [0 1] Індекси Класи 

[7 5 2 1 0 3 9 4] [6 8]
[1 1 0 0 0 0 1 0] [1 1] Індекси Класи 

[3 4 8 0 9 6 5 7] [1 2]
[0 0 1 0 1 1 1 1] [0 0] Індекси Класи 

[8 9 7 6 1 0 3 5] [2 4]
[1 1 1 1 0 0 0 1] [0 0] Індекси Класи 

[7 8 2 5 3 4 9 1] [6 0]
[1 1 0 1 0 0 1 0] [1 0] Індекси Класи 

[0 5 8 1 3 2 9 7] [4 6]
[0 1 1 0 0 0 1 1] [0 1] Індекси Класи 



#### StratifiedShuffleSplit

In [23]:
# shuffle_split  можна стратифікувати. Отримуємо збалансовані вибірки
target = np.array([0] * 5 + [1] * 5)
print(target, '\n')

sss = model_selection.StratifiedShuffleSplit(n_splits = 4, test_size = 0.2)
for train_indices, test_indices in sss.split(X, target):
    print(train_indices, test_indices)
    print(y[train_indices], y[test_indices], "Індекси Класи "'\n')

[0 0 0 0 0 1 1 1 1 1] 

[3 5 1 9 0 2 8 7] [4 6]
[0 1 0 1 0 0 1 1] [0 1] Індекси Класи 

[7 1 3 2 8 4 5 9] [6 0]
[1 0 0 0 1 0 1 1] [1 0] Індекси Класи 

[0 9 7 2 4 5 6 1] [8 3]
[0 1 1 0 0 1 1 0] [1 0] Індекси Класи 

[6 3 8 7 1 2 4 9] [0 5]
[1 0 1 1 0 0 0 1] [0 1] Індекси Класи 



#### Leave-One-Out

In [24]:
loo = model_selection.LeaveOneOut()

for train_indices, test_index in loo.split(X):
    print(train_indices, test_index)

[1 2 3 4 5 6 7 8 9] [0]
[0 2 3 4 5 6 7 8 9] [1]
[0 1 3 4 5 6 7 8 9] [2]
[0 1 2 4 5 6 7 8 9] [3]
[0 1 2 3 5 6 7 8 9] [4]
[0 1 2 3 4 6 7 8 9] [5]
[0 1 2 3 4 5 7 8 9] [6]
[0 1 2 3 4 5 6 8 9] [7]
[0 1 2 3 4 5 6 7 9] [8]
[0 1 2 3 4 5 6 7 8] [9]


Більше стратегій проведення крос-валідації є тут: http://scikit-learn.org/stable/modules/cross_validation.html#cross-validation-iterators