# Sklearn

## sklearn.cross_validation

документация: http://scikit-learn.org/stable/modules/cross_validation.html

In [3]:
from sklearn import cross_validation, datasets

import numpy as np

### Разовое разбиение данных на обучение и тест с помощью train_test_split

In [8]:
iris = datasets.load_iris()

Разбиение выборки признаков iris.data и классов iris.target на обучающую 70% и тестовую 30%. Так мы получили 4 объекта:
- train_data: данные обучения ______________ test_data: данные теста
- train_labels: метка обучения ______________ test_labels: метка теста

In [15]:
train_data, test_data, train_labels, test_labels = cross_validation.train_test_split(iris.data, iris.target, 
                                                                                     test_size = 0.3)

In [18]:
#убедимся, что тестовая выборка действительно составляет 0.3 от всех данных
float(len(test_labels))/len(iris.data)

0.3

In [20]:
print 'Размер обучающей выборки: {} объектов \nРазмер тестовой выборки: {} объектов'.format(len(train_data),
                                                                                            len(test_data))

Размер обучающей выборки: 105 объектов 
Размер тестовой выборки: 45 объектов


In [24]:
print 'Обучающая выборка:\n', train_data[:5]
print '\n'
print 'Тестовая выборка:\n', test_data[:5]

Обучающая выборка:
[[ 6.2  2.2  4.5  1.5]
 [ 5.7  2.9  4.2  1.3]
 [ 5.   3.5  1.6  0.6]
 [ 6.5  2.8  4.6  1.5]
 [ 5.   3.2  1.2  0.2]]


Тестовая выборка:
[[ 4.6  3.6  1.   0.2]
 [ 5.1  3.3  1.7  0.5]
 [ 6.3  3.3  4.7  1.6]
 [ 4.8  3.4  1.6  0.2]
 [ 4.8  3.   1.4  0.3]]


In [25]:
print 'Метки классов на обучающей выборке:\n', train_labels
print '\n'
print 'Метки классов на тестовой выборке:\n', test_labels

Метки классов на обучающей выборке:
[1 1 0 1 0 1 1 2 2 1 2 0 2 0 0 1 2 0 2 0 0 0 0 0 1 2 1 1 1 1 2 1 2 0 2 2 1
 2 2 1 0 1 1 0 0 0 0 0 2 1 1 2 2 0 1 2 0 0 2 2 2 2 2 1 2 1 0 2 1 0 2 2 0 2
 0 0 1 0 1 2 0 2 1 1 0 1 1 1 0 0 1 2 1 1 0 1 0 0 0 1 0 1 0 1 1]


Метки классов на тестовой выборке:
[0 0 1 0 0 1 2 2 2 2 0 0 2 0 2 2 1 2 1 2 1 1 2 2 1 1 2 0 2 2 1 2 1 0 2 0 2
 0 2 2 0 1 0 2 1]


### Стратегии проведения кросс-валидации

#### KFold

При разбиении на K групп, каждая группа участвует в тестировании 1 раз, а в обучении k-1 раз

In [56]:
# разбиение 10 объектов на 5 фолдов
for train_indices, test_indices in cross_validation.KFold(10, n_folds = 5):
    print train_indices, test_indices

[2 3 4 5 6 7 8 9] [0 1]
[0 1 4 5 6 7 8 9] [2 3]
[0 1 2 3 6 7 8 9] [4 5]
[0 1 2 3 4 5 8 9] [6 7]
[0 1 2 3 4 5 6 7] [8 9]


In [57]:
# Перемешивание обучающей и тестовой выборки: shuffle = True
for train_indices, test_indices in cross_validation.KFold(10, n_folds = 2, shuffle = True):
    print train_indices, test_indices

[1 2 3 5 8] [0 4 6 7 9]
[0 4 6 7 9] [1 2 3 5 8]


In [62]:
# Фиксация рандомной выборки (не изменится): random_state = 1
for train_indices, test_indices in cross_validation.KFold(10, n_folds = 2, shuffle = True, random_state = 1):
    print train_indices, test_indices

[1 3 5 7 8] [0 2 4 6 9]
[0 2 4 6 9] [1 3 5 7 8]


#### StratifiedKFold 
схожа с предыдущей, но сохраняет соотношение классов поровну (Стратификация)

In [84]:
# создание массива меток бинарной классификации (классы 0 и 1)
# пусть элементы 0-4 это класс Ноль, а элементы 5-9 это класс Один
target = np.array([0] * 5 + [1] * 5)
print target
for train_indices, test_indices in cross_validation.StratifiedKFold(target, n_folds = 2, shuffle = True, random_state = 0):
    print train_indices, test_indices
# элементы массива меток с индексами 3,4 имеют метку 0, а 8 и 9 метку 1 (т.е. соотношение классов 50/50)

[0 0 0 0 0 1 1 1 1 1]
[3 4 8 9] [0 1 2 5 6 7]
[0 1 2 5 6 7] [3 4 8 9]


In [85]:
# изменим массив меток, пусть четные элементы это класс Ноль, а нечетные элементы это класс Один
target = np.array([0, 1] * 5)
print target
for train_indices, test_indices in cross_validation.StratifiedKFold(target, n_folds = 2,shuffle = True):
    print train_indices, test_indices

[0 1 0 1 0 1 0 1 0 1]
[1 2 3 4] [0 5 6 7 8 9]
[0 5 6 7 8 9] [1 2 3 4]


#### ShuffleSplit
построение случайных перестановок: (количество объектов, сколько итераций, размер тестовой выборки)
- при этом объект может попасть несколько раз в тестовую или в обучающую выборку за несколько итераций

In [86]:
# 10 объектов: 0,1,2,..,9
for train_indices, test_indices in cross_validation.ShuffleSplit(10, n_iter = 10, test_size = 0.2):
    print train_indices, test_indices

[1 6 0 8 4 2 3 7] [5 9]
[2 4 9 3 8 5 7 6] [0 1]
[9 0 5 1 8 7 6 4] [3 2]
[7 5 0 4 2 1 9 6] [8 3]
[2 7 9 3 1 5 4 0] [8 6]
[3 4 0 6 9 5 1 2] [7 8]
[0 8 6 3 7 2 9 1] [4 5]
[8 0 3 9 6 4 1 2] [5 7]
[7 0 4 8 2 3 6 9] [5 1]
[9 1 6 2 0 8 4 7] [5 3]


#### StratifiedShuffleSplit
сохраним соотношение классов предыдущего метода посредством Стратификации

In [87]:
# пусть элементы 0-4 это класс Ноль, а элементы 5-9 это класс Один
target = np.array([0] * 5 + [1] * 5)
print target
for train_indices, test_indices in cross_validation.StratifiedShuffleSplit(target, n_iter = 4, test_size = 0.2):
    print train_indices, test_indices

[0 0 0 0 0 1 1 1 1 1]
[4 7 8 6 1 0 3 9] [2 5]
[4 3 0 9 2 8 5 6] [1 7]
[8 2 1 5 3 6 7 0] [9 4]
[8 2 7 4 6 1 3 5] [9 0]


#### Leave-One-Out
Объект присутствует только один раз в тесте, а сама тестовая выборка состоит только из одного объекта
- Очень удобна при тестировании небольшой выборки данных

In [89]:
for train_indices, test_index in cross_validation.LeaveOneOut(10):
    print train_indices, test_index

[1 2 3 4 5 6 7 8 9] [0]
[0 2 3 4 5 6 7 8 9] [1]
[0 1 3 4 5 6 7 8 9] [2]
[0 1 2 4 5 6 7 8 9] [3]
[0 1 2 3 5 6 7 8 9] [4]
[0 1 2 3 4 6 7 8 9] [5]
[0 1 2 3 4 5 7 8 9] [6]
[0 1 2 3 4 5 6 8 9] [7]
[0 1 2 3 4 5 6 7 9] [8]
[0 1 2 3 4 5 6 7 8] [9]


Больше стратегий проведения кросс-валидации доступно здесь: http://scikit-learn.org/stable/modules/cross_validation.html#cross-validation-iterators