# Sklearn

## sklearn.grid_search

документация: http://scikit-learn.org/stable/modules/grid_search.html

In [15]:
from sklearn import cross_validation, datasets, grid_search, linear_model, metrics

import numpy as np
print(np.__version__)
import pandas as pd
print(pd.__version__)



1.11.1
0.18.1


### Генерация датасета

In [21]:
iris = datasets.load_iris()


In [23]:
train_data, test_data, train_labels, test_labels = cross_validation.train_test_split(iris.data, iris.target, 
                                                                                     test_size = 0.3,random_state = 0)

### Задание модели

In [24]:
classifier = linear_model.SGDClassifier(random_state = 0)

### Генерация сетки

In [35]:
classifier.get_params().keys()# степени свободы, какие параметры мы можем подобрать

dict_keys(['n_iter', 'penalty', 'l1_ratio', 'fit_intercept', 'warm_start', 'class_weight', 'random_state', 'average', 'shuffle', 'power_t', 'alpha', 'verbose', 'n_jobs', 'epsilon', 'eta0', 'loss', 'learning_rate'])

In [36]:
parameters_grid = {
    'loss' : ['hinge', 'log', 'squared_hinge', 'squared_loss'],
    'penalty' : ['l1', 'l2'],
    'n_iter' : range(5,10),
    'alpha' : np.linspace(0.0001, 0.001, num = 5),
}

давайте будем подбирать только несколько. С одной стороны, можно выбрать вид функции потерь, будем рассматривать hinge, log, squared_hinge и squared_loss. Также давайте выберем вид регуляризации — выберем между l1 и l2. Также можем подобрать количество итераций — давайте подбирать от 5 до 10, по умолчанию у нас 5 итераций. И выберем коэффициент alpha — это множитель перед регуляризацией. По умолчанию у нас доступно значение 0,0001. Ну, вот давайте создадим отрезок от 0,0001 до 0,001, бросим на него равномерно пять точек и будем использовать их в качестве весов. Это можно сделать с помощью метода linspace. 
В данном случае в качестве сетки мы будем использовать словарь, у которого ключ — это название параметра, который мы подбираем. Видите, что эти названия совпадают с названиями из get_params. А в качестве значения идет набор значений, которые мы хотим проверить. Таким образом, если мы построим декартово произведение на этих параметрах, то мы получим точки со всеми возможными наборами параметров. Собственно, это нам и хочется получить. Мы хотим в каждой из этих точек измерить качество классификации, далее сравнить, посмотреть, где качество максимальное, и сказать, что вот это есть оптимальные параметры. Это такой метод полного перебора на множестве параметров, и, в общем-то, он и называется поиском по сетке. 

In [37]:
cv = cross_validation.StratifiedShuffleSplit(train_labels, n_iter = 10, test_size = 0.2, random_state = 0)

так, давайте создадим стратегию кросс-валидации, с помощью которой мы будем оценивать качество. В данном случае я использую ShuffleSplit, буду делать 10 итераций, и в тестовую выборку будет идти 20 % данных. И теперь можно перейти непосредственно как бы к подбору параметров. 

### Подбор параметров и оценка качества

#### Grid search

In [42]:
#grid_cv = grid_search.GridSearchCV(classifier, parameters_grid, scoring = 'accuracy', cv = cv)

In [44]:
%%time
#grid_cv.fit(train_data, train_labels)

CPU times: user 5 µs, sys: 0 ns, total: 5 µs
Wall time: 11 µs


In [None]:
grid_cv.best_estimator_

In [None]:
print grid_cv.best_score_
print grid_cv.best_params_

In [None]:
grid_cv.grid_scores_[:10]

#### Randomized grid search

In [None]:
randomized_grid_cv = grid_search.RandomizedSearchCV(classifier, parameters_grid, scoring = 'accuracy', cv = cv, n_iter = 20, 
                                                   random_state = 0)

In [None]:
%%time
randomized_grid_cv.fit(train_data, train_labels)

In [None]:
print randomized_grid_cv.best_score_
print randomized_grid_cv.best_params_