In [3]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import sklearn

Сгенерируем синтетические данные:

In [5]:
from sklearn import datasets

In [12]:
X, y = datasets.make_classification(n_samples=500, n_features=2, 
                                    n_redundant=0)

Отметим на графике объекты:

* cmap — цветовая палитра
* alpha — прозрачность
* c — цвет

In [None]:
plt.figure(figsize=(7, 7))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='jet', alpha=0.5)

Разделим выборку на обучение и контроль:

In [25]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2)

Далее будем обучать классификатор K ближайших соседей с гиперпараметрами по умолчанию:

In [33]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)

accuracy_score(y_test, y_pred)

0.93999999999999995

Настроим гиперпараметры:

In [40]:
from sklearn.grid_search import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import roc_auc_score

* param_grid — словарь, где ключи — имена аргументов, а значения — список/массив со значениями, которые мы хотим проверить
* make_scorer — функция, которая превращает метрику качества в представление, удобное для GridSearchCV

In [85]:
param_grid = {'n_neighbors': np.arange(1, 20),
             'p': np.arange(1, 5)}
gs = GridSearchCV(KNeighborsClassifier(), param_grid, 
                  scoring=make_scorer(accuracy_score))

In [None]:
gs.fit(X_train, y_train)

 Оптимальные параметры:

In [52]:
gs.best_params_

{'n_neighbors': 5}

Можно делать так:

In [54]:
gs.best_estimator_.predict

<bound method KNeighborsClassifier.predict of KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')>

Функция для написания кросс-валидации «своими руками»:

In [55]:
from sklearn.cross_validation import KFold

In [66]:
kfold = KFold(10, n_folds=5)
for idx_train, idx_test in kfold:
    print(idx_train, idx_test)

[2 3 4 5 6 7 8 9] [0 1]
[0 1 4 5 6 7 8 9] [2 3]
[0 1 2 3 6 7 8 9] [4 5]
[0 1 2 3 4 5 8 9] [6 7]
[0 1 2 3 4 5 6 7] [8 9]


Шкалирование признаков:

In [67]:
from sklearn.preprocessing import MinMaxScaler

In [68]:
scaler = MinMaxScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

In [70]:
X_scaled.min(axis=0)

array([ 0.,  0.])

In [72]:
X_scaled.max(axis=0)

array([ 1.,  1.])

In [73]:
X.min(axis=0)

array([-2.53763589, -2.86192138])

In [74]:
X.max(axis=0)

array([ 2.53876077,  3.26669774])

Задача регрессии:

In [83]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.datasets import make_friedman1
from sklearn.metrics import mean_squared_error

In [79]:
X, y = make_friedman1(n_samples=500, n_features=10)

In [82]:
knn = KNeighborsRegressor()
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)

In [84]:
mean_squared_error(y_test, y_pred)

8.9767774678031547