## Немного теории
Метод k ближайших соседей реализован в классе sklearn.neighbors.KNeighborsClassifier. Основным параметром является n_neighbors, который задает число соседей для построения прогноза.

Вам понадобится производить кросс-валидацию по блокам. Кросс-валидация заключается в разделении выборки на m непересекающихся блоков примерно одинакового размера, после чего выполняется m шагов. На i-м шаге i-й блок выступает в качестве тестовой выборки, объединение всех остальных блоков — в качестве обучающей выборки. Соответственно, на каждом шаге алгоритм обучается на некоторой обучающей выборке, после чего вычисляется его качество на тестовой выборке. После выполнения m шагов мы получаем m показателей качества, усреднение которых и дает оценку кросс-валидации.

In [39]:
import pandas as pd
import numpy as np
from sklearn import model_selection
from sklearn.neighbors import KNeighborsClassifier as KNC
from sklearn import preprocessing

In [17]:
data = pd.read_csv('Week2/wine_data.txt', header=None)
X = data.loc[:,1:]  # Признаки: столбцы со 2 по последний
y = data.loc[:,0]  # Классы: первый столбец

Оценку качества необходимо провести методом кросс-валидации по 5 блокам (5-fold). Создайте генератор разбиений, который перемешивает выборку перед формированием блоков (shuffle=True). Для воспроизводимости результата, создавайте генератор KFold с фиксированным параметром random_state=42.

In [27]:
kf = model_selection.KFold(n_splits=5, shuffle=True, random_state=42)

Вычислить качество на всех разбиениях можно при помощи функции sklearn.model_selection.cross_val_score. В качестве параметра estimator передается классификатор, в качестве параметра cv — генератор разбиений с предыдущего шага. С помощью параметра scoring можно задавать меру качества, по умолчанию в задачах классификации используется доля верных ответов (accuracy). Результатом является массив, значения которого нужно усреднить.

Найдите точность классификации на кросс-валидации для метода k ближайших соседей (sklearn.neighbors.KNeighborsClassifier), при k от 1 до 50. При каком k получилось оптимальное качество? Чему оно равно (число в интервале от 0 до 1)? Данные результаты и будут ответами на вопросы 1 и 2.

In [37]:
best_res = [0, 0]
with open('neighbors1.txt', 'w') as f:
    for k in range(1, 51):
        knn = KNC(n_neighbors=k)
        res = model_selection.cross_val_score(estimator=knn, X=X, y=y, cv=kf, scoring='accuracy')
        av = np.average(res)
        f.write(str(k)+' '+str(av)+'\n')
        if av > best_res[1]:
            best_res = [k, av]

In [38]:
best_res

[1, 0.7304761904761905]

Произведите масштабирование признаков с помощью функции sklearn.preprocessing.scale. Снова найдите оптимальное k на кросс-валидации.

In [40]:
X2 = preprocessing.scale(X)
best_res2 = [0, 0]
with open('neighbors2.txt', 'w') as f:
    for k in range(1, 51):
        knn = KNC(n_neighbors=k)
        res = model_selection.cross_val_score(estimator=knn, X=X2, y=y, cv=kf, scoring='accuracy')
        av = np.average(res)
        f.write(str(k)+' '+str(av)+'\n')
        if av > best_res2[1]:
            best_res2 = [k, av]

In [41]:
best_res2

[29, 0.9776190476190475]