## Немного теории

Главным параметром любого метрического алгоритма является функция расстояния (или метрика), используемая для измерения сходства между объектами. Можно использовать стандартный вариант (например, евклидову метрику), но гораздо более эффективным вариантом является подбор метрики под конкретную задачу. Один из подходов — использование той же евклидовой метрики, но с весами: каждой координате ставится в соответствие определенный коэффициент; чем он больше, тем выше вклад признака в итоговое расстояние. Веса настраиваются с целью оптимизации качества на отложенной выборке. Другой подход, о котором и пойдет речь в данном задании — выбор метрики из некоторого класса метрик. Мы возьмем за основу метрику Минковского

In [17]:
from sklearn.neighbors import KNeighborsRegressor as KNR
from sklearn import datasets
from sklearn import preprocessing, model_selection
import numpy as np

In [14]:
data = datasets.load_boston()
X = preprocessing.scale(data.data)
y = data.target

In [23]:
kf = model_selection.KFold(n_splits=5, shuffle=True, random_state=42)
best_res = [0, -100]
for p in np.linspace(1, 10, 200):
    knr = KNR(n_neighbors=5, weights='distance', metric='minkowski', p=p)
    res = model_selection.cross_val_score(estimator=knr, X=X, y=y, cv=kf, scoring='neg_mean_squared_error')
    av = np.average(res)
    if av > best_res[1]:
        best_res = [p, av]

In [24]:
best_res

[1.0, -16.030646734221644]