**Эффективный подход - подбор метрики под конкретную задачу. Моя задача: выбор метрики из некоторого класса метрик (основа - метрика Минковского, где параметр - число p)**

# Импортируем датасет Boston, решаем задачу регрессии для предсказания стоимости жилья на основе разных характеристик

In [3]:
from sklearn import datasets
import pandas as pd
import numpy as np

In [9]:
data_url = "http://lib.stat.cmu.edu/datasets/boston"
dataset = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)

In [10]:
data = np.hstack([dataset.values[::2, :], dataset.values[1::2, :2]])
target = dataset.values[1::2, 2]

# Масштабируем данные

In [11]:
from sklearn.preprocessing import scale

In [12]:
data_scale = scale(data)

# Решаем задачу регрессии через kNN

In [29]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import cross_val_score, KFold

In [30]:
neigh = KNeighborsRegressor(n_neighbors=5, weights='distance', p=1)  # параметр weights добавляет в алгоритм веса
cv = KFold(n_splits=5, shuffle=True, random_state=42)
cross_val = cross_val_score(neigh, data_scale, target, cv=cv, scoring='neg_mean_squared_error')

In [31]:
np.mean(cross_val)

np.float64(-16.030646734221644)

# Подбираем оптимальный параметр p

In [21]:
param = np.linspace(1, 10, 200)

In [34]:
accuracy = {}

p = -1
maxi = -(10**3)

for i in param:
  knn = KNeighborsRegressor(n_neighbors=5, weights='distance', p=i)
  cross_val = cross_val_score(neigh, data_scale, target, cv=cv, scoring='neg_mean_squared_error')
  accuracy[float(i)] = float(np.mean(cross_val))

  if accuracy[float(i)] > maxi:
    maxi = accuracy[float(i)]
    p = i

In [36]:
print(f"Оптимальный параметр p = {p}, MSE = {maxi}")

Оптимальный параметр p = 1.0, MSE = -16.030646734221644
