# Выбор метрики

In [37]:
import pandas as pd
import numpy as np

###### Введение
Главным параметром любого метрического алгоритма является функция расстояния (или метрика), используемая для измерения сходства между объектами. Можно использовать стандартный вариант (например, евклидову метрику), но гораздо более эффективным вариантом является подбор метрики под конкретную задачу. Один из подходов — использование той же евклидовой метрики, но с весами: каждой координате ставится в соответствие определенный коэффициент; чем он больше, тем выше вклад признака в итоговое расстояние. Веса настраиваются с целью оптимизации качества на отложенной выборке. Другой подход, о котором и пойдет речь в данном задании — выбор метрики из некоторого класса метрик. Мы возьмем за основу метрику Минковского
https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/IVbNGtGfEeWLWxKOx1I7mw_6e7648048323d85395ddb630fdd95a7c_mink.png?expiry=1616284800000&hmac=QopTYmdpU8K6rdvQ1KWHKHLOu-_O5eHFnyJfZvVl61E  
Параметром метрики Минковского является число p, которое мы и будем настраивать.

Нам понадобится решать задачу регрессии с помощью метода k ближайших соседей — воспользуйтесь для этого классом sklearn.neighbors.KNeighborsRegressor. Метрика задается с помощью параметра metric, нас будет интересовать значение ’minkowski’. Параметр метрики Минковского задается с помощью параметра p данного класса.

In [30]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

Мы будем использовать в данном задании набор данных Boston, где нужно предсказать стоимость жилья на основе различных характеристик расположения (загрязненность воздуха, близость к дорогам и т.д.). Подробнее о признаках можно почитать по адресу https://archive.ics.uci.edu/ml/machine-learning-databases/housing/

In [4]:
from sklearn.datasets import load_boston

In [23]:
obj = load_boston()
X = pd.DataFrame(obj.data)
y = pd.DataFrame(obj["target"])
X.columns = obj.feature_names

Приведите признаки в выборке к одному масштабу при помощи функции sklearn.preprocessing.scale.

In [26]:
from sklearn.preprocessing import scale

In [27]:
X = scale(X)

Переберите разные варианты параметра метрики p по сетке от 1 до 10 с таким шагом, чтобы всего было протестировано 200 вариантов (используйте функцию numpy.linspace). Используйте KNeighborsRegressor с n_neighbors=5 и weights='distance' — данный параметр добавляет в алгоритм веса, зависящие от расстояния до ближайших соседей. В качестве метрики качества используйте среднеквадратичную ошибку (параметр scoring='mean_squared_error' у cross_val_score; при использовании библиотеки scikit-learn версии 0.18.1 и выше необходимо указывать scoring='neg_mean_squared_error').  Качество оценивайте, как и в предыдущем задании, с помощью кросс-валидации по 5 блокам с random_state = 42, не забудьте включить перемешивание выборки (shuffle=True).

In [31]:
cv = KFold(n_splits=5, shuffle=True, random_state=42) # разбиение выборки

In [54]:
max_q = -10000000 # тут храним максимальное качество модели
opt_p = 0 # тут храним p
for p in np.linspace(1,10,200):
    clf = KNeighborsRegressor(n_neighbors=5, weights='distance', metric='minkowski', p=p)
    q = np.mean(cross_val_score(clf, X, y, scoring='neg_mean_squared_error'))
    if q > max_q:
        max_q = q
        opt_p = p

In [55]:
print(f'opt p: {opt_p}')
print(f'max quality: {max_q}')

opt p: 1.3618090452261307
max quality: -26.939537391291346
