# Programming Assignment: Выбор метрики

Мы будем использовать в данном задании набор данных `Boston`, где нужно предсказать стоимость жилья на основе различных характеристик расположения (загрязненность воздуха, близость к дорогам и т.д.). Подробнее о признаках можно почитать по адресу https://archive.ics.uci.edu/ml/machine-learning-databases/housing/

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.preprocessing import scale
from sklearn.model_selection import KFold, cross_val_score
from sklearn.neighbors import KNeighborsRegressor

## Шаг 1: 
Загрузите выборку Boston с помощью функции `sklearn.datasets.load_boston()`. Результатом вызова данной функции является объект, у которого признаки записаны в поле `data`, а целевой вектор — в поле `target`.

In [2]:
boston = load_boston()

X = boston.data
y = boston.target

## Шаг 2: 
Приведите признаки в выборке к одному масштабу при помощи функции `sklearn.preprocessing.scale`.

In [3]:
X_scaled = scale(X)

## Шаг 3:
Переберите разные варианты параметра метрики `p` по сетке от 1 до 10 с таким шагом, чтобы всего было протестировано 200 вариантов (используйте функцию `numpy.linspace`). Используйте `KNeighborsRegressor` с `n_neighbors=5` и `weights='distance'` — данный параметр добавляет в алгоритм веса, зависящие от расстояния до ближайших соседей. В качестве метрики качества используйте среднеквадратичную ошибку (параметр `scoring='mean_squared_error'` у `cross_val_score`; при использовании библиотеки `scikit-learn` версии `0.18.1` и выше необходимо указывать `scoring='neg_mean_squared_error'`). Качество оценивайте, как и в предыдущем задании, с помощью кросс-валидации по 5 блокам с `random_state = 42`, не забудьте включить перемешивание выборки (`shuffle=True`).

In [4]:
kf = KFold(n_splits = 5, shuffle = True, random_state = 42)

error = {}

for p in np.linspace(1, 11, num=200):
    neigh = KNeighborsRegressor(n_neighbors=5, weights='distance', p = p)
    score = cross_val_score(neigh, X_scaled, y, cv = kf, scoring = 'neg_mean_squared_error')
    error[p] = score.mean()

## Шаг 4:
Определите, при каком `p` качество на кросс-валидации оказалось оптимальным. Обратите внимание, что `cross_val_score` возвращает массив показателей качества по блокам; необходимо максимизировать среднее этих показателей. Это значение параметра и будет ответом на задачу.

In [5]:
best_error = max(error.values())
best_p = max(error, key=error.get)

print('best p:', best_p, '\nbest error:', best_error)

best p: 1.0 
best error: -16.030646734221644


In [6]:
def write_answer(ans, n):
    with open("ans{}.txt".format(n), "w") as fout:
        fout.write(str(ans))
        
write_answer(best_p, 1)

Если ответом является нецелое число, то целую и дробную часть необходимо разграничивать точкой, например, 0.4. При необходимости округляйте дробную часть до одного знака.