# Programming Assignment: Choosing a metric

Now, we will take a look at **distance function (or metric)** that used to measure the similarity between objects.

We can use a standard option (for example, the Euclidean metric), but a much more efficient option is to select a metric for a specific task. One of the approaches is to use the same Euclidean metric, but with weights: a certain coefficient is assigned to each coordinate; the larger it is, the higher the contribution of the feature to the total distance. The weights are adjusted to optimize the quality on lazy sampling. 
Another approach, which will be discussed in this task, is the choice of a metric from a certain class of metrics. We will use the Minkowski metric as a basis.

Parameter p will be attuned.

Original four tasks will be presented in Russian.

**Tasks will be duplicated in english further in this assignment**

1. Загрузите выборку Boston с помощью функции sklearn.datasets.load_boston(). Результатом вызова данной функции является объект, у которого признаки записаны в поле data, а целевой вектор — в поле target.
2. Приведите признаки в выборке к одному масштабу при помощи функции sklearn.preprocessing.scale.
3. Переберите разные варианты параметра метрики p по сетке от 1 до 10 с таким шагом, чтобы всего было протестировано 200 вариантов (используйте функцию numpy.linspace). Используйте KNeighborsRegressor с n_neighbors=5 и weights='distance' — данный параметр добавляет в алгоритм веса, зависящие от расстояния до ближайших соседей. В качестве метрики качества используйте среднеквадратичную ошибку (параметр scoring='mean_squared_error' у cross_val_score; при использовании библиотеки scikit-learn версии 0.18.1 и выше необходимо указывать scoring='neg_mean_squared_error').  Качество оценивайте, как и в предыдущем задании, с помощью кросс-валидации по 5 блокам с random_state = 42, не забудьте включить перемешивание выборки (shuffle=True).
4. Определите, при каком p качество на кросс-валидации оказалось оптимальным. Обратите внимание, что cross_val_score возвращает массив показателей качества по блокам; необходимо максимизировать среднее этих показателей. Это значение параметра и будет ответом на задачу.

In [1]:
import numpy as np
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import scale
from sklearn.datasets import load_boston
import pandas

## Task №1
*Ru*: Загрузите выборку Boston с помощью функции sklearn.datasets.load_boston(). Результатом вызова данной функции является объект, у которого признаки записаны в поле data, а целевой вектор — в поле target.

*Eng*:Load the Boston sample using the sklearn.datasets.load_boston() function. As a result you will get an object whose features are written in the data field, and the target vector is in the target field. 

In [2]:
df = load_boston()

In [3]:
#df

## Task №2
*Ru*: Приведите признаки в выборке к одному масштабу при помощи функции sklearn.preprocessing.scale.

*Eng* Reduce the features in the sample to one scale using the sklearn.preprocessing.scale function. 

In [4]:
df['data']

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]])

In [5]:
X = scale(df['data'])
Y = df['target']

In [6]:
X

array([[-0.41978194,  0.28482986, -1.2879095 , ..., -1.45900038,
         0.44105193, -1.0755623 ],
       [-0.41733926, -0.48772236, -0.59338101, ..., -0.30309415,
         0.44105193, -0.49243937],
       [-0.41734159, -0.48772236, -0.59338101, ..., -0.30309415,
         0.39642699, -1.2087274 ],
       ...,
       [-0.41344658, -0.48772236,  0.11573841, ...,  1.17646583,
         0.44105193, -0.98304761],
       [-0.40776407, -0.48772236,  0.11573841, ...,  1.17646583,
         0.4032249 , -0.86530163],
       [-0.41500016, -0.48772236,  0.11573841, ...,  1.17646583,
         0.44105193, -0.66905833]])

## Task №3
*Ru*: Переберите разные варианты параметра метрики p по сетке от 1 до 10 с таким шагом, чтобы всего было протестировано 200 вариантов (используйте функцию numpy.linspace). Используйте KNeighborsRegressor с n_neighbors=5 и weights='distance' — данный параметр добавляет в алгоритм веса, зависящие от расстояния до ближайших соседей. В качестве метрики качества используйте среднеквадратичную ошибку (параметр scoring='mean_squared_error' у cross_val_score; при использовании библиотеки scikit-learn версии 0.18.1 и выше необходимо указывать scoring='neg_mean_squared_error').  Качество оценивайте, как и в предыдущем задании, с помощью кросс-валидации по 5 блокам с random_state = 42, не забудьте включить перемешивание выборки (shuffle=True).

In [7]:
step = 0.05
start = 1
stop = 10
num = 200

In [8]:
p = np.linspace(start, stop, num)
#p

In [9]:
cv = KFold(n_splits=5, shuffle=True, random_state = 42)

In [10]:
scores = []
for k in p:
    KNR = KNeighborsRegressor(n_neighbors=5,weights='distance', p=k)
    scores.append(cross_val_score(KNR, X, Y,scoring='neg_mean_squared_error', cv=cv))

## Task №4
*Ru*: Определите, при каком p качество на кросс-валидации оказалось оптимальным. Обратите внимание, что cross_val_score возвращает массив показателей качества по блокам; необходимо максимизировать среднее этих показателей. Это значение параметра и будет ответом на задачу.

In [11]:
pandas.DataFrame(scores,p).max(axis = 1).sort_values(ascending = False).head(1)

1.0   -11.833733
dtype: float64