# Оптимальная метрика

В этом задании Вам предлагается подобрать оптимальную метрику и оптимальное значение гиперпараметра K из диапазона [1,50] для решения задачи классификации на примере датасета Ирисов Фишера. Этот датасет можно загрузить из модуля sklearn.datasets.

Качества оценивается при помощи метрики accuracy при помощи методики кросс-валидации. Об этой методике можно подробнее прочитать в [документации sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html).

Мы предлагаем Вам заполнить недостающие команды в следующем скелете кода и разобраться, какую метрику оптимально применять для решения данной задачи. В ответе на задание необходимо указать эту метрику.

Попробуйте 3 варианта: манхэттенское расстояние, евклидово расстояние и косинусное расстояние. Полный список возможных метрик можно посмотреть по [ссылке](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.distance_metrics.html#sklearn.metrics.pairwise.distance_metrics). Меняйте этот параметр, изменяя значение аргумента `metric` при создании объекта класса `KNeighborsClassifier`. Найдите пару "метрика"-"K", для которой получается наилучшее качество и в качестве ответа укажите **найденную метрику**

**Замечание**: параметр *n_splits* - это количество разбиений `cv` в кросс-валидации. В качестве итоговой метрики берётся усреднение полученных значений метрик по всем разбиениям.

In [None]:
import sklearn
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

random_seed = 4238

np.random.seed(random_seed)
n_splits = 3

from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)
scores = []

"""
  Здесь Вам предлагается написать тело цикла для подбора оптимального K
  Результаты оценки алгоритма при каждом отдельно взятом K рекомендуем записывать в список cv_scores
"""
for k in range(1, 51):
    # TODO: Write Your Code Here
    clf = KNeighborsClassifier(n_neighbors=k,metric='euclidean')
    score = cross_val_score(clf, X, y, cv=n_splits)
    print(score)
    scores.append(np.mean(score))
    pass
print(scores)
k_best = np.argmax(scores) + 1
print(k_best)

[0.98 0.94 0.96]
[0.96 0.94 0.94]
[0.98 0.96 0.98]
[0.98 1.   0.98]
[0.98 0.98 0.98]
[0.98 0.98 0.96]
[0.98 0.98 0.96]
[0.98 0.98 0.94]
[0.96 1.   0.96]
[0.96 1.   0.94]
[0.96 1.   0.94]
[0.96 1.   0.94]
[0.96 0.96 0.96]
[0.96 0.96 0.94]
[0.96 0.96 0.94]
[0.96 0.98 0.94]
[0.96 0.96 0.96]
[0.96 0.96 0.94]
[0.96 0.96 0.94]
[0.96 0.92 0.96]
[0.96 0.94 0.96]
[0.96 0.92 0.96]
[0.94 0.94 0.94]
[0.94 0.92 0.94]
[0.94 0.94 0.94]
[0.96 0.94 0.96]
[0.96 0.94 0.96]
[0.96 0.94 0.96]
[0.96 0.94 0.96]
[0.96 0.94 0.96]
[0.96 0.94 0.96]
[0.96 0.92 0.96]
[0.94 0.92 0.96]
[0.94 0.88 0.94]
[0.94 0.9  0.94]
[0.92 0.92 0.92]
[0.92 0.92 0.92]
[0.9  0.92 0.92]
[0.9  0.92 0.92]
[0.9  0.92 0.9 ]
[0.9  0.92 0.92]
[0.9 0.9 0.9]
[0.9  0.9  0.92]
[0.9  0.9  0.88]
[0.92 0.9  0.88]
[0.9  0.88 0.88]
[0.9  0.9  0.88]
[0.9  0.88 0.88]
[0.9  0.88 0.88]
[0.9  0.88 0.88]
[0.96, 0.9466666666666667, 0.9733333333333333, 0.9866666666666667, 0.98, 0.9733333333333333, 0.9733333333333333, 0.9666666666666667, 0.9733333333333333, 