# Оптимальная метрика

В этом задании Вам предлагается подобрать оптимальную метрику и оптимальное значение гиперпараметра K из диапазона [1,50] для решения задачи классификации на примере датасета Ирисов Фишера. Этот датасет можно загрузить из модуля sklearn.datasets.

Качества оценивается при помощи метрики accuracy при помощи методики кросс-валидации. Об этой методике можно подробнее прочитать в [документации sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html).

Мы предлагаем Вам заполнить недостающие команды в следующем скелете кода и разобраться, какую метрику оптимально применять для решения данной задачи. В ответе на задание необходимо указать эту метрику.

Попробуйте 3 варианта: манхэттенское расстояние, евклидово расстояние и косинусное расстояние. Полный список возможных метрик можно посмотреть по [ссылке](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.distance_metrics.html#sklearn.metrics.pairwise.distance_metrics). Меняйте этот параметр, изменяя значение аргумента `metric` при создании объекта класса `KNeighborsClassifier`. Найдите пару "метрика"-"K", для которой получается наилучшее качество и в качестве ответа укажите **найденную метрику**

**Замечание**: параметр *n_splits* - это количество разбиений `cv` в кросс-валидации. В качестве итоговой метрики берётся усреднение полученных значений метрик по всем разбиениям.

In [None]:
import sklearn
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

random_seed = 4238

np.random.seed(random_seed)
n_splits = 3

from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)

"""
  Здесь Вам предлагается написать тело цикла для подбора оптимального K
  Результаты оценки алгоритма при каждом отдельно взятом K рекомендуем записывать в список cv_scores
"""
metrics = ['manhattan', 'euclidean', 'cosine']
cv_scores = []
for k in range(1, 51):
    for metric in metrics:
      clf = KNeighborsClassifier(n_neighbors=k, metric=metric)
      scores = cross_val_score(clf, X, y, cv=5, scoring="accuracy")
      cv_scores += [[scores.mean(), metric, k]]
cv_scores.sort(key=lambda res: res[0], reverse=True)
print(cv_scores)


[[0.9800000000000001, 'cosine', 3], [0.9800000000000001, 'cosine', 4], [0.9800000000000001, 'cosine', 5], [0.9800000000000001, 'euclidean', 6], [0.9800000000000001, 'euclidean', 7], [0.9800000000000001, 'euclidean', 10], [0.9800000000000001, 'manhattan', 11], [0.9800000000000001, 'euclidean', 11], [0.9800000000000001, 'manhattan', 12], [0.9800000000000001, 'euclidean', 12], [0.9800000000000001, 'cosine', 17], [0.9800000000000001, 'cosine', 19], [0.9800000000000001, 'cosine', 20], [0.9800000000000001, 'cosine', 22], [0.9800000000000001, 'cosine', 35], [0.9733333333333334, 'euclidean', 4], [0.9733333333333334, 'euclidean', 5], [0.9733333333333334, 'cosine', 6], [0.9733333333333334, 'manhattan', 7], [0.9733333333333334, 'cosine', 8], [0.9733333333333334, 'manhattan', 9], [0.9733333333333334, 'euclidean', 9], [0.9733333333333334, 'manhattan', 10], [0.9733333333333334, 'manhattan', 13], [0.9733333333333334, 'euclidean', 13], [0.9733333333333334, 'cosine', 13], [0.9733333333333334, 'manhatta