# Оптимальная метрика

В этом задании Вам предлагается подобрать оптимальную метрику и оптимальное значение гиперпараметра K из диапазона [1,50] для решения задачи классификации на примере датасета Ирисов Фишера. Этот датасет можно загрузить из модуля sklearn.datasets.

Качества оценивается при помощи метрики accuracy при помощи методики кросс-валидации. Об этой методике можно подробнее прочитать в [документации sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html).

Мы предлагаем Вам заполнить недостающие команды в следующем скелете кода и разобраться, какую метрику оптимально применять для решения данной задачи. В ответе на задание необходимо указать эту метрику.

Попробуйте 3 варианта: манхэттенское расстояние, евклидово расстояние и косинусное расстояние. Полный список возможных метрик можно посмотреть по [ссылке](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.distance_metrics.html#sklearn.metrics.pairwise.distance_metrics). Меняйте этот параметр, изменяя значение аргумента `metric` при создании объекта класса `KNeighborsClassifier`. Найдите пару "метрика"-"K", для которой получается наилучшее качество и в качестве ответа укажите **найденную метрику**

**Замечание**: параметр *n_splits* - это количество разбиений `cv` в кросс-валидации. В качестве итоговой метрики берётся усреднение полученных значений метрик по всем разбиениям.

In [12]:
import sklearn
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

random_seed = 4238

np.random.seed(random_seed)
n_splits = 3

from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)

"""
  Здесь Вам предлагается написать тело цикла для подбора оптимального K
  Результаты оценки алгоритма при каждом отдельно взятом K рекомендуем записывать в список cv_scores
"""
max_score = 0
metrics = {0:'euclidean', 1:'manhattan', 2:'cosine'}

for k in range(1, 51):
    m = [ KNeighborsClassifier(n_neighbors = k, metric=metrics[0]),
          KNeighborsClassifier(n_neighbors = k, metric=metrics[1]),
          KNeighborsClassifier(n_neighbors = k, metric=metrics[2])]
    meanings = []

    for i in range(3):
        score = cross_val_score( m[i], X, y, cv = n_splits)
        meanings.append(score.mean())

        if meanings[-1] > max_score:
            index = i
            max_score = meanings[-1]


print(f'Max score is {max_score} by {metrics[index]} metric')

Max score is 0.9866666666666667 by euclidean metric
