# Задача 2.1. Аргументы

В данном задании Вам предлагается дописать код решения задачи бинарной классификации на основе классификатора KNN. Шаблон кода приведён Вам в качестве входных данных, Вам необходимо дополнить его так, чтобы алгоритм K ближайших соседей был настроен в следующей конфигурации:

- В качестве K должно быть выбрано значение 8
- В качестве метрики должно быть использовано манхэттенское расстояние

Для обучения модели разобьём выборку на тренировочную и тестовую при помощи функции train_test_split из модуля sklearn.model_selection. Подробнее об этой функции можно прочитать в [официальной документации sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html): 

Настройте разбиение на тестовую и тренировочную выборку таким образом, чтобы 0.3 объектов попали в тестовую выборку.

Оцените качество классификации на тестовой выборке при помощи [accuracy_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) (функция подсчета доли правильных ответов из sklearn.metrics)

В качестве ответа укажите полученное качество на тестовой выборке, округлив ответ **вниз** до сотых.

## Примечания

**Внимание:** Не меняйте значение random_state и random_seed, это может привести к неправильным ответам.

Ответ должен быть записан в виде десятичной дроби через **точку** с двумя значащими цифрами. Например: 0.11

Вариант аналогичной записи через запятую приведёт к неверному ответу, будьте внимательны.

In [1]:
import math
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

random_seed = 4238
np.random.seed(random_seed)

X, y = load_breast_cancer(return_X_y=True)
X_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True, random_state=42)

clf = KNeighborsClassifier(n_neighbors=8, p=1)
clf.fit(X_train, y_train)

predictions = clf.predict(x_test)
acc = math.floor(accuracy_score(y_test, predictions) * 100) / 100

print(acc)

0.97


# Задача 2.2. Оптимальный K

В этом задании Вам предлагается подобрать оптимальный K из диапазона [1,50] для решения задачи бинарной классификации на примере датасета breast_cancer. Этот датасет можно загрузить из модуля sklearn.datasets

Качество оценивается при помощи метрики accuracy при помощи методики кросс-валидации. Об этой методике можно подробнее прочитать [в документации sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html)

Мы предлагаем Вам заполнить недостающие команды в следующем скелете кода и получить оптимальное значение K. В ответе на задание необходимо указать это значение.

## Примечания

Замечание: обратите внимание, что np.argmax(cv_scores) возвращает ИНДЕКС наибольшего элемента массива. Индексация массивов начинается с нуля

В данной задаче мы используем один из стандартных датасетов breast cancer. Доступ к этому датасету мы осуществляем при помощи вызова функции `load_breast_cancer`, аналогично тому, как мы это делали на лекции.

Аргумент n_splits, в данной задаче равный 3, это количество разбиений датасета для проведения кроссвалидации. В качестве итоговой метрики возьмите **среднее** значение качества по всем разбиениям при проведении кроссвалидации.

In [2]:
import sklearn
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
random_seed = 4238

np.random.seed(random_seed)
n_splits = 3

from sklearn.datasets import load_breast_cancer

X, y = load_breast_cancer(return_X_y=True)

cv_scores = [0]
for k in range(1,51):
    clf = KNeighborsClassifier(n_neighbors=k)
    cv_scores.append(cross_val_score(clf, X, y, cv=n_splits, scoring='accuracy').mean())

print(np.argmax(cv_scores))

11


# Задача 2.3. KNN

В этом задании Вам предлагается написать класс `KNN_classifier`, пригодный для решения задачи классификации (многоклассовой).

Мы предлагаем Вам шаблон класса. В этом шаблоне заполните тела функций `.fit` и `.predict`

В качестве функции близости используйте Евклидово расстояние между объектами (подробнее https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html).

Напоминание:

* Функция `.fit(x, y)` производит обучение модели. В рамках этой функции необходимо реализовать подбор оптимальных параметров модели/сконфигурировать модель для дальнейшего использования на основе данной тренировочной выборки, где x - это матрица признакового описания выборки, а y - вектор ответов.

* Функция `.predict(x)` осуществляет предсказание для каждого из объектов, чьи векторные описания представлены строками матрицы x. Выполняется строго после `.fit()`. Ради безопасности можно даже реализовать механизм отказа в виде выбрасывания специальной ошибки `UnfittedError` в случае попытки вызова функции `.predict()` до вызова функции `.fit()`.

Замечание: не изменяйте названия класса и его методов. Это приведёт к ошибке при исполнении Вашего кода в процессе проверки задания. Тем не менее, Вы можете дописать свои собственные методы, если это необходимо.

## Примечания

Вы можете проверить правильность выполнения задания посредством сравнения полученных результатов с функцией из соответствующего модуля `sklearn`.

Замечание: в рамках выполнения данного задания запрещено использовать функции из пакета `sklearn` и любого другого, кроме `numpy`. Код, использующий любые другие модули не пройдёт тесты.

In [3]:
import numpy as np

class KNN_classifier:
    def __init__(self, n_neighbors: int, **kwargs):
        self.K = n_neighbors

    def fit(self, x: np.array, y: np.array):
        self.x_train = x
        self.y_train = y

    def predict(self, x: np.array):
        predictions = []
        for X in x:
            distances = np.linalg.norm(self.x_train - X, axis=1)
            distances = np.concatenate([[distances], [self.y_train]]).T
            distances = distances[distances[:, 0].argsort()][:self.K, 1]
            distances, counts = np.unique(distances, return_counts=True)
            predictions.append(distances[np.argmax(counts)])
        predictions = np.array(predictions)
        return predictions