# Задача 2.3. KNN

В этом задании Вам предлагается написать класс `KNN_classifier`, пригодный для решения задачи классификации (многоклассовой).

Мы предлагаем Вам шаблон класса. В этом шаблоне заполните тела функций `.fit` и `.predict`

В качестве функции близости используйте Евклидово расстояние между объектами (подробнее https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html).

Напоминание:

* Функция `.fit(x, y)` производит обучение модели. В рамках этой функции необходимо реализовать подбор оптимальных параметров модели/сконфигурировать модель для дальнейшего использования на основе данной тренировочной выборки, где x - это матрица признакового описания выборки, а y - вектор ответов.

* Функция `.predict(x)` осуществляет предсказание для каждого из объектов, чьи векторные описания представлены строками матрицы x. Выполняется строго после `.fit()`. Ради безопасности можно даже реализовать механизм отказа в виде выбрасывания специальной ошибки `UnfittedError` в случае попытки вызова функции `.predict()` до вызова функции `.fit()`.

Замечание: не изменяйте названия класса и его методов. Это приведёт к ошибке при исполнении Вашего кода в процессе проверки задания. Тем не менее, Вы можете дописать свои собственные методы, если это необходимо.

Шаблон класса:

In [1]:
%pip install numpy
%pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [2]:
import numpy as np

In [3]:
class KNN_classifier:
    def __init__(self, n_neighbors: int, **kwargs):
        self.n_neighbors = n_neighbors

    def fit(self, X_train: np.array, y_train: np.array):
        self.X_train, self.y_train = X_train, y_train
        pass

    def make_predictions(self, x_test_i: np.array):
        distances = self.euclidian_metric(x_test_i)
        k_nearest_indices = np.argsort(distances)[:self.n_neighbors]
        k_nearest_objects = [self.y_train[i] for i in k_nearest_indices]
    
        return np.bincount(k_nearest_objects).argmax()

    def euclidian_metric(self, x_test_i: np.array):
        return np.sqrt(np.sum((self.X_train - x_test_i)**2, axis=1))

    def predict(self, X_test: np.array):
        predictions = [self.make_predictions(x_test_i) for x_test_i in X_test]
        return predictions

In [4]:
from sklearn.neighbors import KNeighborsClassifier

model1 = KNeighborsClassifier(n_neighbors=5)
model2 = KNN_classifier(n_neighbors=5)

In [5]:
from sklearn.datasets import load_iris

X,y = load_iris(return_X_y =True)

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,train_size=0.7, random_state=42, shuffle=True)

model1.fit(X_train, y_train)
model2.fit(X_train, y_train)

test1 = model1.predict(X_test)
test2 = model2.predict(X_test)

print(*test1)
print(*test2)

1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1 0 0 0 2 1 1 0 0
1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1 0 0 0 2 1 1 0 0


## Примечания

1. Вы можете проверить правильность выполнения задания посредством сравнения полученных результатов с функцией из соответствующего модуля `sklearn`.

2. В рамках выполнения данного задания **запрещено** использовать функции из пакета `sklearn` и любого другого, кроме `numpy`. Код, использующий любые другие модули, не пройдёт тесты.

3. **Подсказка:** если Вы испытываете сложности с реализацией этого задания, начните выполнять его с написания функции `.predict`. В процессе написания этой функции Вы поймёте, что конкретно Вам требуется получить от обучающей выборки, какую информацию и в каком видед извлечь из неё. Затем реализуйте это в функции `.fit`