<a href="https://colab.research.google.com/github/vberezina/machine-learning-basics/blob/main/practices/LR2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ЛАБОРАТОРНАЯ РАБОТА №2. Классификация методом k-ближайших соседей (kNN)

## Теоретический минимум



Алгоритм kNN основан на простом принципе: «Скажи мне, кто твой сосед, и я скажу, кто ты».  


**Основные шаги алгоритма:**
1. Вычислить расстояние от нового объекта (тестового) до каждого объекта в обучающей выборке.

1. Отсортировать расстояния в порядке возрастания.Выбрать $k$ первых объектов (наименьших расстояний).
1. Определить наиболее часто встречающийся класс среди этих $k$ соседей.


**Метрика расстояния**

Чаще всего используется **Евклидово расстояние**. Для двух точек в $n$-мерном пространстве формула выглядит так:

$$d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$$

**Проблема масштаба (Нормализация)**

Если один признак (например, доход) измеряется тысячами, а другой (например, возраст) — десятками, то признак с большими значениями будет доминировать в формуле расстояния. Чтобы этого избежать, данные приводятся к диапазону $[0, 1]$:

$$x_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}}$$


## Учебная задача


In [None]:
import numpy as np
from collections import Counter
from sklearn import datasets
from sklearn.model_selection import train_test_split

class KNN:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        return np.array([self._predict(x) for x in X])

    def _predict(self, x):
        # Векторизованное вычисление Евклидова расстояния (без корня для скорости)
        distances = np.sum((self.X_train - x)**2, axis=1)

        # Индексы k ближайших
        k_indices = np.argsort(distances)[:self.k]
        k_nearest_labels = self.y_train[k_indices]

        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]


iris = datasets.load_wine()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# Нормализация
x_min = X_train.min(axis=0)
x_max = X_train.max(axis=0)

X_train_norm = (X_train - x_min) / (x_max - x_min)
X_test_norm = (X_test - x_min) / (x_max - x_min)

# Тест
clf = KNN(k=5)
clf.fit(X_train_norm, y_train)

predictions = clf.predict(X_test_norm)
acc = np.mean( predictions == y_test)

print(f"Точность: {acc * 100:.2f}%")

#Выводим метки
print("\nРеальные метки:    ", y_test)
print("Предсказанные:     ", predictions)

# Выводим только те индексы, где модель ошиблась
errors = np.where(predictions != y_test)[0]
print("\nИндексы ошибок:", errors)

Точность: 94.44%

Реальные метки:     [0 0 2 0 1 0 1 2 1 2 0 2 0 1 0 1 1 1 0 1 0 1 1 2 2 2 1 1 1 0 0 1 2 0 0 0]
Предсказанные:      [0 0 2 0 1 0 1 2 1 2 0 2 0 2 0 1 1 1 0 1 0 1 1 2 2 2 1 0 1 0 0 1 2 0 0 0]

Индексы ошибок: [13 27]


## Задания


### Задание №1. Загрузка и нормализация

Загрузите датасет и нормализуйте данные.



### Задание №2. Классификатор

Реализуйте классификатор (kNN) и обучите модель.



### Задание №3. Тестирование точности

Протестируйте модель и оцените точность.

## Контрольные вопросы

1. Зачем нужна нормализация? Что произойдет с расстоянием между точками, если один признак измеряется в тысячах, а другой в единицах?

2. Если данные сильно зашумлены (много случайных выбросов), стоит ли увеличивать или уменьшать $k$? Почему?

3. Почему kNN называют «ленивым» алгоритмом обучения (lazy learner)?

4. В каких случаях Евклидово расстояние может быть плохой метрикой для kNN?