# Домашнее задание: Реализация kNN, наивного байесовского классификатора, LDA, QDA

Цель: Реализовать с нуля 4 классификатора, обучить их на датасете, визуализировать результаты, сравнить качество.

Запрещено использовать готовые реализации из sklearn:
   - sklearn.neighbors.KNeighborsClassifier
   - sklearn.naive_bayes.*
   - sklearn.discriminant_analysis.*

In [4]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from scipy.spatial.distance import cdist
import pandas as pd

sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

data = load_iris()
X = data.data
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

print(f"Train size: {X_train.shape}, Test size: {X_test.shape}")

ModuleNotFoundError: No module named 'numpy'

In [4]:
class MyKNNClassifier:
    def __init__(self, k=5, weighted=False, metric='euclidean'):
        """
        Инициализация классификатора kNN.

        Параметры:
        - k: количество соседей
        - weighted: использовать взвешенное голосование или нет
        - metric: метрика расстояния. Поддерживаемые значения:
                  'euclidean', 'manhattan', 'chebyshev'
        """
        self.k = k
        self.weighted = weighted
        self.metric = metric
        self.X_train = None
        self.y_train = None

    def fit(self, X, y):
        raise NotImplementedError("Реализуйте метод fit для kNN")

    def _compute_distances(self, X):
        """
        Вычисляет расстояния от каждой точки в X до всех точек в X_train.

        Возвращает матрицу расстояний формы (n_samples, n_train_samples)
        """
        if self.metric == 'euclidean':
            pass
        elif self.metric == 'manhattan':
            pass
        elif self.metric == 'chebyshev':
            pass
        else:
            raise ValueError(f"Метрика '{self.metric}' не поддерживается. Используйте: 'euclidean', 'manhattan', 'chebyshev'.")

        return distances

    def predict(self, X):
        # 1. Посчитайте расстояния от каждой точки в X до всех точек в X_train (_compute_distances)
        # 2. Для каждой точки найдите индексы k ближайших соседей
        # 3. Получите метки этих соседей
        # 4. Если weighted=False — голосование по большинству
        #    Если weighted=True — взвешенное голосование (вес = 1 / (расстояние + 1e-5))
        # 5. Верните предсказанные метки
        raise NotImplementedError("Реализуйте метод predict для kNN")

## Наивный байесовский классификатор (Gaussian Naive Bayes)

Наивный байесовский классификатор основан на **теореме Байеса** и предположении о **условной независимости признаков** относительно класса.

---

### Теорема Байеса:

Вероятность принадлежности объекта к классу $ c $ при наблюдении признакового вектора $ \mathbf{x} = (x_1, x_2, \dots, x_d) $:

$$
P(y = c \mid \mathbf{x}) = \frac{P(\mathbf{x} \mid y = c) \cdot P(y = c)}{P(\mathbf{x})}
$$

Так как $ P(\mathbf{x}) $ одинакова для всех классов, для классификации достаточно максимизировать **числитель** — **апостериорную вероятность**:

$$
\hat{y} = \underset{c}{\mathrm{argmax}} \; P(y = c) \cdot P(\mathbf{x} \mid y = c)
$$

---

### Предположение "наивности":

Признаки условно независимы при заданном классе:

$$
P(\mathbf{x} \mid y = c) = \prod_{j=1}^{d} P(x_j \mid y = c)
$$

Тогда:

$$
\hat{y} = \underset{c}{\mathrm{argmax}} \; P(y = c) \cdot \prod_{j=1}^{d} P(x_j \mid y = c)
$$

---

### Для непрерывных признаков: предположение о нормальном распределении

Часто предполагают, что каждый признак $ x_j $ в классе $ c $ распределён нормально:

$$
x_j \mid y = c \; \sim \; \mathcal{N}(\mu_{jc}, \sigma_{jc}^2)
$$

Тогда:

$$
P(x_j \mid y = c) = \frac{1}{\sqrt{2\pi \sigma_{jc}^2}} \exp\left( -\frac{(x_j - \mu_{jc})^2}{2\sigma_{jc}^2} \right)
$$

---

### Что нужно оценить на обучающей выборке:

- Априорные вероятности:  
  $ \pi_c = \frac{\text{количество объектов класса } c}{\text{общее количество объектов}} $

- Средние:  
  $ \mu_{jc} = \frac{1}{n_c} \sum_{i: y_i = c} x_{ij} $

- Дисперсии:  
  $ \sigma_{jc}^2 = \frac{1}{n_c} \sum_{i: y_i = c} (x_{ij} - \mu_{jc})^2 $

(где $ n_c $ — количество объектов класса $ c $)

---

**Ваша задача**: реализовать этот классификатор с нуля в классе `MyGaussianNB`, используя описанные формулы.

In [11]:
class MyGaussianNB:
    def __init__(self):
        self.classes = None
        self.mean = None       # среднее по каждому признаку для каждого класса
        self.var = None        # дисперсия по каждому признаку для каждого класса
        self.priors = None     # априорные вероятности классов

    def fit(self, X, y):
        # 1. Найдите уникальные классы
        # 2. Для каждого класса:
        #    - оцените mean и var для каждого признака
        #    - оцените prior = количество примеров класса / всего примеров
        # 3. Сохраните всё в атрибуты класса
        raise NotImplementedError("Реализуйте метод fit для Naive Bayes")

    def predict(self, X):
        # 1. Для каждой точки X и каждого класса вычислите логарифм правдоподобия + логарифм prior
        #    (используйте формулу нормального распределения в логарифмическом виде)
        # 2. Выберите класс с максимальным значением
        # 3. Верните предсказания
        raise NotImplementedError("Реализуйте метод predict для Naive Bayes")

## Линейный (LDA) и квадратичный (QDA) дискриминантный анализ Фишера

LDA и QDA — это **параметрические методы классификации**, основанные на предположении, что признаки в каждом классе распределены **нормально**.

---

### Общая постановка

Пусть дано:
- $ \mathbf{x} \in \mathbb{R}^d $ — вектор признаков,
- $ y \in \{1, 2, \dots, K\} $ — метка класса,
- $ \pi_k = P(y = k) $ — априорная вероятность класса $ k $,
- $ f_k(\mathbf{x}) = P(\mathbf{x} \mid y = k) $ — функция правдоподобия.

Предполагаем, что:
$$
\mathbf{x} \mid y = k \; \sim \; \mathcal{N}(\boldsymbol{\mu}_k, \mathbf{\Sigma}_k)
$$

Тогда:
$$
f_k(\mathbf{x}) = \frac{1}{(2\pi)^{d/2} |\mathbf{\Sigma}_k|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_k)^\top \mathbf{\Sigma}_k^{-1} (\mathbf{x} - \boldsymbol{\mu}_k) \right)
$$

По теореме Байеса:
$$
P(y = k \mid \mathbf{x}) = \frac{\pi_k f_k(\mathbf{x})}{\sum_{l=1}^K \pi_l f_l(\mathbf{x})}
$$

Классификатор выбирает класс с **максимальной апостериорной вероятностью**:
$$
\hat{y} = \underset{k}{\mathrm{argmax}} \; \pi_k f_k(\mathbf{x})
$$

---

### Переход к дискриминантным функциям

Вместо сравнения вероятностей удобнее сравнивать **логарифмы** (монотонное преобразование):

$$
\delta_k(\mathbf{x}) = \log \left( \pi_k f_k(\mathbf{x}) \right) = \log \pi_k + \log f_k(\mathbf{x})
$$

Подставим выражение для $ f_k(\mathbf{x}) $:

$$
\delta_k(\mathbf{x}) = \log \pi_k - \frac{1}{2} \log |\mathbf{\Sigma}_k| - \frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_k)^\top \mathbf{\Sigma}_k^{-1} (\mathbf{x} - \boldsymbol{\mu}_k) + \text{const}
$$

(где `const` не зависит от $ k $, поэтому его можно игнорировать при сравнении)

---

## Линейный дискриминантный анализ (LDA)

**Предположение**: ковариационные матрицы **одинаковы** для всех классов:

$$
\mathbf{\Sigma}_k = \mathbf{\Sigma} \quad \forall k
$$

Тогда:
- $ \log |\mathbf{\Sigma}_k| $ — константа → исключается,
- $ \mathbf{\Sigma}_k^{-1} = \mathbf{\Sigma}^{-1} $ — общая для всех классов.

Раскрываем квадратичную форму:

$$
(\mathbf{x} - \boldsymbol{\mu}_k)^\top \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}_k) = \mathbf{x}^\top \mathbf{\Sigma}^{-1} \mathbf{x} - 2 \boldsymbol{\mu}_k^\top \mathbf{\Sigma}^{-1} \mathbf{x} + \boldsymbol{\mu}_k^\top \mathbf{\Sigma}^{-1} \boldsymbol{\mu}_k
$$

Первое слагаемое не зависит от $ k $ → исключается.

Остаётся **линейная** дискриминантная функция:

$$
\boxed{
\delta_k^{\text{LDA}}(\mathbf{x}) = \boldsymbol{\mu}_k^\top \mathbf{\Sigma}^{-1} \mathbf{x} - \frac{1}{2} \boldsymbol{\mu}_k^\top \mathbf{\Sigma}^{-1} \boldsymbol{\mu}_k + \log \pi_k
}
$$

Решающие границы — **линейные** (гиперплоскости).

---

## Квадратичный дискриминантный анализ (QDA)

**Предположение**: ковариационные матрицы **разные** для каждого класса: $ \mathbf{\Sigma}_k $.

Тогда дискриминантная функция остаётся **квадратичной**:

$$
\boxed{
\delta_k^{\text{QDA}}(\mathbf{x}) = -\frac{1}{2} \log |\mathbf{\Sigma}_k| - \frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_k)^\top \mathbf{\Sigma}_k^{-1} (\mathbf{x} - \boldsymbol{\mu}_k) + \log \pi_k
}
$$

Решающие границы — **квадратичные поверхности** (параболы, эллипсы и т.д. в 2D).

---

## Что нужно оценить на обучающей выборке

Для обоих методов:

- **Априорные вероятности**:  
  $ \pi_k = \frac{n_k}{n} $, где $ n_k $ — число объектов класса $ k $

- **Средние векторы**:  
  $ \boldsymbol{\mu}_k = \frac{1}{n_k} \sum_{i: y_i = k} \mathbf{x}_i $

Для **LDA**:
- **Общая ковариационная матрица**:
  $$
  \mathbf{\Sigma} = \frac{1}{n - K} \sum_{k=1}^K \sum_{i: y_i = k} (\mathbf{x}_i - \boldsymbol{\mu}_k)(\mathbf{x}_i - \boldsymbol{\mu}_k)^\top
  $$

Для **QDA**:
- **Ковариационная матрица для каждого класса**:
  $$
  \mathbf{\Sigma}_k = \frac{1}{n_k - 1} \sum_{i: y_i = k} (\mathbf{x}_i - \boldsymbol{\mu}_k)(\mathbf{x}_i - \boldsymbol{\mu}_k)^\top
  $$

---


**Ваша задача**: реализовать оба метода в классе `MyLDAQDA` с параметром `mode='LDA'` или `'QDA'`, используя приведённые формулы.

In [13]:
class MyLDAQDA:
    def __init__(self, mode='LDA'):  # mode может быть 'LDA' или 'QDA'
        self.mode = mode
        self.classes = None
        self.mean = None
        self.cov = None        # для LDA — одна общая матрица, для QDA — список матриц
        self.priors = None

    def fit(self, X, y):
        # 1. Найдите уникальные классы
        # 2. Для каждого класса:
        #    - оцените mean
        #    - оцените prior
        # 3. Для LDA: посчитайте общую ковариационную матрицу (взвешенную по классам)
        #    Для QDA: посчитайте отдельную ковариационную матрицу для каждого класса
        # 4. Регуляризация: добавьте np.eye(d) * 1e-6 к ковариационной матрице, чтобы избежать вырожденности
        raise NotImplementedError("Реализуйте метод fit для LDA/QDA")

    def predict(self, X):
        # 1. Для каждой точки и каждого класса вычислите дискриминантную функцию δ_k(x):
        # 2. Выберите класс с максимальным δ_k(x)
        # 3. Верните предсказания
        raise NotImplementedError("Реализуйте метод predict для LDA/QDA")

## Для метода kNN:
Проведите кросс-валидацию (например, 5-fold) на обучающей выборке для значений k = 1, 2, ..., 30.


Для каждого k посчитайте среднюю Accuracy (долю верных ответов - среднюю по всем классам) по фолдам.


Постройте график: k → accuracy (два графика: обычный и взвешенный kNN).

Выберите k, при котором accuracy максимальна — используйте его для финального тестирования.

In [19]:
# Ваш код ниже

## Для наивного байесовского классификатора и линейного и квадратичного дискриминантного анализа

Обучите модели на обучающей выборке

In [20]:
# Ваш код ниже

## Для всех моделей

Вызовите методы для предсказания на данных из тестовой выборки

In [23]:
# Ваш код ниже

## Метрики качества классификации

Для оценки качества классификаторов используются следующие метрики. Обозначения:

- $ TP $ — True Positive (верно предсказанные положительные примеры)
- $ TN $ — True Negative
- $ FP $ — False Positive (ложные срабатывания)
- $ FN $ — False Negative (пропущенные положительные)

Для многоклассовой классификации используется **макро-усреднение** — метрика считается отдельно для каждого класса, затем берётся среднее.

---

### Accuracy (доля правильных ответов)

$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

---

### Precision (точность — доля верных срабатываний среди всех предсказанных положительных)

$$
\text{Precision} = \frac{TP}{TP + FP}
$$

---

### Recall (полнота — доля найденных положительных среди всех реальных положительных)

$$
\text{Recall} = \frac{TP}{TP + FN}
$$

---

### F1-мера (гармоническое среднее precision и recall)

$$
F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
$$

F1-мера полезна, когда классы несбалансированы — она "наказывает" за сильный дисбаланс между precision и recall.

### Задача:
Для каждой модели подсчитать вышеописанные метрики для каждого из классов и вывести в виде таблицы

In [22]:
# Ваш код ниже

## Вопросы для подготовки к защите

Что такое kNN? Почему он называется "ленивым" алгоритмом?

Как работает взвешенный kNN? Какие функции весов вы знаете?

Почему в kNN важно нормировать признаки?

Как вы подбирали оптимальное k? Почему не стоит брать k=1 или k=N?

В чём смысл кросс-валидации? Почему нельзя просто выбрать k по максимальной точности на обучающей выборке?

Какие метрики расстояния вы реализовали? Чем отличается Манхэттенское расстояние от Евклидова? Когда какое лучше?

Объясните формулу наивного байесовского классификатора. Почему он "наивный"?

Какие предположения делает Gaussian Naive Bayes?

Чем отличается LDA от QDA? В каких случаях какой метод предпочтительнее?

Почему в LDA решающие границы — линейные, а в QDA — квадратичные? Покажите на формулах.

Запишите формулы для accuracy, precision, recall и F1-score через TP, TN, FP, FN.

Почему accuracy не всегда адекватная метрика? Приведите пример, когда accuracy высокая, но модель бесполезна.

Что такое макро-усреднение (macro-average)? Почему мы его используем в многоклассовой классификации?

В чём разница между macro-F1 и micro-F1? Когда какой предпочтительнее?

Почему F1-мера — это гармоническое среднее, а не арифметическое? Как это влияет на интерпретацию?