# Лабораторная 10

In [1]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

## 1. Постановка задачи обучения с учителем

* $X$ - множество объектов, или же, что более точно множество их информационных описаний
* $Y$ - множество ответов 
* $y: X \rightarrow Y$ - некоторая неизвестная зависимость

***Дано:*** 

$ {x_1 ... x_l} \subset X $ - объекты

$y_1 = y(x_1) ... y_l = y(x_l)$ - ответы

***Требуется найти:*** 

$a: X \rightarrow Y $ - алгоритм, приближающий $y$ на множестве $X$

## 2. Функция потерь

1. ***Среднеквадратичная ошибка (Mean Squared Error - MSE)*** для задачи регрессии:
$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$$

где $y_i$ - фактическое значение, $\hat{y_i}$ - предсказанное значение, и $n$ - количество объектов в выборке.

2. ***Средняя абсолютная ошибка (Mean Absolute Error - MAE)*** для задачи регрессии:
$$ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y_i}| $$

3. ***Кросс-энтропия (Cross-Entropy Loss) для задачи классификации*** в бинарном случае:
$$\text{Cross-Entropy} = -\frac{1}{n} \sum_{i=1}^{n} (y_i \log(\hat{y_i}) + (1 - y_i) \log(1 - \hat{y_i}))$$
где $y_i$ - фактическое бинарное значение (0 или 1), а $\hat{y_i}$ - предсказанная вероятность принадлежности к классу 1.

4. ***Кросс-энтропия (Cross-Entropy Loss) для задачи классификации*** в многомерном случае:

$$\text{Cross-Entropy Loss} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{M} y_{ij} \log(p_{ij})$$

где:

$N$ - количество примеров в наборе данных

$M$ - количество классов

$y_{ij}$ - бинарное значение (0 или 1), которое указывает, принадлежит ли (i)-ый пример к (j)-ому классу

$p_{ij}$ - предсказанная моделью вероятность того, что (i)-ый пример принадлежит к (j)-ому классу

## 3.1 Градиентный спуск

Предположим, у нас есть функция потерь $L(w)$, где $w$ - это вектор параметров, который мы хотим оптимизировать. Наша цель - минимизировать эту функцию потерь путем изменения параметров $w$. Градиентный спуск осуществляет это изменение, используя градиент функции потерь.

Шаги градиентного спуска выглядят следующим образом:

1. Инициализируем параметры $w$ случайными значениями или нулями.
2. Для каждой итерации $t$ обновляем параметры по формуле:
$$w^{(t+1)} = w^{(t)} - \alpha \nabla L(w^{(t)})$$
Где $\alpha$ - это ***коэффициент обучения (learning rate)***, который определяет размер шага, а $\nabla L(w^{(t)})$ - градиент функции потерь по параметрам $w$.

## 3.2 Стохастический градиентный спуск

Математический процесс стохастического градиентного спуска заключается в следующих шагах:

1. Выбирается случайный пример(или примеры) из обучающего набора с меткой ($x^{(i)}, y^{(i)})$.
2. Вычисляется градиент функции потерь по параметрам модели для этого примера: $\nabla L^{(i)}(w)$.
3. Обновляются параметры модели $w$ в направлении, противоположном градиенту, с использованием скорости обучения $\alpha$: $w := w - \alpha \nabla L^{(i)}(w)$.

## 3.3 Оптимизатор Adam

***Оптимизатор Adam (Adaptive Moment Estimation)*** - это популярный алгоритм оптимизации для обновления весов нейронной сети в процессе обучения. Adam является комбинацией двух других алгоритмов оптимизации - метода адаптивной скорости обучения (AdaGrad) и метода стохастического градиентного спуска (SGD).

С математической точки зрения, обновление весов в Adam происходит с учетом оценки первого и второго моментов градиента. Для каждого параметра вычисляются средние моменты градиента (mean) и квадраты градиента (variance). Затем происходит корректировка этих моментов для учета bias смещения и сглаживания.

Формула обновления весов в оптимизаторе Adam выглядит следующим образом: $$m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t $$

$$ v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 $$

$$\hat{m}_t = \frac{m_t}{1 - \beta_1^t} $$

$$\hat{v}_t = \frac{v_t}{1 - \beta_2^t} $$ 

$$\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{\hat{v}_t} + \epsilon} \cdot \hat{m}_t $$

Где:

* $m_t$ - оценка первого момента градиента
* $v_t$ - оценка второго момента градиента
* $\beta_1$ и $\beta_2$ - коэффициенты сглаживания
* $\alpha$ - скорость обучения
* $\epsilon$ - маленькое число для стабильности
* $\hat{m}_t$ и $\hat{v}_t$ - скорректированные оценки моментов
* $\theta_t$ и $\theta_{t+1}$ - веса на предыдущем и текущем шаге, соответственно
* $g_t$ - градиент функции потерь по весам

## 4. Алгоритмы и модели обучения с учителем

Нами были рассмотрены следующие алгоритмы обучения с учителем:

1. Метод ближайщих соседей. 
2. Линейная классификация и регрессия. 
3. Метод опорных векторов(SVM). 
4. Решающие дерево. 
5. Случайный лес. 
6. Градиентный бустинг(Catboost).
7. Полносвязная нейронная сеть. 
8. Свёрточная нейронная сеть. 

## 4.1 Метод ближайщих соседей

***Основные гиперпараметры этого классификатора***:

1. `n_neighbors`: Число соседей, которые используются для классификации каждого образца. Это, вероятно, самый важный гиперпараметр в классификаторе k-NN.

2. `weights`: Этот параметр позволяет задать веса, используемые для голосования среди соседей. Возможные значения:
- `uniform`: все соседи вносят одинаковый вклад в голосование.
- `distance`: вес каждого соседа зависит от расстояния, то есть ближайшие соседи имеют больший вес.

3. `p`: Параметр метрики расстояния. По умолчанию, p=2, что соответствует евклидовой метрике. Однако можно установить p=1, чтобы использовать манхэттенскую метрику.

4. `metric`: Метрика расстояния. По умолчанию используется метрика Минковского, которая имеет параметр p. Однако можно также указать другие метрики, такие как косинусное расстояние, Жаккарда и другие.

In [None]:
# Создаем объект классификатора k-ближайших соседей
knn = KNeighborsClassifier(n_neighbors=5)
# Обучаем модель на обучающих данных
knn.fit(X_train, y_train)
# Делаем предсказания на тестовых данных
y_pred = knn.predict(X_test)

## 4.2 Линейная классификация и регрессия 

***L1 и L2 регуляризация*** - это методы добавления штрафа за сложность модели во время обучения, который помогает предотвратить переобучение. Регуляризация добавляет дополнительный член в функцию потерь модели, который зависит от весов (параметров) модели, тем самым штрафуя большие веса и предотвращая их излишнюю сложность.

1. ***L1 Регуляризация***:
Также известная как Lasso регуляризация. В L1 регуляризации дополнительный член в функции потерь представляет собой сумму абсолютных значений весов модели:
$L1: \lambda \sum_{i=1}^{n} |w_i|$
где $( \lambda $) - коэффициент регуляризации, который контролирует величину штрафа, а $( w_i $) - веса модели.

Преимуществом L1 регуляризации является ее способность к отбору признаков - некоторые веса могут быть точно нулевыми, что делает ее полезной при работе с большим количеством признаков, отбирая наиболее важные из них.

2. ***L2 Регуляризация***:
Также известная как Ridge регуляризация. В L2 регуляризации дополнительный член в функции потерь представляет собой сумму квадратов весов модели:
$L2: \lambda \sum_{i=1}^{n} w_i^2$
где $( \lambda $) - коэффициент регуляризации, а $( w_i $) - веса модели.

L2 регуляризация штрафует большие веса, но не склонна делать их точно нулевыми. Это делает ее полезной при предотвращении переобучения и улучшении обобщающей способности модели.

## 4.3 SVM 

***Основные гиперпараметры:***

1. ***C (Regularization Parameter)***: Гиперпараметр C контролирует баланс между достижением минимальной ошибки классификации на тренировочном наборе данных и минимизацией штрафа за нарушение мягкой границы между классами. Большее значение C приводит к более жесткой границе решения, увеличивая штраф за классификационные ошибки, тогда как меньшее значение C позволяет некоторым точкам нарушать границу.

2. ***Kernel Type***: SVM поддерживает различные типы ядер, такие как линейное, полиномиальное и радиальное (RBF). Наиболее часто используемыми являются радиальное и полиномиальное ядра.

3. ***Gamma (Kernel Coefficient)***: Гиперпараметр gamma сочетает важность точек обучающего набора при вычислении разделяющей поверхности. Большие значения gamma могут привести к переобучению, в то время как маленькие значения могут привести к недообучению.

4. ***Degree (Polynomial Kernel)***: Если вы используете полиномиальное ядро, гиперпараметр степени определяет степень полинома.

5. ***Class Weights***: Этот параметр позволяет учитывать несбалансированные классы в данных путем назначения разных весов классам. Это может помочь улучшить производительность модели в случае несбалансированных данных.

6. ***Convergence Criteria***: Этот параметр определяет критерии остановки обучения модели, такие как минимальное значение функции потерь.

## 4.4 Решающее дерево

***Гиперпараметры:***

***criterion*** = 'gini' - функция для измерения качества разбиения. Поддерживаются критерии 'gini' для неодородности Джини и 'entropy' для прироста информации

***splitter***='best' - стратегия, используемая для выбора разбиения в каждом узле. Поддерживаются стратегии 'best' для выбора лучшего разбиения и 'random' для выбора лучшего рандомного разбиения

***max_depth***=None - максимальная глубина дерева. Если None, то дерево строится до тех пор, пока в каждом листе не будет только один класс или пока каждый лист не будет содержать количество экземпляров, равное min_samples_split.

***max_leaf_nodes***=None - максимальное количество листьев. Дерево строится исходя из ограничения на максимальное количество листьев. Остаются только те листья, которые максимально уменьшают неоднородность.

***min_impurity_decrease***=0.0 - минимальное уменьшение неоднородности. Узел расщепляется, если неоднородность уменьшается на число больше или равное min_impurity_decrease.

Это лишь самые популярные гиперпараметры. На самом деле их намного больше. 

In [None]:
# Создание и обучение модели решающего дерева
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

## 4.5 Случайный лес 

***Гиперпараметры:***

***n_estimators***: количество деревьев в случайном лесу.

***criterion***: функция для измерения качества разделения. Для классификации обычно используется "gini", а для регрессии - "mse" (среднеквадратичная ошибка).

***max_depth***: максимальная глубина каждого дерева.

***min_samples_split***: минимальное количество образцов, необходимое для разделения внутреннего узла.

***min_samples_leaf***: минимальное количество образцов в листовом узле.

***max_features***: количество признаков, рассматриваемых при разделении.

Это лишь самые популярные гиперпараметры. На самом деле их намного больше.

In [None]:
# Создание и обучение модели случайного леса
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)
# Прогнозирование на тестовом наборе
y_pred = clf.predict(X_test)

## 4.6 Градиентный бустинг

***Catboostclassifier - гиперпараметры:***

__learning_rate__: Скорость обучения (learning rate). Этот параметр контролирует величину изменения весов на каждом шаге градиентного спуска, и влияет на скорость сходимости модели.

__depth__: Максимальная глубина деревьев. Определяет максимальную глубину деревьев, которые используются в градиентном бустинге.

__l2_leaf_reg__: L2 регуляризация. Этот параметр контролирует силу регуляризации, помогая предотвратить переобучение модели.

__iterations__: Количество итераций (деревьев), которые будут созданы в градиентном бустинге.

__border_count__: Параметр, определяющий, сколько значений должно быть у категориального признака, чтобы считать его категориальным. Это позволяет модели эффективно обрабатывать категориальные признаки.

## 4.7 Полносвязная нейронная сеть

***Модель нейрона*** - это математическая модель. Она обычно состоит из следующих элементов:

1. **Входные данные (Input):** На вход модели нейрона поступают признаки или значения, которые необходимо обработать. На картинке выше - это $x_1, x_2, ... x_N$.

2. **Веса (Weights):** Каждый входной признак соотносится с определенным весом, который отражает его важность для вычислений. В процессе обучения модель обучается и веса меняются таким образом, чтобы уменьшить функцию потерь. На картинке выше - это $w_0, w_1, w_2, ... w_N$.

3. **Сумматор (Aggregator):** В сумматоре происходит вычисление скалярного произведения $u = <x,w> = w_0 \cdot 1 + w_1 \cdot x_1 + ... w_N \cdot x_N$. 

4. **Функция активации (Activation Function):** Результат сумматора $u$ проходит через функцию активации $f(u)$, которая добавляет нелинейность в модель. 

5. **Выход (Output):** На основе результата функции активации нейрон генерирует свое значение - $y$, которое затем может передаваться другим нейронам. 

Рассмотрим пару моментов, которые мы не рассматривали подробно до этого:

***Затухание градиента (vanishing gradient)*** - это проблема, возникающая в глубоких нейронных сетях во время обратного распространения ошибки. Эта проблема заключается в том, что градиент ошибки, вычисляемый на более глубоких уровнях нейронной сети, становится очень маленьким по сравнению с начальными слоями, что затрудняет обновление их весов.

Затухание градиента возникает из-за использования активационных функций, таких как ***сигмоида или гиперболический тангенс***, которые имеют ограниченный диапазон значений и производных. При обратном распространении ошибки градиент передается через слои с активационными функциями, и если этот градиент становится очень маленьким, то веса на этих слоях не обновляются должным образом.

Для решения проблемы затухания градиента были разработаны различные подходы, такие как использование активационных функций с более широким диапазоном значений (например, ***ReLU***), ***методы инициализации весов***, ***батч-нормализация*** и различные методы оптимизации, такие как RMSprop, ***Adam*** и другие.

***Паралич сети (англ. "network paralysis")*** - это состояние, когда нейронная сеть перестает обучаться или производить правильные результаты из-за различных проблем. Паралич сети может возникнуть по разным причинам, например:

1. ***Недостаточное количество обучающих данных***: если нейронная сеть не обучается на достаточном объеме данных, она может не смочь уловить все закономерности и производить неточные результаты.

2. ***Неверно подобранные гиперпараметры***: нейронные сети имеют множество гиперпараметров (например, скорость обучения, количество эпох обучения и т.д.), и если они выбраны неправильно, это может привести к параличу сети.

3. ***Проблемы с градиентным спуском***: градиентный спуск - это алгоритм оптимизации, используемый для обновления весов нейронной сети в процессе обучения. Если возникают проблемы с градиентом (например, исчезающий/взрывающийся градиент), это может вызвать паралич сети.

4. ***Переобучение***: когда модель слишком хорошо запоминает обучающие данные и не обобщает свои знания на новые данные, это также может привести к параличу сети.

## 4.8 Свёрточная нейронная сеть

Данную модель мы подробно рассматривали на прошлом семинаре. Основными элементами являются:

* ***Свёртка***
* ***Pooling***
* ***Dropout***
* ***батч-нормализация***

Вместо построение своей архитектуры мы можем использовать готовые модели. ***См код ниже***.

In [6]:
device = "cuda" if torch.cuda.is_available() else "cpu"

In [7]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import torchvision.models as models
from torch.utils.data import DataLoader
from torchvision.datasets import CIFAR10

# Загрузка и предобработка данных
transform = transforms.Compose([
    transforms.Resize(224),  # Ресайз изображений до 224x224 (так как AlexNet принимает изображения такого размера)
    transforms.ToTensor(),  # Преобразование в тензор
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # Нормализация данных
])

trainset = CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = DataLoader(trainset, batch_size=32, shuffle=True)

# Создание модели AlexNet
model = models.alexnet().to(device)  # Загрузка модели AlexNet c предварительно обученными весами
model.classifier[6] = nn.Linear(4096, 10)  # Замена последнего полносвязного слоя для соответствия 10 классам в CIFAR-10

# Определение функции потерь и оптимизатора
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

# Обучение модели
for epoch in range(5):  # 5 эпох обучения
    running_loss = 0.0
    
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data
        optimizer.zero_grad()
        outputs = model(inputs.to(device))
        loss = criterion(outputs.to(device), labels)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
        if i % 10 == 9:  # выводим статистику каждых 1000 мини-пакетов
            print(f'Эпоха {epoch + 1}, Пакет {i + 1}, Потери: {running_loss / 1000:.3f}')
            running_loss = 0.0

print('Обучение завершено')

Files already downloaded and verified


KeyboardInterrupt: 

## 5. Метрики оценки качества модели

1. **Точность (Accuracy)**: 

2. **Полнота (Recall)**: Полнота измеряет, какую долю объектов положительного класса модель способна обнаружить. Она особенно важна в задачах, где ложноотрицательные ошибки критичны.

3. **Точность (Precision)**: Показывает, какую долю из предсказанных положительных примеров реально являются положительными. Precision вычисляется как отношение истинно положительных результатов к сумме истинно положительных и ложноположительных результатов.

4. **F1-мера (F1-score)**: Комбинирует в себе полноту и точность в одну метрику и вычисляется как гармоническое среднее между полнотой и точностью. F1-мера хорошо работает в случаях, когда нужно найти баланс между полнотой и точностью.

5. **ROC AUC**: Эта метрика используется для оценки качества бинарной классификации и представляет собой площадь под кривой ROC (Receiver Operating Characteristic). 

6. **MSE (Mean Squared Error)**: Это метрика для оценки качества регрессионных моделей.

## 6. Обучение без учителя

***Дано:***

$X$ - пространство объектов

$X^l$ - обучающая выборка

$\rho: X * X -> [0;\infty)$ - функция расстояния между объектами

***Найти:***

$Y$ - множество кластеров

$a : X -> Y$ - алгоритм кластеризации

Существует несколько методов решения задачи кластеризации:
1. **K-средних (K-means)**: Этот метод разбивает данные на заранее заданное количество кластеров (K) и минимизирует среднее расстояние между объектами и их центрами в каждом кластере.
2. **Иерархическая кластеризация**: Этот метод строит иерархию кластеров, начиная с того, что каждый объект начинает как отдельный кластер, и затем объединяет их постепенно в более крупные кластеры.
3. **DBSCAN**: Этот метод основан на плотности данных и способен обнаруживать кластеры произвольной формы.

## 7. Схема обучения моделей

1. Сбор датасета(это может быть довольно трудоёмкий процесс).
2. Подготовка набора данных(в формате csv или в виде тензоров, удаление пропусков, удаление признаков и т.д).
3. Выбор модели ML.
4. Выбор гиперпараметров модели ML. 
5. Оценка полученных результатов. 

Выбор модели неплохо описан здесь: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html. 

Данная схема не учитывает нейронные сети. 

Стоит понимать, что в случае табличных данных обычно лучшую точность даёт ***Catboosclassifier***. В случае картинок, видео и т. д. ***нейронные сети***.