Метрики оценки моделей зависят от типа задачи: классификация, регрессия или другие. Вот основные метрики:

### 1. Метрики для классификации
- **Accuracy (Точность)**: Доля правильно классифицированных объектов.
$
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
$
где $TP$ — истинно положительные, $TN$ — истинно отрицательные, $FP$ — ложно положительные, $FN$ — ложно отрицательные.

- **Precision (Точность)**: Доля истинно положительных среди всех предсказанных положительных.
$
Precision = \frac{TP}{TP + FP}
$

- **Recall (Полнота)**: Доля истинно положительных среди всех реальных положительных.
$
Recall = \frac{TP}{TP + FN}
$

- **F1-Score**: Гармоническое среднее Precision и Recall.
$
F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}
$

- **ROC-AUC**: Площадь под ROC-кривой, которая показывает зависимость между чувствительностью (Recall) и 1-специфичностью.

---

### 2. Метрики для регрессии
- **Mean Squared Error (MSE)**: Среднеквадратичная ошибка.
    $
    MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
    $

- **Mean Absolute Error (MAE)**: Средняя абсолютная ошибка.
    $
    MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|
    $

- **R² (Коэффициент детерминации)**: Доля объяснённой дисперсии.
    $
    R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} 
    $

---

### 3. Выбор метрики
- Для **несбалансированных данных** в классификации лучше использовать Precision, Recall или F1-Score.
- Для регрессии выбор метрики зависит от задачи: MSE штрафует за большие ошибки, а MAE более устойчив к выбросам.


Метрика **ROC-AUC** (Receiver Operating Characteristic - Area Under the Curve) — это один из самых популярных способов оценки качества бинарных классификаторов.

---

### Что такое ROC-кривая?

**ROC-кривая** показывает, как меняется качество модели при разных порогах классификации. На графике по осям:

- **X (False Positive Rate, FPR)** — доля ложных срабатываний:  
  $
  FPR = \frac{FP}{FP + TN}
  $
- **Y (True Positive Rate, TPR)** или Recall — доля верно предсказанных положительных:
  $
  TPR = \frac{TP}{TP + FN}
  $

Для разных порогов вероятности модель будет давать разные TPR и FPR — и мы получаем кривую.

---

### Что такое AUC?

**AUC** = Area Under the Curve — площадь под ROC-кривой.

- Значение **AUC лежит в диапазоне от 0 до 1**:
  - **1.0** — идеальная модель.
  - **0.5** — рандом (модель не лучше угадывания).
  - **<0.5** — модель хуже случайной (но можно просто инвертировать предсказания).

---

### Преимущества ROC-AUC:
- Учитывает **все возможные пороги**.
- Устойчив к **несбалансированным классам** (лучше, чем accuracy в этом плане).
- Не зависит от конкретного порога, что даёт общую картину.

---

### Когда использовать (а когда — нет):

Хорошо:
- Для **оценки общей силы модели** независимо от выбранного порога.

Не идеально:
- Когда важна **конкретная стоимость ошибок** (например, False Positive опаснее, чем False Negative).
- При **крайнем дисбалансе классов** лучше использовать **PR-AUC (Precision-Recall AUC)**.

# 1.	Градиентный спуск.

## Функция потерь. Оптимизация.

**1. Функция потерь (Loss function)**  
- **Что это такое?**  
  Функция потерь показывает, насколько хорошо или плохо наша модель решает задачу. Она сравнивает предсказанные моделью значения с реальными (истинными) значениями и возвращает некое «число ошибки». Чем меньше это число, тем лучше модель.  

- **Почему она важна?**  
  Она служит «ориентиром» при обучении: мы стремимся минимизировать значение этой функции, чтобы улучшить качество предсказаний.  

Примеры:
- **MSE (Mean Squared Error)** — среднеквадратичная ошибка. Обычно используется в задачах регрессии.  
- **Cross-entropy (перекрёстная энтропия)** — часто используется в задачах классификации.  

**2. Оптимизация**  
- **Что значит оптимизировать?**  
  Оптимизация — это процесс подбора параметров (например, весов в нейронной сети), чтобы функция потерь была как можно меньше.  

- **Как это делается на практике?**  
  Самый популярный метод — **градиентный спуск**. Идея в том, что мы вычисляем «наклон» (градиент) функции потерь по отношению к параметрам и немного сдвигаем параметры в сторону уменьшения этой функции.  

**3. Градиентный спуск**  
- **Основная идея**:  
  1. Случайным образом инициализируем параметры (веса) модели.  
  2. Считаем, как сильно изменилась функция потерь, если слегка «сдвинуть» каждый параметр (то есть находим градиент).  
  3. Обновляем параметры в направлении, противоположном градиенту (потому что мы хотим уменьшить функцию потерь).  
  4. Повторяем много раз, пока не достигнем минимума (или пока улучшения не станут незначительными).  

- **Как записывается обновление?**  
  Если $ w $ — это вектор параметров, а $ L(w) $ — функция потерь, то обновление выглядит так:  

  $ w_{\text{new}} = w_{\text{old}} - \alpha \cdot \nabla L(w_{\text{old}})$ ,
  где  
  - $ \alpha $ — это **шаг обучения** (learning rate), который определяет, насколько сильно мы двигаемся в сторону снижения ошибки,  
  - $ \nabla L $ — вектор частных производных (градиент) функции потерь по параметрам.  

## Производная, частные производные, градиент. Методы оценки градиента.

**1. Производная**  
- Если у нас есть функция $f(x)$, то **производная** $f'(x)$ в точке $x$ — это «скорость изменения» функции в этой точке.  
- Проще говоря, это наклон графика функции. Если производная положительная — функция возрастает, отрицательная — убывает.  

**2. Частные производные**  
- Когда у нас несколько переменных (например, функция $f(x, y)$), мы можем взять производную по каждой из них отдельно.  
- Такая производная по одной переменной, при условии что все остальные переменные считаются константами, называется **частной производной**.  


**3. Градиент**  
- **Градиент** — это вектор, состоящий из всех частных производных функции по её переменным. Например, у функции $ f(x, y) $ градиент будет:
  $
  \nabla f(x, y) = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right).
  $
- Градиент указывает направление наискорейшего возрастания функции.  
- В задачах оптимизации (например, при обучении нейронных сетей) мы идём в обратном направлении (против градиента), чтобы **уменьшать** функцию потерь.  

**4. Методы оценки (вычисления) градиента**  
1. **Аналитический (символьный) расчёт**  
   - Если функция задана в удобном для математики виде, можно вывести формулу для градиента вручную.  
   - В машинном обучении такое редко делается вручную для больших моделей, но концептуально это возможно.  

2. **Автоматическое дифференцирование (автодиф / autodiff)**  
   - Это ключевой метод в популярных фреймворках типа TensorFlow или PyTorch.  
   - Он автоматически строит граф вычислений и по нему вычисляет точные градиенты.  
   - Очень удобен, так как не нужно вручную выводить формулу для производной.  

3. **Численное дифференцирование (например, метод конечных разностей)**  
   - Идея в том, что можно приблизительно оценить производную, слегка меняя входные параметры и смотря, как меняется значение функции.  
   - Например, можно вычислить $\frac{f(x + \epsilon) - f(x - \epsilon)}{2\epsilon}$ (центральная разностная схема) для оценки производной по $x$.  
   - Этот метод простой, но при большой размерности или слишком маленьком/большом $\epsilon$ может быть неточным или вычислительно дорогим.  

4. **Стохастические методы / Методы с оценкой градиента по данным**  
   - В задачах обучения моделей на больших данных обычно не считают точный градиент по всей выборке, а оценивают его по части данных (мини-батч).  
   - Это ускоряет обучение, хотя добавляет «шум» в процесс, но этот шум иногда даже помогает «выпрыгивать» из локальных минимумов.  

## Градиентный спуск, проблема выбора шага.

При обучении моделей с помощью градиентного спуска один из ключевых гиперпараметров — это **шаг обучения** (learning rate, $ \alpha $). Его правильный выбор во многом определяет, насколько быстро и стабильно будет сходиться алгоритм.

---

### В чём проблема выбора шага обучения?

1. **Слишком большой шаг**  
   - Градиентные обновления могут «перепрыгивать» через минимум.  
   - Алгоритм может даже вовсе не сойтись, а «скакать» вокруг или уходить в бесконечность.  

2. **Слишком маленький шаг**  
   - Сходимость становится очень медленной.  
   - Модель может «застрять» на плоскостях или около седловых точек, затрачивая множество итераций на выход из «застоя».  

3. **Разный масштаб признаков**  
   - Если отдельные параметры (или признаки данных) на порядки отличаются по масштабу, то выбор одного шага для всех параметров может быть неэффективным. В этом случае обычно прибегают к методам адаптивной подстройки шага (например, Adam, RMSProp и т.д.).  

   - Эти методы автоматически подстраивают шаг обучения для каждого параметра (каждого веса модели) на основе истории градиентов.  
   - Например, **Adam** использует экспоненциально сглаженные средние значения градиента и его квадрата, чтобы «понимать», где обучение «стоит на месте», а где изменения сильные.  
   - **Плюсы**: обычно более быстрая и стабильная сходимость «из коробки».  
   - **Минусы**: появляется больше гиперпараметров (бета1, бета2 и т.д.), нужно аккуратно настраивать и иногда контролировать переобучение.  

4. **Методы постобработки шага (learning rate scheduler)**  
   - Многие фреймворки позволяют применять **scheduler**, который по определённому расписанию (например, каждые $n$ эпох или когда метрика на валидационной выборке не улучшается) уменьшает шаг обучения.  
   - Часто используют «стратегию learning rate warm-up», когда сначала шаг небольшой, затем повышается, а после снова снижается — это может помочь модели «осторожно» стартовать, а затем быстрее обучаться на ранних итерациях.  


## Стохастический градиентный спуск.

**Стохастический градиентный спуск (Stochastic Gradient Descent, SGD)** — это вариант градиентного спуска, в котором мы на каждом шаге берём не всю обучающую выборку для вычисления градиента, а **случайную часть данных** (мини-батч) или даже один случайный пример. 

---

### Почему это нужно?

1. **Классический градиентный спуск** (Batch Gradient Descent) вычисляет градиент на всей выборке.  
   - Плюс: точная оценка градиента.  
   - Минус: дорого и долго, особенно на больших наборах данных.

2. **Стохастический градиентный спуск** (SGD) или **мини-батч SGD**:  
   - Идея: на каждой итерации берём один пример (или небольшой пакет «мини-батч») для вычисления градиента.  
   - Плюс: обучение идёт быстрее на практике (не ждём, пока пройдём через все данные).  
   - Плюс: «шум» в оценке градиента иногда помогает «выбраться» из локальных минимумов.  
   - Минус: оценка градиента может быть неточной — это шумит процесс обучения, и модель может скакать вокруг минимума.

---

### Как выглядит процесс?

1. **Инициализируем** веса модели (случайным образом или каким-то другим способом).  
2. **Случайно выбираем** один пример (или небольшой мини-батч) из обучающей выборки.  
3. **Считаем функцию потерь** на этих выбранных данных.  
4. **Вычисляем градиент** (производные потерь по параметрам).  
5. **Обновляем параметры** модели, идя против градиента:  
   $
   w \gets w - \alpha \cdot \nabla L(w),
   $
   где $ w $ — параметры, $ \alpha $ — шаг обучения, $ \nabla L(w) $ — градиент на выбранных данных.  
6. **Повторяем** шаги 2-5 много раз.  

Обычно мы проходим **«эпохи»**: одна эпоха — это проход по **всей** обучающей выборке, «разбитой» на мини-батчи, после чего данные можно снова перемешать.


## Использование момента. Метод Нестерова.

**Использование «момента» (Momentum)** и **Метод Нестерова** — это улучшения стохастического градиентного спуска (SGD), которые помогают ускорить и стабилизировать процесс обучения, особенно в ситуациях, где есть «застревания» на плоскостях или резкие колебания обновлений.

---

### 1. Момент (Momentum)

#### Идея
В классическом стохастическом градиентном спуске мы просто смещаемся в направлении антиградиента:
$
    w \gets w - \alpha \cdot \nabla L(w).
$

Но если функция потерь имеет узкие «криволинейные долины» (что часто бывает), простой SGD может «колебаться», двигаясь то вперёд, то назад по этим долинам. **Momentum** (момент) даёт сглаживание этих колебаний.

#### Как работает
- Вводится переменная скорости (или импульса) $\mathbf{v}$, которую обновляют по формуле:
  $
    \mathbf{v}_{t+1} = \beta \, \mathbf{v}_t + (1 - \beta)\,\nabla L(w_t),
  $
  где $\beta$ (обычно около 0.9) — коэффициент сглаживания.  
- После этого веса обновляются с учётом скорости:
  $
    w_{t+1} = w_t - \alpha \, \mathbf{v}_{t+1}.
  $

**Смысл**: если градиент в одном направлении повторяется несколько шагов подряд, $\mathbf{v}$ накапливает импульс и «тянет» веса быстрее в нужную сторону. Если направление меняется, старая скорость постепенно затухает (умножается на $\beta$, которое меньше 1).

**Преимущества**:
1. **Сглаживает колебания**: модель не так легко будет «метаться» из стороны в сторону.  
2. **Ускоряет движение** в направлении «стабильного» градиента: если много шагов подряд градиент указывает в одну сторону, модель накапливает импульс и быстрее достигает минимума.

---

### 2. Метод Нестерова (Nesterov Accelerated Gradient, NAG)

#### В чём отличие от обычного Momentum?

В обычном Momentum мы сначала используем предыдущую скорость $\mathbf{v}_t$, добавляем текущий градиент, и потом делаем шаг обновления. В методе Нестерова мы пытаемся «заглянуть» вперёд, куда нас приведёт импульс, и **там** оцениваем градиент.

Другими словами, мы **предсказываем**, где окажемся за счёт предыдущего импульса, и именно в этой «предсказанной» точке смотрим градиент. Это помогает учесть, что вектор импульса может быть слишком большим или находиться не совсем там, где нужно.

#### Формула (упрощённо)
1. Сначала делаем «шаг предсказания» (look-ahead) по старому импульсу:
   $
     \tilde{w} = w_t - \beta \, \alpha \, \mathbf{v}_t
   $
   (мы «заглядываем», где будем, если применим накопленный импульс).
2. Считаем градиент **в точке** $\tilde{w}$:
   $
     \nabla L(\tilde{w})
   $
3. Обновляем импульс:
   $
     \mathbf{v}_{t+1} = \beta \, \mathbf{v}_t + (1 - \beta)\,\nabla L(\tilde{w})
   $
4. Обновляем веса уже с учётом нового импульса:
   $
     w_{t+1} = w_t - \alpha \, \mathbf{v}_{t+1}.
   $

В итоге мы используем информацию о том, куда «тянет» импульс, прежде чем вычислять градиент. Это делает корректировку более точной и обычно улучшает сходимость по сравнению с «классическим» Momentum.

---

### Почему это работает лучше?

- **Наблюдение**: в обычном Momentum мы берём градиент в точке $ w_t $, но фактически мы уже собираемся переместиться в точку $ w_t - \beta\alpha \mathbf{v}_t $.  
- **Метод Нестерова** говорит: «Сначала представим, что мы уже сделали этот шаг, **там** и посчитаем градиент, затем откорректируем движение».  

За счёт этого получается более точное направление обновления. В результате — **быстрее сходимся** и меньше «перелётов» через минимум, чем с обычным импульсом.

### Adagrad, Adadelta, RMSProp, Adam.

**Адаптивные методы оптимизации в машинном обучении**

Адаптивные методы оптимизации представляют собой усовершенствования классического стохастического градиентного спуска (SGD) с добавлением моментов и других техник. Эти методы адаптируют скорость обучения (шаг оптимизации) для каждого параметра модели индивидуально, что помогает справляться с различными масштабами и чувствительностью разных весов. Рассмотрим основные из них:

---

### 1. **Adagrad**

#### Идея
Adagrad адаптирует скорость обучения для каждого параметра модели отдельно, основываясь на том, как часто этот параметр обновляется. Если параметр часто получает большие градиенты, его шаг обучения уменьшается. Если градиенты небольшие или редкие, шаг остается относительно большим.

#### Как это работает
Для каждого параметра ведется учет того, насколько сильно он изменялся в процессе обучения. Параметры, которые часто обновляются с большими изменениями, получают меньший шаг, что предотвращает их чрезмерное изменение. Параметры с менее активными обновлениями сохраняют больший шаг, что способствует их эффективному обучению.

#### Плюсы и минусы
- **Плюсы**:
  - Хорошо работает с разреженными данными, где многие параметры редко обновляются.
  - Автоматически настраивает шаг обучения для каждого параметра.
  
- **Минусы**:
  - Со временем шаг обучения может стать слишком маленьким, что замедляет обучение и может привести к застреванию модели.
  - Не подходит для задач, где требуется продолжительное обучение, так как шаг может не восстановиться.

---

### 2. **Adadelta**

#### Идея
Adadelta разработан как улучшение Adagrad, чтобы решить проблему бесконечного уменьшения шага обучения. Вместо простого накопления всех прошлых градиентов, Adadelta использует экспоненциальное сглаживание, что позволяет шагу обучения оставаться стабильным.

#### Как работает
Adadelta хранит скользящее среднее квадратов градиентов, что позволяет учитывать только недавние изменения. Это предотвращает слишком быстрое уменьшение шага обучения и обеспечивает более устойчивое и гибкое обновление параметров.

#### Плюсы и минусы
- **Плюсы**:
  - Устраняет проблему затухания шага обучения, характерную для Adagrad.
  - Обеспечивает стабильные и устойчивые обновления параметров.
  
- **Минусы**:
  - Требует настройки дополнительных параметров, что может усложнить процесс обучения.
  - В некоторых случаях менее эффективен, чем другие методы, такие как RMSProp или Adam.

---

### 3. **RMSProp**

#### Идея
RMSProp развивает идеи Adagrad и Adadelta, используя экспоненциальное сглаживание для учета последних градиентов. Это позволяет поддерживать стабильный шаг обучения, независимо от накопленной истории градиентов.

#### Как работает
Метод RMSProp сохраняет скользящее среднее квадратов последних градиентов для каждого параметра. При обновлении параметров он использует это среднее для нормализации градиентов, что помогает избежать слишком больших или слишком маленьких шагов обучения.

#### Плюсы и минусы
- **Плюсы**:
  - Эффективно работает на практике, особенно в рекуррентных нейронных сетях.
  - Избегает проблемы бесконечного уменьшения шага обучения.
  
- **Минусы**:
  - Требует тщательной настройки параметров, таких как коэффициент сглаживания.
  - В некоторых случаях может приводить к нестабильным колебаниям, если параметры не оптимально настроены.

---

### 4. **Adam (Adaptive Moment Estimation)**

#### Идея
Adam сочетает в себе преимущества методов Momentum и RMSProp, используя как среднее значение градиентов, так и их дисперсию. Это позволяет более точно и эффективно обновлять параметры модели.

#### Как работает
Adam хранит две экспоненциальные скользящие средние: одну для градиентов, другую для их квадратов. Эти средние используются для корректировки шага обучения, обеспечивая адаптивное и устойчивое обновление параметров. Метод также включает корректировку смещения, чтобы улучшить точность на ранних этапах обучения.

#### Плюсы и минусы
- **Плюсы**:
  - Очень хорошо работает "из коробки" на различных задачах, включая глубокие нейронные сети.
  - Обеспечивает стабильную и быструю сходимость.
  - Менее требователен к настройке гиперпараметров, так как стандартные значения часто работают достаточно хорошо.
  
- **Минусы**:
  - В некоторых случаях может переобучаться, если шаг обучения слишком велик.
  - Может застревать в плоских минимумах или локальных оптимумах, если параметры не настроены правильно.
  - В отдельных задачах классический SGD с подходящим моментом может обеспечить лучшее обобщение.

# 2.	Линейная регрессия.

## Постановка задачи линейной регрессии.

**Линейная регрессия** — это базовый метод машинного обучения, который пытается найти **линейную** зависимость между входными признаками (факторами) и выходным значением (целевой переменной).

---

### 1. Идея задачи

Мы хотим **предсказывать** некоторое число (например, цену квартиры, вес человека, прибыль фирмы и т.д.) по набору входных признаков. Допустим, у нас есть:

- $x_1, x_2, \dots, x_n$ — входные признаки (например, площадь квартиры, количество комнат, этаж и т.д.),
- \(y\) — выход, то есть значение, которое мы хотим предсказывать (цена квартиры).

В **линейной регрессии** мы предполагаем, что связь между $x$ и $y$ можно аппроксимировать **прямой** (в случае одного признака) или **гиперплоскостью** (в случае нескольких признаков) вида:

$
\hat{y} = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_n x_n,
$

где $w_0, w_1, \dots, w_n$ — искомые коэффициенты (веса), а $\hat{y}$ — предсказанное моделью значение.

---

### 2. Формальная постановка задачи

1. У нас есть набор обучающих данных (train set): 
   $
   \{(x^{(i)}, y^{(i)})\}_{i=1}^m,
   $
   где $x^{(i)} = (x^{(i)}_1, \dots, x^{(i)}_n)$ — вектор признаков для $i$-го объекта,  
   $y^{(i)}$ — истинное значение (таргет) для $i$-го объекта,  
   $m$ — общее число объектов в обучающей выборке.

2. Мы хотим найти такие веса $w_0, w_1, ..., w_n$, чтобы **минимизировать** ошибку предсказаний. Чаще всего в линейной регрессии используют **среднеквадратичную ошибку** (MSE):

$
\text{MSE}(w) = \frac{1}{m} \sum_{i=1}^m \Bigl(\hat{y}^{(i)} - y^{(i)}\Bigr)^2 
= \frac{1}{m} \sum_{i=1}^m \Bigl(w_0 + w_1 x_1^{(i)} + \dots + w_n x_n^{(i)} - y^{(i)}\Bigr)^2.
$

3. В задаче линейной регрессии мы ищем **минимум** этой ошибки:

$
(w_0^*, w_1^*, \dots, w_n^*) = \arg\min_{w_0, w_1, \dots, w_n} \text{MSE}(w).
$

---

  Для больших задач и в задачах, где добавляются регуляризации или нелинейные элементы, часто проще и эффективнее использовать **градиентный спуск**, двигаясь пошагово в сторону уменьшения MSE.


## Метод наименьших квадратов. Алгебраическое и оптимизационное решения.

Ниже разберём **Метод наименьших квадратов** в контексте линейной регрессии — как он формально формулируется (оптимизационная постановка) и как получается **алгебраическое** решение (через «нормальные уравнения»).

---

### 1. Оптимизационная постановка

Мы имеем выборку из $m$ объектов:
$
\{(x^{(i)}, y^{(i)})\}_{i=1}^m,
$
где $x^{(i)} = (x_1^{(i)}, x_2^{(i)}, \dots, x_n^{(i)})$ — это $n$-мерный вектор признаков, и $y^{(i)}$ — целевой показатель (число).

Ищем линейную модель вида:
$
\hat{y}^{(i)} = w_0 + w_1 x_1^{(i)} + \dots + w_n x_n^{(i)}.
$

Чтобы «подогнать» модель, хотим **минимизировать** суммарную квадратичную ошибку (Mean Squared Error, MSE). 
$
\text{MSE}(w) = \sum_{i=1}^m \Bigl(w_0 + w_1 x_1^{(i)} + \dots + w_n x_n^{(i)} - y^{(i)}\Bigr)^2.
$

**Задача**: найти вектор весов $\mathbf{w} = (w_0, w_1, \dots, w_n)$, который **минимизирует** эту функцию ошибки.  
$
\mathbf{w}^* = \arg \min_{\mathbf{w}} \text{MSE}(\mathbf{w}).
$

Это и есть **оптимизационная** постановка: мы сводим задачу подбора линейной регрессии к задаче **минимизации** функции потерь (MSE).

---

### 2. Алгебраическое решение (через нормальные уравнения)

При условии, что матрица признаков «хорошо кондиционирована» (нет вырожденности) и размерность задачи сравнительно небольшая, существует **прямое решение**. Для удобства запишем задачу в матричном виде:

1. $\mathbf{X}$ — матрица размера $m \times (n+1)$, где каждый объект — это строка $[1, x_1^{(i)}, x_2^{(i)}, ..., x_n^{(i)}]$. То есть мы считаем «1» отдельным признаком для $w_0$.  
2. $\mathbf{w} = (w_0, w_1, \dots, w_n)^T$ — вектор весов размером $(n+1) \times 1$.  
3. $\mathbf{y} = (y^{(1)}, y^{(2)}, \dots, y^{(m)})^T$ — вектор целевых значений.

Тогда предсказание для всей выборки:  
$
\hat{\mathbf{y}} = \mathbf{X}\mathbf{w}.
$

Функция ошибки (сумма квадратов отклонений) принимает вид:  
$
\text{MSE}(\mathbf{w}) = (\mathbf{X}\mathbf{w} - \mathbf{y})^T(\mathbf{X}\mathbf{w} - \mathbf{y}).
$

Если найти градиент этой ошибки по $\mathbf{w}$ и приравнять к нулю, получим так называемые **нормальные уравнения**:
$
\mathbf{X}^T \mathbf{X} \, \mathbf{w} = \mathbf{X}^T \mathbf{y}.
$

При условии, что $\mathbf{X}^T \mathbf{X}$ обратима (нет линейно зависимых признаков и другие технические детали), решение:
$
\mathbf{w}^* = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}.
$

Это и есть **алгебраическое** (точное) решение задачи наименьших квадратов.  

---

#### Интерпретация

- $\mathbf{X}^T \mathbf{X}$ — матрица, которая описывает взаимосвязи признаков между собой.  
- $\mathbf{X}^T \mathbf{y}$ — вектор, который описывает, как связаны признаки с целевыми значениями.

Решение $\mathbf{w}^*$ — это такой вектор весов, который (в идеале) **точно** минимизирует суммарную квадратичную ошибку на обучающей выборке.

---

### 3. Связь с оптимизационной постановкой

- **Алгебраическое решение** фактически получается из **оптимизационной** задачи, когда мы берём производную функции ошибки $\text{MSE}$ по $\mathbf{w}$ и решаем уравнение $\nabla \text{MSE}(\mathbf{w}) = 0$.  
- Для больших систем, где обращать $\mathbf{X}^T \mathbf{X}$ дорого или невозможно, используют **численные методы** (например, градиентный спуск). Но принцип **тот же**: пытаемся свести $\text{MSE}(\mathbf{w})$ к минимуму.  


## Ковариация, корреляция.

**Ковариация** и **корреляция** — это два близких понятия, которые описывают, **как** связаны друг с другом две переменные (например, в контексте линейной регрессии — признаки между собой или признак и целевая переменная).

---

### 1. Ковариация

- **Определение**: ковариация двух случайных величин $X$ и $Y$ — это среднее значение произведения отклонений $X$ и $Y$ от их средних:
  $
    \mathrm{Cov}(X, Y) \;=\; \mathbb{E}\bigl[(X - \mathbb{E}[X]) \cdot (Y - \mathbb{E}[Y])\bigr].
  $

- **Интерпретация**:  
  - Если $\mathrm{Cov}(X, Y) > 0$, то $X$ и $Y$ имеют тенденцию меняться в **одну** сторону (когда $X$ растёт, $Y$ тоже растёт, и наоборот).  
  - Если $\mathrm{Cov}(X, Y) < 0$, то они связаны **обратной** зависимостью (рост $X$ сопровождается уменьшением $Y$).  
  - Если $\mathrm{Cov}(X, Y) \approx 0$, то сильной линейной связи нет.  

- **Измерение**: ковариация может принимать любые значения от $-\infty$ до $+\infty$. При этом её масштаб зависит от единиц измерения $X$ и $Y$. Например, если $X$ измеряется в километрах, а $Y$ — в рублях, то ковариация будет иметь измерение «км·рубль». Это затрудняет «прямое» сравнение ковариаций по разным наборам данных.

---

### 2. Корреляция

- **Определение**: **корреляция Пирсона** (самая распространённая) — это нормированная ковариация:
  $
    \mathrm{Corr}(X, Y) \;=\; \frac{\mathrm{Cov}(X, Y)}{\sigma_X \,\sigma_Y},
  $
  где $\sigma_X$ и $\sigma_Y$ — стандартные отклонения $X$ и $Y$.

- **Интерпретация**:  
  - Принимает значения от $-1$ до $+1$.  
  - $\mathrm{Corr}(X, Y) = +1$ означает **идеальную прямую** связь: все точки лежат на одной прямой с положительным наклоном.  
  - $\mathrm{Corr}(X, Y) = -1$ — **идеальная обратная** связь: точки на прямой с отрицательным наклоном.  
  - $\mathrm{Corr}(X, Y) = 0$ — нет линейной зависимости (но могут быть нелинейные).  

- **Почему это удобно**: так как мы делим на произведение стандартных отклонений, единицы измерения «сокращаются», и корреляцию можно интерпретировать без учёта шкал. Это позволяет напрямую сравнивать «силу» связи в разных задачах.

---

### 3. Применение в линейной регрессии

- **Ковариация** и **корреляция** помогают понять:
  - Насколько признак $x_j$ линейно связан с целевой переменной $y$. Сильная корреляция (по модулю близкая к 1) может означать, что признак хорошо объясняет часть вариации $y$.  
  - Насколько признаки связаны между собой (т.н. мультиколлинеарность). Если два признака сильно коррелируют, в модели может возникнуть проблема нестабильности коэффициентов.  

- **Коллинеарность (или мультиколлинеарность)**: если корреляция между двумя (или более) признаками очень высокая, то в матрице $\mathbf{X}^T\mathbf{X}$ могут возникать проблемы (она становится плохо обусловленной). Тогда метод наименьших квадратов даёт нестабильные решения.  

## Коэффициент детерминации ($R^2$).

**Коэффициент детерминации (R²)** — это показатель качества линейной регрессии (или другой регрессионной модели), который показывает, **какую долю** разброса (вариации) исходных данных удалось «объяснить» построенной моделью.

---

### Формальное определение

Обозначим:
- $y_i$ — реальные значения,
- $\hat{y}_i$ — предсказанные моделью значения,
- $\bar{y}$ — среднее реальных значений (среднее по всем $y_i$).

Тогда:
1. **Общая сумма квадратов** (total sum of squares, $SS_{\text{tot}}$):
   $
   SS_{\text{tot}} = \sum_{i=1}^m (y_i - \bar{y})^2.
   $
   Показывает, насколько сильно разбросаны исходные данные относительно их среднего.

2. **Остаточная сумма квадратов** (residual sum of squares, $SS_{\text{res}}$):
   $
   SS_{\text{res}} = \sum_{i=1}^m (y_i - \hat{y}_i)^2.
   $
   Это «невязка» модели: насколько модель ошибается на каждом примере.

3. **Коэффициент детерминации** (R²):
   $
   R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}.
   $

---

### Интерпретация

- $R^2 = 1$ означает, что модель **идеально** предсказывает все значения (ошибка равна нулю).  
- $R^2 = 0$ говорит, что модель предсказывает **не лучше**, чем просто среднее значение (то есть совсем не «учитывает» особенности данных).  
- Если \(R^2\) **отрицательно**, значит модель даёт результат даже **хуже**, чем наивный прогноз средней (модель может быть совсем неподходящей для данных).

Чем ближе $R^2$ к 1, тем лучше модель «объясняет» вариацию исходных данных. Однако стоит помнить, что **слишком высокое** $R^2$ может быть признаком **переобучения**, если модель чрезмерно подстраивается под обучающую выборку.

## Гомоскедастичность. Квартет Анскомба.

### Гомоскедастичность

#### Определение
- **Гомоскедастичность** (homoscedasticity) — это свойство данных (или модели), при котором **дисперсия остатков (ошибок) не зависит от значения независимых переменных**.  
- Проще говоря, ошибки модели при разных значениях $x$ (или при разном уровне предсказания) имеют примерно одинаковую «амплитуду разброса».

#### Пример в линейной регрессии
- Допустим, мы строим линейную регрессию: $\hat{y} = w_0 + w_1 x$.  
- Если при маленьких $x$ отклонения (ошибки $\hat{y} - y$) примерно те же, что и при больших $x$, то мы говорим о **гомоскедастичности**.  
- Если же при возрастании $x$ ошибки становятся всё более «разбросанными» (дисперсия остатков растёт), то мы имеем **гетероскедастичность**.

#### Почему это важно
- В классическом МНК (методе наименьших квадратов) **предполагается** гомоскедастичность. Если она нарушена, то:
  - Оценки коэффициентов $w_0, w_1, \dots$ **останутся** состоятельными (то есть в среднем верными),  
  - Но оценки дисперсии (а значит, доверительные интервалы и тесты значимости) могут быть искажены.  

---

### Квартет Анскомба

#### Что это
- **Квартет Анскомба** (Anscombe’s quartet) — это четыре разных набора данных из всего **11 точек** (примерно) в каждом, которые имеют **одинаковые**:
  - Среднее $x$ и $y$,  
  - Дисперсии $x$ и $y$,  
  - Ковариацию (или корреляцию) между $x$ и $y$,  
  - Одинаковую уравненную прямую (линейную регрессию).  
- Но если их **построить на графиках**, то выглядят эти четыре набора **совершенно по-разному**.

#### Главная идея
- Одними **числовыми статистиками** (среднее, дисперсия, корреляция) нельзя исчерпывающе описать распределение данных.  
- Квартет Анскомба показывает, насколько важно **визуализировать** данные, прежде чем слепо применять регрессию или делать выводы на основе только средних, корреляций и т.д.

#### Примерно что в этих наборах
1. Первый набор выглядит, как «адекватная» облачко точек, которое хорошо описывается прямой.  
2. Второй набор выглядит более «криволинейно», хотя статистики те же.  
3. Третий набор фактически это «совсем другая ситуация» — например, все точки лежат практически по прямой, кроме одной (явный выброс).  
4. Четвёртый набор вообще практически все точки имеют одно и то же $x$, кроме одной, и опять же те же самые статистики.

## Регуляризация LASSO, Ridge, Elastic.

В линейной регрессии (и в других моделях) **регуляризация** нужна, чтобы модель не переобучалась и веса не «разлетались» на очень большие значения. Ниже разберём три популярных вида регуляризации:

---

### 1. Ridge (L2-регуляризация)

#### Идея
- Добавить к функции потерь (обычно MSE) **штраф** пропорционально сумме квадратов весов.  
- Пусть наша обычная функция ошибки (MSE) в линейной регрессии:
  $
    \text{MSE}(w) = \frac{1}{m}\sum_{i=1}^m (w_0 + w_1 x_1^{(i)} + \ldots + w_n x_n^{(i)} - y^{(i)})^2.
  $
- С **Ridge-регуляризацией** к этой функции добавляется член:
  $
    \alpha \sum_{j=1}^n w_j^2,
  $
  где $\alpha > 0$ — коэффициент регуляризации (иногда пишут $\lambda$).

- Таким образом, функция, которую мы минимизируем, становится:
  $
    \text{MSE}(w) + \alpha \sum_{j=1}^n w_j^2.
  $

#### Эффект
- Ridge «наказывает» большие по модулю веса, стремясь сделать их **как можно меньшими** (хотя не обязательно нулевыми).  
- При $\alpha > 0$ матрица $\mathbf{X}^T \mathbf{X} + \alpha \mathbf{I}$ становится лучше обусловленной, что помогает при мультиколлинеарности.  
- Коэффициенты сокращаются, но обычно **не обнуляются** (Ridge редко даёт нулевые веса).

#### Плюсы и минусы
- **Плюсы**:  
  - Сглаживает переобучение, особенно когда много коррелированных признаков.  
  - Уменьшает дисперсию оценок.  
- **Минусы**:  
  - Не зануляет веса, значит не помогает «выбирать» ограниченное число признаков явно (все признаки остаются в игре).

---

### 2. Lasso (L1-регуляризация)

#### Идея
- Аналогично Ridge, но вместо суммы квадратов весов мы добавляем **сумму модулей** весов:
  $
    \text{MSE}(w) + \alpha \sum_{j=1}^n |w_j|.
  $

#### Эффект
- Благодаря свойству абсолютного значения Lasso может «продавливать» некоторые веса в **строгий ноль**.  
- Это значит, что Lasso может одновременно быть средством и регуляризации, и отбора признаков (feature selection).  

#### Плюсы и минусы
- **Плюсы**:
  - Явно «обнуляет» часть весов, что уменьшает число признаков (может упростить модель).  
  - Часто лучше работает в ситуациях, когда среди множества признаков лишь некоторые действительно важны (разреженные решения).  
- **Минусы**:
  - Может быть нестабильным (разные части выборки могут занулять разные признаки).  
  - Для высококоррелированных признаков Lasso зачастую «выбирает» только один из группы коррелированных, остальные обнуляет.  

---

### 3. Elastic Net

#### Идея
- **Elastic Net** сочетает в себе и L1, и L2-регуляризации:  
  $
    \text{MSE}(w) + \alpha \Bigl( \rho \sum_{j=1}^n |w_j| + (1 - \rho) \sum_{j=1}^n w_j^2 \Bigr).
  $
- Здесь $\alpha$ — общий коэффициент регуляризации, а $\rho$ (от 0 до 1) задаёт «пропорцию» между L1 и L2.

#### Эффект
- Берёт **лучшее** от обеих методов: L1 компоненту (зануление весов) и L2 компоненту (сглаживание и борьба с мультиколлинеарностью).  
- При $\rho = 1$ мы имеем чистый Lasso, при $\rho = 0$ — чистый Ridge, а между этими значениями — компромисс.

#### Когда применяют
- Когда данные содержат много признаков, среди которых, возможно, несколько коррелированы, а некоторые незначимы. Elastic Net может сохранять группу коррелированных признаков вместе (не выталкивая все, кроме одного, в ноль), но при этом позволяет занулять действительно ненужные признаки.

# 3.	Генетический алгоритм.

## Многопараметрическая оптимизация. Доминантность и оптимальность по Парето.

При **многопараметрической (многокритериальной) оптимизации** мы пытаемся улучшить **несколько** различных целей (критериев) одновременно. Например, можно хотеть максимизировать производительность и при этом минимизировать энергопотребление. Часто улучшение одного критерия приводит к ухудшению другого. 

В **генетических алгоритмах** (ГА) это решается путём поддержания «популяции» решений и использования идей **доминантности** и **оптимальности по Парето**.

---

### 1. Многокритериальная оптимизация

Представим, что у нас есть две (или более) функции, которые мы хотим оптимизировать одновременно:

$
f_1(x), \quad f_2(x), \quad \dots, \quad f_k(x).
$

- Задача может быть, например, **минимизировать** все эти функции.  
- Часто оказывается, что **нет** единственного решения, которое делает все критерии оптимальными сразу.  

---

### 2. Доминантность и оптимальность по Парето

#### 2.1 Доминирование (dominance)

Пусть у нас есть два решения (особи) $A$ и $B$. Говорят, что **$A$ доминирует $B$**, если по **всем** критериям $A$ не хуже (то есть не имеет больших значений, если минимизируем) и по **хотя бы одному** — строго лучше.

Если $A$ не доминирует $B$ и $B$ не доминирует $A$, говорят, что они **не сравнимы** (incomparable) по доминированию.

#### 2.2 Оптимальность по Парето

- **Парето-оптимальное** решение — это решение, которое **никто** не доминирует.  
- Если решение не «забивает» никакое другое решение сразу по всем критериям, оно называется **эффективным по Парето**.  
- **Парето-фронт** (Pareto front) — множество всех парето-оптимальных (не доминируемых) решений в пространстве критериев.

---

### 3. Генетические алгоритмы для многокритериальной оптимизации

В классическом ГА мы имеем одну функцию приспособленности (fitness). В многокритериальном случае нужно **учитывать сразу несколько**.

#### 3.1 Идея

1. Генетический алгоритм хранит **популяцию** особей (решений).  
2. Для каждой особи мы имеем набор значений критериев $ (f_1, f_2, \dots, f_k)$.  
3. Вместо классического «рейтинга», мы используем **понятие доминирования**:  
   - Особь, которая **не доминируется** никакой другой особью в популяции, имеет **высокий приоритет** для сохранения (она «Парето-оптимальна» внутри данной популяции).  
   - Если особь доминируется другой, она менее ценна.

#### 3.2 Пример алгоритма: NSGA-II, SPEA2, и т.д.

Существует несколько методов многокритериальной оптимизации на базе ГА, например:  
- **NSGA-II (Non-dominated Sorting Genetic Algorithm II)**,  
- **SPEA2 (Strength Pareto Evolutionary Algorithm 2)**.  

Общая схема:
1. **Отбор (selection)** с учётом доминирования: особи, не доминируемые в популяции, считаются более «плодовитыми».  
2. **Сортировка** по нескольким «фронтам»: сначала выделяют фронт парето-оптимальных (не доминируемых) решений, затем рассматривают оставшихся (второй фронт), и т.д.  
3. **Скрещивание и мутация** проходят, как в обычном ГА, но при выборе родителей и при формировании новой популяции учитывают ранг по фронту Парето (и, возможно, **разнообразие** — чтобы решения не слипались в одном месте).

#### 3.3 Результат

ГА постепенно эволюционирует к набору решений, которые формируют всё более «хороший» **Парето-фронт** в пространстве критериев. В конце работы мы получаем **целый набор** компромиссных решений, и можем вручную выбрать то, которое нам подходит (например, баланс между «расходом топлива» и «мощностью двигателя»).

## Функция качества (fitness).

**Функция качества (fitness function)** в контексте **генетических алгоритмов (ГА)** — это функция, которая оценивает, «насколько хорошим» (приспособленным) является каждое потенциальное решение (особь) к задаче, которую мы пытаемся решить.

---

### 1. Роль функции качества в ГА

1. **Отбор**:  
   - Генетический алгоритм на каждом шаге (итерации) стремится «сберечь» или «чаще воспроизводить» особей с **лучшим** (большим) значением функции качества.  
   - Особей с **низким** значением fitness чаще исключают или реже используют при формировании нового поколения.

2. **Обратная связь**:  
   - Функция качества — единственный «сигнал», который говорит алгоритму, насколько решения продвинулись к цели.  
   - Если fitness большой (или маленький — зависит от постановки задачи), значит решение качественное; если низкий — решение слабое.

3. **Эволюционное давление**:  
   - Благодаря селекции по функции качества, популяция решений постепенно эволюционирует, улучшаясь по целевому критерию.

---

### 2. Как задаётся функция качества

1. **Однокритериальные задачи**:  
   - Обычно берем **целевую функцию**, которую мы хотим **максимизировать** (например, прибыль). Если задача формулируется на минимум (например, минимум затрат), то часто берут $\text{fitness} = -\text{функция}$ или преобразуют так, чтобы fitness рос при улучшении решения.

2. **Многокритериальные задачи** (см. оптимальность по Парето):  
   - Можно свести все критерии к одной функции (например, взять взвешенную сумму), но это не всегда удобно, т.к. теряется часть информации.  
   - В современных ГА (NSGA-II, SPEA2 и т.п.) часто используют **неявное** определение «качества» через **доминантность**: не доминируемые решения считаются более «приспособленными», а внутри них дополнительно оценивают «разнообразие» (distance-based) или ранг по фронту Парето.

3. **Специальные трюки**:  
   - Иногда вводят штрафы (penalties) за нарушения ограничений, чтобы решение с нарушением резко теряло фитнес.  
   - Иногда выделяют бонусы за желательные черты решения (например, компактность, гладкость и т.д.).

---

### 3. Требования к функции качества

- **Однозначность**: должны чётко понимать, что большее (или меньшее) значение говорит о «лучшем» решении.  
- **Скорость вычисления**: ГА многократно рассчитывает fitness для множества особей, поэтому важно, чтобы вычисление не было слишком дорогим.  
- **Отражение цели**: Функция должна действительно учитывать все аспекты задачи (цели, ограничения), иначе ГА будет эволюционировать «не туда».  

## Общая идея генетического алгоритма.

Генетический алгоритм (ГА) — это эвристический метод оптимизации и поиска решений, который **подражает процессу естественной эволюции**. Его ключевая идея — поддерживать **популяцию** потенциальных решений и, через отбор и «эволюцию» (скрещивание и мутацию), постепенно улучшать качество этих решений.

---

### 1. Общая схема генетического алгоритма

1. **Инициализация**  
   - Генерируется **начальная популяция** возможных решений (обычно случайно или с учётом каких-то эвристик).  

2. **Оценка (вычисление фитнеса)**  
   - Для каждого решения в популяции рассчитывается **функция качества (fitness)**, показывающая, насколько хорошо это решение решает поставленную задачу.  

3. **Отбор (selection)**  
   - Выбираются решения с более высоким фитнесом (т. е. лучшие) для размножения.  
   - Могут использоваться разные схемы отбора: турнирный, рулеточный (пропорционально фитнесу) и др.  

4. **Операторы «эволюции»**  
   1. **Скрещивание (crossover)**: берём две «родительские» особи и комбинируем их «гены» (части решения) в одну или две «потомка».  
   2. **Мутация**: в новом потомке случаются **случайные изменения** (ошибки копирования генов) — небольшие рандомные изменения параметров решения.  

5. **Формирование новой популяции**  
   - Потомки (и, возможно, часть родителей) заполняют новую популяцию.  
   - Старые, наименее успешные решения могут удаляться (или оставаться с малой вероятностью).  

6. **Повтор**  
   - Продолжаем с шага «Оценка» и далее, пока не достигнем критериев остановки (например, достигли заданного уровня качества или истекло время/число поколений).

---

### 4. Преимущества и недостатки

#### Преимущества
- **Гибкость**: не требует гладкости или выпуклости целевой функции, не обязательно иметь хорошую производную.  
- **Глобальный поиск**: скрещивание и мутация позволяют «перепрыгивать» через локальные минимумы.  
- **Универсальность**: можно применять к очень разным типам задач (числовым, дискретным, многокритериальным), достаточно лишь уметь кодировать решение и вычислять фитнес.  

#### Недостатки
- **Не гарантирует** нахождение глобального оптимума.  
- **Высокая вычислительная сложность**: нужно многократно оценивать большое число особей, особенно если фитнес-счётчик дорог.  
- **Гиперпараметры** (размер популяции, вероятность скрещивания, мутации и др.) надо аккуратно подбирать под задачу.

## Представление особи.

---

### 1. Бинарная (двоичная) кодировка

- **Что это**: решение представляется в виде **битовой строки** (например,$010110...$).  
- **Как применяют**:  
  - Если решение — набор числовых параметров, то каждый параметр можно закодировать отдельным набором бит.  
  - Если задача комбинаторная, элементы решения иногда отражаются соответствующими битами.  
- **Плюсы**: очень простая реализация операторов скрещивания (обмен подстроками битов) и мутации (flip бита).  
- **Минусы**: иногда такая кодировка может быть «неестественной» и трудно интерпретируемой для задачи.

---

### 2. Числовая (вещественная) кодировка

- **Что это**: решение представляется **массивом действительных чисел** (например, $[x_1, x_2, \dots, x_n]$).  
- **Как применяют**:  
  - Чаще для непрерывных задач оптимизации или настроек гиперпараметров (где естественно иметь вещественные веса).  
- **Плюсы**: мутацию можно сделать как добавление маленького шума к компонентам вектора, скрещивание — как смешивание координат.  
- **Минусы**: нужно аккуратно определять масштабы шума, чтобы эволюция не «развалилась» или не застряла.

---

### 3. Перестановки

- **Что это**: особь — это **перестановка** чисел (например, $[3, 1, 4, 2]$).  
- **Где нужно**: задачи, где решение — это порядок обхода или распределения (популярный пример: задача коммивояжёра).  
- **Операторы**:  
  - Скрещивание: специальным образом объединяют порядок от двух «родителей» (частично упорядоченное кроссовер, цикл-кроссовер и др.).  
  - Мутация: меняем местами пару элементов или сдвигаем участок.

---

### 4. Структурные кодировки (деревья, грамматики)

- **Что это**: решение может быть деревом (как в **генетическом программировании**, где узлы дерева — функции/операторы, листья — константы/переменные) или иной более сложной структурой.  
- **Зачем**: когда задача требует найти, например, **программу**, выражение или архитектуру нейросети.  
- **Особенности**:  
  - Скрещивание: подмена ветвей деревьев.  
  - Мутация: перестройка поддеревьев.

## Методы селекции: пропорционально качеству, stochastic universal sampling, с наследием, турнирная, элитизм.

---

### 1. Пропорционально качеству (Roulette Wheel)

#### Идея
- Каждой особи приписывается «сектор на колесе рулетки», пропорциональный её фитнесу (чем выше фитнес, тем больше сектор).  
- «Крутим рулетку» (случайная выборка), и особи с более высоким фитнесом имеют большую вероятность быть выбраны.

---

### 2. Stochastic Universal Sampling (SUS)

#### Идея
- Улучшенная версия «пропорциональной селекции», где мы выбираем сразу несколько особей «равномерно» по рулетке.  
- Воображаем рулетку, в которой особи расположены пропорционально своим фитнесам. Затем выбираем **равномерно** несколько стрелок (точек) на рулетке (дискреты через одинаковый интервал), что даёт более «регулярную» выборку.

---

### 3. С наследием (скользящая шкала)

#### Идея (Scaling)
- В классическом методе пропорциональной селекции, когда есть одна «супер-особь» с фитнесом, намного превышающим остальных, она может «захватить» почти всю популяцию.  
- Чтобы этого избежать, применяют различные **преобразования фитнеса** (напр., линейное или логарифмическое «скейлирование»).  

Пример — **линейное скейлирование** (Linear Scaling):
$
f'_i = a \cdot f_i + b,
$
где $f_i$ — исходный фитнес особи $i$, а $f'_i$ — скорректированный фитнес. Параметры $a$ и $b$ подбираются так, чтобы контролировать влияние «сильных» особей и давать шанс «средним».

**Смысл**: сгладить разницу между лучшими и средними, избежав ранней стагнации.

---

### 4. Турнирная селекция (Tournament Selection)

#### Идея
1. Случайно выбираем **несколько** (tournament size) особей из популяции.  
2. Смотрим, у кого из них фитнес больше (или меньше, если задача на минимум).  
3. Победитель «турнира» (или 1–2 лучших, в зависимости от настроек) попадает в новую популяцию.

---

### 5. Элитизм (Elitism)

#### Идея
- Гарантирует, что **лучшая особь** (или несколько лучших) **обязательно** перейдут в следующее поколение **без изменений**.  
- Это делается для того, чтобы не потерять «уже найденное» хорошее решение из-за случайной мутации или отбора.

#### Как реализовать
- На каждом шаге сохраняем несколько лучших особей (1, 2, 5 и т.д.) сразу в новую популяцию. Остальные места в новой популяции заполняются стандартным способом (скрещивание, мутация).


## Методы кроссовера: 1,2,k-точечный, равномерный, для перестановок.

**Кроссовер (скрещивание)** в генетическом алгоритме — это оператор, который берёт «родительские» решения и порождает «потомков», комбинируя части генетического материала (кодировки) родителей. Способ реализации кроссовера зависит от того, в каком формате (кодировке) представлены особи.

---

### 1. 1-точечный кроссовер (one-point crossover)

#### Идея
1. Считаем, что каждый родитель представлен как **одномерная последовательность** (например, бинарная строка, массив чисел).  
2. Случайно выбираем **одну точку** разреза (позицию) в этой строке.  
3. Потомок 1: берём «левую часть» (от начала до точки) от Родителя A и «правую часть» (от точки до конца) от Родителя B.  
4. Потомок 2 (если нужно): наоборот, «левую часть» от Родителя B и «правую часть» от Родителя A.

#### Пример (бинарный)
- Родитель A: `000|1111`  
- Родитель B: `101|0100`  
  - Разрез после 3-го символа:  
  - Потомок 1: `0000100`  
  - Потомок 2: `1011111`

---

### 2. 2-точечный кроссовер (two-point crossover)

#### Идея
1. Выбираем **две** точки разреза.  
2. Потомок 1: берём **участок** между этими точками (включительно или как договоримся) от Родителя B, а всё остальное от Родителя A.  
3. Потомок 2 — зеркально наоборот.

#### Пример (бинарный)
- Родитель A: `000|111|1000`  
- Родитель B: `101|010|0101`  
  - Срезы после 3-го и 6-го символов.  
  - Потомок 1: `000(010)1000`  
  - Потомок 2: `101(111)0101`

#### Отличие от 1-точечного
- Больше возможностей для «перемешивания» родительских частей, т.к. теперь обмениваемся **центральным сегментом** (или двумя сегментами, в зависимости от реализации).

---

### 3. k-точечный кроссовер

#### Идея
- **Обобщение** 1- и 2-точечных методов.  
- Задаём $k$ точек разреза (позиций) и чередуем фрагменты родителей в итоге.

#### Пример
Если $k = 3$, у нас будет что-то вроде:  
- Потомок: `[A:0..p1] [B:p1..p2] [A:p2..p3] [B:p3..end]`.

---

### 4. Равномерный кроссовер (uniform crossover)

#### Идея
- Вместо точек разреза, на **каждой позиции** (гене) **случайно** определяем, из какого родителя мы берём ген.  
- Для каждой позиции (бита, элемента массива) подбрасываем «монетку» с вероятностью 0.5 (или иной). Если «орёл» — берём из Родителя A, если «решка» — из Родителя B.

#### Пример (бинарный)
- Родитель A: `0 0 0 1 1 0 1 1`  
- Родитель B: `1 0 1 0 1 1 0 0`  
- Монетка: `A B B A A B A B` (случайная последовательность)  
  - Потомок = `[0 0 1 1 1 1 1 0]`
---

### 5. Кроссовер для перестановок

Когда особь (решение) представлена **перестановкой** (например, $[3,1,4,2]$ — порядок городов в задаче коммивояжёра), обычные точечные методы могут порождать «неправильные» потомки (дублирование элементов или пропуск некоторых элементов). Поэтому нужны специальные кроссоверы.

#### 5.1 PMX (Partially Mapped Crossover)

1. Выбираем **два** разреза (как при 2-точечном) → выделяем участок.  
2. **Обмениваем** этот участок между родителями.  
3. Создаём «отображение» (mapping), чтобы «переопределить» конфликтующие элементы.  
   - Иначе говоря, если в одном потомке повторился элемент, мы заменяем его согласно сформированной карте сопоставлений.

> PMX гарантирует, что в результате потомок остаётся **корректной перестановкой**, без дублирования.

#### 5.2 OX (Order Crossover)

1. Снова выбираем **два** разреза.  
2. Копируем «средний сегмент» из Родителя A в Потомка 1 на ту же позицию.  
3. Заполняем оставшиеся слоты элементами из Родителя B **в исходном порядке**, пропуская те, которые уже взяты из A.

> OX сохраняет относительный порядок элементов Родителя B за пределами скопированного сегмента.

#### 5.3 CX (Cycle Crossover)

1. Поиск «циклов» в перестановках.  
2. Элементы из одного цикла берём из Родителя A, следующий цикл — из Родителя B, и так далее.

> CX сохраняет **позиции** тех элементов, которые входят в один цикл перестановки.

#### Выбор метода
- **PMX** популярен в задачах типа коммивояжёра.  
- **OX** сохраняет порядок, что бывает важно, если сущности в перестановке имеют смысл «идти друг за другом».


## Мутация. Влияние на скорость обучения.

**Мутация** — это оператор генетического алгоритма (ГА), который вносит **случайные изменения** в генотип (кодировку) особи. Её ключевая роль — поддерживать **разнообразие** (вариацию) в популяции, чтобы алгоритм не «залипал» в локальном оптимуме и имел возможность исследовать новые области пространства решений.

---

### 1. Идея мутации

1. В классическом **бинарном** представлении мутация обычно значит «инвертировать» один или несколько случайных битов с некой **небольшой** вероятностью.  
2. В **вещественном** (числовом) представлении мутация может означать добавление **случайного шума** (например, гауссовского) к компонентам вектора.  
3. В **перестановочном** кодировании мутация может быть, например, «поменять местами две позиции», «случайно сдвинуть блок» и т.д.

---

### 2. Влияние на скорость обучения

#### 2.1 Поддержка «поиска» (exploration)

- **Без мутации** популяция может слишком быстро стабилизироваться (все особи становятся очень похожими), и ГА не сможет «вырваться» из локального экстремума.  
- **Мутация** вносит «шум»: особь может перескочить в новое «пространство» решений. Это увеличивает шансы найти лучшие варианты, если текущее решение далеко от глобального оптимума.

#### 2.2 Риск «разрушения» (exploitation vs exploration)

- Если **вероятность мутации** слишком велика, то хорошие решения могут «ломаться» и их потомки не унаследуют качественный генетический материал. В этом случае ГА может «топтаться на месте», не успевая аккумулировать улучшения.  
- Если **вероятность мутации** слишком мала, популяция может «слишком сойтись» (все особи становятся практически одинаковыми), и алгоритм перестаёт эффективно исследовать пространство.

#### 2.3 Баланс

- Оптимальный уровень мутации — **компромисс** между «сохранением» (exploitation) и «исследованием» (exploration).  
- На ранних стадиях эволюции обычно нужно больше «шума» (исследовать), а на поздних — меньше (точнее дорабатывать найденные решения). Поэтому иногда применяют **адаптивную** мутацию:  
  - Снижать вероятность мутации по мере роста поколения,  
  - Или менять её в зависимости от разнообразия популяции.

## Управление популяцией. Сегрегация, старение, распараллеливание.

---

### 1. Сегрегация (разделение на подпопуляции)

#### Идея
- Вместо одной «большой» популяции используют несколько **подпопуляций** (или «островов», «ниш»).  
- Каждая подпопуляция эволюционирует **почти независимо**, с периодическим (или редким) обменом особями между ними.

#### Зачем это нужно
1. **Избежать преждевременной сходимости**: если вся популяция «слиплась» в одну область пространства решений, ГА может застрять в локальном минимуме. Сегрегация даёт шанс одной из подпопуляций «избежать» плохой точки и найти более хороший путь.  
2. **Исследовать разные гипотезы параллельно**: каждая подпопуляция может иметь свои параметры (разный оператор кроссовера, разную вероятность мутации и т.п.).  
3. **Поддерживать разнообразие** за счёт редких миграций («миграция» лучших особей из одной подпопуляции в другую).

---

### 2. Старение (aging)

#### Идея
- Каждой особи приписывают некоторый **«возраст»**. С каждым поколением особь «стареет». Когда достигается максимальный возраст, особь выбывает из популяции независимо от её фитнеса.  
- Либо (другой вариант) особи, пережившие достаточное число поколений без улучшения, удаляются, освобождая место для новых.

#### Зачем это нужно
1. **Избежать застоя**: высокоприспособленные (но уже «устаревшие») особи не будут бесконечно передавать гены, удерживая популяцию в районе одного локального оптимума.  
2. **Обеспечить поступление «свежей крови»**: даже если решение хорошее, мы иногда хотим убрать его из популяции, чтобы дать шанс другим направлениям эволюции.  
3. **Контролировать размер популяции**: механизм старения может быть частью стратегии «сколько особей мы храним». 

---

### 3. Распараллеливание (parallelization)

#### Идея
- Генетические алгоритмы изначально хорошо подходят для **параллельных** вычислений, потому что:
  1. Вычисление фитнеса каждой особи — независимая задача (можно считать на отдельных процессорах).  
  2. Популяцию можно разделить на подпопуляции, каждая эволюционирует «на своём узле» (см. Island Model).  
  3. Операторы кроссовера и мутации тоже можно распараллелить, если популяция большая.

#### Подходы
1. **Уровень особи**: каждый фитнес считаем параллельно; актуально, если сама функция фитнеса дорогая.  
2. **Уровень подпопуляции (island model)**: на каждом узле своя подпопуляция, иногда пересылаем «мигрантов» (лучшие особи) на другие узлы.  
3. **Fine-grained parallel GA**: когда взаимодействуют только «близкие» особи (сетка, тор и другой topology). Применяется реже, но даёт гибкую параллелизацию.


#### Модели
- **Кооперативная модель**: Подзадачи решаются параллельно, а результаты объединяются.

- **Островная модель**: Каждая машина отвечает за свой "остров". Миграция особей происходит через сеть.

- **Модель распределённой оценки**: Оценка приспособленности отдельных особей выполняется параллельно.


#### Плюсы
- **Ускорение** эволюции за счёт параллельного вычисления фитнеса.  
- **Лучшее исследование** пространства, если использовать независимые острова с разной конфигурацией ГА.  

#### Минусы
- Тратим ресурсы на передачу данных (особей) между узлами (если Island Model).  
- Сложность реализации и администрирования кластеров.

# 4.	Обобщённые линейные модели.

## Сигмоида и логит.

**Обобщённые линейные модели** (Generalized Linear Models, GLM) — это общее семейство моделей, куда входят линейная регрессия, логистическая регрессия, пуассоновская регрессия и др. Их общая идея:  
1. Имеется **линейная предикция** $ \eta = w_0 + w_1 x_1 + \dots + w_n x_n $.  
2. С помощью **функции связи** (link function) мы связываем эту линейную предикцию $\eta$ со средним значением отклика $\mu$.  

В **логистической регрессии** (частный случай GLM) функция связи — это **логит** (logit), а обратная функция связи — это **сигмоида** (sigmoid).

---

### 1. Сигмоида (логистическая функция)

**Сигмоидой** (logistic function) называют функцию вида:

$
\sigma(z) = \frac{1}{1 + e^{-z}}.
$

- **Значения** $\sigma(z)$ лежат в диапазоне $(0, 1)$.  
- При $z \to +\infty$ $\sigma(z) \to 1$, при $z \to -\infty$ $\sigma(z) \to 0$.  
- График имеет характерную «S-образную» форму.

В задаче **логистической регрессии** мы делаем предположение, что вероятности «успеха» (класса «1») связаны с линейной предикцией $\eta$ именно через сигмоиду:

$
P(y = 1 \mid x) = \sigma(\eta) = \sigma(w_0 + w_1 x_1 + \dots + w_n x_n).
$

Таким образом, выход модели интерпретируется как вероятность, а сигмоида «сжимает» любое действительное число в диапазон $(0;1)$.

---

### 2. Логит (логистическая функция связи)

**Логит** (logit) — это **обратная** функция к сигмоиде:

$
\text{logit}(p) = \ln\!\Bigl(\frac{p}{1 - p}\Bigr).
$

- Если $p = \sigma(z)$, тогда $\text{logit}(p) = z$.  
- Логит переводит число из диапазона $(0,1)$ в $(-\infty, +\infty)$.  
- В рамках **GLM** логит-функция — это «функция связи», которая связывает вероятность $p$ с линейной комбинацией признаков $\eta$:
  $
    \eta = \ln \Bigl(\frac{p}{1-p}\Bigr).
  $

#### Зачем это нужно?
- Модель говорит, что **логарифм отношения шансов** (odds) — это линейная функция от $x$.  
- В классической линейной регрессии мы бы сказали: $y = \beta_0 + \beta_1 x$. Но для вероятности (которая должна лежать от 0 до 1) удобнее работать не напрямую с $p$, а с $\ln(p/(1-p))$, чтобы обойтись без нелинейных ограничений.  

---

### 3. Логическая связь в логистической регрессии

В контексте обобщённых линейных моделей:
1. **Среднее** $\mu$ (в случае классификации — это вероятность $p$ события «1») связано с линейной предикцией $\eta$ через функцию связи:  
   $
   \eta = g(\mu),
   $
   где $g$ — функция связи (логит).
2. Обратная связь (или **инверсная** функция связи) даёт $\mu = g^{-1}(\eta)$, которая и есть **сигмоида**:
   $
   \mu = \sigma(\eta).
   $

Для логистической регрессии:
$
\mu = p = \sigma(\eta) = \frac{1}{1 + e^{-\eta}}, 
\quad 
\eta = \ln \Bigl(\frac{p}{1-p}\Bigr).
$

---

### 4. Почему именно сигмоида / логит?

- **Интерпретируемость**: $\ln(\frac{p}{1-p})$ — это логарифм шансов (odds). Линейная зависимость шансов от $x$ часто оказывается удобной и «естественной» моделью.  
- **Гибкость**: при большом количестве признаков (или нелинейных преобразованиях) логистическая регрессия всё ещё даёт понятную вероятность.

## Метод наибольшего правдоподобия.

**Метод наибольшего правдоподобия (Maximum Likelihood Estimation, MLE)** — это фундаментальный подход в статистике и машинном обучении для оценки параметров модели. Основная идея метода заключается в том, чтобы выбрать такие параметры модели, при которых наблюдаемые данные наиболее вероятны. Другими словами, мы стремимся найти параметры, которые "наилучшим образом объясняют" имеющиеся данные.

---
### Общая идея

Представьте, что у нас есть набор данных, состоящий из пар объектов и их соответствующих меток или результатов. Например, в задаче классификации у нас есть множество объектов с признаками и их принадлежностью к определенным классам. Модель, которую мы строим, имеет определенные параметры (например, веса в логистической регрессии), и она задает вероятность того, что объект принадлежит к тому или иному классу.

**Правдоподобие** — это мера того, насколько вероятно наблюдать именно такие данные при заданных параметрах модели. Метод наибольшего правдоподобия заключается в поиске таких параметров, при которых правдоподобие всех наблюдаемых данных максимально.

**Почему это важно?** Максимизируя правдоподобие, мы выбираем те параметры модели, которые делают наши наблюдения наиболее вероятными, тем самым улучшая способность модели точно предсказывать новые данные.

---
### Пример: Логистическая регрессия

Рассмотрим пример с логистической регрессией, которая используется для задач бинарной классификации (например, определить, является ли электронное письмо спамом или нет).

**Как работает модель:**
- Для каждого объекта (например, письма) модель вычисляет вероятность того, что он принадлежит к определенному классу (например, спам).
- Эти вероятности зависят от весов модели, которые мы хотим определить.

**Задача MLE:**
- Мы хотим подобрать такие веса модели, чтобы вероятность правильной классификации всех обучающих объектов была максимальной.
- Это означает, что модель должна "наиболее точно" предсказывать классы для всех обучающих примеров.

**Почему используется логарифм правдоподобия?**
- Вместо того чтобы умножать вероятности для всех объектов (что может привести к очень маленьким числам и затруднить вычисления), мы берем логарифм правдоподобия. Это превращает произведение вероятностей в сумму, что упрощает процесс оптимизации.
- Таким образом, задача сводится к максимизации суммы логарифмов вероятностей, что эквивалентно максимизации исходного правдоподобия.

---
### Практическое применение

На практике метод наибольшего правдоподобия часто используется в сочетании с различными алгоритмами оптимизации, такими как градиентный спуск. Эти алгоритмы помогают эффективно находить параметры модели, которые максимизируют правдоподобие.

Например, в логистической регрессии мы можем использовать алгоритм градиентного спуска для итеративного обновления весов модели таким образом, чтобы сумма логарифмов вероятностей правильных классификаций увеличивалась.

**Преимущества MLE:**
- **Интуитивная понятность**: Метод основан на простой идее максимизации вероятности наблюдаемых данных.
- **Широкое применение**: Используется в разнообразных моделях и задачах.
- **Теоретическая обоснованность**: MLE обладает хорошими статистическими свойствами, такими как состоятельность и асимптотическая нормальность.

**Недостатки MLE:**
- **Чувствительность к выбору модели**: Если модель плохо описывает данные, MLE может привести к некачественным оценкам параметров.
- **Вычислительная сложность**: Для сложных моделей и больших наборов данных оптимизация может быть ресурсоёмкой.
- **Неустойчивость к выбросам**: Аномальные данные могут сильно влиять на оценку параметров.

## Логистическая регрессия. Вариант для меток -1, 1.

### 1. Классический вариант: Метки классов 0 и 1

#### Основная идея

В задачах бинарной классификации часто используется представление классов с метками 0 и 1. Например, в задаче определения, является ли электронное письмо спамом (1) или нет (0).

#### Как работает модель

Модель предсказывает вероятность принадлежности объекта к одному из классов. Для каждого объекта модель оценивает вероятность того, что он принадлежит к классу 1 (например, спаму). Эта вероятность зависит от набора параметров модели, которые мы стремимся определить.

#### Функция потерь

Для обучения модели мы стремимся максимизировать вероятность правильной классификации всех обучающих объектов. Это означает, что мы хотим, чтобы модель присваивала высокие вероятности правильным классам и низкие вероятности неправильным. Для этого используется логарифмическая функция потерь, которая за неправильные предсказания. Чем ближе предсказанная вероятность к реальной метке класса, тем ниже потери.

**Пример: Логистическая регрессия**

В логистической регрессии модель оценивает вероятность того, что объект принадлежит к классу 1, используя сигмоидальную функцию. Если объект действительно принадлежит к классу 1, модель получает положительный вклад в функцию правдоподобия, если к классу 0 — отрицательный. Цель состоит в том, чтобы максимизировать общее правдоподобие всех данных, что эквивалентно минимизации суммы логистических потерь.

---
### 2. Вариант с метками -1 и +1

#### Как работает модель

В этом случае модель всё ещё оценивает вероятность принадлежности объекта к одному из классов, но интерпретирует метки как -1 и +1. Положительное значение означает принадлежность к одному классу, а отрицательное — к другому. Это позволяет модели использовать одну и ту же сигмоидальную функцию для обоих классов, адаптируя её в зависимости от знака метки.

#### Функция потерь

При использовании меток -1 и +1 функция потерь также направлена на максимизацию правдоподобия правильной классификации. Однако, для удобства вычислений, предсказания модели комбинируются с метками классов, что позволяет использовать единый подход для обоих классов. Это упрощает формулы и делает их более универсальными.

**Преобразование функции потерь**

Для удобства и стабильности вычислений функция потерь может быть преобразована в более удобную форму, например, через логистическую ошибку или кросс-энтропию. Это позволяет использовать эффективные алгоритмы оптимизации для обучения модели, минимизируя потери и улучшая точность классификации.


#### 2.3 Интуиция

- Если $y_i = +1$, то мы хотим, чтобы $w^T x_i$ было **большим** положительным числом (тогда $\exp(-\,(+1)\cdot w^T x_i)$ будет маленьким, а лог мал).  
- Если $y_i = -1$, то мы хотим, чтобы $w^T x_i$ было **большим** отрицательным числом (тогда $-1 \times w^T x_i$ становится большим положительным, и опять же экспонента стремится к малому).  
- Таким образом, минимизируя $\ln(1 + \exp(-\,y_i \, w^T x_i))$, мы «толкаем» скалярное произведение $w^T x_i$ в правильном направлении в зависимости от знака $y_i$.

---

### 3. Как перейти от $\{-1, +1\}$ к $\{0, 1\}$ или наоборот

Если в задаче или в реализации фреймворка изначально предполагаются метки $\{0,1\}$, но у нас данные $\{-1, +1\}$ (или наоборот), мы можем **преобразовать** их:

- $\{-1, +1\} \to \{0,1\}$: 
  $
    y_{\{0,1\}} = \frac{y_{\{-1,+1\}} + 1}{2}.
  $
  (если $y = -1$, получится 0; если $y = +1$, получится 1).

- $\{0,1\} \to \{-1, +1\}$:
  $
    y_{\{-1,+1\}} = 2 \cdot y_{\{0,1\}} - 1.
  $

Это чисто «техническая» замена для удобства алгоритма. В итоге, логистическая регрессия остаётся **тем же самым** методом, меняется лишь способ обозначения классов.

## Функции связи. Регрессия Пуассона.

**Регрессия Пуассона (Poisson Regression)** — это специализированный метод анализа данных, используемый для моделирования количественных данных, представляющих собой количество событий, происходящих за определённый промежуток времени или пространство. Например, это может быть количество звонков в службу поддержки за день или количество посещений веб-сайта за час.

### 2. Пуассоновская регрессия

#### 2.1 Распределение

В **регрессии Пуассона** предполагается, что количество событий, которое мы хотим предсказать, следует Пуассоновскому распределению. Это означает, что события происходят независимо друг от друга, и их среднее количество зафиксировано для заданных условий.

#### 2.2 Функция связи

Для обеспечения того, чтобы предсказанные значения количества событий были всегда положительными, используется логарифмическая функция связи. Это позволяет моделировать ожидаемое количество событий как экспоненциальную функцию от линейной комбинации признаков. Такая связь делает модель гибкой и способной учитывать мультипликативные эффекты признаков на количество событий.

#### Интерпретация в модели

В Пуассоновской регрессии ожидаемое количество событий увеличивается экспоненциально с увеличением значения линейной комбинации признаков. Это означает, что небольшие изменения в признаках могут приводить к значительным изменениям в предсказанном количестве событий.

---
### 3. Функция правдоподобия и оценка параметров

**Функция правдоподобия** отражает вероятность наблюдения данных при заданных параметрах модели. В Пуассоновской регрессии мы стремимся найти такие параметры, которые делают наши наблюдаемые данные наиболее вероятными.

#### Процесс оценки параметров:

1. **Сбор данных**: Имеем набор наблюдений, каждое из которых включает количество событий и соответствующие признаки.

2. **Построение модели**: Модель связывает среднее количество событий с признаками через логарифмическую функцию связи.

3. **Максимизация правдоподобия**: Используя метод наибольшего правдоподобия, находим параметры модели, которые максимизируют вероятность наблюдения имеющихся данных. Это часто достигается с помощью методов оптимизации, таких как градиентный спуск.

---
### 4. Зачем «лог-связь»?

**Логарифмическая функция связи** играет ключевую роль в Пуассоновской регрессии по нескольким причинам:

1. **Гарантия положительных предсказаний**: Логарифм позволяет преобразовать линейную комбинацию признаков так, чтобы результат всегда был положительным. Это естественно для счётных данных, где количество событий не может быть отрицательным.

2. **Мультипликативные эффекты признаков**: Использование логарифмической связи превращает изменения в признаках из аддитивных в мультипликативные. Это означает, что увеличение одного из признаков приводит к экспоненциальному увеличению ожидаемого количества событий, что часто соответствует реальным процессам.


**Преимущества Регрессии Пуассона:**

- **Подходит для счётных данных**: Идеально подходит для моделирования количества событий.
- **Гибкость модели**: Позволяет учитывать различные влияния признаков на ожидаемое количество событий.
- **Интерпретируемость**: Коэффициенты модели дают представление о том, как изменение признаков влияет на количество событий.

**Недостатки Регрессии Пуассона:**

- **Предположение о равенстве среднего и дисперсии**: В Пуассоновской регрессии предполагается, что среднее количество событий равно дисперсии, что не всегда соответствует реальным данным.
- **Чувствительность к выбросам**: Аномальные значения могут сильно влиять на параметры модели.
- **Не учитывает задержки или зависимости**: В реальных данных события могут быть зависимыми во времени или пространстве, что не учитывается стандартной Пуассоновской регрессией.


# 5.	Кластеризация.

## Постановка задачи кластеризации.

**Кластеризация** — это задача **разделения** (группировки) набора объектов на группы (кластеры) таким образом, чтобы **похожие** объекты оказывались в одном кластере, а **разные** — в разных. При этом никакой «правильной» разметки данных (как в обучении с учителем) у нас **нет**.

---

### 1. Что такое кластеризация?

1. **Нет готовых меток** (классов). В отличие от задач классификации, где мы знаем, какой объект к какому классу относится, здесь у нас нет заранее определённых меток.  
2. **Ищем структуру** в данных. Цель — найти некоторую структуру, закономерность в данных и группировать объекты с похожими признаками.

---

### 2. Формальная постановка задачи

Пусть у нас есть:
- Набор данных $\{x^{(1)}, x^{(2)}, \dots, x^{(m)}\}$, где каждый $x^{(i)}$ — это вектор признаков (часто в $\mathbb{R}^n$).  
- Неизвестное количество или **ожидаемое** количество групп (кластеров), которое мы хотим получить (иногда это число задаётся, иногда нет).

**Задача**:  
- Разделить все объекты на подмножества (кластеры), чтобы объекты внутри одного кластера были **максимально похожи** (в смысле какой-то меры похожести или расстояния), а объекты из разных кластеров — максимально **отличались**.

---

### 3. Как это формализуют?

Обычно вводят функцию расстояния $d(x^{(i)}, x^{(j)})$ или меру схожести $s(x^{(i)}, x^{(j)})$. Задача сводится к минимизации (или максимизации) некоторого **критерия кластеризации**. Классический пример — **k-means**:

$
\min_{C_1,\dots,C_k} \sum_{j=1}^k \sum_{x \in C_j} \| x - \mu_j \|^2,
$
где $C_j$ — это $j$-й кластер, а $\mu_j$ — его «центр» (среднее по всем точкам кластера). Таким образом минимизируется разброс точек вокруг своих центров.

Другие методы используют разные критерии (иерархические методы, плотностные методы типа DBSCAN и т.д.).

---

### 4. Итоги

1. **Кластеризация** — метод обучения **без учителя**: мы не имеем готовых меток, а лишь структуру данных.  
2. **Цель** — разбить объекты на кластеры так, чтобы объекты в одном кластере были «схожи» друг с другом, а объекты из разных кластеров — различались.  
3. **Много подходов**: k-means, иерархические методы, DBSCAN, спектральная кластеризация и пр., в зависимости от типа данных и поставленной задачи.

Таким образом, **задача кластеризации** — автоматически найти «естественные» группы (кластеры) в данных, не имея заранее информации о том, какие эти группы должны быть.

## Метод k-средних (K-means). Выбор начального состояния.

**Метод k-средних (K-means)** — один из самых популярных алгоритмов кластеризации. Его цель — разбить данные на $k$ кластеров так, чтобы минимизировать суммарное квадратичное отклонение точек от центров (средних) кластеров. 

---

### 1. Суть метода k-средних

1. **Задаём** количество кластеров $k$.  
2. **Инициализируем** центры (средние) кластеров (чаще всего случайным образом).  
3. **Повторяем** до сходимости:
   1. Распределяем каждую точку в кластер, чей центр ближе всего (по выбранной метрике, обычно — евклидово расстояние).  
   2. Пересчитываем центр каждого кластера как среднее всех точек, попавших в этот кластер.  
4. Останавливаемся, когда центры перестают меняться (или изменения становятся незначительными).

Основная «тонкость» здесь — **шаг инициализации** центров (начального состояния).

---

### 2. Проблема выбора начального состояния

- Если выбрать неудачные начальные центры случайным образом, алгоритм может быстро сойтись к **неоптимальному локальному минимуму**.  
- В зависимости от размера и структуры данных, разные начальные состояния могут давать **различное** качество кластеризации.  

#### 2.1 Рандомная инициализация (naive)

1. Случайно **выбираем $k$ точек** из набора данных в качестве начальных центров (или случайно генерируем координаты в пределах объёма данных).  
2. Запускаем стандартный цикл k-means.

**Минус**: высока вероятность получить центры, которые не отражают реальной структуры данных (например, два центра могут оказаться «рядом», а какой-то регион останется без «представителя»).

---

### 3. Улучшенные способы инициализации

#### 3.1 K-means++

**Наиболее известный** и популярный способ инициализации — **k-means++**. Идея:  
1. Случайно выбираем **один** центр из набора точек.  
2. Далее **каждую** точку $x$ «взвешиваем» вероятностью, пропорциональной квадрату расстояния до ближайшего уже выбранного центра.  
3. Случайным образом выбираем **следующий** центр из всех точек, где вероятность выбора точки $x$ тем выше, чем дальше эта точка от уже выбранных центров.  
4. Повторяем, пока не выберем все $k$ центров.  

**Преимущество**:  
- Центры распределяются «распахано» по всему пространству, с наименьшей вероятностью оказываясь в одной области.  
- Ускоряет сходимость и улучшает итоговое качество кластеризации на практике.

#### 3.2 Распределённый k-means++

Существует и **распределённая** версия k-means++ (иногда называют **k-means||**), используемая для больших данных. Но принцип тот же: «семя» центров стараются выбрать далеко друг от друга.

---

### 4. Другие техники инициализации

- **Иерархический кластерный подход**: сначала применяют быстрый грубый иерархический метод (или метод density-based) для приблизительной группировки, а затем центры этих групп служат инициализацией для k-means.  
- **Методы отбора «репрезентативных» точек**: например, взять точки с наибольшим «отклонением» от уже выбранных и т.д.  
- **PCA-разбиение**: проецировать данные на главные компоненты и выбирать точки вдоль главных осей.

---

### 5. Практические советы

1. **Используйте k-means++**: в большинстве реализаций библиотек (например, в scikit-learn) по умолчанию включена именно эта инициализация. Это даёт хороший баланс скорости и качества.  
2. Если очень **большая** выборка, рассмотрите **k-means||** (распределённый алгоритм) или сделайте **сэмплинг** данных для инициализации.  
3. **Несколько запусков**: иногда делают несколько перезапусков k-means с разными начальными состояниями (даже если это k-means++), выбирая потом решение с наименьшей суммарной ошибкой.  
4. **Регулярно визуализируйте** результат (если размерность позволяет) и проверяйте логику кластеров. Алгоритм k-means чувствителен к выбросам, масштабированию признаков и т.п.

---

### Итоги

- **Выбор начальных центров** в k-means — ключевой фактор, влияющий на качество и сходимость алгоритма.  
- Простой **случайный выбор** часто приводит к плохим результатам.  
- **k-means++** — стандарт де-факто для инициализации: он распределяет начальные центры с учётом расстояний, что даёт более стабильную и качественную кластеризацию.  
- Можно также пробовать другие подходы (многократный перезапуск, иерархию, PCA и др.) в зависимости от задачи и объёма данных.

## Основная идея алгоритмов, основанных на плотности. Алгоритмы DBSCAN, OPTICS.

**Алгоритмы кластеризации на основе плотности** (Density-based clustering) — это такие методы, в которых кластеры определяются как «области повышенной плотности» в пространстве признаков, разделённые между собой зонами низкой плотности. Самыми известными представителями являются **DBSCAN** и **OPTICS**.

---

### 1. Общая идея плотностной кластеризации

1. Кластер понимается как **область**, в которой объекты (точки) «плотно упакованы».  
2. Там, где плотность объектов низкая, считается, что происходит «разделение кластеров».  
3. В отличие от k-means, не нужно задавать количество кластеров $k$ заранее. Алгоритм сам обнаруживает, сколько в данных «плотных» регионов.  
4. Алгоритмы могут обнаруживать **кластер(ы) любой формы** (не только сферические) и выделять **выбросы** (точки, которые не принадлежат никакому кластеру).

---

### 2. DBSCAN

**DBSCAN (Density-Based Spatial Clustering of Applications with Noise)** — один из самых популярных плотностных методов.

#### 2.1 Идея алгоритма

Параметры:
- $\epsilon$ (эпсилон): радиус соседства, внутри которого мы «считаем» точку близкой.  
- $minPts$: минимальное число точек в радиусе $\epsilon$, чтобы считать регион «достаточно плотным».

Основные шаги:
1. **Для каждой точки** смотрим её $\epsilon$-окрестность (т.е. все точки, расстояние до которых $\le \epsilon$).  
2. Если в этой окрестности **$\ge minPts$** точек, то эта точка называется **ключевой** (core point).  
3. Точки, которые лежат внутри $\epsilon$-окрестности ключевой точки, принадлежат **тому же кластеру**, что и ключевая.  
4. **Распространение кластера**: если есть несколько ключевых точек рядом, их кластеры сливаются.  
5. Точки, которые не попали ни в одну $\epsilon$-окрестность ключевой точки, объявляются **шумом** (выбросами), хотя они могут оказаться в $\epsilon$-окрестности обычных (non-core) точек, но не образуют собственный кластер.

#### 2.2 Преимущества и недостатки

- **Плюсы**:
  - Не нужно задавать число кластеров заранее.  
  - Находит кластеры любой формы.  
  - Выделяет шум (выбросы) отдельно.  

- **Минусы**:
  - Нужно подбирать $\epsilon$ и $minPts$.  
  - Если плотность сильно варьируется по разным областям пространства, «глобальный» $\epsilon$ может быть неудачным (одни кластеры слишком плотно сгруппированы, другие — более рассеяны).  
  - В высоких размерностях может становиться менее эффективным.

---

### 3. OPTICS

**OPTICS (Ordering Points To Identify the Clustering Structure)** — развитие идей DBSCAN, особенно для случаев, когда плотность разнородна в разных частях пространства.

#### 3.1 Основная идея

1. OPTICS не формирует кластеры «прямо», а формирует **упорядоченную последовательность** (reachability plot) всех точек, отражая, при какой «плотности» (или $\epsilon$-радиусе) эти точки «соединяются» в кластеры.  
2. Для каждой точки вычисляет **reachability distance** — мера того, насколько «легко» (какой минимальный $\epsilon$ нужен) добраться от уже выбранной ключевой точки до текущей.  
3. Получается упорядоченная последовательность точек по возрастанию этой «reachability distance».

#### 3.2 Как формируются кластеры

- Анализируя этот reachability plot, можно «отрезать» кластеры на разных уровнях плотности. То есть фактически OPTICS позволяет **автоматически находить разные кластеры** при разных значениях $\epsilon$.  
- OPTICS даёт более детальное описание структуры данных, в частности, когда плотность неоднородна (где-то нужно больше $\epsilon$, чтобы объединить точки в кластер).

#### 3.3 Преимущества и недостатки

- **Плюсы**:
  - Не нужно фиксировать одно $\epsilon$. Алгоритм сам строит распределение reachability distances, из которого можно вычленить кластеры на разных масштабах плотности.  
  - Лучше работает на данных с очень разной плотностью кластеров по сравнению с DBSCAN.  

- **Минусы**:
  - Реализация и понимание сложнее, чем у DBSCAN.  
  - Результат требует дополнительного шага — анализа reachability plot, чтобы выделить конкретные кластеры.

---

### 4. Сравнение с другими методами кластеризации

- **k-means**: требует заранее заданного $k$, предполагает «сферические» кластеры, не выделяет выбросы отдельно.  
- **Иерархические**: строят дерево (дендрограмму), но не обязательно учитывают плотность как таковую.  
- **Плотностные** (DBSCAN/OPTICS): не нужно задавать $k$, хороши для нелинейных форм кластеров, выделяют шум, но требуют выбора параметров плотности ($\epsilon, minPts$) и могут быть сложны в высоких размерностях.

---

### 5. Краткий итог

1. **Плотностная кластеризация** определяет кластеры как области высокой плотности, разделённые областями низкой плотности.  
2. **DBSCAN**: простой и популярный подход, требующий двух параметров ($\epsilon, minPts$). Даёт кластеры любой формы и выделяет «шум». Но может плохо работать, если плотность варьируется очень сильно по разным регионам пространства.  
3. **OPTICS**: расширение DBSCAN, которое **динамически** учитывает разные масштабы плотности. Возвращает упорядоченную структуру (reachability plot), из которой можно выделять кластеры. Подходит для более сложных случаев, но требует более тонкой интерпретации.

Таким образом, **DBSCAN** и **OPTICS** — важные инструменты для **кластеризации без необходимости заранее задавать количество кластеров**, особенно когда кластеры могут быть сложной формы и нужно также иметь возможность «отсеивать» выбросы.

# 6.	Метод k ближайших соседей.

## Базовая идея. Классификатор k-NN. Преимущества и недостатки.

**Метод k ближайших соседей (k-Nearest Neighbors, k-NN)** — это один из самых простых и интуитивно понятных алгоритмов машинного обучения, используемый как для задач классификации, так и для регрессии.

---

### 1. Базовая идея

**Метод k ближайших соседей** основывается на предположении, что **объекты, находящиеся близко друг к другу в пространстве признаков, имеют схожие характеристики** или принадлежат к одному классу. То есть, чтобы определить класс нового объекта, мы ищем **k** наиболее похожих (близких) объектов в обучающей выборке и на основе их классов делаем вывод о классе нового объекта.

#### Ключевые моменты базовой идеи:

- **Локальная зависимость**: Предполагается, что близкие по признакам объекты имеют схожие метки (классы).
- **Не параметрический метод**: k-NN не делает предположений о распределении данных, что делает его гибким для различных типов задач.
- **Простота реализации**: Метод легко реализовать и понять, не требует сложного обучения модели.

---

### 2. Классификатор k-NN

#### Принцип работы классификатора k-NN:

1. **Выбор параметра k**:
   - Определяется число ближайших соседей, которое будет учитываться при классификации. Выбор k влияет на баланс между **переобучением** и **недообучением**.

2. **Расчет расстояний**:
   - Для нового объекта рассчитываются расстояния до всех объектов обучающей выборки. Наиболее часто используемые метрики расстояния:
     - **Евклидово расстояние**:
       $
       d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}
       $
     - **Манхэттенское расстояние**:
       $
       d(x, y) = \sum_{i=1}^n |x_i - y_i|
       $
     - **Расстояние Минковского**, **Чебышёва** и др.

3. **Поиск k ближайших соседей**:
   - Выбираются **k** объектов обучающей выборки с наименьшими расстояниями до нового объекта.

4. **Присвоение класса**:
   - Для задачи **классификации** определяется класс, который чаще всего встречается среди **k** ближайших соседей (метод большинства голосов).
   - Для задачи **регрессии** берется среднее значение целевой переменной среди **k** ближайших соседей.

#### Пример работы классификатора k-NN:

Предположим, у нас есть набор данных с двумя классами: **класс A** и **класс B**. Новый объект находится ближе к нескольким объектам класса A, чем к объектам класса B. Если k=3 и среди ближайших трех соседей два принадлежат классу A, а один — классу B, то новый объект будет отнесен к классу A.

---

### 3. Преимущества и недостатки

#### Преимущества метода k-NN:

1. **Простота и интуитивность**:
   - Легко понять и реализовать.
   - Не требует сложного этапа обучения модели.

2. **Гибкость**:
   - Может использоваться как для задач классификации, так и для регрессии.
   - Поддерживает **много классов** без необходимости изменения алгоритма.

3. **Не параметрический подход**:
   - Не делает предположений о распределении данных, что позволяет применять его к широкому спектру задач.

4. **Адаптивность**:
   - Способен адаптироваться к сложным границам классов, поскольку основывается на локальных данных.

#### Недостатки метода k-NN:

1. **Высокая вычислительная сложность**:
   - Для каждого нового объекта требуется вычислить расстояние до всех объектов обучающей выборки, что может быть ресурсоёмким при больших объёмах данных.

2. **Проблема размерности**:
   - В пространствах с высокой размерностью (много признаков) метод теряет эффективность из-за явления "проклятия размерности", когда расстояния между точками становятся менее информативными.

3. **Зависимость от выбора параметра k**:
   - Неправильный выбор k может привести к переобучению (слишком маленький k) или недообучению (слишком большой k).

4. **Чувствительность к масштабированию признаков**:
   - Разные масштабы признаков могут искажать расстояния. Поэтому часто требуется **нормализация** или **стандартизация** данных перед применением k-NN.

5. **Необработанные выбросы**:
   - Метод чувствителен к выбросам, поскольку они могут влиять на расстояния и, следовательно, на классификацию.

6. **Требовательность к памяти**:
   - Хранение всей обучающей выборки может быть проблематичным при больших объёмах данных.

#### Способы преодоления недостатков:

- **Использование эффективных структур данных** (например, деревья KD, Ball trees) для ускорения поиска ближайших соседей.
- **Сокращение размерности** (например, с помощью PCA) для уменьшения эффекта "проклятия размерности".
- **Выбор оптимального k** с помощью методов перекрёстной проверки.
- **Предобработка данных**: нормализация, удаление выбросов и др.


## Кроссвалидация методом "без одного" (leave-one-out).

**Кросс-валидация методом "без одного" (Leave-One-Out Cross-Validation, LOOCV)** — это специфический вариант кросс-валидации, используемый для оценки производительности модели машинного обучения. В этом методе каждый объект из обучающей выборки поочередно используется в качестве **тестового** набора, а оставшиеся $m-1$ объектов — как **обучающая** выборка. Таким образом, проводится $m$ итераций обучения и тестирования.

---
 
### 1. Основная идея LOOCV

**Кросс-валидация** — это метод оценки способности модели к обобщению на новых, невидимых данных. **Leave-One-Out Cross-Validation (LOOCV)** — это наиболее экстремальный случай k-fold кросс-валидации, где количество фолдов $k$ равно числу объектов в выборке.

#### Шаги метода LOOCV:

1. **Разделение данных**:
   - Для обучающей выборки из $m$ объектов выбирается один объект в качестве **тестового** набора.
   - Оставшиеся $m-1$ объектов формируют **обучающую** выборку.

2. **Обучение модели**:
   - Модель обучается на обучающей выборке из $m-1$ объектов.

3. **Тестирование модели**:
   - Обученная модель предсказывает класс или значение для единственного тестового объекта.
   - Записывается ошибка предсказания.

4. **Повторение**:
   - Процесс повторяется для каждого из $m$ объектов, каждый раз выбирая новый объект в качестве тестового.

5. **Итоговая оценка**:
   - Рассчитывается средняя ошибка по всем итерациям, которая служит оценкой **общей производительности** модели.

---
 
### 2. Пример работы LOOCV

Рассмотрим простой пример с обучающей выборкой из 3 объектов:

- **Обучающая выборка**: $\{A, B, C\}$

#### Итерации LOOCV:

1. **Итерация 1**:
   - **Тестовый объект**: A
   - **Обучающая выборка**: $\{B, C\}$
   - **Обучение**: Модель обучается на $\{B, C\}$
   - **Тестирование**: Предсказывается класс для A
   - **Запись ошибки**

2. **Итерация 2**:
   - **Тестовый объект**: B
   - **Обучающая выборка**: $\{A, C\}$
   - **Обучение**: Модель обучается на $\{A, C\}$
   - **Тестирование**: Предсказывается класс для B
   - **Запись ошибки**

3. **Итерация 3**:
   - **Тестовый объект**: C
   - **Обучающая выборка**: $\{A, B\}$
   - **Обучение**: Модель обучается на $\{A, B\}$
   - **Тестирование**: Предсказывается класс для C
   - **Запись ошибки**

#### Итог:

- **Средняя ошибка** = $\frac{\text{Ошибка}_1 + \text{Ошибка}_2 + \text{Ошибка}_3}{3}$

---
 
### 3. Преимущества LOOCV

1. **Максимальное использование данных**:
   - Каждый объект используется как для обучения, так и для тестирования, что особенно полезно при малых выборках.

2. **Отсутствие перекрытия тестовых наборов**:
   - Каждый тестовый набор содержит лишь один объект, исключая дублирование.

3. **Бесконечная вариативность**:
   - Модель оценивается на каждом возможном разделении данных, что даёт полную картину её производительности.

4. **Отсутствие случайности**:
   - В отличие от некоторых других методов кросс-валидации, результаты LOOCV детерминированы (при фиксированном порядке данных и отсутствии случайных операций внутри модели).

---
 
### 4. Недостатки LOOCV

1. **Высокая вычислительная стоимость**:
   - При больших выборках требуется обучить модель $m$ раз, что может быть ресурсоёмко и времязатратно.

2. **Склонность к высокой вариативности оценки**:
   - Хотя каждая итерация основана на практически полной выборке, оценка ошибки может быть подвержена сильным флуктуациям из-за влияния отдельных объектов.

3. **Не всегда лучше, чем другие методы**:
   - В некоторых случаях, например, при очень больших выборках, более эффективными могут оказаться другие формы кросс-валидации, такие как 5-fold или 10-fold, которые предлагают баланс между вычислительной эффективностью и точностью оценки.

4. **Чувствительность к выбросам**:
   - Один «непредставительный» объект может значительно влиять на итоговую оценку модели.

---
 
### 5. Сравнение с другими методами кросс-валидации

| Метод               | Количество итераций | Использование данных | Вычислительная сложность | Оценка вариативности |
|---------------------|----------------------|-----------------------|---------------------------|-----------------------|
| **LOOCV**           | $m$                | Каждый объект — тестовый | Высокая                   | Высокая                |
| **k-Fold (например, 10-Fold)** | $k$                  | Каждый объект используется в тестовом наборе ровно один раз | Средняя                  | Средняя                |
| **Stratified k-Fold** | $k$                | Сохраняется пропорция классов в каждом фолде | Средняя                  | Средняя                |

**Вывод**: LOOCV особенно полезен при малых выборках, где важно максимально использовать доступные данные. Однако для больших выборок или когда вычислительные ресурсы ограничены, более предпочтительны методы с меньшим количеством фолдов.

## Показатель пограничности (Border ratio).

**Показатель пограничности (Border Ratio)** — это метрика, используемая для оценки доли объектов в наборе данных, которые находятся вблизи границы разделения классов. В контексте метода **k ближайших соседей (k-NN)** этот показатель помогает понять, насколько сложна задача классификации и насколько чувствительна модель к расположению данных относительно границы решений.

---

### 1. Определение показателя пограничности

**Пограничные объекты** — это те объекты, которые находятся близко к границе разделения классов, то есть их ближайшие соседи принадлежат разным классам. **Border Ratio** измеряет, какая часть всего набора данных является пограничной.

#### Формальное определение

$
\text{Border Ratio} = \frac{\text{Количество пограничных объектов}}{\text{Общее количество объектов}}
$

**Где:**

- **Пограничные объекты**: объекты, имеющие как минимум одного соседа из другого класса среди их k ближайших соседей.
- **k**: количество ближайших соседей, используемое в алгоритме k-NN.

---

### 2. Как вычисляется Border Ratio

#### Шаги вычисления:

1. **Выбор параметра k**:
   - Определите число ближайших соседей $k$ которое используется для классификации.

2. **Определение класса каждого объекта**:
   - Для каждого объекта в наборе данных определите его класс, основываясь на классах его $k$ ближайших соседей.

3. **Идентификация пограничных объектов**:
   - Объект считается пограничным, если среди его $k$ ближайших соседей присутствуют объекты разных классов.

4. **Вычисление Border Ratio**:
   - Подсчитайте количество таких пограничных объектов и разделите на общее число объектов в наборе данных.

#### Пример:

Предположим, у нас есть набор данных из 100 объектов, где 40 объектов являются пограничными (имеют соседей из другого класса).

$
\text{Border Ratio} = \frac{40}{100} = 0.4 \quad (или \quad 40\%)
$

---

### 3. Значение Border Ratio в k-NN

#### Высокий Border Ratio:

- **Сложность классификации**:
  - Большое количество пограничных объектов указывает на сложную структуру данных с перекрывающимися классами.
  
- **Чувствительность к параметрам**:
  - Модель становится более чувствительной к выбору $k$ и метрике расстояния. Неправильный выбор параметров может значительно снизить точность классификации.

- **Влияние на устойчивость**:
  - Высокий показатель может указывать на большую вероятность ошибок классификации, особенно при наличии шумовых данных или выбросов.

#### Низкий Border Ratio:

- **Ясное разделение классов**:
  - Мало пограничных объектов свидетельствует о чётком разделении классов, что облегчает задачу классификации.
  
- **Меньшая чувствительность к параметрам**:
  - Модель становится более устойчивой к выбору $k$ и метрики расстояния, так как большинство объектов находятся внутри чётко определённых кластеров.

---

### 4. Преимущества и недостатки использования Border Ratio

#### Преимущества:

1. **Оценка сложности задачи**:
   - Позволяет количественно оценить, насколько сложно разделить классы в наборе данных.

2. **Настройка параметров модели**:
   - Помогает выбрать оптимальное значение $k$ и метрику расстояния, основываясь на структуре данных.

3. **Диагностика качества данных**:
   - Высокий Border Ratio может указывать на необходимость дополнительной предобработки данных, такой как удаление выбросов или увеличение числа признаков.

#### Недостатки:

1. **Зависимость от параметров k и метрики**:
   - Значение Border Ratio может сильно варьироваться в зависимости от выбранного $k$ и метрики расстояния, что может затруднить интерпретацию.

2. **Не учитывает распределение классов**:
   - Border Ratio не отражает баланс классов в данных, что может быть важно для некоторых задач классификации.

3. **Чувствительность к шуму**:
   - Наличие шумовых данных или выбросов может искусственно увеличить Border Ratio, снижая общую точность модели.

---

### 5. Применение Border Ratio

#### Оптимизация параметров k:

- **Анализ влияния k**:
  - Изменяя значение $k$ можно наблюдать, как меняется Border Ratio, и выбирать значение, при котором модель показывает наилучшее соотношение между точностью и обобщающей способностью.

#### Выявление проблем в данных:

- **Обнаружение перекрывающихся классов**:
  - Высокий Border Ratio может свидетельствовать о том, что классы пересекаются в пространстве признаков, что требует более сложных моделей или добавления дополнительных признаков.

#### Улучшение модели:

- **Взвешенный k-NN**:
  - Понимание Border Ratio может подтолкнуть к использованию методов, где ближние соседи имеют больший вес, уменьшая влияние пограничных объектов на классификацию.

## Понятия выброса, прототипа, усвоенной точки. Алгоритм Харта.

### 1. Понятие выброса (Outlier)

#### Определение
**Выброс** — это объект (точка данных), который значительно отличается от остальных объектов в наборе данных. Выбросы могут быть результатом ошибок измерения, редких событий или особенностей данных.

#### Характеристики выбросов
- **Аномальное положение**: Располагаются далеко от основной массы данных.
- **Влияние на анализ**: Могут искажать результаты статистического анализа и модели машинного обучения.
- **Причины возникновения**:
  - Ошибки ввода или измерения.
  - Естественные вариации данных.
  - Редкие или необычные события.

#### Методы обнаружения выбросов
- **Визуализация**: Графики разброса, боксплоты.
- **Статистические методы**: Z-оценка, метод межквартильного размаха (IQR).
- **Машинное обучение**: Алгоритмы кластеризации, методы одномерной классификации (например, Isolation Forest).

---

### 2. Понятие прототипа (Prototype)

#### Определение
**Прототип** — это представительный объект или точка в кластере, которая наиболее точно характеризует этот кластер. Прототипы используются для упрощения модели и ускорения вычислений.

#### Характеристики прототипов
- **Центральное расположение**: Находятся вблизи центра кластера.
- **Минимальное отклонение**: Обладают наименьшим средним расстоянием до остальных точек в кластере.
- **Роль в кластеризации**: Служат эталонами для определения принадлежности других объектов к кластеру.

#### Примеры использования
- **k-средних (k-means)**: Использует центры кластеров как прототипы.
- **k-медоидов (k-medoids)**: Использует реальные объекты данных в качестве прототипов.
- **Методы на основе прототипов**: SOM (Self-Organizing Maps), нейронные сети.

---

### 3. Понятие усвоенной точки (Learned Point)

#### Определение
**Усвоенная точка** — это объект данных, который был "усвоен" алгоритмом кластеризации и включён в определённый кластер на основе своей близости к прототипу или другим точкам кластера.

#### Характеристики усвоенных точек
- **Принадлежность к кластеру**: Расположены близко к прототипу кластера.
- **Роль в структуре кластера**: Поддерживают и формируют структуру кластера, обеспечивая его плотность и компактность.
- **Не являются выбросами**: Усвоенные точки не находятся на границах кластера или далеко от прототипа.

#### Значение в кластеризации
- **Стабильность кластеров**: Усвоенные точки помогают поддерживать устойчивость кластеров при изменении данных.
- **Оптимизация модели**: Обеспечивают эффективное представление кластера без необходимости хранения всех объектов данных.

---

### 4. Алгоритм Харта (Hart's Algorithm)

**Алгоритм Харта** — это метод кластеризации, разработанный для эффективного обнаружения кластеров и выбросов в наборе данных. Он сочетает в себе концепции прототипов и выбросов для построения чёткой структуры кластеров.

#### Основные шаги алгоритма Харта

1. **Инициализация прототипов**:
   - Выбираются начальные прототипы (центры кластеров) случайным образом или с использованием специфических критериев (например, k-means++).

2. **Определение области влияния прототипов**:
   - Для каждого прототипа определяется радиус или область, в которой будут усваиваться точки данных.

3. **Назначение точек кластерам**:
   - Каждая точка данных назначается к ближайшему прототипу, если она находится в пределах области влияния.
   - Если точка не попадает ни в одну область влияния, она рассматривается как **выброс**.

4. **Обновление прототипов**:
   - Прототипы пересчитываются как средние (или медианные) значения точек в их кластерах.
   - Этот шаг повторяется до сходимости (когда прототипы перестают значительно меняться).

5. **Обработка выбросов**:
   - Выбросы могут быть либо удалены из набора данных, либо назначены отдельным кластерам с низкой плотностью.

#### Преимущества алгоритма Харта

- **Эффективность**: Быстрая сходимость благодаря использованию прототипов.
- **Обнаружение выбросов**: Способность идентифицировать и выделять аномальные объекты.
- **Гибкость**: Подходит для различных типов данных и форм кластеров.

#### Недостатки алгоритма Харта

- **Чувствительность к инициализации**: Неправильный выбор начальных прототипов может привести к плохой кластеризации.
- **Необходимость выбора параметров**: Требуется заранее определить количество кластеров и параметры областей влияния.
- **Ограниченная масштабируемость**: Может быть менее эффективен для очень больших наборов данных по сравнению с другими алгоритмами кластеризации.


### 5. Сравнение с другими алгоритмами кластеризации

| Алгоритм          | Прототипы         | Обнаружение выбросов | Форма кластеров | Необходимость задания k | Сложность |
|-------------------|-------------------|----------------------|------------------|------------------------|-----------|
| **Алгоритм Харта** | Да                | Да                   | Любая            | Да                     | Средняя   |
| **k-средних**     | Да                | Нет                  | Сферические      | Да                     | Низкая    |
| **k-медоидов**    | Да                | Ограниченно          | Любая            | Да                     | Средняя   |
| **DBSCAN**        | Нет                | Да                   | Любая            | Нет                    | Средняя   |
| **Иерархическая** | Нет (в основном)| Зависит от метода    | Любая            | Нет                    | Высокая   |

**Вывод**: Алгоритм Харта сочетает в себе преимущества методов, использующих прототипы и способных обнаруживать выбросы, обеспечивая гибкость в определении форм кластеров. Однако, как и любой другой алгоритм, он имеет свои ограничения и требует тщательной настройки параметров для достижения оптимальных результатов.

## Регрессия методом k-NN.

**Регрессия методом k ближайших соседей (k-Nearest Neighbors Regression, k-NN Regression)** — это простой и интуитивно понятный алгоритм машинного обучения, используемый для прогнозирования **непрерывных** значений на основе значений ближайших соседей в обучающей выборке. В отличие от классификации, где цель — определить категориальную метку, регрессия k-NN предназначена для предсказания числовых значений.

---
### 1. Базовая идея регрессии k-NN

**Регрессия k ближайших соседей** основывается на предположении, что **объекты, расположенные близко друг к другу в пространстве признаков, имеют похожие значения целевой переменной**. Таким образом, для предсказания значения целевой переменной нового объекта используется среднее (или взвешенное среднее) значений его **k ближайших соседей** в обучающей выборке.

#### Ключевые моменты:
- **Локальная зависимость**: Значение целевой переменной определяется ближайшими объектами.
- **Не параметрический метод**: Не предполагает конкретной формы зависимости между признаками и целевой переменной.
- **Простота реализации**: Легко реализуется и понимается, не требует сложного обучения модели.

---
### 2. Принцип работы регрессии k-NN

#### Шаги алгоритма:

1. **Выбор параметра k**:
   - Определяется количество ближайших соседей $k$, которые будут учитываться при предсказании.

2. **Расчет расстояний**:
   - Для нового объекта рассчитываются расстояния до всех объектов обучающей выборки. Наиболее часто используемые метрики расстояния:
     - **Евклидово расстояние**:
       $
       d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}
       $
     - **Манхэттенское расстояние**:
       $
       d(x, y) = \sum_{i=1}^n |x_i - y_i|
       $
     - **Расстояние Минковского**, **Чебышёва** и др.

3. **Поиск k ближайших соседей**:
   - Выбираются **k** объектов обучающей выборки с наименьшими расстояниями до нового объекта.

4. **Предсказание значения**:
   - **Среднее значение**:
     $
     \hat{y} = \frac{1}{k} \sum_{i=1}^{k} y_i
     $
     где $y_i$ — значения целевой переменной ближайших соседей.
   
   - **Взвешенное среднее**:
     $
     \hat{y} = \frac{\sum_{i=1}^{k} w_i y_i}{\sum_{i=1}^{k} w_i}
     $
     где $w_i$ — веса, часто обратные расстоянию:
     $
     w_i = \frac{1}{d(x, x_i) + \epsilon}
     $
     $\epsilon$ — малое число для предотвращения деления на ноль.

#### Пример работы регрессии k-NN:

Предположим, у нас есть набор данных с признаками $x$ и целевой переменной $y$:

| Объект | $x$ | $y$ |
|--------|-------|-------|
| A      | 1     | 2     |
| B      | 2     | 3     |
| C      | 3     | 5     |
| D      | 5     | 8     |
| E      | 6     | 13    |

Новый объект с $x = 4$. Пусть $k = 2$.

1. **Расчет расстояний** до всех объектов:
   - $d(4,1) = 3$
   - $d(4,2) = 2$
   - $d(4,3) = 1$
   - $d(4,5) = 1$
   - $d(4,6) = 2$

2. **Выбор 2 ближайших соседей**: объекты C и D ($d = 1$).

3. **Предсказание значения**:
   - **Среднее значение**:
     $
     \hat{y} = \frac{5 + 8}{2} = 6.5
     $
   - **Взвешенное среднее** (если использовать веса $w_i = \frac{1}{d + \epsilon}$):
     $
     \hat{y} \approx \frac{5 \times 1 + 8 \times 1}{1 + 1} = \frac{13}{2} = 6.5
     $

---
### 3. Преимущества и недостатки регрессии k-NN

#### Преимущества:

1. **Простота**:
   - Легко реализуется и понимается.
   - Не требует обучения модели, все вычисления выполняются при предсказании.

2. **Гибкость**:
   - Может использоваться для задач с любым количеством признаков.
   - Не делает предположений о распределении данных.

3. **Адаптивность**:
   - Хорошо работает, когда границы между классами (в случае классификации) или зависимость между признаками и целевой переменной (в регрессии) сложные и нелинейные.

4. **Инкрементальное обучение**:
   - Новые данные можно легко добавлять без необходимости пересчитывать модель.

#### Недостатки:

1. **Высокая вычислительная сложность**:
   - Для каждого предсказания необходимо вычислить расстояние до всех объектов обучающей выборки, что может быть ресурсоёмким при больших объёмах данных.

2. **Проблема размерности (проклятие размерности)**:
   - В пространствах с высокой размерностью расстояния между точками становятся менее информативными, что ухудшает качество предсказаний.

3. **Чувствительность к масштабированию признаков**:
   - Разные масштабы признаков могут искажать расстояния. Требуется **нормализация** или **стандартизация** данных.

4. **Проблема выбора k**:
   - Неправильный выбор параметра $k$ может привести к **переобучению** (слишком малое $k$) или **недообучению** (слишком большое $k$).

5. **Хранение данных**:
   - Необходимо хранить всю обучающую выборку, что может быть проблематично при больших данных.

6. **Чувствительность к выбросам**:
   - Выбросы могут сильно влиять на предсказание, особенно при использовании простого среднего.

#### Способы преодоления недостатков:

- **Использование эффективных структур данных** (например, деревья KD, Ball trees) для ускорения поиска ближайших соседей.
- **Сокращение размерности** (например, с помощью методов главных компонент — PCA) для уменьшения влияния проклятия размерности.
- **Выбор оптимального k** с помощью методов перекрёстной проверки (cross-validation).
- **Предобработка данных**: нормализация, удаление выбросов и др.
- **Использование взвешенного k-NN**, где ближайшим соседям присваиваются большие веса, уменьшая влияние удалённых точек и выбросов.

## Взвешенные соседи.


### 1. Определение взвешенных соседей

**Взвешенные соседи** — это подход в алгоритме k-NN, при котором каждому соседу присваивается **вес**, отражающий его **важность** или **релевантность** при предсказании целевой переменной. Чем ближе сосед к новому объекту, тем **больше его вклад** в итоговое предсказание.

#### Ключевые моменты:
- **Вес** определяет степень влияния каждого соседа на предсказание.
- **Масштабирование весов** позволяет более точно учитывать **локальную структуру данных**.
- **Взвешивание** особенно полезно в ситуациях с **неоднородной плотностью** данных.

---
### 2. Методы взвешивания

Существует несколько способов определения весов соседей. Наиболее популярные из них:

#### 2.1 Обратная пропорция расстояния (Inverse Distance Weighting)

Самый простой и распространенный метод:
$
w_i = \frac{1}{d(x, x_i) + \epsilon}
$
где:
- $w_i$ — вес $i$-го соседа,
- $d(x, x_i)$ — расстояние между новым объектом $x$ и соседом $x_i$,
- $\epsilon$ — небольшое положительное число для предотвращения деления на ноль.

**Преимущества**:
- Простота реализации.
- Больше влияние ближних соседей.

**Недостатки**:
- Может быть чувствительно к выбросам (очень маленькие расстояния могут создавать очень большие веса).

#### 2.2 Обратная квадратичная пропорция расстояния (Inverse Squared Distance)

Усиление эффекта близости:
$
w_i = \frac{1}{(d(x, x_i) + \epsilon)^2}
$

**Преимущества**:
- Еще более сильное акцентирование на ближних соседях.

**Недостатки**:
- Может усилить влияние выбросов.

#### 2.3 Гауссовское взвешивание (Gaussian Weighting)

Использование гауссовой функции для определения весов:
$
w_i = e^{-\frac{d(x, x_i)^2}{2\sigma^2}}
$
где $\sigma$ — параметр, контролирующий ширину гауссового распределения.

**Преимущества**:
- Плавное снижение весов с увеличением расстояния.
- Параметр $\sigma$ позволяет контролировать степень взвешивания.

**Недостатки**:
- Необходимость выбора подходящего значения $\sigma$.

#### 2.4 Линейное взвешивание (Linear Weighting)

Линейное уменьшение веса с увеличением расстояния:
$
w_i = \max\left(0, 1 - \frac{d(x, x_i)}{d_{\text{max}}}\right)
$
где $d_{\text{max}}$ — максимальное расстояние среди выбранных соседей.

**Преимущества**:
- Простота и интерпретируемость.
- Вес равен нулю для точек, находящихся на границе выбора.

**Недостатки**:
- Резкое обнуление весов за пределами $d_{\text{max}}$.

---

### 4. Преимущества и недостатки взвешенных соседей

#### Преимущества:

1. **Улучшенная точность**:
   - Взвешивание позволяет учитывать **важность** соседей, что часто приводит к более точным предсказаниям по сравнению с равновесным k-NN.

2. **Более гибкое управление влиянием соседей**:
   - Возможность контролировать, насколько сильно ближние соседи влияют на предсказание через выбор функции взвешивания и параметров.

3. **Снижение влияния выбросов**:
   - Взвешенные методы могут уменьшить влияние дальних выбросов, которые не оказывают значительного веса.

#### Недостатки:

1. **Необходимость выбора функции и параметров взвешивания**:
   - Требуется подобрать подходящую функцию взвешивания и её параметры (например, $\sigma$ в гауссовском взвешивании), что может потребовать дополнительных вычислений и экспериментов.

2. **Сложность реализации**:
   - В сравнении с простым k-NN, взвешенные методы требуют дополнительных шагов для вычисления весов, что может увеличить вычислительную сложность.

3. **Чувствительность к выбору метрики расстояния**:
   - Как и в обычном k-NN, выбор метрики расстояния сильно влияет на результат, а неправильный выбор может ухудшить качество предсказаний.

4. **Риск переусложнения**:
   - В некоторых случаях, особенно при малом числе соседей или неудачном выборе весов, взвешивание может привести к ухудшению качества модели.

## Эффективные методы поиска ближайших соседей (краткое описание).

### 1. KD-деревья (KD-Trees)

#### **Описание**
- **KD-дерево** (k-dimensional tree) — бинарное дерево, которое рекурсивно делит пространство признаков на гиперплоскости, перпендикулярные одному из признаков.
  
#### **Преимущества**
- Эффективен для **низких** и **средних** размерностей (до ~20 признаков).
- Позволяет ускорить поиск ближайших соседей по сравнению с линейным перебором.

#### **Недостатки**
- Эффективность резко снижается при **высокой размерности** из-за "проклятия размерности".
- Требует балансировки дерева для оптимальной производительности.

---

### 2. Ball-деревья (Ball Trees)

#### **Описание**
- **Ball-дерево** разбивает пространство признаков на вложенные сферы («шары»), каждая из которых содержит подмножество точек.
- Использует центр и радиус для описания каждого шара.

#### **Преимущества**
- Лучше справляется с **неравномерными** распределениями данных по сравнению с KD-деревьями.
- Более устойчив к "проклятию размерности" в некоторых случаях.

#### **Недостатки**
- Как и KD-деревья, теряет эффективность при очень высокой размерности.
- Сложнее в реализации и управлении.

---

### 3. Локально-чувствительное хеширование (Locality-Sensitive Hashing, LSH)

#### **Описание**
- **LSH** — метод **приближённого** поиска ближайших соседей, использующий хеш-функции, которые с высокой вероятностью хешируют похожие точки в одну корзину.
- Часто применяется для **бинарных** или **вещественных** данных.

#### **Преимущества**
- Высокая скорость поиска в больших и высокоразмерных пространствах.
- Позволяет эффективно обрабатывать **приближённые** соседей, что достаточно для многих практических задач.

#### **Недостатки**
- Не гарантирует нахождения **точных** ближайших соседей.
- Требует настройки параметров хеширования для баланса между скоростью и точностью.

---

### 4. Cover-деревья (Cover Trees)

#### **Описание**
- **Cover-дерево** — структура данных, которая иерархически покрывает пространство точками с различными уровнями масштабов.
- Позволяет быстро исключать большие подмножества точек при поиске.

#### **Преимущества**
- Работает эффективно при **различной плотности** данных.
- Менее чувствительно к "проклятию размерности" по сравнению с KD- и Ball-деревьями.

#### **Недостатки**
- Сложность реализации.
- Производительность зависит от структуры данных и расстояний между точками.

---

### 5. Алгоритмы приближённого поиска ближайших соседей (Approximate Nearest Neighbor, ANN)

#### **Описание**
- **ANN** методы стремятся найти ближайших соседей с приемлемой точностью, но значительно быстрее точных алгоритмов.
- Включают такие подходы, как **Hierarchical Navigable Small World (HNSW)**, **Product Quantization (PQ)** и **Faiss** от Facebook.

#### **Преимущества**
- Высокая скорость поиска даже в **очень больших** и **высокодименсиональных** пространствах.
- Поддержка масштабируемости и параллельных вычислений.

#### **Недостатки**
- Предоставляют **приближённые** результаты, что может быть неприемлемо для некоторых приложений.
- Часто требуют дополнительной настройки и оптимизации под конкретные данные.

---

### 6. Индексы на основе графов (Graph-Based Indices)

#### **Описание**
- Строят графы, где узлы — это точки данных, а ребра соединяют близких соседей.
- Используют методы обхода графа для быстрого поиска ближайших соседей.

#### **Преимущества**
- Высокая эффективность для **приближённого** поиска в больших наборах данных.
- Хорошо работают с **сложными** структурами данных.

#### **Недостатки**
- Сложность построения и поддержки графа.
- Может потребоваться значительное количество памяти.

---

### 7. Алгоритмы на основе факторизации пространства признаков

#### **Описание**
- Снижают размерность пространства признаков перед выполнением поиска ближайших соседей.
- Используют методы, такие как **Principal Component Analysis (PCA)** или **t-Distributed Stochastic Neighbor Embedding (t-SNE)**.

#### **Преимущества**
- Уменьшают вычислительную сложность и улучшают эффективность поиска.
- Могут улучшить качество поиска за счёт устранения шума и коррелированных признаков.

#### **Недостатки**
- Потенциальная потеря информации при снижении размерности.
- Необходимость дополнительного шага предобработки данных.

# 7.	Метод опорных векторов (SVM)

## Постановка задачи линейного SVM для линейно разделимой выборки.


### 1. Постановка задачи

**Цель линейного SVM** состоит в том, чтобы найти такую линию (или гиперплоскость в более высоких измерениях), которая максимально отделяет объекты разных классов. Представим, что у нас есть два типа точек на плоскости: одна группа точек принадлежит к одному классу, а другая — к другому. Линейный SVM стремится провести прямую линию так, чтобы она разделяла эти две группы с максимально возможным отступом между ближайшими точками каждой группы и линией разделения. Эти ближайшие точки, которые лежат на границе разделения, называются **опорными векторами**.

**Линейно разделимая выборка** — это такой набор данных, где существует прямая линия (или гиперплоскость), которая может полностью отделить объекты одного класса от объектов другого класса без ошибок. В задачах с двумя классами обычно обозначают классы как положительный и отрицательный (например, +1 и -1).

**Зазор (margin)** — это расстояние между линией разделения и ближайшими точками каждого класса. Цель SVM — найти такую линию, при которой этот зазор максимально велик. Больший зазор способствует лучшей обобщающей способности модели, то есть её способности правильно классифицировать новые, ранее не виденные объекты.

---

### 4. Решение задачи

Для нахождения оптимальной линии разделения SVM использует методы из области оптимизации, включая условия оптимальности Каруша-Куна-Таккера (KKT) и двойственную форму задачи оптимизации. В результате оптимизации выясняется, что решение зависит только от опорных векторов — тех точек данных, которые лежат на границе зазора или немного за её пределами. Это делает SVM эффективным, так как для определения линии разделения не требуется учитывать все точки данных, а только опорные векторы.

---

### 5. Пример

Рассмотрим простой пример с двумя классами точек на плоскости:

- **Класс +1**: Точки с координатами (2, 3), (3, 4), (4, 5).
- **Класс -1**: Точки с координатами (1, 1), (2, 1), (3, 2).

**Шаги построения линейного SVM:**

1. **Определение гиперплоскости**: Предположим, что линия разделения имеет определённые параметры, которые нужно найти.

2. **Построение ограничений**: Для каждой точки одного класса устанавливаются условия, что они должны находиться по одну сторону линии разделения, а для другой группы — по другую сторону.

3. **Минимизация значения**: Проводится оптимизация параметров линии таким образом, чтобы зазор между ближайшими точками двух классов был максимален.

4. **Нахождение опорных векторов**: Опорными векторами будут те точки, которые находятся непосредственно на границе зазора или немного за её пределами. 

---

### 6. Преимущества и недостатки линейного SVM для линейно разделимой выборки

#### Преимущества:

1. **Оптимальность**: Линейный SVM гарантирует, что найденная линия разделения обеспечивает максимально возможный зазор между классами, что улучшает способность модели к обобщению на новые данные.

2. **Устойчивость к переобучению**: Максимизация зазора действует как форма регуляризации, уменьшая риск переобучения, особенно при малых объёмах данных.

3. **Эффективность в высокоразмерных пространствах**: SVM хорошо работает, когда количество признаков (характеристик) велико, что часто встречается в реальных задачах, например, при обработке текстов или изображений.

4. **Расширяемость через ядровые трюки**: Хотя мы рассматриваем линейный SVM, его можно легко расширить для работы с нелинейно разделимыми данными, используя специальные методы, называемые ядровыми трюками.

#### Недостатки:

1. **Линейность**: Линейный SVM подходит только для данных, которые можно полностью разделить прямой линией или гиперплоскостью. Если классы не линейно разделимы, необходимо использовать более сложные версии SVM с ядрами.

2. **Чувствительность к масштабированию признаков**: Разные масштабы признаков могут искажать расстояния между точками, что влияет на качество разделения. Поэтому перед применением SVM часто требуется нормализация или стандартизация данных.

3. **Вычислительная сложность**: Для очень больших наборов данных обучение линейного SVM может быть ресурсоёмким, хотя существуют оптимизированные алгоритмы и реализации, которые облегчают эту проблему.

4. **Влияние выбросов**: Наличие выбросов — точек, сильно отличающихся от остальных — может существенно повлиять на положение линии разделения, снижая качество классификации.


## Линейный SVM в случае линейно неразделимой выборки.

### 2. Введение мягкого зазора (Soft Margin)

Чтобы адаптировать линейный SVM к линейно неразделимым данным, был предложен **подход мягкого зазора (Soft Margin)**. Этот подход позволяет некоторым объектам нарушать строгие границы классификации, вводя понятие **скользящих переменных (slack variables)**.

#### 2.1 Скользящие переменные

Для каждого объекта данных вводится скользящая переменная, которая измеряет степень, с которой объект нарушает границу классификации:

- **Нулевые скользящие переменные**: Объект полностью соответствует условиям классификации и находится на правильной стороне разделяющей линии с достаточным запасом.

- **Скользящие переменные внутри зазора**: Объект находится ближе к разделяющей линии, но всё ещё правильно классифицирован.

- **Скользящие переменные вне зазора**: Объект неправильно классифицирован и лежит по неправильной стороне разделяющей линии.

#### 2.2 Модифицированная задача оптимизации

С введением мягкого зазора задача оптимизации линейного SVM изменяется следующим образом:

- **Цель**: Найти разделяющую линию, которая не только максимально отделяет классы, но и минимизирует количество и степень нарушений границ классификации.

- **Балансировка**: Вводится параметр, который контролирует баланс между максимизацией зазора и минимизацией ошибок классификации. Этот параметр позволяет модели быть более гибкой и устойчивой к шуму и выбросам в данных.

---

### 3. Геометрическая интерпретация мягкого зазора

#### 3.1 Гиперплоскости с мягким зазором

Вместо двух жестких границ разделения, которые полностью отделяют классы, вводятся гибкие границы, которые учитывают возможные нарушения:

- **Гиперплоскости с учетом скользящих переменных**: Эти границы могут смещаться и изменять свой угол, чтобы позволить некоторым объектам нарушать строгие условия разделения, тем самым адаптируясь к реальной структуре данных.


---

### 4. Решение задачи оптимизации

#### 4.1 Лагранжиан и условия оптимальности Каруша-Куна-Таккера (KKT)

Для решения модифицированной задачи оптимизации с мягким зазором используются методы из области оптимизации, включая введение дополнительных условий и использование множителей Лагранжа. Эти методы позволяют эффективно найти оптимальные параметры разделяющей линии, учитывая возможность некоторых нарушений границ классификации.


### 5. Пример работы линейного SVM с мягким зазором

Рассмотрим простой пример с двумя классами точек, которые невозможно полностью разделить прямой линией без ошибок:

#### Набор данных:

- **Класс +1**: Точки, расположенные ближе к одной стороне пространства.
- **Класс -1**: Точки, расположенные ближе к другой стороне пространства, но некоторые из них пересекаются с классом +1.

#### Построение модели SVM:

1. **Выбор параметра**: Определяется значение параметра, контролирующего компромисс между зазором и ошибками классификации.

2. **Определение скользящих переменных**: Некоторые точки из класса -1 могут находиться ближе к линии разделения или даже пересекать её, что будет учтено через скользящие переменные.

3. **Оптимизация**: Алгоритм SVM находит такую линию разделения, которая максимально отделяет классы, учитывая допустимые нарушения.

4. **Результат**: Получается разделяющая линия, которая максимально отделяет основные группы классов, но допускает некоторые ошибки для повышения общей обобщающей способности модели.

---

**Заключение**

**Линейный метод опорных векторов (SVM)** с мягким зазором — это мощный инструмент для задач классификации, особенно когда данные не поддаются полному разделению прямой линией. Введение мягкого зазора позволяет модели быть гибкой, сохраняя при этом общую структуру и устойчивость к переобучению. Однако для достижения наилучших результатов важно тщательно настраивать параметры модели, проводить предобработку данных и учитывать возможные выбросы. В случаях, когда линейный подход недостаточен, SVM можно расширить с помощью ядровых трюков, что позволяет моделировать более сложные и нелинейные разделения классов.


## Задача оптимизации SVM. Двойственная задача.

### 1. Прямая задача SVM

**Прямая задача SVM** заключается в том, чтобы найти такие параметры модели, которые обеспечивают максимальное разделение между двумя классами данных. Вот ключевые моменты:

- **Максимизация зазора**: SVM стремится провести разделяющую линию (или гиперплоскость в многомерном пространстве) так, чтобы расстояние между этой линией и ближайшими точками каждого класса было максимально большим. Этот зазор способствует лучшей обобщающей способности модели, позволяя ей правильно классифицировать новые данные.

- **Минимизация ошибок классификации**: В идеальном случае все точки одного класса находятся по одну сторону от разделяющей линии, а все точки другого класса — по другую. Однако в реальных данных такое идеальное разделение редко достижимо. Поэтому SVM допускает некоторые ошибки, вводя штрафы за неправильно классифицированные точки. Это делает модель более гибкой и устойчивой к шуму в данных.

**Почему важно минимизировать определенное значение**: Минимизация сложности модели помогает предотвратить переобучение, то есть ситуацию, когда модель слишком точно подстраивается под обучающие данные и плохо работает на новых, ранее не виденных данных.

---

### 2. Двойственная задача SVM

**Двойственная задача SVM** представляет собой альтернативный подход к решению основной задачи оптимизации. Вместо прямого поиска параметров разделяющей линии, двойственная задача фокусируется на определении того, как каждая точка данных влияет на решение.

**Ключевые моменты двойственной задачи:**

- **Набор коэффициентов (альфа)**: Для каждой точки данных вводится коэффициент, который показывает, насколько сильно эта точка влияет на определение разделяющей линии. Эти коэффициенты помогают определить, какие точки являются наиболее важными для модели.

- **Опорные векторы**: Не все точки данных оказывают одинаковое влияние на разделение классов. Только небольшое подмножество точек, называемых опорными векторами, играет ключевую роль в формировании разделяющей линии. Эти точки находятся непосредственно на границе зазора или близко к ней. Остальные точки не влияют на конечное решение и могут быть проигнорированы.

**Смысл перехода к двойственной задаче:**

Вместо того чтобы напрямую работать с параметрами разделяющей линии, двойственная задача позволяет оптимизировать только набор коэффициентов, ассоциированных с каждой точкой данных. Это упрощает процесс обучения модели и делает его более эффективным, особенно при работе с большими наборами данных. Кроме того, двойственная форма задачи удобна для интеграции с ядровыми функциями, что открывает возможности для обработки нелинейных разделений.


#### 2.1 Причины перехода к двойственной задаче

Переход от прямой задачи оптимизации к **двойственной задаче** предоставляет несколько преимуществ:
- **Применение ядровых трюков**: Позволяет легко переходить к нелинейным разделениям, преобразуя данные в более высокоразмерное пространство.
- **Экономия вычислительных ресурсов**: Решение двойственной задачи зависит от числа ограничений, которое обычно меньше, чем количество признаков, что делает вычисления более эффективными.
- **Фокус на опорных векторах**: В двойственной задаче решение зависит только от определенного подмножества данных — опорных векторов, что снижает объем необходимых вычислений.


### 5. Преимущества и недостатки двойственной формы SVM

#### Преимущества:

1. **Гибкость через ядровые функции**: Позволяет модели адаптироваться к различным структурам данных.
2. **Экономия памяти и вычислений**: Решение зависит только от опорных векторов, что делает процесс обучения более эффективным.
3. **Эффективность в высокоразмерных пространствах**: Подходит для задач с большим числом признаков.
4. **Оптимальные свойства**: Гарантирует нахождение наилучшего разделения классов.

#### Недостатки:

1. **Вычислительная сложность для больших выборок**: При очень больших наборах данных построение двойственной задачи может требовать значительных вычислительных ресурсов.
2. **Требовательность к памяти**: Для хранения и обработки информации о множестве точек может потребоваться много памяти.
3. **Выбор ядра и параметров**: Необходимость тщательного выбора ядровой функции и настроек модели может усложнить процесс обучения.
4. **Опорные векторы**: В случае большого числа опорных векторов модель может стать менее эффективной и подверженной переобучению.

---


## Kernel trick. Виды ядер.

**Ядровой трюк (Kernel Trick). Виды ядер.**

**Ядровой трюк (Kernel Trick)** — это мощная техника, используемая в **методе опорных векторов (SVM)** и других алгоритмах машинного обучения для преобразования данных в более высокоразмерное пространство признаков. Это позволяет моделям эффективно работать с **нелинейно разделимыми** данными, не требуя явного вычисления координат в новом пространстве. Вместо этого ядровой трюк использует **ядровые функции**, которые вычисляют скалярное произведение между парами точек в преобразованном пространстве напрямую.

#### 3.2 Виды ядер

Существует множество видов ядерных функций, каждая из которых подходит для определённых типов данных и задач. Рассмотрим наиболее популярные из них:

1. **Линейное ядро**
   - **Описание**: Соответствует разделению данных прямой линией без преобразования пространства признаков.
   - **Когда использовать**: Если данные уже линейно разделимы или если размерность признаков высока и линейная модель может быть эффективной.
   - **Преимущества**: Простота и низкая вычислительная стоимость.
   - **Недостатки**: Не подходит для нелинейно разделимых данных.

2. **Полиномиальное ядро**
   - **Описание**: Преобразует данные в пространство, соответствующее полиномиальной функции заданной степени.
   - **Когда использовать**: Для данных с полиномиальной структурой разделения классов.
   - **Преимущества**: Способно моделировать сложные разделительные границы.
   - **Недостатки**: Повышенная вычислительная сложность при больших степенях.

3. **Радиально-базисное ядро (RBF)**
   - **Описание**: Измеряет сходство между точками, быстро уменьшая вес с увеличением расстояния. Создаёт очень гибкие разделительные границы.
   - **Когда использовать**: Широко используется для нелинейно разделимых данных.
   - **Преимущества**: Способно создавать очень гибкие разделительные границы.
   - **Недостатки**: Требует тщательной настройки параметра, контролирующего ширину функции.

4. **Сигмоидальное ядро**
   - **Описание**: Имитирует нейронные сети, применяя сигмоидальную функцию активации.
   - **Когда использовать**: Реже используется, но может быть полезно в специфических задачах.
   - **Преимущества**: Может моделировать различные нелинейные зависимости.
   - **Недостатки**: Может быть нестабильным и сложно настраиваемым.

5. **Ядро Минковского**
   - **Описание**: Общая форма, включающая различные метрики расстояния в качестве основы для ядра.
   - **Когда использовать**: Для задач, где специфическая метрика расстояния лучше подходит для структуры данных.
   - **Преимущества**: Гибкость в выборе метрики.
   - **Недостатки**: Может потребовать значительной настройки параметров.

6. **Ядро Бесселя**
   - **Описание**: Использует функцию Бесселя для измерения сходства.
   - **Когда использовать**: Специфические задачи, где требуется подобная форма ядра.
   - **Преимущества**: Может быть полезно для определённых типов данных.
   - **Недостатки**: Не так широко используется и может быть сложным в настройке.

---

### 6. Преимущества и недостатки ядрового трюка

#### Преимущества:

1. **Гибкость**:
   - Позволяет моделям адаптироваться к сложным структурам данных.
   - Поддерживает широкий спектр ядерных функций для различных задач.

2. **Универсальность**:
   - Ядровой трюк можно применять не только в SVM, но и в других алгоритмах, таких как **Kernel PCA**, **Kernel Ridge Regression**, и др.

3. **Эффективность**:
   - Позволяет работать с высокоразмерными данными без явного преобразования, снижая вычислительную нагрузку.

#### Недостатки:

1. **Выбор ядра и параметров**:
   - Требует тщательного выбора ядровой функции и её параметров, что может быть трудоемким и требует перекрестной валидации.

2. **Вычислительная сложность**:
   - Для больших наборов данных вычисление матрицы ядра может быть ресурсоёмким и требовать значительного объёма памяти.

3. **Проклятие размерности**:
   - Хотя ядровой трюк позволяет работать в высокоразмерных пространствах, эффективность может снижаться с увеличением размерности из-за "проклятия размерности".

4. **Переобучение**:
   - Сложные ядровые функции могут привести к переобучению модели, особенно при малом объёме данных.


# Деревья решений.

### Понятие энтропии, определение информации по Шеннону.

**Деревья решений** — это метод машинного обучения, который схематически разбивает данные на последовательность «правил», помогающих классифицировать объекты или предсказывать значения. 

---

#### Энтропия

**Энтропия** в контексте деревьев решений — это способ измерить, насколько перемешаны объекты разных классов в каком-то подмножестве данных. Представьте, что у вас есть корзина, в которой могут лежать яблоки и груши. Если корзина наполнена фруктами только одного вида, то вы уверены, что, доставая фрукт наугад, вы получите именно этот вид. Такая ситуация означает **низкую неопределённость** (то есть низкую энтропию). Напротив, если в корзине количество яблок и груш примерно одинаково, вам сложно предсказать, что вы вытащите, и неопределённость высокая (энтропия высока).

В дереве решений мы ищем такие разбиения данных (ветвления), при которых неопределённость по классам в каждой из ветвей становится как можно меньше. Проще говоря, мы стараемся разделить наши объекты так, чтобы внутри каждой ветви дерева оставались объекты максимально одного класса, снижая энтропию.

---

#### Информация по Шеннону

**Информация** в смысле Шеннона — это мера того, насколько сильно уменьшается наша неопределённость, когда мы узнаём результат. Предположим, вы не знаете, что вам достанется — яблоко или груша. Если вы получите подсказку, например, «фрукт жёлтого цвета», и это сильно повысит вашу уверенность в том, какой фрукт у вас будет (скажем, это, скорее всего, яблоко), то вы получили **много** информации. Если же подсказка ничего не проясняет (например, «фрукт растёт на дереве», а оба растут на дереве), значит, вы получили **мало** информации, потому что ваша неопределённость почти не уменьшилась.

В контексте деревьев решений, когда мы делим данные на подгруппы, мы хотим выбрать такое разбиение (признак и его условие), которое даст нам **наибольшую выгоду** в смысле информации: то есть максимально уменьшит энтропию (неопределённость) относительно классов. Мы говорим, что это разбиение даёт наибольший **прирост информации**.

---

#### Как это связано с деревьями решений

1. **Корень дерева**: Сначала у нас есть все данные, и мы считаем, как сильно они «смешаны» по классам (энтропия).  
2. **Первая ветка (признак)**: Мы выбираем признак, который лучше всего «разделяет» данные, уменьшая энтропию в получившихся группах. Другими словами, выбираем признак, дающий наибольший прирост информации.  
3. **Рекурсивное продолжение**: Повторяем процесс для каждой ветви, пока данные в ветве не станут однородны (энтропия близка к нулю) или у нас не закончатся признаки для ветвления.

Таким образом, энтропия и информация по Шеннону дают нам формальный способ измерить, насколько хорошее у нас получилось разделение данных по тому или иному признаку. В итоге дерево решений — это последовательный процесс выбора таких «лучших» признаков и разбиений, чтобы по пути от корня к листу мы максимизировали уверенность в принадлежности объектов к тому или иному классу.

---

Энтропия и прирост информации по Шеннону — это ключевые понятия при построении **деревьев решений**, особенно в алгоритмах типа **ID3**, **C4.5**, **CART (в версии с энтропией)**.

Разберёмся по шагам.

---

## 1. **Энтропия (Shannon Entropy)**

Энтропия — мера неопределённости в данных. Для бинарной классификации:

$$
H(S) = -p_+ \log_2(p_+) - p_- \log_2(p_-)
$$

* $S$ — множество объектов (например, обучающие примеры в узле),
* $p_+$ — доля положительных примеров (например, класс "да"),
* $p_- = 1 - p_+$ — доля отрицательных.

Если классов больше двух:

$$
H(S) = - \sum_{i=1}^{k} p_i \log_2(p_i)
$$

где $p_i$ — доля примеров класса $i$, $k$ — число классов.

---

## 2. **Пример энтропии**

Пусть в узле 10 объектов: 6 "да", 4 "нет".

$$
p_+ = \frac{6}{10} = 0.6,\quad p_- = 0.4
$$

$$
H(S) = -0.6 \log_2(0.6) - 0.4 \log_2(0.4) \approx 0.971
$$

---

## 3. **Условная энтропия после разбиения**

Допустим, у нас есть признак, который делит множество $S$ на два подмножества $S_1$ и $S_2$:

* $S_1$: 4 "да", 0 "нет"
* $S_2$: 2 "да", 4 "нет"

Тогда:

$$
H(S_1) = -1 \log_2(1) - 0 \log_2(0) = 0
$$

$$
H(S_2) = -\frac{2}{6} \log_2\left(\frac{2}{6}\right) - \frac{4}{6} \log_2\left(\frac{4}{6}\right) \approx 0.918
$$

Взвешенная энтропия после разбиения:

$$
H_{after} = \frac{4}{10} \cdot 0 + \frac{6}{10} \cdot 0.918 = 0.551
$$

---

## 4. **Прирост информации (Information Gain)**

$$
IG = H(S) - H_{after}
$$

$$
IG = 0.971 - 0.551 = 0.42
$$

Признак с наибольшим приростом информации выбирается для разделения узла дерева.

---

## Кратко:

* **Энтропия** — мера неопределённости в наборе.
* **Information Gain** — насколько уменьшилась неопределённость после разбиения по признаку.
* Используется при построении дерева для выбора лучшего признака.

---

#### Итог

- **Энтропия** показывает, насколько объекты разных классов перемешаны (высокая энтропия — сильная неопределённость, низкая — высокая однородность).  
- **Информация** по Шеннону говорит, насколько уменьшается наша неопределённость, когда мы узнаём значение признака.  
- Деревья решений строятся, выбирая на каждом шаге признак с наибольшим приростом информации (или, эквивалентно, максимальным уменьшением энтропии), чтобы получившиеся ветви были как можно более «однородными» по классам.  

Это позволяет деревьям решений принимать логические решения вида «Если признак A удовлетворяет условию X, иди влево, иначе — вправо», постепенно приближаясь к тому, чтобы в каждом «листочке» дерева оставались объекты одного класса или близко к тому.

### Понятие дерева решений. Процесс обучения.

**Дерево решений** — это метод машинного обучения, который пошагово «делит» данные с помощью простых вопросов (правил), пока не дойдёт до конечного «листа», где решение (класс или значение) становится очевидным. Эти последовательные вопросы похожи на проверку условий вида «если ... тогда ... иначе ...», позволяя постепенно сужать варианты и приходить к правильному выводу.

---

#### Понятие дерева решений

- **Структура**: Дерево решений состоит из **узлов** (где задаётся вопрос или условие) и **ветвей** (путей), по которым данные «спускаются» дальше. Если данные удовлетворяют условию, они идут по одной ветви, а если нет — по другой.  
- **Лист**: Узел, в котором дерево прекращает деление данных, называется **листом**. В листе мы даём ответ — например, к какому классу относятся объекты или какое числовое значение нужно предсказать.  

> Пример: Если мы классифицируем цветок по признакам длины лепестка и ширины чашелистика, в первом узле можно спросить «длина лепестка > 2 см?». Если да — идём по одной ветви, если нет — по другой.

---

#### Процесс обучения

1. **Подготовка данных**:  
   - Собираем набор объектов (примеров) с известными признаками и ответами (метками).  
   - Каждый объект имеет несколько признаков, например, «длина лепестка», «ширина стебля» и т. д.

2. **Выбор признака для корня (первый вопрос)**:  
   - Модель анализирует, какой признак наилучшим образом «делит» данные на группы, в которых объекты будут максимально похожи в отношении ответа.  
   - Для этого используются меры «качества» разделения (например, уменьшение энтропии или прирост информации).  

3. **Рекурсивное построение**:  
   - После того как дерево выбирает признак и способ разделения, данные разбиваются на соответствующие ветви.  
   - Для каждой ветви повторяется выбор «лучшего» признака среди оставшихся и задаётся новый «вопрос», пока данные в ветви не станут достаточно однородны (например, все объекты одной категории).  

4. **Остановка**:  
   - Дерево прекращает деление, когда достигнут один из критериев:  
     - Все объекты в ветви относятся к одному классу (или значение почти одинаковое).  
     - Нет оставшихся признаков для дальнейшего деления.  
     - Достигнута заданная глубина или другое ограничение, чтобы предотвратить чрезмерное усложнение (переобучение).

5. **Формирование листьев**:  
   - В узлах, где деление прекращается, формируются **листья**, в которых хранится «ответ» (класс или среднее значение).  

> Пример: Для наших цветков на каждом шаге выбираем признак (вопрос), который сильнее всего сокращает «разнообразие» ответов в ветвях. Это продолжается, пока листья не станут достаточно «однородными» по ответам.

---

#### Итог

- **Дерево решений** — это иерархическая структура вопросов (условий), постепенно разделяющих объекты на группы с похожими ответами.  
- **Процесс обучения** аналогичен серии «разветвляющихся» вопросов, где каждый вопрос выбирается так, чтобы максимально упорядочить данные относительно конечной цели (классификации или регрессии).  

Это делает дерево решений понятным инструментом: оно не только даёт результат, но и объясняет, как именно к нему пришло, в виде простой и наглядной «логики» (если-то-иначе) на нескольких уровнях глубины.

### Gini impurity, information gain.

В процессе построения дерева решений мы хотим разбивать набор данных таким образом, чтобы объекты каждого «листа» (конечного узла) были как можно более однородны по целевому признаку (классу). Для этого используются специальные «метрики качества» разбиения, среди которых особую роль играют **Gini impurity** и **information gain**.

---

#### Gini impurity (примесь Джини)

**Gini impurity** — это показатель, говорящий о том, насколько «смешанными» или «неоднородными» являются данные внутри узла по сравнению с их целевым классом. Чем выше значение Gini impurity, тем более перемешаны классы внутри выборки (т. е. мы менее уверены, что все объекты принадлежат одному классу). 

- **Низкое значение Gini** (близкое к нулю) означает, что почти все объекты принадлежат к одному классу, и «неопределённость» в этом узле минимальна.  
- **Высокое значение Gini** (близкое к максимуму) показывает, что объекты распределены по классам примерно поровну, и мы не можем «угадать», к какому классу отнесён случайный объект.

В дереве решений мы стремимся выбрать такой признак и способ «разбить» данные, чтобы в получающихся подмножествах Gini impurity был как можно ниже (т. е. каждый узел содержал объекты преимущественно одного класса).

---

#### Information gain (прирост информации)

**Information gain** (прирост информации) показывает, насколько хорошо мы «упорядочили» данные по классам, задавая конкретное разбиение. 

- Сначала мы измеряем «неопределённость» (энтропию или Gini) исходного набора.  
- Затем смотрим, как эта неопределённость уменьшилась после того, как мы разбили набор по признаку (например, «длина лепестка больше/меньше X»).  

Если после разбиения объекты в каждой ветви становятся более однородными (т. е. неопределённость в каждом из подмножеств заметно упала), значит мы получили **высокий прирост информации**. Напротив, если разбиение почти не улучшило «упорядоченность» классов, то прирост информации окажется маленьким.

В дереве решений на каждом шаге выбирают тот признак и способ разбиения, который даёт наибольшее снижение неопределённости (или наибольший прирост информации).

---

#### Как это используется в деревьях решений

1. **Изначально** вся обучающая выборка представляет собой один узел (корень). Мы считаем неопределённость (Gini impurity или энтропию) всего набора.  
2. **Возможные разбиения**: Для каждого признака алгоритм рассматривает различные пороговые значения или категории, чтобы «разделить» данные на две (или больше) части.  
3. **Оценка**: Считается, во сколько раз уменьшилась неопределённость (или насколько выросла информация) по сравнению с тем, что было до разбиения.  
4. **Выбор лучшего варианта**: Берётся признак, который даёт **наибольшее** уменьшение неопределённости (или наибольший прирост информации). В дереве решений этот признак становится «вопросом» в соответствующем узле.  
5. **Повтор**: Для каждой ветви (подмножества данных) процесс повторяется, пока данные не станут достаточно «чистыми» (Gini близка к 0 или энтропия минимальна) или пока не будут выполнены другие критерии остановки.

Таким образом, **Gini impurity** и **information gain** — это два тесно связанных способа оценить, «насколько хорошие» разбиения мы делаем в дереве решений, стремясь на каждом шаге максимально упростить задачу классификации, сократив смешанность классов.

---
**Gini impurity** (нечистота Джини) — это альтернатива энтропии, часто используется в алгоритме **CART** для построения деревьев решений.

---

### **Определение Gini impurity**

Для множества объектов $S$, где каждый объект принадлежит одному из $k$ классов, Gini impurity определяется так:

$$
Gini(S) = 1 - \sum_{i=1}^{k} p_i^2
$$

где:

* $p_i$ — доля объектов класса $i$ в множестве $S$,
* $k$ — число классов.

---

### **Пример**

Пусть в узле 10 объектов:

* 6 "да", 4 "нет"
* $p_1 = \frac{6}{10} = 0.6$, $p_2 = \frac{4}{10} = 0.4$

$$
Gini = 1 - (0.6^2 + 0.4^2) = 1 - (0.36 + 0.16) = 1 - 0.52 = 0.48
$$

---

### **Условная Gini impurity (после разбиения)**

Пусть признак делит множество на два подмножества:

* $S_1$: 4 "да", 0 "нет" → $Gini(S_1) = 1 - 1^2 - 0^2 = 0$
* $S_2$: 2 "да", 4 "нет" →

  $$
  p_1 = \frac{2}{6},\quad p_2 = \frac{4}{6},\quad Gini(S_2) = 1 - \left(\frac{2}{6}\right)^2 - \left(\frac{4}{6}\right)^2 = 1 - \left(0.111 + 0.444\right) = 0.445
  $$

Взвешенная Gini после разбиения:

$$
Gini_{after} = \frac{4}{10} \cdot 0 + \frac{6}{10} \cdot 0.445 = 0.267
$$

---

### **Gini Gain (уменьшение Gini impurity)**

Аналогично Information Gain:

$$
\text{Gini Gain} = Gini(S) - Gini_{after} = 0.48 - 0.267 = 0.213
$$

### Случайный лес (Random forest).

**Случайный лес (Random Forest)** — это метод ансамблевого обучения, который объединяет в себе множество отдельных деревьев решений, чтобы получить более надёжное и точное предсказание по сравнению с каждым отдельным деревом. Его главная идея — создать «лес» из деревьев решений, где каждое дерево обучается на немного разных данных и/или разных признаках. В результате совмещаются сильные стороны нескольких моделей, а слабые стороны отдельных деревьев сглаживаются.

---

#### Основные принципы

1. **Бэггинг (Bagging)**  
   - При бэггинге каждое дерево обучается на **случайной подвыборке** (bootstrap) из исходного датасета. То есть данные выбираются с возвращением, в итоге некоторые объекты в одной подвыборке могут повторяться, а некоторые не попадут туда вовсе.  
   - Это разнообразит получающиеся деревья, потому что каждое дерево «видит» немного разные данные.

2. **Случайный выбор признаков**  
   - Помимо случайной подвыборки объектов, в случайном лесе при каждом разбиении дерева выбирается **случайный набор признаков**, среди которых выбирается лучший.  
   - Это ещё больше увеличивает разнообразие между деревьями, так как разные деревья могут использовать разные наборы признаков на каждом шаге.

3. **Комбинирование результатов**  
   - После обучения каждого дерева случайного леса, результаты (прогнозы) объединяются. Для задач классификации чаще всего берётся **большинство голосов** (majority vote). Для регрессии обычно берётся **среднее** предсказаний.  
   - Такая агрегированная оценка, как правило, оказывается более стабильной и точной, чем у отдельных деревьев.

---

#### Почему это работает

- **Деревья решений** склонны к переобучению, если их не ограничивать по глубине или другим параметрам. Но объединение многих переобученных деревьев, которые обучались на разных поднаборах данных и признаков, даёт в среднем хороший результат.  
- **Разнообразие** между деревьями помогает «отменять» ошибки друг друга. Если одно дерево ошиблось на каком-то примере, другое дерево может дать правильный ответ. При голосовании неправильные предсказания могут «утонуть» в массе правильных.

---

#### Преимущества случайного леса

1. **Высокая точность**: Обычно даёт одну из лучших комбинаций точности и стабильности.  
2. **Устойчивость к шуму**: Разные деревья решения сглаживают влияние аномальных объектов.  
3. **Параллельность**: Обучение деревьев может идти параллельно, так как каждое дерево строится независимо.  
4. **Гибкость**: Хорошо подходит для задач как классификации, так и регрессии.

---

#### Недостатки

1. **Потеря интерпретируемости**: Хотя каждое дерево само по себе интерпретируемо, объединение многих деревьев уже сложно объяснить человеку.  
2. **Большее потребление ресурсов**: Нужно обучать и хранить большое количество деревьев, что может быть затратно по времени и памяти.  
3. **Чувствительность к параметрам**: Нужно подобрать количество деревьев, глубину деревьев, количество признаков для выборок и т. д.

---

#### Итог

**Случайный лес** — это группа (ансамбль) независимых деревьев решений, где каждое дерево обучается на случайно выбранном подмножестве данных и признаков. Итоговый прогноз получается путём объединения (голосования или усреднения) предсказаний всех деревьев. За счёт разнообразия деревьев метод даёт высокую точность, стабильность и устойчивость к переобучению, однако при этом теряется прозрачность (сложнее понять, «почему» алгоритм сделал то или иное предсказание, так как в игре много деревьев) и возрастают вычислительные затраты.

### Bagging, выборка признаков.

**Bagging** (или «Bootstrap Aggregating») — это метод ансамблевого обучения, который улучшает стабильность и точность моделей, комбинируя результаты нескольких «базовых» моделей (например, деревьев решений). Каждый «базовый» алгоритм обучается на собственном поднаборе данных, отобранном из исходной выборки путём случайного выбора объектов **с возвращением** (bootstrap). 

**Выборка признаков** (feature subspace) — это дополнительный приём, при котором на каждом шаге обучения базового алгоритма (например, дерева решений) выбирается случайное подмножество признаков (столбцов данных). Другими словами, помимо случайного выбора самих объектов (строк данных), случайно выбираются и некоторые признаки (колонки). Таким образом, разные модели видят не только разные объекты, но и разные подмножества признаков.

---

#### Как это работает вместе

1. **Bagging объектов**  
   - Из исходного набора данных многократно выбирают bootstrap-выборку — подмножество объектов с возвращением.  
   - Каждое дерево (или другая «базовая» модель) обучается на этой подвыборке. 

2. **Случайная выборка признаков**  
   - При построении каждого дерева (или на каждой точке разбиения) подмножество признаков выбирается случайно.  
   - Это дополнительно увеличивает разнообразие между деревьями, поскольку разные деревья видят разные подмножества признаков.

3. **Объединение результатов**  
   - Для задач классификации обычно берётся **голосование** (какой класс получил большинство голосов).  
   - Для регрессии — усреднение предсказаний.  

Объединение этих двух техник создаёт ещё больше разнообразия между моделями в ансамбле, что помогает повысить точность и устойчивость к переобучению. 

#### Преимущества

- **Снижение переобучения**: Модели, обучающиеся на разных подвыборках и разных наборах признаков, «ошибаются по-разному», и ошибки в среднем компенсируются.  
- **Лучшее обобщение**: В итоге ансамбль часто работает лучше и стабильнее, чем каждая отдельная модель.  

#### Недостатки

- **Большие вычислительные затраты**: Нужно обучать много моделей (деревьев), что может быть медленнее и требовать больше памяти.  
- **Потеря интерпретируемости**: Каждый «базовый» алгоритм сам по себе может быть понятным, но суммарный ансамбль из множества моделей уже сложнее интерпретировать.  

Таким образом, **bagging** (случайные подмножества объектов) и **случайная выборка признаков** (случайные подмножества признаков) вместе делают ансамбль более разнообразным и, как правило, более точным и надёжным.

### Дерево регрессии.

**Дерево регрессии** — это разновидность дерева решений, которая применяется в задачах **прогнозирования числового значения**, а не для классификации. Вместо того чтобы предсказывать класс объекта (кошка/собака, да/нет и т.п.), мы пытаемся предсказать число (например, цену дома или температуру).

---

#### Основная идея

- **Последовательное разбиение**: Как и в классическом дереве решений, мы пошагово делим данные на подмножества с помощью условий по признакам (например, «Если площадь дома больше 50 м², то идём влево, иначе идём вправо»).  
- **Однородность по предсказываемому значению**: В дереве регрессии мы стремимся, чтобы в каждой «ветви» (подмножестве данных) объекты были как можно ближе друг к другу по числовому выходу (например, чтобы цены домов в одной ветви были примерно одинаковы).

---

#### Как формируется дерево регрессии

1. **Выбираем признак и порог**: Для корневого узла смотрим, какой признак (и его пороговое значение) лучше всего делит данные так, чтобы объекты в каждой ветви имели наиболее похожие (близкие) целевые значения.  
   - Критерий, в соответствии с которым выбираем «лучший» признак, обычно связан с минимизацией среднеквадратичной ошибки (MSE) или другим мерилом разброса значений в ветвях.

2. **Делим данные**: После выбора признака и порога, данные распадаются на две ветви (или более, если тип разбиения другой). Каждое подмножество теперь обрабатывается аналогичным образом (рекурсивно).

3. **Критерий остановки**: Процесс продолжается, пока либо не достигнем максимально допустимой глубины дерева, либо в текущем узле очень мало объектов, либо значения объектов достаточно однородны (ошибка в ветви низкая). В таком случае формируется **лист** дерева.

4. **Предсказание**: В конечном листе хранится **числовое значение**, которое обычно является средним от целевых значений обучающих объектов, попавших в этот лист. Когда нужно сделать прогноз для нового объекта, мы просто «спускаемся» по дереву, следуя условиям, пока не окажемся в листе, и берём значение, хранящееся в этом листе.

---

#### Пример использования

Допустим, мы хотим предсказать цену дома:

1. **Признаки**: Площадь, количество комнат, возраст дома, район и т.д.  
2. **Целевое значение**: Цена (число).

**Дерево регрессии**:
- Сначала может спросить: «Возраст дома меньше 10 лет?».  
   - Если да — идём в левую ветвь.  
   - Если нет — идём в правую.  
- Затем в одной ветви может спросить: «Площадь больше 80 м²?».  
   - И так далее.  

В каждом листе мы храним среднюю цену домов, которые туда попали при обучении. Для нового дома мы движемся по узлам, отвечая на вопросы, и в конечном листе получаем среднюю цену уже обученных домов.

---

#### Плюсы и минусы

**Плюсы**:
1. **Простая интерпретация**: Понятно, по каким признакам и порогам дерево разделяет данные.
2. **Быстрое предсказание**: Для одного объекта нужно пройтись по небольшому числу условий (глубине дерева).

**Минусы**:
1. **Склонность к переобучению**: Если разрешить дереву расти без ограничений, оно может слишком точно «выучить» конкретные объекты в листьях и потерять способность к обобщению.
2. **Менее гладкое предсказание**: Поскольку значение в листе — это среднее, у дерева регрессии могут быть «скачки» на границах разбиения признаков.

---

#### Итог

**Дерево регрессии** — это та же идея «дерева решений», но адаптированная для **числового** прогнозирования. Оно пошагово разбивает данные по признакам и порогам, стараясь, чтобы в каждой ветви значения целевой переменной были как можно более однородными. В конечном листе мы берём среднее значение, и это даёт нам предсказание для новых объектов.

### Сокращение дерева (pruning).

**Сокращение дерева (pruning)** — это процесс упрощения дерева решений после его первоначального построения, чтобы избежать переобучения и улучшить обобщающую способность модели. Изначально дерево может «выучивать» множество тонких (и иногда случайных) закономерностей из обучающей выборки, что приводит к чрезмерной глубине и количеству ветвлений. Pruning позволяет «обрезать» незначимые узлы и ветви, сохраняя только наиболее важные разбиения.

---

#### Почему дерево может переобучаться

- **Глубокое дерево**: Во время обучения дерево может расти практически без ограничений, пока не достигнет очень маленьких подмножеств данных в листах. В результате оно начинает отражать и случайные «шумы» в обучающей выборке, а не истинные закономерности.
- **Сложность**: Чем более детально дерево пытается описать данные, тем больше возникает риск, что оно «запомнит» отдельные случайные особенности обучающего набора, не пригодные для будущих (тестовых) данных.

---

#### Суть сокращения дерева

1. **Определить несущественные части**: Сокращение дерева заключается в выявлении ветвей и узлов, которые дают минимальный вклад в улучшение качества предсказания.  
2. **Упрощение структуры**: Удаляя или «обрезая» такие ветви, мы уменьшаем глубину дерева и число листьев, делая модель более «общей» и менее склонной к переобучению.  
3. **Повышение обобщающей способности**: Простое дерево обычно лучше обобщает знания на новых данных. Это может привести к слегка большей ошибке на обучающей выборке, но зато ошибка на новых данных (обучении с «нуля») обычно снижается.

---

#### Виды pruning

1. **Pre-pruning (предварительное сокращение)**:  
   - На каждом шаге построения дерева проверяют, стоит ли продолжать деление или остановиться раньше.  
   - Если улучшение качества слишком мало, дальнейшее углубление дерева прекращают.

2. **Post-pruning (последующее сокращение)**:  
   - Сначала дерево строится до конца (возможно, очень детально).  
   - Затем проводится анализ, какая часть дерева может быть «обрезана» (узлы или ветви), чтобы не ухудшить существенно обобщающую способность.  
   - Проще говоря, смотрят на субветви, чья «стоимость ошибки» для общей модели незначительна или даже «возмещается» улучшением в других местах.

---

#### Как определяется, что ветвь «лишняя»

- **Анализ улучшения качества**: Смотрят, насколько конкретная ветвь снижала ошибку на обучающей выборке и (желательно) на валидационной. Если без этой ветви (с её заменой на лист) качество существенно не портится, ветвь «обрезают».  
- **Специальные критерии**: Могут использоваться показатели вроде «число неправильных классификаций» (для классификации) или «среднеквадратичная ошибка» (для регрессии), штрафы за сложность и т. п.

---

#### Преимущества pruning

1. **Улучшение обобщающей способности**: Уменьшая сложность дерева, мы снижаем риск переобучения.  
2. **Повышение интерпретируемости**: Более короткое дерево проще понять, визуализировать и объяснять.  
3. **Стабильность**: Менее глубокое дерево менее чувствительно к небольшим изменениям в данных.

---

#### Итог

**Сокращение дерева** (pruning) — это ключевой этап улучшения дерева решений, позволяющий убрать «лишние» ветви, которые лишь запоминают случайные детали обучающего набора, но не помогают в предсказании новых данных. В итоге, дерево становится короче, проще, стабильнее и (обычно) точнее на реальных задачах.

# Бустинг (Boosting).

### Понятие бустинга.

**Бустинг (Boosting)** — это метод ансамблевого обучения, при котором мы **последовательно** создаём множество «слабых» моделей (чаще всего деревьев решений) таким образом, чтобы каждая новая модель старалась «исправить» ошибки предыдущих. В результате эти слабые модели, объединившись, формируют «усиленный» (boosted) алгоритм, который обычно превосходит каждую из них по отдельности.

---

#### Суть бустинга

1. **Слабые модели**: Идея в том, чтобы взять модель, которая сама по себе даёт результат чуть лучше случайного угадывания, — такую модель называют «слабым классификатором» (weak learner).

2. **Пошаговое улучшение**: Строится первая модель на данных. Затем анализируется, какие объекты были классифицированы (или предсказаны) неправильно. Во вторую модель добавляется «фокус» на эти ранее ошибочно предсказанные объекты, чтобы следующая модель лучше училась на сложных примерах.

3. **Последовательное обучение**: Каждая новая модель обучается так, чтобы «исправлять» ошибки предыдущих. Итоговая предсказательная способность складывается из «голосов» (в классификации) или «суммы предсказаний» (в регрессии) всех моделей, но последние модели имеют больший «вес», поскольку они учитывают ошибки предыдущих.

4. **Ансамбль**: По итогу все слабые классификаторы (деревья решений, например) объединяются. Итоговое решение принимается либо путём суммирования результатов, либо через механизм «веса» каждого классификатора. Таким образом, ошибки одного классификатора компенсируются другими, что даёт сильную итоговую модель.

---

#### Преимущества бустинга

1. **Высокая точность**: Бустинг даёт одни из лучших результатов на большинстве задач, где данные представлены в табличном виде с признаками (карты, таблицы и т. д.).
2. **Гибкость**: Можно применять разные «слабые» модели и разные способы «усиления», подстраиваясь под особенности данных.
3. **Инкрементальное обучение**: Новые «слабые» модели можно добавлять пошагово, анализируя уже построенные классификаторы.

---

#### Недостатки

1. **Чувствительность к шуму**: Если в данных много шумовых объектов, сильное «подстраивание» под ошибки может привести к переобучению.
2. **Сложность настройки**: Есть несколько гиперпараметров (например, сколько «слабых» моделей, какая глубина деревьев и т. д.), которые нужно аккуратно подбирать.
3. **Время обучения**: Последовательное обучение множества моделей может быть долгим, особенно на больших наборах данных.

---

#### Итог

**Бустинг** — это метод, когда мы **последовательно** строим много простых моделей, каждая из которых старается исправлять ошибки предыдущих. Складывая результаты этих «слабых» моделей, мы получаем «сильный» (усиленный) алгоритм, который часто даёт превосходные результаты в задачах классификации и регрессии.

### Градиентный бустинг.

**Градиентный бустинг** — это особый вариант бустинга, в котором каждая новая «слабая» модель (обычно дерево решений) обучается на **остатках** или **ошибках**, оставшихся после всех предыдущих моделей, но делает это, «двигаясь» по **градиенту** функции потерь. Проще говоря, он пошагово строит ансамбль, где каждая новая модель старается исправить то, с чем не справились все предыдущие, используя представление ошибки как градиента (направления наибольшего улучшения).

---

#### Основная идея

1. **Начало с простой модели**  
   - Начинаем с очень «грубой» модели-предсказания (например, константного предсказания).  

2. **Поэтапное улучшение**  
   - На каждом шаге мы вычисляем, в каком направлении нужно «двигаться», чтобы улучшить предсказания.  
   - В контексте градиентного бустинга это направление (градиент) говорит, как «исправлять» текущие ошибки или остатки, оставшиеся после предыдущих шагов.  

3. **Новая слабая модель**  
   - Находим следующую небольшую модель (чаще всего короткое дерево решений), которая лучше всего «убирает» текущие ошибки.  
   - При этом модель обучается не на изначальные ответы, а на **остатки** (то есть на разницу между реальными ответами и тем, что уже предсказала композиция на данный момент).

4. **Добавление к ансамблю**  
   - Модель добавляется к ансамблю с некоторым «весом», показывающим, насколько сильное её влияние на общее предсказание.  
   - Результирующее предсказание становится суммой (или другой комбинацией) всех предыдущих «слабых» моделей и новой.

5. **Повтор**  
   - Процесс повторяется, пока не достигнем заданного количества итераций или не увидим, что ошибки уже минимальны.  

---

#### Почему «градиент»?

- **Градиент** — это направление наибольшего возрастания некоторой функции. В задачах машинного обучения мы хотим **минимизировать** функцию потерь.  
- Каждая новая модель «двигается» в направлении уменьшения потерь — именно это направление задаёт градиент. Тем самым пошагово корректируем «курс» предсказаний в сторону улучшения.

---

#### Преимущества и недостатки

**Преимущества**:  
1. **Высокая точность**: Градиентный бустинг даёт одни из лучших результатов в задачах с табличными данными.  
2. **Гибкость**: Можно использовать разные типы потерь (например, для регрессии, классификации и т. д.), а также настраивать глубину деревьев, скорость обучения и др.

**Недостатки**:  
1. **Чувствительность к шуму**: Слишком агрессивное «движение по градиенту» может привести к переобучению, если данные шумные.  
2. **Много гиперпараметров**: Нужно аккуратно выбирать скорость обучения (learning rate), количество итераций, глубину деревьев и т. д.  
3. **Время обучения**: Нужно последовательно обучать много деревьев, что может быть довольно медленно на больших наборах данных.

---

#### Итог

**Градиентный бустинг** — это бустинг, где каждая новая модель обучается на **градиенте** функции потерь (то есть на текущих ошибках), стремясь их исправить. Итоговая композиция (сумма всех «слабых» моделей) обычно получается очень сильной и часто показывает одну из лучших точностей среди ансамблевых методов, особенно при работе с табличными данными.

### OneRule Boosting.

**OneRule** (или «Правило один-атрибут») — это очень простой классификатор, который для каждого объекта выбирает класс, исходя лишь из **одного** признака. Он ищет признак, «лучше всего» делящий данные на классы, и затем для каждого возможного значения этого признака предсказывает наиболее вероятный класс. Так получается единственное правило вида: «Если признак = A, то класс X, иначе класс Y...»

**OneRule Boosting** — это когда мы используем этот простой метод (OneRule) в качестве «базового» (слабого) классификатора в алгоритме бустинга. То есть:

1. **Инициализация**: Сначала делаем одну «OneRule», которую обучаем на всей выборке.
2. **Анализ ошибок**: Смотрим, какие объекты были предсказаны неверно.
3. **Следующее правило**: Строим новую «OneRule», фокусируясь (приоритетом, весами) на тех объектах, где первая «OneRule» ошиблась.
4. **Повтор**: Собираем много таких правил, каждое из которых старается исправить недочёты предыдущих.

В итоге получаем ансамбль из последовательных правил «OneRule», каждое «правило» учитывает ошибки предыдущих. При финальном предсказании эти правила «голосуют» или суммируются в зависимости от их точности. Так слабые, но разные правила складываются в более сильный алгоритм:

- **OneRule** даёт предсказания, глядя лишь на один признак.  
- **Boosting** позволяет собрать много таких простых «однопризнаковых» правил, постепенно уменьшая ошибки и повышая точность.

Таким образом, **OneRule Boosting** — это бустинговая композиция из очень простых правил, каждое из которых смотрит на один-единственный признак, и благодаря совместной работе они дают более мощный классификатор, чем отдельный OneRule.

### Adaboost.

**AdaBoost** (Adaptive Boosting) — это один из самых простых и известных алгоритмов бустинга. Его основная идея состоит в том, чтобы **последовательно** строить серию простых «слабых» моделей (обычно деревьев небольшой глубины, либо простых правил), где каждая новая модель уделяет большее внимание тем объектам, на которых предыдущие модели ошибались. 

---

#### Основная идея AdaBoost

1. **Начальное обучение**  
   - Сначала все объекты обучающей выборки имеют равный «вес» — то есть алгоритм рассматривает их как одинаково важные.  
   - Обучается первая «слабая» модель (например, короткое дерево решений), которая пытается классифицировать все объекты.

2. **Анализ ошибок**  
   - После предсказаний первой модели мы смотрим, на каких объектах она ошиблась.  
   - Если объект был классифицирован неверно, его вес увеличивают (алгоритм «обращает на него больше внимания»). Если объект классифицирован правильно, его вес, напротив, может уменьшиться.

3. **Обучение следующей модели**  
   - Теперь в выборке объекты с более высокими весами (те, что были ошибочно предсказаны) для алгоритма более «значимы».  
   - Вторая «слабая» модель обучается уже с учётом этих новых весов, стараясь исправить ошибки предыдущей.

4. **Повтор**  
   - Процесс повторяется заданное число итераций: каждая новая модель «учится» лучше справляться с теми случаями, которые ещё не покрыли предыдущие.  

5. **Объединение результатов**  
   - Наконец, все «слабые» модели складывают (или «голосуют» с некоторыми весами) свои предсказания. Если в задаче классификация, то AdaBoost весовым большинством выбирает класс, если регрессия — суммирует предсказания.

---

#### Ключевые моменты

- **Адаптивность**: После каждой итерации алгоритм «адаптируется» к ошибкам, повышая вес неправильно классифицированных объектов. Так он концентрируется на сложных примерах.  
- **«Слабые» модели**: AdaBoost требует, чтобы каждая модель была чуть лучше случайного угадывания, но не обязательно очень мощной.  
- **Построение ансамбля**: Итоговый ответ получается путём комбинирования (голосования) всех «слабых» моделей, но с разными весами, которые зависят от точности каждой модели.  

---

#### Преимущества AdaBoost

1. **Высокая точность**: Для многих задач табличных данных AdaBoost даёт хороший результат.  
2. **Простая реализация**: Принцип понятен и просто реализуется.  
3. **Нет переобучения «сильных» моделей**: Можно использовать простые модели (правила, короткие деревья), а общий ансамбль будет достаточно «сильным».  

---

#### Недостатки AdaBoost

1. **Чувствительность к выбросам**: Поскольку алгоритм может всё более увеличивать вес «трудных» объектов, выбросы могут сильно искажать обучение.  
2. **Нужна аккуратная настройка**: В частности, число итераций, сложность «слабых» моделей и начальные веса.  
3. **Последовательное обучение**: Не так просто распараллелить, так как каждая итерация зависит от результатов предыдущей.

---

#### Итог

**AdaBoost** — это классический пример бустинга, где каждая «слабая» модель обучается, уделяя больше внимания ошибкам всех предыдущих. В результате формируется «сильный» ансамбль, способный улучшать качество по сравнению с каждой отдельной моделью, и демонстрирующий одну из ключевых идей бустинга: **последовательное исправление ошибок**.

### Бустинг деревьев.

**Бустинг деревьев** — это разновидность бустинга, где в качестве «слабых» моделей на каждом шаге используются **короткие деревья решений** (часто очень маленькие, например, глубины 1–5). Идея состоит в том, что мы строим множество последовательных деревьев, где каждое новое дерево старается исправить ошибки (остатки) всех предыдущих, а итоговое предсказание складывается из ответов каждого дерева с учётом их весов.

---

#### Как работает бустинг деревьев пошагово

1. **Начало с простой модели**  
   - Сначала берётся самая простая «нулевая» модель (иногда константа, среднее по целевой переменной и т. д.).  
   - Эту модель можно считать первым приближением, которое далее будем улучшать.

2. **Построение первого дерева**  
   - Строим небольшое дерево решений (часто ограничивают глубину 1–5), сосредоточенное на исправлении текущих ошибок или на моделировании текущих «остатков».  
   - Иными словами, дерево обучается «объяснять» те аспекты данных, которые наша текущая композиция ещё не объяснила.

3. **Обновление композиции**  
   - После построения дерева добавляем его в нашу сумму предсказаний (для регрессии — прибавляем ответы дерева, для классификации — прибавляем оценки/вероятности и т. д.).  
   - Теперь итоговое предсказание уже учитывает и новое дерево.

4. **Снова вычисляем ошибки (остатки)**  
   - Смотрим, какие объекты теперь недостаточно хорошо предсказаны новой суммой (всеми деревьями вместе).  
   - Формируем новую цель (или «остатки») для следующего дерева.

5. **Следующее дерево**  
   - Обучаем второе короткое дерево, фокусируясь на «недочётах» предыдущих шагов.  
   - Добавляем его в ансамбль.

6. **Повтор процесса**  
   - Продолжаем так строить новые деревья, каждое из которых старается исправить всё, что не учли предыдущие.  
   - Когда достигнем заданного числа деревьев или качество (ошибка) перестанет улучшаться, останавливаемся.

7. **Итоговое предсказание**  
   - Сумма (или иная комбинация) предсказаний всех деревьев даёт финальный результат.  
   - В классификации обычно берут вероятностные выходы (сигмоиды/софтмаксы), которые потом переводят в классы. Для регрессии просто суммируют выходы каждого дерева.

---

#### Преимущества

1. **Высокая точность**  
   Бустинг деревьев на практике часто показывает одно из лучших качеств предсказания на задачах с табличными данными.

2. **Гибкость**  
   Можно применять разные функции потерь (для классификации, регрессии и т. д.). Количество деревьев, глубину каждого дерева, скорость обучения (learning rate) — всё это настраивается.

3. **Устойчивость к разным типам признаков**  
   Деревья могут работать как с числовыми, так и категориальными признаками (с определённой обработкой).

---

#### Недостатки

1. **Чувствительность к шуму**  
   Если не применять регуляризацию и ограничения на деревья, метод может переобучиться на выбросах или сложных паттернах.

2. **Много гиперпараметров**  
   Нужно подбирать глубину деревьев, число деревьев, скорость обучения (learning rate) и т. д., что усложняет применение.

3. **Относительно долго обучается**  
   Поскольку каждое дерево строится последовательно, бустинг деревьев часто работает медленнее, чем методы, которые могут строить деревья параллельно (например, случайный лес).

---

#### Типичные реализации

- **Gradient Boosting Machine (GBM)**  
  Классический градиентный бустинг, который обучает деревья на остатках с учётом градиента функции потерь.

- **XGBoost**  
  Популярная библиотека, оптимизированная по скорости и памяти, с дополнительными трюками вроде регуляризации, что повышает устойчивость.

- **LightGBM**  
  Ещё одна библиотека бустинга деревьев, фокусирующаяся на быстром обучении и низком расходе памяти, используя специальные техники построения дерева.

- **CatBoost**  
  Библиотека от Яндекс, которая хорошо работает с категориальными признаками и может автоматически их обрабатывать.

---

#### Итог

**Бустинг деревьев** — это мощная техника: мы **последовательно строим много маленьких деревьев**, каждое из которых концентрируется на ещё не исправленных ошибках. Итоговая модель получается достаточно сильной, сочетающей преимущества деревьев решений и ансамблевых методов. Однако она требует аккуратной настройки и может потребовать больше вычислительных ресурсов по сравнению с другими методами.

# Байесовский классификатор.

### Условная вероятность. Теорема Байеса.

**Байесовский классификатор** — это метод, основанный на вероятностном подходе к классификации. Он использует **теорему Байеса** и понятие **условной вероятности**, чтобы определить, какова вероятность того, что объект принадлежит к определённому классу, учитывая его признаки.

---

#### Условная вероятность

**Условная вероятность** — это вероятность события A, если мы уже знаем, что произошло событие B. Проще говоря, если у нас есть информация о B, как она влияет на нашу уверенность, что A тоже произойдёт?

**Пример**:  
- Допустим, событие A — «Сегодня пойдёт дождь», а событие B — «На небе много серых туч». Если мы уже видим тучи, то наша уверенность в том, что будет дождь, повышается.  
- Без знания о тучах мы имели бы одну оценку вероятности дождя, но теперь, учитывая, что тучи есть, наша оценка меняется.

---

#### Теорема Байеса (интуитивное объяснение)

**Теорема Байеса** говорит, как мы можем **пересмотреть** нашу изначальную «догадку» (представление о вероятности) события, если мы получили новую информацию.

1. **Изначальная догадка** (априорная вероятность) — это наша уверенность в событии до того, как мы увидели текущие признаки.  
2. **Наблюдаем новые признаки (дополнительная информация)**: Эти признаки могут сделать событие более или менее вероятным по сравнению с тем, что мы думали изначально.  
3. **Обновляем (апостериорная вероятность)**: Мы учитываем, насколько эти признаки связаны с событием, и меняем нашу уверенность в его наступлении.

**Пример**:  
- Пусть изначально мы предполагаем, что шанс дождя равен 30%.  
- Узнаём, что на небе появились тучи. Если тучи обычно сопровождают дождь, мы повышаем оценку вероятности дождя, скажем, до 70%.  
- Формально, Байес говорит: «Вероятность события после наблюдения» = «Вероятность события до наблюдения, умноженная на то, насколько часто при этом событии бывают такие наблюдения», и делится на «вероятность таких наблюдений вообще».

---

#### Как это используется в Байесовском классификаторе

1. **Классы**: У нас есть несколько возможных классов (пример: «спам» или «не спам»).  
2. **Признаки**: Мы видим признаки объекта (например, слова в письме, его длина и т. п.).  
3. **Цель**: Хотим найти, к какому классу объект вероятнее всего принадлежит, учитывая эти признаки.

**Байесовский подход**:  
- У нас есть **априорные вероятности** классов (например, как часто вообще приходит спам).  
- Для нового объекта мы видим его признаки. По ним мы смотрим: «Какова вероятность, что объект относится к классу A, если у него есть такие признаки?»  
- По теореме Байеса мы «переворачиваем» задачу: «Насколько часто такие признаки встречаются в классе A, по сравнению с другим классом B?»  
- И наконец выбираем класс, для которого эта обновлённая вероятность оказывается самой большой.

---

#### На интуитивном уровне

- Если мы знаем, что слово «скидка» обычно встречается в письмах, которые на 80% являются спамом, а слово «привет» обычно встречается в 10% писем, которые являются спамом, то появление слова «скидка» будет значительно указывать на спам, а появление «привет» — не так сильно.  
- Байесовский классификатор «суммирует» эти наблюдения по всем признакам и даёт итоговый «балл» (вероятность), на основании которого делается вывод.

---

#### Итог

**Байесовский классификатор** основан на теореме Байеса и понятии **условной вероятности**. Он вычисляет, насколько вероятно, что объект принадлежит к определённому классу, учитывая наблюдаемые признаки. Это делается путём обновления «априорной» вероятности класса с учётом «насколько часто такие признаки встречаются внутри класса» и «насколько часто они встречаются в целом». 

**Основные моменты**:  
- Условная вероятность отвечает на вопрос, как новая информация (признаки) влияет на нашу уверенность в событии (классе).  
- Теорема Байеса — формула, которая позволяет корректно пересчитывать вероятность события, исходя из новой информации.  
- Байесовский классификатор использует этот принцип, чтобы находить класс с наибольшей «апостериорной» вероятностью после учёта признаков объекта.

### Наивный классификатор.

**Наивный байесовский классификатор** (часто называемый просто «наивный классификатор») — это упрощённая версия байесовского классификатора. Его ключевая особенность заключается в «наивном» предположении о том, что **все признаки (факторы) объекта независимы друг от друга** при условии класса. Это упрощает вычисления, но при этом в реальности признаки обычно не бывают полностью независимыми.

---

#### Основная идея

1. **Байесовский подход**:  
   - Мы хотим оценить вероятность, что объект принадлежит к классу $C$, основываясь на его признаках $(x_1, x_2, \dots, x_n)$.  

2. **Наивное предположение**:  
   - Предполагаем, что все признаки независимы друг от друга при условии класса. То есть, если мы знаем класс объекта, то значение одного признака якобы не влияет на вероятность другого.  

3. **Простота вычислений**:  
   - Благодаря этому предположению, вероятность «совместного появления» всех признаков в рамках одного класса можно разложить в виде произведения (если бы мы делали точный байесовский расчёт без этого допущения, пришлось бы учитывать все сложные связи между признаками).  
   - В результате формулы и расчёты становятся гораздо проще и быстрее.

---

#### Пример из жизни

- Представим, что мы классифицируем письма на «спам» и «не спам».  
- В действительности, наличие одного слова может иметь определённую связь с наличием другого (например, «скидка» и «купить» часто встречаются вместе).  
- **Наивный** байесовский классификатор всё равно предполагает, что каждое слово встречается независимо от других, при условии, что письмо — «спам» или «не спам».  

Несмотря на очевидную «наивность» такого предположения, такой классификатор даёт часто **хорошие результаты** на практике: он быстро обучается и обрабатывает новые примеры.

---

#### Плюсы

1. **Быстрая скорость обучения**: Благодаря упрощённым вычислениям, модель очень быстро обучается даже на больших объёмах данных.  
2. **Низкие требования к памяти**: Не нужно хранить сложные структуры данных, достаточно статистики о признаках (например, частоты слов).  
3. **Неплохое качество предсказания**: Наивный классификатор работает удивительно хорошо для ряда задач, особенно в фильтрации спама и в классификации текстов.

#### Минусы

1. **Нереалистичное предположение независимости**: Реальные признаки часто коррелированы (связаны). Это может приводить к неточным вероятностным оценкам.  
2. **Менее гибок, чем более сложные модели**: Если данные сильно нарушают предположение о независимости, результат может проигрывать более продвинутым моделям.  

---

#### Итог

**Наивный классификатор** — это простой и быстрый метод, основанный на байесовском подходе, но с «наивным» допущением о независимости признаков. Он широко используется для **текстовой классификации** (спам-фильтры, тематический анализ) и в других сферах, благодаря своей скорости, лёгкости реализации и неожиданно неплохим результатам, несмотря на упрощённое предположение об отсутствии связей между признаками.

### Оценка функции плотности.

**Оценка функции плотности** (Density Estimation) — это задача статистики и машинного обучения, в которой мы пытаемся приблизить (оценить) «форму» неизвестного распределения данных. Иными словами, мы хотим понять, как «распределены» объекты (точки) в нашем пространстве признаков, какие области пространства чаще встречаются, а какие — реже.

---

#### Для чего нужна оценка плотности?

1. **Поиск структуры в данных**: Если мы знаем «где» и «как плотно» располагаются объекты, можем находить зоны с высокой или низкой концентрацией точек (например, области с аномалиями, или области, характеризующие разные кластеры).
2. **Проверка вероятности**: Иногда необходимо оценить вероятность того, что новый объект «логичен» для данного набора данных (как часто встречаются подобные ему). Если значение плотности очень мало, объект может быть «выбросом» или сильно отличаться от основной массы данных.
3. **Сжатие и генерация**: Если знаем функцию плотности, мы можем воспроизводить новые объекты, «похожие» на обучающие данные. Это лежит в основе генеративных моделей.

---

#### Как это делается?

#### 1. Параметрические методы

- **Предполагаем** форму распределения (например, гауссовское, экпоненциальное и т. д.).  
- **Из параметров** (например, среднее, дисперсия для гауссовского) составляем модель.  
- **Оцениваем** эти параметры по данным (методом наибольшего правдоподобия или др.).  

Достоинство такого подхода — простота, но если реальное распределение сильно отличается от выбранной формы, модель может ошибаться.

#### 2. Непараметрические методы

- **Не делаем** предположений о конкретной форме распределения.  
- **Строим** оценку напрямую из данных.  

Наиболее популярные:
- **Ядерная оценка плотности (Kernel Density Estimation)**: Для каждой точки ставим «окошко» (ядро) и суммируем вклады этих окошек, получая плавное распределение.  
- **K-ближайших соседей** (KNN) для оценки плотности: Смотрим, на каком расстоянии находится K ближайших соседей, и оцениваем, как плотно они сгруппированы вокруг точки.

---

#### Пример (Интуитивно)

Представьте, что у вас есть облако точек (например, координаты людей на плоскости «вес — рост»). Вы хотите понять, **как** эти люди «распределены»:
- Может быть, есть область с особой плотностью (типичные значения роста и веса).  
- Есть «длинный хвост», где очень высокие люди, но их мало.  

**Оценка плотности** скажет: «В этой области пространства признаков точек очень много, значит вероятность встретить там нового человека выше. В другой области точек мало, значит новая точка там — редкость».

---

#### Зачем нужна оценка плотности в машинном обучении?

1. **Поиск аномалий**: Если плотность данных вокруг новой точки очень низкая, мы можем считать эту точку выбросом.  
2. **Генеративные модели**: Можем генерировать новые объекты, «похожие» на исходные.  
3. **Предварительный анализ**: Понять, сколько есть пиков (мод) в распределении, какие данные редки и т. д.

---

#### Итог

**Оценка функции плотности** — способ понять, как «распределены» данные в пространстве признаков, где «сконцентрированы» точки и где их почти нет. Это помогает в анализе данных (выбросы, аномалии, кластеризация) и в ряде приложений, связанных с вероятностными методами и генеративными моделями.

### Мультиномиальный классификатор, сглаживание оценок. Классификация спама.

**Мультиномиальный классификатор** — это разновидность наивного байесовского классификатора, обычно применяемая к задачам, где важна **частота** (количество) признаков, а не просто их наличие или отсутствие. Часто используется в анализе текстов (например, **классификация спама**), когда мы имеем дело со словами и подсчитываем, насколько часто каждое слово встречается в документе.

---

#### Зачем «мультиномиальный»?

Когда мы хотим учесть **количество** вхождений различных признаков (слов) в документ, нам нужна модель, которая учитывает не просто факт «признак есть или нет», а сколько раз он повторился. Мультиномиальный классификатор предполагает, что признаки (слова) появляются из **мультиномиального распределения** (что-то вроде «распределения количества вхождений каждого слова»).

**Пример**:  
- Для классификации писем на «спам» и «не спам», мы можем считать, сколько раз встречаются слова «скидка», «купить», «привет» и т. д.  
- «Мультиномиальный» значит, что каждое письмо — это «мешок слов» с определёнными частотами, и эти частоты учитываются при вычислении вероятности, что письмо — «спам».

---

#### Сглаживание оценок (Laplace / Additive smoothing)

При обучении мультиномиальной модели (или любой наивной байесовской) мы оцениваем вероятность встретить слово в том или ином классе. Но что, если в обучающем наборе слово никогда не встречалось в каком-то классе? Простая модель дала бы «вероятность = 0», что может быть слишком жёстко и привести к тому, что письмо мгновенно попадает в другой класс при одном этом слове.

**Сглаживание** (часто Laplace или аддитивное сглаживание) решает эту проблему:  
1. **Избегает нуля**: Даже если мы не видели слово в классе, сглаживание даёт ему крохотную, но не нулевую вероятность.  
2. **Более надёжная оценка**: Учитывая, что в реальном мире мы не можем быть на 100% уверены, что слово не появится в классе.

**Интуитивно**: Это похоже на то, что мы «предварительно» добавляем по единичке (или другой маленькой константе) к количеству вхождений каждого слова, чтобы никакие вероятности не оказывались равными нулю.

---

#### Классификация спама (как пример)

- **Данные**: Имеем набор писем, часть из них помечена как «спам», часть — как «не спам».  
- **Признаки**: Обычно слова, которые встречаются в письме. Для мультиномиального подхода мы считаем, **сколько раз** каждое слово упоминается.  
- **Обучение**:  
  1. Измеряем, как часто слово «купить» появляется в спам-письмах против не спама, слово «привет» и т. д.  
  2. Применяем сглаживание: даже если какое-то редкое слово мы не видели в «не спаме», оно получает маленькую (не нулевую) вероятность.  
  3. Получаем «вероятностную» модель, которая может по набору слов (и их частотам) оценить шансы, что письмо — спам.  

- **Предсказание**: Для нового письма смотрим, какие слова в нём есть и как часто. Мультиномиальный классификатор вычисляет (по «наивной» схеме независимости слов) вероятность «спам» и «не спам». Берётся класс с большей вероятностью.  

---

#### Итог

**Мультиномиальный классификатор** — это наивный байесовский метод, учитывающий **количество** вхождений признаков (например, слов) в документ. Часто используется в задаче **классификации писем** на «спам»/«не спам», так как хорошо работает с текстами и даёт достаточно точные результаты при правильном сглаживании. **Сглаживание** (Laplace/Additive) помогает избежать проблемы нулевых вероятностей и делает модель более устойчивой к редким (новым) словам.

### Гауссовый байесовский классификатор.

**Гауссовый байесовский классификатор** — это разновидность наивного байесовского классификатора, в котором предполагается, что **распределение признаков внутри каждого класса** близко к **гауссовскому (нормальному) распределению**. Проще говоря, если мы возьмём все объекты, принадлежащие к одному классу, и посмотрим на распределение их признаков, модель «делает вид», что оно похоже на горбик нормального (гауссовского) вида в многомерном пространстве.

---

#### Основная идея

1. **Байесовский подход**:  
   - Мы хотим вычислить вероятность того, что объект принадлежит к классу $C$, с учётом его признаков $x$.  
   - По теореме Байеса, нас интересует «апостериорная вероятность»: каково $P(C \mid x$).

2. **Наивное предположение**:  
   - Предполагается, что признаки условно независимы при знании класса (наивность).  
   - Но главная особенность «гауссового» варианта в том, что **каждый признак** в классе рассматривается как имеющий **нормальное распределение** со своими средним и дисперсией.

3. **Параметры** (среднее и дисперсия)  
   - Для каждого класса и каждого признака мы оцениваем (по обучающим данным) его среднее значение (му) и дисперсию (сигма квадрат).  
   - Получается, что для класса $C$ и признака $i$ мы знаем, как выглядит его «колокол» (гауссово распределение).

4. **Применение к новому объекту**  
   - Когда поступает новый объект с признаками $x$, мы подставляем эти признаки в формулу вероятности гауссовского распределения для каждого класса.  
   - Потом, по байесовскому правилу, выясняем, у какого класса вероятность (или апостериорная плотность) получается выше.

---

#### Пример

Представьте, что у нас два класса (A и B) — например, «яблоки» и «груши». У яблок признак «цвет» и «вес» распределены (в среднем) одним образом, у груш — другим образом. Если предположить, что каждое из этих признаков для конкретного класса описывается **нормальным распределением**, мы просто посчитаем (для нового фрукта), какая «вероятность» увидеть такие признаки (цвет, вес) в классе A и какая — в классе B, а затем выберем класс с большей вероятностью.

---

#### Отличительные особенности

1. **Гауссовое (нормальное) распределение**:  
   - Модель особенно хорошо подходит, когда мы ожидаем (или знаем), что внутри класса признаки распределены «около» средних значений с «расползанием» по нормальному закону.

2. **Меньше вычислений**, чем в мультивариантном случае:  
   - В классическом «гауссовом байесе» часто предполагают, что признаки независимы (наивный подход), поэтому не нужно оценивать ковариационные матрицы, а достаточно оценить среднее и дисперсию каждого признака отдельно.

3. **Быстро и просто**:  
   - Так как нет сложной структуры связей между признаками, параметры (средние и дисперсии) легко и быстро оцениваются.

---

#### Плюсы

1. **Быстрое обучение**: Нужно всего лишь посчитать среднее и дисперсию каждого признака по классам.  
2. **Простота реализации**: Гауссовое распределение хорошо изучено, формулы просты.  
3. **Неплохое качество**: Несмотря на «наивность», часто достаточно для ряда задач.

#### Минусы

1. **Предположение о нормальном распределении**: Если реальные признаки не похожи на «колокол», или есть сильные выбросы, модель может ошибаться.  
2. **Нет учёта корреляции между признаками**: Если признаки зависимы, «наивная» модель не отражает это, и точность может страдать.  

---

#### Итог

**Гауссовый байесовский классификатор** — это метод, который сочетает в себе идею байесовского подхода с **предположением**, что признаки внутри каждого класса распределены нормально (гауссово). Он быстрый в обучении и может давать хорошие результаты в задачах, где действительно признаки распределены «около» нормального закона, а их взаимозависимость не слишком критична.

# Классическое машинное зрение.

### Фильтрация изображений. Sobel, Gauss.

**Классическое машинное зрение** включает в себя ряд традиционных (до-нейросетевых) методов обработки изображений, которые основаны на математической обработке пикселей. Одной из важнейших частей этих методов является **фильтрация изображений**, то есть преобразование изображения для выделения или подавления определённых деталей. 

Ниже рассмотрим, что такое **фильтрация**, а также приведём примеры основных фильтров — **Собеля (Sobel)** и **Гаусса (Gaussian)**.

---

#### Фильтрация изображений: общее понятие

**Фильтрация** — это процесс, при котором мы берём входное изображение и пропускаем его через некий «шаблон» (часто именуемый **ядром** или **маской**), чтобы преобразовать пиксели к нужному виду. На практике это означает, что к каждому пикселю применяется небольшая операция с учётом его и соседних значений, и результат записывается в выходное изображение.

- **Зачем фильтровать?**  
  - Сгладить шум (убрать резкие случайные перепады яркости).  
  - Выделить границы объектов (подчеркнуть изменения в яркости).  
  - Подготовить изображение к дальнейшему анализу (например, распознаванию контуров и т. д.).

---

#### Фильтр Гаусса (Gaussian)

**Фильтр Гаусса** используется для **сглаживания (размытия)** изображения и удаления высокочастотного шума. Он применяет гауссовскую (колоколообразную) функцию к окрестности каждого пикселя:

- **Гауссовское «окно»**: в центре (под пикселем, который мы обрабатываем) вес самый высокий, а по краям снижается, наподобие колокола. Это значит, что вклад ближайших пикселей больше, чем у дальних.  

- **Размытие без резких артефактов**: Гаусс даёт «мягкое» размытие, именно поэтому его часто используют для первичной фильтрации шума, убирая мелкие детали и делая изображение более «гладким».

- **Пример: подавление шума**: если фото зернистое (много мелкого шума), фильтр Гаусса с определённым радиусом поможет сделать изображение более ровным, при этом не создавая резких переходов.

---

#### Фильтр Собеля (Sobel)

**Фильтр Собеля** предназначен для **выделения границ** (контуров) в изображении. Он реагирует на изменения яркости в направлении по осям X и Y:

1. **Горизонтальный оператор**: обнаруживает изменения яркости слева-направо (горизонтальные компоненты градиента).  
2. **Вертикальный оператор**: находит изменения сверху-вниз (вертикальные компоненты градиента).  

На практике часто мы комбинируем оба результата, получая «величину градиента» (насколько сильно меняется яркость) и «направление границы». 

#### Как работает Собель

1. **Небольшая матрица (ядро)**, например, размером 3×3, скользит по изображению.  
2. **Множество соседних пикселей** берётся с некоторыми весовыми коэффициентами, чтобы определить, есть ли существенный перепад яркости вдоль той или иной оси.  
3. **Если перепад значительный**, результат (яркость в выходном изображении) получается высоким, указывая на наличие «контура» в этом месте.

---

#### Как это применяется?

1. **Подготовка к распознаванию**  
   - Сгладить изображение (фильтр Гаусса), чтобы убрать мелкий шум и не мешать определению контура.  
   - Найти границы (фильтр Собеля), чтобы распознать форму объектов или проверить, где изображения существенно меняются.

2. **Обработка шумных данных**  
   - Если изображение снято при плохом освещении, методы сглаживания (Гаусс) помогают улучшить картинку перед анализом.

3. **Классификация, детекция**  
   - В классическом машинном зрении часто после фильтров Собеля пытаются определить формы объектов (например, машин, людей), опираясь на контуры.

---

#### Кратко о других фильтрах

- **Laplace**: используется для выделения более резких переходов (вторая производная).  
- **Median**: убирает шум, заменяя пиксель на медиану его окрестности. Полезно при «выбросах» яркости.  

Тем не менее, **Собель** и **Гаусс** являются одними из самых классических и часто применяемых:

- **Гаусс** для **размытия/сглаживания**.  
- **Собель** для **нахождения контуров** (резких перепадов яркости).

---

#### Итог

**Фильтрация изображений** в классическом машинном зрении — это использование специальных «окон» (ядер), которые скользят по изображению и преобразуют пиксели.  
- **Гауссовский фильтр** («размытие Гаусса») смягчает изображение и удаляет шум.  
- **Фильтр Собеля** позволяет выделять границы и структуры, определяя места, где изображение резко меняет яркость.

Оба фильтра вместе дают мощные инструменты для последующего анализа и понимания содержания в изображениях.

### Алгоритм детекции границ Canny.

**Алгоритм детекции границ Canny** — это один из самых распространённых и эффективных способов найти **контуры** (границы) объектов в изображении. Он аккуратно выявляет места, где яркость картинки резко меняется, и отделяет «настоящие» границы от случайных перепадов. Алгоритм был предложен Джоном Кэнни (John F. Canny).

---

#### Основные этапы

1. **Сглаживание (фильтрация Гаусса)**  
   - Перед тем как искать границы, изображение немного размывают с помощью Гауссового фильтра.  
   - Это нужно, чтобы убрать мелкий шум и аномальные скачки яркости, которые могут создавать ложные границы.

2. **Поиск градиентов**  
   - После сглаживания ищут участки, где изображение резко меняет яркость (градиент высокий).  
   - Чаще всего используют операторы Собеля или аналогичные, чтобы вычислить «горизонтальную» и «вертикальную» составляющие изменений.

3. **Подавление немаксимумов (non-maximum suppression)**  
   - В местах, где найден градиент, алгоритм определяет точное направление этого изменения.  
   - Затем из всех соседних пикселей в этом направлении оставляют только тот пиксель, который имеет максимальную «силу градиента». Остальные, даже если они тоже «высокие», но не максимальные, обнуляют (то есть убирают).  
   - Таким образом, мы получаем тонкие и точные линии контуров, а не «толстые мазки».

4. **Двухпороговая обработка (hysteresis thresholding)**  
   - После убирания немаксимумов остаются пиксели с разной величиной градиента. Нужно решить, какие из них «достаточно сильные», чтобы быть реальными границами.  
   - Алгоритм использует два порога: «высокий» (upper) и «низкий» (lower).  
   - Все пиксели, у которых градиент выше верхнего порога, сразу считаются истинными границами.  
   - Те, у которых градиент ниже нижнего порога, отбрасываются как шум.  
   - Пиксели между порогами считаются «неопределёнными» и принимаются как границы только если они связаны (смежны) с «уверенными» пикселями (которые прошли верхний порог). Это называют «гистерезисом» (hysteresis): мы говорим «если неопределённый пиксель рядом с уже подтверждённой границей, то тоже засчитываем его в границу».

---

#### Почему алгоритм Canny так хорош?

1. **Убирает шум**: из-за начального сглаживания.  
2. **Выделяет чёткие контуры**: благодаря вычислению градиента и non-maximum suppression, контуры становятся «тонкими» линиями.  
3. **Гибкая система порогов**: двухпороговая система гистерезиса эффективно отсекает слабые шумовые границы, но при этом «дотягивает» частично обнаруженные контуры, если рядом уже подтверждён сильный сигнал.

---

#### Кратко

- **Шаг 1**: Размыть (Gauss) изображение, чтобы сгладить шум.  
- **Шаг 2**: Найти градиент (Собель и т. п.) и определить направления границ.  
- **Шаг 3**: Оставить только пиксели, являющиеся локальными максимумами (non-maximum suppression), получаем тонкие линии.  
- **Шаг 4**: Применить два порога, «высокий» и «низкий», и связать пиксели методом гистерезиса, чтобы отделить настоящие контуры от шумовых.

**Canny** обеспечивает надёжное, точное и тонкое обнаружение границ, что делает его одним из наиболее популярных алгоритмов в классическом машинном зрении.

### Алгоритм Хаффа поиска прямых (Hough lines).

**Алгоритм Хаффа для поиска прямых (Hough lines)** — это классический метод в компьютерном зрении, позволяющий находить **прямые** (линии) на изображении даже при наличии шумов или фрагментарных данных. 

---

#### Основная идея

1. **Наличие «точек-кандидатов»**: Предположим, мы уже выделили **точки**, которые предположительно лежат на контурах (например, с помощью детектора границ Canny).  

2. **Переход в «параметрическое пространство»**:  
   - Каждая прямая в обычных координатах (изображении) может быть описана некоторым набором параметров (например, расстояние до начала координат и угол наклона).  
   - Алгоритм «Хафф» говорит: «Давайте заставим каждую точку ‘голосовать’ за все линии (параметры), которые через неё могут проходить».  

3. **Голосование («accumulator»)**:  
   - Мы создаём «массив-аккумулятор» (по осям — параметры прямой).  
   - Для каждой точки изображения: она «гипотетически» подходит к множеству возможных линий (разные углы, расстояния). За каждую такую линию точка даёт «голос» в аккумуляторе.  

4. **Поиск пиков в аккумуляторе**:  
   - После того, как **все** точки проголосовали, в аккумуляторном пространстве появляются «пики» (множество голосов) в тех параметрах, где действительно проходит «много» точек. Это означает, что в этих параметрах есть реальная линия.  
   - Линии, которые «проходят» только через пару точек, голосов наберут мало и «пика» не образуют.  

---

#### Преимущества и недостатки

**Преимущества**:  
- Работает даже если линия **прерывиста**, присутствует шум, или часть контура отсутствует.  
- Возмущения и пропуски не критичны, т. к. общее количество голосов всё равно может «вытащить» реальную линию.

**Недостатки**:  
- Могут быть довольно затратные вычисления (особенно если изображение большое и много точек).  
- Нужно аккуратно настраивать пороги для «пиков» в аккумуляторе, чтобы не находить «линии-призраки» и не упускать реальные.

---

#### Пример использования

1. **Детектор краёв** (например, Canny) создаёт набор пикселей, которые с высокой вероятностью лежат на границах.  
2. **Хафф**: Каждый такой пиксель говорит: «Если линия проходит через меня под углом $\theta$ и с расстоянием $\rho$, я отдаю голос.»  
3. **Накопление голосов**: Если много пикселей сходятся во мнении, что линия с параметрами $\theta_0$ и $\rho_0$ подходит под их положение, это значит, что такая линия действительно есть на изображении.  
4. **Результат**: Получаем список найденных линий (каждая описывается своими параметрами).

---

#### Итог

**Алгоритм Хаффа поиска прямых** — это метод, который с помощью «голосования» в параметрическом пространстве выявляет линии, проходящие через множество контурных точек на изображении. Он устойчив к шуму и неполноте данных, что сделало его одним из самых известных алгоритмов в классическом машинном зрении для детекции прямых.

### Алгоритм Хаффа поиска окружностей (Hough circles).

**Алгоритм Хаффа для поиска окружностей (Hough circles)** — это обобщение идеи алгоритма Хаффа (Hough) для поиска **прямых** к задаче нахождения **окружностей** на изображении. Если алгоритм Хаффа для прямых ищет параметры $\rho$ и $\theta$ (расстояние до начала координат и угол наклона), то при поиске окружности мы ищем **центр** окружности $(x_c, y_c)$ и её **радиус** $r$.

---

#### Основная идея

1. **Контурные точки**  
   - Сначала мы имеем набор пикселей, которые с высокой вероятностью лежат на контуре (например, после детектора границ, как Canny).  
   - Каждая такая точка — потенциально часть некоторой окружности.

2. **Параметрическое пространство окружности**  
   - Любая окружность можно описать координатами своего центра $(x_c, y_c)$ и радиусом $r$.  
   - Значит, если пиксель $(x, y)$ лежит на окружности, то он «подсказывает», что $(x_c, y_c)$ должен находиться на расстоянии $r$ от $(x, y)$.

3. **Голосование (accumulator) в трёхмерном пространстве**  
   - Для каждой точки-границы $(x, y)$ алгоритм «перебирает» возможные значения радиуса $r$ и вычисляет, где мог бы быть центр $(x_c, y_c)$.  
   - Это «гипотеза»: «Если радиус $r$, то центр должен быть на расстоянии $r$ от $(x, y)$».  
   - Пиксель $(x, y)$ голосует за все такие потенциальные центры, увеличивая счётчик в аккумуляторном пространстве $(x_c, y_c, r)$.

4. **Поиск «пиков»**  
   - В конце, когда все контурные точки проголосовали, мы ищем в пространстве $(x_c, y_c, r)$ те ячейки, у которых «количество голосов» (accumulator) особенно велико.  
   - Это значит, что существует много контурных точек, которые согласны с тем, что есть окружность с этим центром и этим радиусом.  
   - Такие «пики» и есть потенциальные окружности на изображении.

---

#### Как это выглядит на практике

1. **Нахождение границ** (например, Canny). Выделяем точки, где есть явные перепады яркости.  
2. **Hough Circles** (окружности): 
   - На каждом таком пикселе $(x, y)$ перебирают некоторые наборы радиусов (часто в диапазоне от $r_{min}$ до $r_{max}$),  
   - Вычисляют, где может быть центр $(x_c, y_c)$, чтобы окружность с радиусом $r$ проходила через $(x, y)$.  
   - Голосование: $(x_c, y_c, r)$ получает 1 голос от этого пикселя.  
3. **Итог**: там, где много пикселей-границ согласовываются на том же центре и радиусе, появляется «пик» в аккумуляторе. Эти пики и отображают найденные окружности.

---

#### Преимущества

- **Устойчивость к шуму и прерывистым контурам**: Не все точки окружности должны быть на изображении — если есть достаточно много «голосов», окружность всё равно будет найдена.  
- **Работает при пропущенных деталях**: Даже если часть окружности не видна, набор точек всё равно может «договориться» о центре и радиусе.  

---

#### Недостатки

1. **Вычеслительная сложность**: Перебор по центру $(x_c, y_c)$ и радиусу $r$ может быть весьма большим. Нужно иногда оптимизировать.  
2. **Порог голосов**: Нужно аккуратно выбирать пороги (сколько голосов считать «пиком»), чтобы не находить ложные окружности и не пропускать реальные.  
3. **Чувствительность к параметрам**: Если радиусы слишком ограничены или наоборот слишком широки, можно пропустить нужные окружности или получить кучу лишних.

---

#### Итог

**Алгоритм Хаффа для окружностей** (Hough circles) — это метод поиска всех окружностей, проходящих через множество контурных точек. Он «голосует» в трёхмерном пространстве $(x_c, y_c, r)$, где каждый контурный пиксель предлагает центры и радиусы. Там, где скапливается много голосов, мы заключаем, что найдена реальная окружность. Такой подход эффективно детектирует окружности, даже если границы не идеальны и присутствует шум.

# Нейронные сети.

### Полносвязный слой. (Dense, Fully connected).

**Полносвязный слой** (также называемый Dense или Fully Connected Layer) — это один из ключевых строительных блоков нейронной сети, в котором **каждый нейрон** слоя **соединён** с **каждым нейроном** следующего (или предыдущего) слоя. 

---

#### Как это работает

1. **Нейроны (или «узлы»)**: Представьте слой как набор независимых маленьких «блоков» (нейронов), каждый из которых ждёт на вход **числа** (активности) от предыдущего слоя.  
2. **Полная связь**: В «полносвязном» слое **каждый** нейрон получает данные **от всех** нейронов предыдущего слоя. Это означает, что если предыдущий слой имеет $N$ выходных значений, а текущий слой содержит $M$ нейронов, то всего будет $N \times M$ связей (плюс по одному смещению (bias) на каждую из $M$ нейронов).  
3. **Взвешенные суммы**: Каждый вход умножается на соответствующий «вес» (параметр), а затем все эти произведения складываются. Далее прибавляется «смещение» (bias), и результат проходит через функцию активации (ReLU, sigmoid, tanh или другую), которая даёт итоговый выход конкретного нейрона.

---

#### Почему называется «полносвязный»?

Потому что **все** возможные соединения между двумя соседними слоями в сети присутствуют. Нет ни одного нейрона, который не был бы связан с кем-то из следующего слоя. Это максимизирует возможность каждого нейрона «видеть» всю информацию от предыдущего слоя.

---

#### Роль в нейронной сети

1. **Суммарное объединение** признаков: Полносвязный слой обрабатывает информацию, собранную ранее (например, если это сверточная сеть, то из свёрточных слоёв) и пытается «понять» взаимосвязи между всеми компонентами.  
2. **Окончательное принятие решения**: Обычно в конце сети (например, перед выходом) ставят один или несколько Dense-слоёв, которые сводят всю информацию к окончательному решению (к примеру, к вероятностям классов).  
3. **Мощная и универсальная архитектура**: В простых сетях (MLP — MultiLayer Perceptron) часто используется несколько таких полносвязных слоёв подряд.

---

#### Преимущества и недостатки

#### Преимущества
- **Универсальность**: Может приблизить (выучить) практически любую функцию при достаточном количестве нейронов.  
- **Простота**: Идея легко понимается: каждый «узел» получает взвешенную сумму всех входов.  
- **Гибкость**: При желании можно управлять количеством слоёв и нейронов в каждом слое.

#### Недостатки
- **Много параметров**: При большом числе входов и нейронов количество весов и смещений быстро растёт (ростет квадратично), что делает обучение более долгим и требовательным к памяти.  
- **Не учитывает структуру входных данных**: Например, если данные — это изображение, Dense-слой «не знает» о пространственных связях, всё превращается в длинный вектор.

---

#### Пример использования

1. **Простая MLP**: Допустим, есть вход из 10 численных признаков, и нужно классифицировать на 3 класса. Можно поставить один или два полносвязных слоя, а затем выходной слой из 3 нейронов (по числу классов).  
2. **В конце сверточной сети**: После нескольких свёрточных и пуллинговых слоёв (которые вытягивают пространственные признаки из картинки), данные «выпрямляют» (flatten), получается вектор. Его подают на Dense-слой (или несколько), который комбинирует все эти признаки и выдаёт итоговую классификацию (например, «кошка», «собака», «машина»).

---

#### Итог

**Полносвязный слой (Dense Layer)** — это базовый, хорошо понимаемый тип слоя в нейронных сетях, где каждый нейрон соединён со всеми выходами предыдущего слоя. Он «объединяет» всю входную информацию, умножая входы на свои веса, складывая их и пропуская через функцию активации. Хотя Dense-слои очень универсальны, при работе с изображениями, звуком или текстами всё чаще используют специализированные слои (свёрточные, рекуррентные), а Dense-слои обычно служат «завершающими» слоями, сводящими всю обработку к нужному выходу.

### Свёрточный слой. (Convolution).

**Свёрточный слой** (convolutional layer) — это ключевой элемент **свёрточных нейронных сетей** (Convolutional Neural Networks, CNN), которые особенно хорошо работают с изображениями (и другими данными, имеющими пространственную или временную структуру). Вместо того чтобы брать все входные признаки целиком (как в полносвязном слое), свёрточный слой **обрабатывает данные фрагментами** (локальными участками), «свёртывая» их с набором фильтров (ядёр).

---

#### Основная идея

1. **Локальные «окна»**:  
   - Представьте, что у вас есть изображение (или другой массив данных). Свёрточный слой скользит по нему небольшим «окном» (ядром, фильтром), которое обычно намного меньше, чем всё изображение.  
   - Например, 3×3 пикселя или 5×5 пикселей в случае изображения.

2. **Фильтр (ядро)**:  
   - Фильтр (kernel) — это набор обучаемых весов, организованных в маленькую матрицу.  
   - При «применении» фильтра к «окну» данных каждый элемент окна умножается на соответствующий вес, все результаты складываются, а затем может добавляться смещение (bias).  
   - Результат идёт в выходное «пространство» — в пиксель (или значение) «карты признаков» (feature map) на выходе.

3. **Скользящая операция** (свёртка):  
   - Фильтр «проходится» (скользит) по входному массиву (изображению) шаг за шагом, совершая свёртку на каждом участке.  
   - Каждый такой участок даёт одно число на выходе (вак как сумму произведений входов и весов).  

4. **Выходные карты признаков**:  
   - Обычно в слое есть несколько фильтров (скажем, 32 фильтра). Каждый фильтр выделяет **свой** тип признака (например, горизонтальные линии, вертикальные края, текстуры и т. д.).  
   - Это порождает **несколько каналов** на выходе (по одному каналу на каждый фильтр).  
   - Получается набор «карт признаков» (feature maps), показывающих, где (в каком месте) на входном изображении фильтр «среагировал».

---

#### Почему это работает для изображений

- **Пространственная локальность**: В картинках часто важно, какие пиксели находятся рядом, а не какие пиксели в другом углу. Свёрточный слой обрабатывает именно **локальные** паттерны (например, маленькие кусочки).  
- **Меньше параметров**: В отличие от полносвязного слоя, где каждый пиксель входа связан со всеми нейронами (что очень много весов), в свёрточном слое фильтр имеет небольшой размер (например, 3×3) и при этом «применяется» ко всему изображению. Это значит, что число обучаемых весов относительно мало, а возможности распознавать локальные структуры большие.  

---

#### Пример

1. **Допустим**, у нас есть изображение 28×28 пикселей (одноцветное).  
2. **Фильтр** 3×3 с 8 фильтрами:  
   - Значит, 8 «наборов» по 3×3 весов, итого 8×(3×3)=72 веса (плюс по одному смещению на фильтр).  
3. **Применение**:  
   - Для каждого положения (x,y) на картинке берём 3×3 окружение, умножаем на веса фильтра, складываем — получаем 1 число. Это число попадает в карту признаков данного фильтра.  
   - Повторяем для всех позиций, двигаясь вправо и вниз по изображению (можно при этом настраивать шаг (stride), добавлять заполнение (padding)).  
   - В итоге, каждая 3×3 операция создаёт соответствующее значение на выходе в «карте».  
   - Мы делаем это для всех 8 фильтров, получая 8 выходных каналов.

---

#### Итог

**Свёрточный слой** — это основной механизм в свёрточных нейронных сетях. Он «свёртывает» (перемножает и суммирует) локальные области данных (обычно изображения) с обучаемыми фильтрами, чтобы извлекать важные местные признаки (контуры, края, текстуры). Это делает CNN очень эффективными для обработки изображений и других данных, где локальная структура играет большую роль.

### Pooling.

**Pooling** — это операция в свёрточных нейронных сетях (CNN), позволяющая **уменьшать размер** (downsampling) пространственных признаков (feature maps). Она идёт после свёрточных слоёв и «сжимает» каждую карту признаков по высоте и ширине, оставляя лишь основные особенности и снижая вычислительную нагрузку.

---

#### Основная идея

1. **Локальная область**  
   - Подобно свёрточному слою, pooling «скользит» по изображению (или по карте признаков, полученной после свёртки) небольшим «окном» (например, 2×2 пикселя).  
2. **Уменьшение размерности**  
   - Для каждого такого окна получается **одно** число на выходе (либо максимальное, либо среднее), таким образом уменьшая размер выходной карты ровно в (размер окна) раз по каждому измерению (если используется нетерпящийся шаг по окну).  
3. **Выделение главного**  
   - Удаляются мелкие детали, шум, а сохраняется более «обобщённая» информация — например, «максимум» нам говорит, что в этом участке присутствует какой-то признак (пусть даже он локализован в одном пикселе).

---

#### Виды Pooling

1. **Max Pooling**  
   - Взять **максимальное** значение из окна (например, из 2×2 пикселей).  
   - Хорошо определяет «сильнейшие» признаки в локальной области.  
2. **Average Pooling**  
   - Взять **среднее** значение по всем пикселям в окне.  
   - Сглаживает особенности, более «усредняет» пространство.  
3. **Global Pooling** (Global Max или Global Avg)  
   - Окно равно размеру всей карты, берётся один максимум (или среднее) по всей карте признаков.  
   - Этим способом можно «свернуть» всю карту признаков в одно число, что бывает нужно перед полносвязным слоем.

---

#### Зачем это нужно?

- **Сокращение размерности**: После pooling объём данных уменьшается, что облегчает вычисление в следующих слоях и сокращает число параметров.  
- **Робастность к смещениям**: Если важный признак сместился в пределах окна pooling, max pooling всё равно «увидит» его в том же выходном значении. Это улучшает инвариантность к сдвигу.  
- **Предотвращение переобучения**: За счёт уменьшения размерности и некоторой потери избыточных деталей сеть меньше запоминает «шумы».

---

#### Итог

**Pooling** — это «операция сжатия» карты признаков в свёрточных сетях.  
- **Max pooling** берёт максимальное значение в каждом локальном фрагменте,  
- **Average pooling** — среднее,  
- A иногда используют **Global pooling** для усреднения/максимума по всей карте.  

Это помогает улучшать **смысловое обобщение** признаков, уменьшать вычислительные затраты и повышать устойчивость сети к маленьким сдвигам или шумам.

### Функции активации.

**Функции активации** — это специальные функции, которые работают внутри нейронов в нейронных сетях, и помогают сети моделировать нелинейные зависимости. Когда мы говорим «нейрон» в глубокой сети, мы имеем в виду узел, который получает взвешенные суммы входов (с учётом весов и смещений), а потом пропускает результат через **функцию активации**, формируя окончательный выход нейрона.

---

#### Зачем нужны функции активации?

1. **Нелинейность**: Без функций активации, нейронная сеть была бы просто набором линейных преобразований. Это означало бы, что любой дополнительный слой «не добавляет» новых типов зависимостей (потому что линейная функция от линейной функции всё равно остаётся линейной). Нелинейная функция активации «разрывает» эту линейность и позволяет сети учиться более сложным связям.

2. **Контроль диапазона**: Некоторые функции активации ограничивают выход в определённом диапазоне (например, от 0 до 1), что бывает удобно в некоторых задачах (классификация и т. д.).

3. **Глубокое обучение**: Именно благодаря наличию нелинейных активаций мы можем создавать глубокие сети (с многими слоями), обучающиеся сложным паттернам в данных.

---

#### Основные типы активаций

#### 1. Сигмоида (Sigmoid)
- **Выглядит**: Плавно нарастает от 0 до 1.  
- **В чём польза**: Удобна, когда нужен результат вроде «вероятности» (числа от 0 до 1).  
- **Минус**: При больших по модулю входах, выход «запирается» близко к 0 или 1, градиенты становятся очень маленькими (эффект «затухающего градиента»).

#### 2. Тангенс гиперболический (Tanh)
- **Похожа** на сигмоиду, но значения лежат в диапазоне от -1 до +1.  
- **Минус**: Тоже может «насытиться» ( saturate ) и давать очень маленькие градиенты при больших по модулю входах.

#### 3. ReLU (Rectified Linear Unit)
- **Функция**: Если вход положительный — пропускаем как есть, если отрицательный — результат 0.  
- **Выглядит**: Пороговая, «обрезает» отрицательные значения.  
- **Плюсы**: Простая, не «насыщается» на больших положительных входах, градиенты там не затухают.  
- **Минус**: Может «обнулять» весь сигнал, когда вход отрицательный, и нейрон перестаёт обучаться (эта ситуация называется «мертвые ReLU»).

#### 4. Leaky ReLU, ELU и др.
- **Это** вариации ReLU, где отрицательные входы не обрубаются до 0 совсем, а пропускают небольшое значение (например, 0.01 * x).  
- **Цель**: Избежать эффекта «мертвых ReLU», сохраняя при этом простоту и эффективность.

#### 5. Softmax
- **Назначение**: Чаще всего используется в выходном слое для **многоклассовой классификации**.  
- **Что делает**: Превращает набор входных чисел в «вероятности» для каждого класса (все числа становятся неотрицательными и сумма равна 1).

---

#### Как выбрать функцию активации?

- **ReLU** (или её вариации) — стандартный выбор в современных нейронных сетях. Простая, быстрая, хорошо ведёт себя при обратном распространении ошибок.  
- **Sigmoid** или **Tanh** — используются реже внутри сети (из-за проблемы затухающих градиентов), но всё же применимы, например, в выходном слое для бинарной классификации (сигмоида).  
- **Softmax** — обычно в **выходном слое** при задаче многоклассовой классификации, чтобы получить вероятностное распределение по классам.

---

#### Итог

**Функция активации** — это «шаг» внутри нейрона, который добавляет **нелинейность** к сумме взвешенных входов. Без неё сеть была бы просто одним большим линейным преобразованием. Большая часть успеха глубокого обучения связана с правильно подобранными функциями активации (особенно ReLU и её вариациями).

### Метод обратного распространения ошибки.

**Метод обратного распространения ошибки (Backpropagation)** — это ключевой алгоритм, позволяющий обучать (корректировать веса) в нейронных сетях. Основная задача — понять, как сильно каждая часть сети влияет на общую ошибку, чтобы «знать», какие веса нужно изменить и насколько.

---

#### Основная идея

1. **Прямое прохождение (forward pass)**  
   - Сначала мы подаём входные данные в сеть, слой за слоем, пока не получим финальный результат (предсказание).  
   - На этом этапе мы можем вычислить, в чём именно и на сколько сеть ошиблась: сравнить выход с реальным ответом, чтобы найти **функцию потерь** (например, среднеквадратичная ошибка для регрессии или кроссэнтропия для классификации).

2. **Обратное распространение (backpropagation)**  
   - Затем алгоритм **двигается с конца сети** (от выходного слоя) **назад**, вычисляя, как каждый вес вносил вклад в ошибку.  
   - Используя правила дифференцирования (по сути, «правило цепочки», chain rule), мы находим «производные» ошибки по отношению к весам: то есть, если мы слегка изменим этот вес, как изменится ошибка?  
   - Эти производные говорят, в каком направлении (увеличить или уменьшить) и насколько менять каждый вес, чтобы уменьшить ошибку.

3. **Обновление весов**  
   - Получив градиенты (производные) по всем весам, мы корректируем каждый вес в сторону, уменьшающую ошибку. Часто это делается по схеме градиентного спуска (weights -= learning_rate * gradient).  
   - Процесс повторяется много раз: в каждом цикле (эпохе) мы делаем прямое прохождение, считаем ошибку, распространяем её обратно и обновляем веса.

---

#### Почему это работает

- **Правило цепочки**: Любая нейронная сеть представляет собой композицию функций (каждый слой — отдельная функция). «Правило цепочки» позволяет найти, как изменение одного веса повлияет на конечную ошибку, даже если между этим весом и выходом — несколько слоёв.  
- **Набор частных производных**: При обучении мы ищем минимум функции потерь в пространстве весов. Градиент (набор производных) говорит нам, в каком направлении эта ошибка убывает быстрее всего.  

---

#### Пример (Интуитивно)

1. **У нас есть** 2 слоя, каждый с несколькими нейронами.  
2. **Forward**: Мы подали данные (например, пиксели картинки), прошли через первый слой (получили промежуточные выходы), через второй (получили итоговое предсказание).  
3. **Ошибка**: Сравнили предсказание с истинной меткой. Допустим, ошибка получилась 0.3.  
4. **Backward**:  
   - Сначала смотрим, как ошибка зависит от выхода второго слоя (т. е. как сильно каждый нейрон второго слоя «ошибся»).  
   - Потом идём внутрь слоя: как каждый вес внутри второго слоя влияет на тот выход?  
   - Затем переходим к первому слою и вычисляем, как каждый вес там влияет на ошибку, учитывая уже найденные зависимости во втором слое.  
5. **Обновление**: У каждого веса получается своя «частная производная» (градиент), указывающая, как его немного сдвинуть, чтобы ошибка пошла вниз. Меняем веса согласно этим градиентам.

---

#### Итог

**Метод обратного распространения ошибки** (backpropagation) — это алгоритм, который автоматизированно определяет, как нужно скорректировать **каждый вес** в нейронной сети, чтобы **уменьшить ошибку**. Он использует:

- **Прямой проход** (посчитать предсказание и ошибку),  
- **Обратный проход** (посчитать, в каком направлении и насколько менять веса).

Без backpropagation глубокие нейронные сети было бы крайне сложно обучать, так как неизвестно, как каждая часть сети влияет на итоговую ошибку.