# Метод опорных векторов

# 1.Выборка $X^l$ - линейно разделима

$\exists w, w_0 : M_i(w, w_0) > 0$

**SVM** - построение гиперплоскости, разделяющей объекты выборки оптимально

*Как построить разделяющую поверхность?*

Будем делать так, чтобы ширина разделяющей полосы между классами была максимальная.

<img src="Pics/wide.png" width="500">

Сделаем нормировку $\min_{i=1...l} M_i(w, w_0) = 1$ (потому что так будет просто удобнее, да и кто нам в целом мешает?)

Разделяющая полоса $\{x: -1 \leq <w, x> - w_0 \leq 1 \}$

Ширина полосы: $\frac{<x_-, w> - <x_+, w>}{||w||} = \frac{1 + w_0 - (-1 + w_0)}{||w||} = \frac{2}{||w||}$, получается, чтобы увеличить ширину полосы нам надо минимизировать $||w||$

* $\frac{1}{2} \cdot ||w||^2 \rightarrow \min_{w, w_0}$
* $M_i(w, w_0) \geq 1$

# 2.Линейно-неразделимая выборка

**Переход к линейно неразделимой выборке:**

1. $\frac{1}{2} \cdot ||w||^2 + C \cdot \sum_{i=1}^l \xi_i \rightarrow \min_{w, w_0, \xi}$
2. $M_i(w, w_0) \geq 1 - \xi_i$
3. $\xi_i \geq 0$

*Эквивалентная задача безусловной минимизации:*

$C \cdot \sum_{i=1}^l (1 - M_i(w, w_0)) + \frac{1}{2} \cdot ||w|| \rightarrow \min_{w, w_0}$

$C$ - гипперпараметр

Большой $C$ - не важна ширина полосы, важно, чтобы не было нарушителей, входящих в полосу

Маленький $C$ - наоборот важна ширина


<img src="Pics/C.png" width="500">

Решение из задачи Каруша-Куна-Такера

**Задача математического программирования**

* $f(x) \rightarrow \min_x$
* $g_i(x) \leq 0$, $i = 1...m$
* $h_j(x) = 0$, $j = 1..k$

Где $h, g$ - некоторые ограничения, если бы их не было, мы бы просто взяли производные

<img src="Pics/important.png" width="900">

## А теперь подставим сюда то, что мы написали для SVM

Функция Лагранжа: $\mathscr{L}(w, w_0, \xi, \lambda, \eta) = \frac{1}{2} \cdot ||w||^2 - \sum_{i=1}^l \lambda_i(M_i(w, w_0) - 1) - \sum_{i=1}^l \xi_i(\lambda_i + \eta_i - C)$

В данном случае за $x$ берём $w, w_0, \xi$

* $\frac{\partial \mathscr{L}}{\partial w} = w - \sum_{i=1}^l \lambda_i y_i x_i = 0 \Rightarrow w = \sum_{i=1}^l \lambda_i y_i x_i$
* $\frac{\partial \mathscr{L}}{\partial w_0} = -\sum_{i=1}^l \lambda_i y_i = 0 \Rightarrow \sum_{i=1}^l \lambda_i y_i = 0$
* $\frac{\partial \mathscr{L}}{\partial \xi_i} = -(\lambda_i + \eta_i - C) = 0 \Rightarrow \eta_i + \lambda_i = C$

**По итогу получаем:**

<img src="Pics/KKT.png" width="900">

**Определение:** $x_i$ - опорный, если $\lambda_i \neq 0$

## Типы объектов

1. $\lambda_i = 0; \eta_i = C; \xi_i = 0; M_i = 1$ - периферийный объект
2. $0 < \lambda_i < C; 0 < \eta_i < C; \xi_i = 0; M_i = 1$ - объекты на границе разделяющей полосы
3. $\lambda_i = C; \eta_i = 0; \xi_i > 0; M_i < 1$ - объекты перешедшие через границу полосы

Как можно видеть, $w$ зависит только от объектов 2 и 3 типа.

## Если теперь всё подставить в задачу:

<img src="Pics/Twice.png" width="900">

А predict тогда выглядит так:

$a(x) = sign(\sum_{i=1}^l \lambda_i y_i <x, x_i> - w_0)$

# Обобщение линейного SVM

Для того чтобы работать с нелинейными пространствами можно заменить $<x, x'>$ на некоторое ядро $K(x, x')$

По факту надо вычислять $-\mathscr{L}(\lambda) = -\sum_{i=1}^l \lambda_i + \frac{1}{2} \sum_{i=1}^l \sum_{j=1}^l \lambda_i \lambda_j y_i y_j K(x_i, x_j) \rightarrow \min_{\lambda}$

## Плюсы

* Единственное решение
* Любая разделяющая поверхность
* Небольшое количество опорных объектов

## Минусы

* Чувствителен к шуму
* Нет правил для выбора $K$
* Нет правил для выбора $С$
* Нет возможности выбора признаков

# Метод релевантных векторов RVM

Наложить ограничения не на $w$, а на $\lambda$ и будем решать какие $\lambda_i$ обнулять

$Регуляризация = \sum_{i=1}^l(\ln(\alpha_i) + \frac{\lambda_i^2}{\alpha_i} \rightarrow \min_{\lambda, \alpha})$, где $\alpha_i$ - дисперсия $\lambda_i$