# Задача обучения линейного классификатора

### Дано:
Обучающая выборка $X^l = (x_i, y_i)^l_{i=1}$

$x_i$ $-$ объекты, векторы из множества $\mathcal{R}^{n}$

$y_i$ $-$ метки классов, элементы множества $Y=\{-1, 1\}$
### Найти:

Параметры $w\in \mathcal{R}^n$, $w_0\in \mathcal{R}$ линейной модели классификации
$$
a(x; w, w_0) = \mathrm{sign}\left(\langle w, x\rangle - w_0\right)
$$

### Критерий:
Минимизация эмпирического риска:
$$
\sum_{i=1}^{l}[a(x; w, w_0) \not=y_i] = \sum_{i=1}^{l}[M_i(w, w_0) < 0] \to \min_{w, w0}
$$

$M_i(w, w_0) = \left(\langle w, x\rangle - w_0\right)y_i$ $-$ отступ объекта $x_i$

# Аппроксимация и регуляризация эмпирического риска

Эмперический риск $-$ кусочно-постоянная разрывная функция

Заменим его оценкой сверху, непрерывной по параметрам:

$$
Q(w, w_0) = \sum_{i=1}^{l}[M_i(w, w_0) < 0] \leq \\
\leq \sum_{i=1}^{l}(1 - M_i(w, w_0))_{+} + \frac{1}{2C}||w||^2 \to \min_{w, w_0}
$$

- Аппроксимация штрафует объекты за приближение к границе классов, увеличивая зазор между классами
- Регуляризация штрафует неустойчивые решения в случае мультиколлинеарности

# Оптимальная разделяющая гиперплоскость

Линейный классификатор: $a(x; w, w_0) = \mathrm{sign}\left(\langle w, x\rangle - w_0\right)
$

Пусть выборка линейно разделима:
$$
\exists w, w_0: \ M_{i}(w, w_0) = \left(\langle w, x\rangle - w_0\right)y_i > 0, \ \forall i=1\dots l
$$

Нормировка $\min_{i=1\dots l} M_i(w, w0) = 1$

Разделяющая полоса (разделяющая гиперплоскость посередине):
$$
\{x: -1 \leq\langle w, x\rangle - w_0 \leq1\} \\
\exists x_{+}: \langle w, x_+\rangle - w_0 = +1 \\ 
\exists x_{-}: \langle w, x_-\rangle - w_0 = -1
$$

Ширина полосы:

$$
\frac{\langle x_+ - x_-, w\rangle}{||w||} = \frac{2}{||w||} \to \max
$$

# Обоснование кусочно-линейной функции потерь

Линейно разделимая выборка (hard margin svm):
\begin{cases}
&\frac{1}{2}||w||^2 \to \min_{w, w_0} \\
&M_i(w, w_0)\geq 1, \ i = 1,\dots, l
\end{cases}

Переход к линейно неразделимой выборке (soft margin svm):

\begin{cases}
&\frac{1}{2}||w||^2 + C\sum_{i=1}^l\xi_i\to \min_{w, w_0, \xi} \\
&M_i(w, w_0)\geq 1 - \xi_i, \ i = 1,\dots, l \\
&\xi_i\geq 0, \ i = 1,\dots, l
\end{cases}

Эквивалентна задаче безусловной оптимизации:

$$
C\sum_{i=1}^{l}(1 - M_i(w, w_0))_+ + \frac{1}{2}||w||^2 \to \min_{w, w0}
$$

# Условия Каруша-Куна-Таккера

Задача математического программирования:
\begin{cases}
f(x) \to \min_x \\
g_i(x)\leq0, \ i=1,\dots,m \\
h_j(x) = 0, \ j=1, \dots, n \\
\end{cases}

Необъодимые условия. Если $x$ $-$ точка локального минимума,
то существуют множители $\mu_i, i=1,\dots,m$ и $\lambda_j, j=1,\dots,n$:

\begin{cases}
\dfrac{\partial L}{\partial x} = 0, \ L(x;\mu,\lambda) = f(x) + \sum_{i=1}^{m}\mu_i g_i(x) + \sum_{j=1}^n\lambda_jh_j \\
g_i(x)\leq 0, \ h_j = 0 \ \text{(исходные ограничения)} \\
\mu_i\geq 0 \ \text{(двойственные ограничения)} \\
\mu_ig_i = 0 \ \text{(условие дополняющей нежесткости)}
\end{cases}

# Применение условий ККТ к задаче SVM

Функция Лагранжа:
$$
L = \frac{1}{2}||w||^2 - \sum_{i=1}^{l}\lambda_i(M_i(w,w_0) - 1) - \sum_{i=1}^l\xi_i(\lambda_i+\eta_i -C)
$$

$\lambda_i$ $-$ переменные, двойственные к ограничениям $M_i\geq1-\xi_i$

$\lambda_i$ $-$ переменные, двойственные к ограничениям $\xi_i\geq0$

\begin{cases}
\dfrac{\partial L}{\partial w} = 0, \ \dfrac{\partial L}{\partial w_0} = 0, \ \dfrac{\partial L}{\partial \xi} = 0 \\
\xi_i \geq 0, \ \lambda_i \geq 0, \ \eta_i\geq0, \ i=1\dots l \\
\lambda_i=0 \ \text{или} \ M_i(w, w_0)=1-\xi_i, \ i = 1\dots l \\
\eta_i=0 \ \text{или} \ \xi_i=0, \ i=1\dots l
\end{cases}

# Необходимые условия седловой точки функции Лагранжа

Функция Лагранжа:
$$
L = \frac{1}{2}||w||^2 - \sum_{i=1}^{l}\lambda_i(M_i(w,w_0) - 1) - \sum_{i=1}^l\xi_i(\lambda_i+\eta_i -C)
$$

Необходимые условия седловой точки функции Лагранжа в случае hard-margin SVM:

\begin{cases}
\dfrac{\partial L}{\partial w} = 0 , \ w = \sum_{i=1}^l\lambda_i y_i x_i \\
\dfrac{\partial L}{\partial w_0} = 0, \ \ \ \sum_{i=1}^l\lambda_iy_i = 0, \ i = 1\dots l \\
\dfrac{\partial L}{\partial \xi_i} = 0, \ \ \ \eta_i + \lambda_i = C, \ i = 1\dots l
\end{cases}

# Понятие опорного вектора

1. $\lambda_i = 0$, $\eta_i=C$, $\xi_i=0$, $M_i\geq1$ $-$ переферийные (неинформативные) объекты.
2. $0<\lambda_i<C$, $0<\eta_i<С$, $\xi_i=0$, $M_i=1$ $-$ опорные граничные объекты.
3. $0<\lambda_i = C$, $\eta_i=0$, $\xi_i>0$, $M_i<1$ $-$ опорные нарушители объекты.

Объект $x_i$ называется опорным, если $\lambda_i\not=0$.

# Двойственная задача

\begin{cases}
-L(\lambda) = -\sum_{i=1}^l{\lambda_i} + \dfrac{1}{2}\sum_{i=1}^l\sum_{j=1}^l\lambda_i\lambda_jy_iy_j\langle x_i, x_j\rangle \\
0\geq \lambda_i \geq C, \ i = 1, \dots, l \\
\sum_{i=1}^l\lambda_iy_i=0
\end{cases}

Решение прямой задачи выражается через решение двойственной задачи:
\begin{cases}
w = \sum_{i=1}^l\lambda_iy_ix_i \\
w_0 = \langle w, x_i \rangle - y_i, \ \forall i: \lambda_i>0, M_i = 1.
\end{cases}

Итоговый линейный классификатор:
$$
a(x) = \mathrm{sign}\left(\sum_{i=1}^l\lambda_iy_i\langle x_i, x\rangle - w_0\right)
$$

# Резюме:

- SVM $-$ лучший метод линейной классификации
- SVM $-$ лекго обобщается для нелинейной классификации, для линейной и нелинейной регрессии
- Аппроксимация пороговой функции потерь увеличивает зазор и поваышает качество классификации
- Регуляризация устраняет мультиколлинеарность и уменьшает переобучение
- Регуляризация эквивалентна введению априорного распределения в пространстве коэффициентов
- $L_1$ и другие нестандарнтные регуляризаторы делают отбор признаков без явного пребора подмножеств

# Полезные ссылки

[видео лекция Воронцова в ШАД](https://www.youtube.com/watch?v=Adi67_94_gc)

[pdf лекция от Воронцова](http://www.ccas.ru/voron/download/SVM.pdf)

[notebook examples from Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/05.07-support-vector-machines.html)

[python examples](https://sadanand-singh.github.io/posts/svmpython/)