# Линейный классификатор

$X$ - пространство объектов;<br>
$Y$ - пространство ответов;<br>
$y: X \rightarrow Y$ - неизвестная функция.

**Дано:**  
$\{x_1, \ldots, x_l\}\subset X$ - обучающая выборка (training sample);<br>
$y_i=y(x_i), i=1,\ldots,l$ - известные ответы.

**Найти:**<br>
$a: X \rightarrow Y$ - алгоритм, приближающий $y$ на всем множестве $X$.

-----------------------

<img src="samples.png" style="width: 300px;"/>
<img src="knn.png" style="width: 300px;"/>
<img src="tree.png" style="width: 300px;"/>

## Линейно разделимая выборка

Будем рассматривать задачу бинарной классификации.

**Идея:** найдем гиперплоскость, разделяющую объекты в признаковом пространстве на две полуплоскости, в каждой из которых находятся объекты одного класса.

Если такая гиперплоскость существует, выборка называется линейно разделимой.

<img src="linear_classificator.png" style="width: 300px;"/>

---------------------------------------

Как задается гиперплоскость?

$$
w_0 + x_1w_1 + x_2w_2 + \ldots + x_nw_n = 0
$$

Поэтому классификатор можно задать следующим образом:

$$
a(\bar{x}) = sign\big(\langle\bar{w},\bar{x}\rangle+w_0 \big)
$$

-------------------------------

Задачу с линейно разделимой выборкой можно решить множеством способов.

<img src="multi_lines.png" style="width: 300px;"/>

Какую гиперплоскость выбрать?

-----------------------------------------

Давайте выберем прямую, наиболее удаленную от объектов каждого из классов.

Во-первых, заметим, что такая прямая равноудалена от объектов обоих классов.
Объекты, которые находятся ближе всего к прямой, называются опорными векторами.

Во-вторых, будем рассматривать "нормированные" прямые, то есть такие, что при подстановке опорного вектора в уравнение мы будем получать $\pm1$.

<img src="distance.png" style="width: 200px;"/>

---------------------------------

$p\big(A, b\big)=\frac{|\langle\bar{w}, \bar{x}_A\rangle+w_0|}{||\bar{w}||}$

Отметим, что тогда выполнено $y_i(\langle\bar{w}, \bar{x}_i\rangle + w_0)\ge 1$. Будем называть величину $y_i(\langle\bar{w}, \bar{x}_i\rangle + w_0)$ отступом объекта. Чем больше отступ, тем больше объект "погружен" в свой класс.

![](margins.png)
<img src="margin_hist.png" style="width: 500px;"/>

-------------------------

Итак, мы хотим построить такой $\bar{w}$, что $1 \big/ ||\bar{w}||$ - максимально. Давайте искать $\bar{w}$ такое, что $||\bar{w}||^2$ - минимально.

------------------------------

Тогда нам надо решить задачу:

$$
||w||^2\rightarrow \min_w,
$$
$$
y_i(\langle\bar{w}, \bar{x}\rangle+w_0) \ge 1, i=1,\ldots,l
$$

Это классическая задача нахождения условного экстремума, которая является задачей квадратичного программирования.

**Лирическое отступление про линии уровня и условные экстремумы.**

<img src="levels.gif" style="width: 400px;"/>

<img src="condition.png" style="width: 500px;"/>

## Линейно неразделимая выборка

<img src="unlinear.png" style="width: 300px;"/>

Попробуем идти классическим способом:

$$
L(a(\bar{x}_i), y_i) = \big[a(\bar{x}_i)y_i<0\big]
$$
$$
Q(w) = \frac{1}{l}\sum_{i=1}^lL(a(\bar{x}_i), y_i)\rightarrow\min_w
$$
$$
Q(w) = \frac{1}{l}\sum_{i=1}^l\big[\big(\langle\bar{w},\bar{x}_i\rangle+w_0\big)y_i<0\big]\rightarrow\min_w
$$

Получаем очень сложную задачу! Давайте попробуем рассмотреть другую функцию потерь $L\big((\langle\bar{w},\bar{x}_i\rangle+w_0)y_i\big)$. Хотелось бы, чтобы эта функция была гладкая.

<img src="loss_func.png" style="width: 500px;"/>

-----------------------

**Идея:** давайте изначально возьмем некоторую линейную модель, а потом будем ее улучшать.

Пусть $L_i(w)$ - потери на $i$-ом объекте с вектором весов $w$.

$$
Q(w) = \frac{1}{l}\sum_{i=1}^lL_i(w)\rightarrow\min_w
$$

$w^{(0)}$ - начальный вектор весов.

$w^{(t+1)}=w^{(t)}-h\cdot\nabla Q(w^{(t)})$ - обновление весов; $\nabla Q(w^{(t)})=\big(\frac{\partial Q(w)}{\partial w_j}\big)_{j=0}^n$; $h$ - градиентный шаг (темп обучения).

$$
w^{(t+1)}=w^{(t)}-h \frac{1}{l}\sum_{i=1}^l\nabla L_i(w)
$$

<img src="grad2d.png" style="width: 500px;"/>
<img src="grad.png" style="width: 500px;"/>

**Улучшение:** брать $(x_i, y_i)$ случайно и делать шаг по одному объекту.

<img src="algo_stg.png" style="width: 500px;"/>
<img src="loss.png" style="width: 300px;"/>
<img src="step.png" style="width: 500px;"/>

**Как выбрать начальные веса?**
* нулевые;
* небольшие рандомные значения;
* $w_j = \frac{\langle y,\ f_j\rangle}{\langle f_j,\ f_j\rangle}$;
* обучение по небольшой случайной подвыборке признаков;
* мультистарт.

**Как выбрать шаг?**
* постоянный;
* уменьшающийся.

**Особенности метода:**
* может работать с разными функциями потерь;
* подходит для работы с большими данными;
* возможно застревание в локальных экстремумах;
* возможны расходимость или медленная сходимость;
* сложно подбирать параметры;
* переобучение.

**Как бороться с переобучением?**
* регуляризации (подробнее - на лекции о регрессии).

$$
\tilde{L}_i(w) = L_i(w) + \frac{\tau}{2}||w||^2
$$
$$
\nabla\tilde{L}_i(w) = \nabla L_i(w) + \tau w
$$
$$
w^{(t+1)}=w^{(t)}(1-\tau h)-h \frac{1}{l}\sum_{i=1}^l\nabla L_i(w)
$$

## Штрафы в линейно неразделимой задаче

Вспомним про задачу с линейно разделимой выборкой

$$
\begin{cases}
\frac{1}{2}||w||^2\rightarrow \min, \\
y_i(\langle\bar{w}, \bar{x}\rangle+w_0) \ge 1,\ i=1,\ldots,l
\end{cases}
$$

Попробуем применить ее к задаче с линейно неразделимой выборкой

$$
\begin{cases}
\frac{1}{2}||w||^2 + C\sum_{i=1}^l\xi_i \rightarrow \min_{w,w_0, \xi}, \\
y_i(\langle\bar{w}, \bar{x}\rangle+w_0) \ge 1-\xi_i,\ i=1,\ldots,l \\
\xi_i\ge0,\ i=1,\ldots,l
\end{cases}
$$

Значит,
$$
C\sum_{i=1}^l(1-M_i(w, w_0))_{+}+\frac{1}{2}||w||^2 \rightarrow \min_{w,w_0},
$$

Это задача решается с помощью задачи [Каруша-Куна-Таккера](https://en.wikipedia.org/wiki/Karush–Kuhn–Tucker_conditions).

$$
L(w, w_0, \xi, \lambda, \eta) = \frac{1}{2}||w||^2 - \sum_{i=1}^l\lambda_i(M_i(w, w_0)-1)-\sum_{i=1}^l\xi_i(\lambda_i+\eta_i-C)
$$

$$
\begin{cases}
\frac{\partial L}{\partial w}=0, \\
\frac{\partial L}{\partial w_0}=0, \\
\frac{\partial L}{\partial \xi}=0, \\
\xi_i\ge 0,\ i=1,\ldots,l, \\
\lambda_i \ge 0,\ i=1,\ldots,l, \\
\eta_i\ge 0,\ i=1,\ldots,l, \\
\lambda_i=0\ or\ M_i(w, w_0)=1-\xi_i,\ i=1,\ldots,l,\\
\eta_i=0\ or\ \xi_i=0,\ i=1,\ldots,l,
\end{cases}
$$

Несложными преобразованиями получаем, что

$$
\begin{cases}
w=\sum_{i=1}^l\lambda_iy_ix_i \\
\sum_{i=1}^l\lambda_iy_i=0 \\
\eta_i+\lambda_i=C \\
\end{cases}
$$

Типизация объектов:
* неинформативные объекты ($\lambda_i=0,\ \eta_i=C,\xi_i=0,\ M_i\ge1$);
* опорные граничные объекты ($0<\lambda_i<C,\ 0<\eta_i<C,\xi_i=0,\ M_i=1$);
* опорные нарушители ($\lambda_i=C,\ \eta_i=0,\xi_i>0,\ M_i<1$)

Получаем следующую задачу:

$$
\begin{cases}
-L(\lambda)=-\sum_{i=1}^l\lambda_i+\frac{1}{2}\sum_{i=1}^l\sum_{j=1}^l\lambda_i\lambda_jy_iy_j\langle x_i, x_j\rangle\rightarrow\min_\lambda, \\
0\le\lambda_i\le C,\ i=1,\ldots,l,\\
\sum_{i=1}^l\lambda_iy_i=0
\end{cases}
$$

Решим ее, найдем:

$$
\begin{cases}
w=\sum_{i=1}^l\lambda_iy_ix_i \\
w_0 = \langle w, x_i \rangle - y_i,\ i: \lambda_i>0, M_i=1 
\end{cases}
$$

Итого

$$
a(x) = sign\big(\sum_{i=1}^l\lambda_iy_i\langle x_i, x\rangle+w_0\big)
$$

Теперь есть новые признаки: $f'_i(x)=\langle x_i, x\rangle$