# Линейный методы классификации

**Описание:**
Есть два класса $Y = \{-1, +1\}$, по обучающей выборке $X^l = (x_i, y_i)^l_{i=1}$ сделать алгоритм классификации $a(x, w) = sign f(x, w)$ ($w$ - вектор весов (параметров))

**Определения:**
$M_i(w) = y_i \cdot f(x_i, w)$ - отступ объекта $x_i$, если $M_i < 0$, то алгоритм ошибся.

*Как минимизировать эмпирический риск?*
1. $Q(w) = \sum_{i=1}^l (M_i(w) < 0) \rightarrow \min$

    * Плюсы: Понятно, лего, ясно
    * Минусы: Если $M_i$ близко к 0, то небольшое изменение условия может сделать так, что мы определим класс неверно, однако алгоритм будет оценён как хороший.
2. $Q(w) = \sum_{i=1}^l \mathscr{L}(M_i(w)) \rightarrow \min$, где $\mathscr{L}$ - неотрицательная, невозрастающая, гладкая

**Примеры функций:**

<img src="Pics/functions.png" width="500">

На примере линейного классификатора
$a(x, w) = sign(\sum_{j=1}^n w_j \cdot f_j(x) - w_0)$

Иногда вводят $f_0 = -1$ и запись сокращается до $a(x,w) = sign(<w, f>)$

*Как минимизировать?*

Градиентный спуск!

$w^{(0)}$ - начальное приближение
$w^{(t+1)} = w^{(t)} - \eta \cdot \nabla Q(w^{(t)}) = w^{(t)} - \eta \cdot \sum_{i=1}^l \mathscr{L}^'(<w^{(t)}, x_i> \cdot y_i) \cdot x_i \cdot y_i$, где $\eta$ - градиентный шаг.
Но, что если $l$ большое? В таком случае выбирают по одному экземпляру, закон больших чисел в целом позволяет.

## Алгоритм:

*Вход:*

* Выборка $X^l$
* Шаг $\eta$
* Параметр $\lambda$

*Ход:*

1. Инициализация $w^{(0)}$
2. Инициализировать оценку функционала $Q = \sum_{i=1}^l \mathscr{L}(<w, x_i> \cdot y_i)$
3. До тех пор, пока $Q$ и / или $w$ не стабилизируются повторяем
    1. Выбрать $x_i$ из $X^l$
    2. Вычислить $\epsilon_i = \mathscr{L}(<w, x_i> \cdot y_i)$
    3. $w = w - \eta \cdot \mathscr{L}^'(<w, x_i> \cdot y_i) \cdot x_i \cdot y_i$
    4. Оценка значения $Q$. Но как? Если мы будем пересчитывать по всей выборке, то у нас отвалится жопа!
        Решение: $Q = (1 - \lambda) \cdot Q + \lambda \cdot \epsilon_i$. Идея в том, что мы учитываем вес каждого объекта, но предыдущий с меньшим весом. Если новый $Q$ будет больше, уменьшаем $\eta$

*Выход:*

* Вектор $w$

Что значит до тех пор, пока не стабилизируется? - Пока изменение не будет незначительным.

Из модификаций можно выделить [правило Хэбба и доказывающую его теорему Новикова](http://www.machinelearning.ru/wiki/index.php?title=%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%9D%D0%BE%D0%B2%D0%B8%D0%BA%D0%BE%D0%B2%D0%B0)

### Инициализация весов

* $w^{(0)} = \{0...0\}$
* Небольшие случайные числа $random(-\frac{1}{2 \cdot n}, \frac{1}{2 \cdot n})$. Небольшие, так как для $a$ в основном используют сигмоиды, и если мы попадём в области горизонтальный асимптот, то производные станут равны 0.
* $w_j = \frac{<y, f_j>}{<f_j, f_j>}$, $f_j = (f_j(x_i))_{i=1}^l$ - вектор значений признака. Берётся из решения задачи $\sum_{i=1}^l (<w, x_i> - y_i)^2 \rightarrow min$
* Обучение на подвыборке.

### Порядок предъявления объектов

* Перетасовка объектов
* Чаще брать те объекты на которых допущена большая ошибка
* Не брать объекты у которых $M_i > \mu_i+$ - хорошие объекты
* Не брать объекты у которых $M_i < \mu_i-$ - объекты шумы

### Градиентный шаг

* $\eta_t \rightarrow 0$, например $\eta_t = \frac{1}{t}$
* Метод скорейшего градиентного спуска: $Q(w - \eta \nabla Q(w)) \rightarrow \min_{\eta}$

**Достоинства**

* Легко реализовать
* Обобщается на любые $f, \mathscr{L}$
* На сверхбольших выборках не обязательно брать все $x_i$

**Недостатки:**

* Возможна расходимость или медленная сходимость
* Застревание в локальных минимумах
* Подбор начальных параметров
* Переобучение

## Проблема переобучения

**Причины:**

1. Слишком мало объектов, признаков.
2. Линейная зависимость признаков. Тогда существует не нулевой $u \in \mathcal{R}^{n+1} : <u, x> = 0$, а значит $\forall \gamma \in mathcal{R} a(x,w) = sign<w + \gamma \cdot u, x>$

**Последствия:**

1. Слишком большие веса $||w||$
2. Неустойчивость $a(x,w)$
3. $Q(X^l) << Q(X^k)$

**Решения:**

1. Сокращение весов
2. Раний останов

## Регуляризация

Многие из признаков являются "шумовыми" или линейной комбинацией других, поэтому приходит идея о регуляризации, где мы фактически будем минимизировать $C \sum_{i=1}^l (1 - M_i(w, w_0)) + \mu \sum_{i=1}^l f(w_i)$ (где $f$ монотонная верх), тогда при увеличении $\mu$ будем выгодно уменьшать $w_i$ и тем самым отбрасывать ненужные признаки

## Примеры

### Квадратичный (гауссовский) регуляризатор

$p(w, \sigma) = \frac{1}{(2 \cdot \pi \sigma)^{\frac{n}{2}} \cdot exp(-\frac{||w||^2}{2 \cdot \sigma})$

Тогда $-\ln(p(w, \sigma)) = \frac{1}{2 \cdot \sigma} \cdot ||w||^2 + const(w)$

$\tau = \frac{1}{sigma}$

### Лапласовский регуляризатор

$p(w, C) = \frac{1}{(2C)^n)} \cdot exp(-\frac{||w||_1}{C})$

Тогда $-\ln(p(w, C)) = \frac{1}{C} \cdot \sum_{j=1}^n |w_j| + const$