# Линейная классификация
## Бинарная классификация
$$Y = \{-1, 1\}$$
- -1, 1 - классы
- $a(x)$ должен возвращать одно из двух чисел

Линейная регрессия:
$$a(x) = w_0 + \sum _{j=1} ^{d} w_j x_j$$
- $w$ - веса
- $x$ - признаки
- a(x) возвращает вещественное число, а нужно возвращать класс.

Возьмём для этого знак:
$$a(x) = sign(w_0 + \sum _{j=1} ^{d} w_j x_j)$$
- a(x) возвращает класс -1 или +1

С единичным признаком (всегда равен 1, bias):
$$a(x) = sign<w,x>$$


## Геометрический смысл
Уравнение гиперплоскости
$$<w,x>=0$$
- Если скалярное произведение равно нулю, то угол прямой
- $w$ - вектор нормали
- Все векторы, которые перпендикулярны нормали образуют плоскость
<img src = 'images/norm.png'>

- Если $x$ лежит на гиперплоскости, то <w,x>=0
- Если $<w,x> < 0$, то объект лежит "слева" от неё
- Если $<w,x> > 0$, то объект лежит "справа" от неё

- По знаку скалярного произведения можно понять, с какой стороны разделяющей гиперплоскости лежит объект
<img src = 'images/lin_cl.png'>

## Отступы
- Играет ли какую-то роль сама величина скалярного произведения, или важен только знак?


- Расстояние от точки до гиперплоскости $<w,x> = 0$
$$\frac{|<w,x>|}{||w||}$$

- Чем больше <w,x>, тем дальше объект от разделяющей гиперплоскости
- Если точка лежит около прямой, то модель "не уверена" в классе (скалярное произведение близко к нулю)
- Если точка лежит далеко от прямой, то модель "уверена" в классе


$$M_i = y_i<w, x_i>$$
- $y_i$ истинный ответ
- $M_i > 0$ - классификатор даёт верный ответ (объект +, предсказание +, то ответ + или объект -, предсказание -, то ответ +)
- $M_i < 0$ - классификатор ошибается (разные знаки, ответ неправильный)
- Чем дальше отступ от нуля, тем больше уверенности

## Порог
$$a(x) = sign(<w,x> - t)$$
- t - порог классификатора
- $> t$ чтобы объект был объявлен + (нужно для метрик классификации)

## Вывод:
- Линейный классификатор разделяет два класса гиперплоскостью
- Знак скалярного произведения показывает, с какой стороны от гиперплоскости лежит объект
- Отступ отражает уверенность классификатора в ответе

## Обучение линейных классификаторов
- Функция потерь в классификации (например, бинарная функция потерь, как в knn)
$$L(y,a)=[a \neq y]$$
- Если не равны - штраф 1
- Если равны - штраф 0
- Функционал ошибки - доля ошибок (error rate)
$$Q(a, X)=\frac{1}{l} \sum _{i=1} ^l [a(x_i) \neq y_i]$$
- Доля верных ответов (accuracy)
$$Q(a, X)=\frac{1}{l} \sum _{i=1} ^l [a(x_i) = y_i]$$


- Доля ошибок для линейного классификатора:
$$Q(w, X) = \frac{1}{l}\sum _{i=1} ^l [sign(<w, x_i>) \neq y_i]$$
- Индикатор - недифференцируемая функция (дискретная)
- Нельзя посчитать производную знака скалярного произведения (дискретная)
- Значит напрямую градиентный спуск неприменим


### Знак
Было:
$$Q(w, X) = \frac{1}{l}\sum _{i=1} ^l [sign(<w, x_i>) \neq y_i]$$
Используем отступ:
$$Q(w, X) = \frac{1}{l}\sum _{i=1} ^l [y_i<w, x_i> <0]$$
$$Q(w, X) = \frac{1}{l}\sum _{i=1} ^l [M_i <0]$$
Истинный ответ и ответ модели имеют разные знаки

$L(M) = [M<0]$
<img src = 'images/M.png'>
- по х отступ
- по y значение функции потерь
- получилась пороговая функция, которую нельзя продифференцировать
- производная часто равна 0, непонятно, куда градиентному спуску "шагать"


### Верхняя оценка
$$L(M) = [M<0] \leq LL(M)$$
Оценим сверху дифференцируемой функцией (лежит строго выше)
<img src = 'images/dif.png'>
$$0 \leq \frac{1}{l}\sum _{i=1} ^l [y_i<w, x_i> <0] \leq \frac{1}{l}\sum _{i=1} ^l LL(y_i<w, x_i>) -> min_w$$

Минимизируем верхнюю оценку, надеемся, что она "прижмёт" долю ошибок к нулю
<img src = 'images/dif_up.png'>

## Пример обучения
Логистическая функция потерь
$$Q(w, X) = \frac{1}{l} \sum _{i=1} ^l log(1 + exp(-y_i<w, x_i>)) -> min_w$$
Вычисляем градиент:
$$\nabla _w Q(w, X) = -\frac{1}{l} \sum _{i=1} ^l \frac{y_i x_i}{1+exp(y_i<w,x_i>)}$$
Шаг градиентного спуска:
$$w^{(t)} = w^{(t-1)} +\eta \frac{1}{l} \sum _{i=1} ^l \frac{y_i x_i}{1+exp(y_i<w,x_i>)}$$

Можно также добавить регуляризацию, чтобы снизить вероятность переобучения
#### Резюме
- Напрямую оптимизировать долю ошибок нельзя из-за недифференцируемости
- Нужно использовать верхние оценки на функцию потерь


# Домашнее задание
Тест по теории (все предыдущие темы)