<h1 style="color:black" align="center">Линейная классификация</h1>

<h1 style="color:#008B8B">1. Линейные модели классификации</h1>

Пусть $\mathbb{X} = \mathbb{R}^n$ пространство объектов.

$\mathbb{Y} = \{-1, +1\}$ - множество допустимых ответов. 
 * Если $y = 1$ - положительный объект
 * $y = -1$ - отрицательный объект.

$X = \{(x_i, y_i)\}_{i = 1}^{\ell}$ - обучающая выборка.

Линейная модель имеет следующий вид: 

$\large a(x) = sign (\langle w, x \rangle + w_0)$

Уравнение $\langle w, x \rangle + w_0 = 0$ определяет гиперплоскость у которой $w$ - это вектор нормали.

 * Если $\langle w, x \rangle + w_0 = 0$ тогда точка лежит на гиперплоскости;
 * Если $\langle w, x \rangle + w_0 > 0$ тогда точка лежит на одной из полуплоскостей;
 * Если $\langle w, x \rangle + w_0 > 0$ тогда точка лежит на второй полуплоскости.

<img src="img/4_1.png">

<h2 style="color:#008B8B">1.1 Обучение линейных классификаторов</h2>

Функционал ошибки будет выглядеть следующим образом:

$\large Q(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} [a(x_i) = y_i]$ - долей правильных ответов (accuracy)

Нам будет удобнее решать задачу минимизации, поэтому будем вместо этого использовать долю неправильных ответов:

$\large Q(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} [a(x_i) \ne y_i]$ - доля ошибок.

Если не сказано иначе, мы будем считать, что среди признаков есть константа, $x_{d + 1} = 1$. В этом случае нет необходимости вводить сдвиг $w_0$, и линейный классификатор можно задавать как

$\large a(x) = sign (\langle w, x \rangle)$

Подставим в функцию потерь модель:

$\large \frac{1}{\ell} \sum\limits_{i=1}^{\ell} [sign (\langle w, x \rangle) \ne y_i] \to \underset{w}{\text{min}}$

**Как оптимизировать функционал?**

Как мы решаем задачи оптимизации? Можем найти точное решение посчитав градиент или использовать градиентный спуск, где в двух случаях необходимо посчитать частные производные функционала по вектору весов. Но, веса расположены под знаком $sign$, который не является дифференцируемой функцией и всё это расположено внутри идникатора, который тоже не является дифференцируемой функцией.

**Выполним преобразование функционала ошибки**

$\large \frac{1}{\ell} \sum\limits_{i=1}^{\ell} [y_i \langle w, x \rangle < 0] \to \underset{w}{\text{min}}$

Утвержается, что стоит под индекатором $sign (\langle w, x \rangle) \ne y_i$ эквивалентно $y_i \langle w, x \rangle < 0$.

$\large y_i \langle w, x \rangle > 0$ означает, что $y_i$ и $\langle w, x \rangle$ одного знака, а если они одного знака, тогда мы правильно угадали класс. Значит, ответ верный.

$\large y_i \langle w, x \rangle < 0$ в данном случае, значение слева меньше нуля, значит $y_i$ и $\langle w, x \rangle$ разного знака и ответ неверный.

### Отступы

Заметим, что функционал (1.1) можно несколько видоизменить:

$\large Q(a, X) = \frac{1}{\ell} \sum_{i = 1}^{\ell} [\underbrace{y_i \langle w, x_i \rangle}_{M_i} < 0] \to \underset{w}{\text{min}}$

$\large M_i = y_i \langle w, x \rangle$ - отступ (margin)

Знак отступа говорит о корректности ответа классификатора (положительный отступ соответствует правильному ответу, отрицательный — неправильному), а абсолютная величина отступа (напримр, большой отступ или маленький по модулю) характеризует степень уверенности классификатора в своём ответе.

Абсолютное значение отступа $\large |M_i|$ это расстояние от $x_i$ до разделяющей гиперплоскости. Если $L_2$ норма вектора весов равна $1$, тогда отступ является расстоянием до разделяющей гиперплоскости. Если $L_2$ норма вектора весов не равна $1$, тогда это отмасштабированное расстояние. Но по идеии, чем больше значение отступа, тем больше расстояние до разделяющей гиперплоскости, значит и уверенность классификатора в своём ответе будет выше.

Если модель уверенна в своём ответе на некотором объекте и она ошиблась, тогда объект скорее всего является выбросом.

### Верхние оценки

$\large \frac{1}{\ell} \sum\limits_{i=1}^{\ell} [y_i \langle w, x \rangle < 0]$

В данном функционале используется следующая функция потерь:

$\large L(M) = [M < 0]$

Посмторим как данная функция потерь выглядит на графике (синий цвет):

<img src="img/4_2.png">

Мы можем ввести верхнюю оценку для пороговой функции потерь, чтобы производить обучение модели.

$\large L(M) = [M < 0] \le \tilde L(M)$

После этого можно получить верхнюю оценку на функционал:

$\large 0 \le \frac{1}{\ell} \sum\limits_{i=1}^{\ell} [y_i \langle w, x \rangle < 0] 
\le 
 \frac{1}{\ell} \sum\limits_{i=1}^{\ell} \tilde L (y_i \langle w, x \rangle) \to \underset{w}{\text{min}}$

И после этого, отсаётся минимизировать верхнюю оценку. Так как изначальный функционал ошибки не меньше нуля и при этом мы минимизруем верхнюю оценку, тогда и доля неправильных ответов тоже станет небольшой.

Если верхняя оценка~$\tilde L(M)$ является гладкой, то и данная верхняя оценка будет гладкой.
В этом случае её можно будет минимизировать с помощью, например, градиентного спуска.
Если верхнюю оценку удастся приблизить к нулю, то и доля неправильных ответов тоже будет близка к нулю.

Приведём несколько примеров верхних оценок:

$\large \tilde L(M) = \log \left(1 + e^{-M} \right)$ - логистическая функция потерь

$\large \tilde L(M) = (1 - M)_+ = \max(0, 1 - M)$-  кусочно-линейная функция потерь (используется в методе опорных векторов)

$\large \tilde L(M) = (-M)_+ = \max(0, -M)$ - кусочно-линейная функция потерь~(соответствует персептрону Розенблатта)

$\large \tilde L(M) = e^{-M}$ - экспоненциальная функция потерь

$\large \tilde L(M) = 2/(1 + e^M)$ - сигмоидная функция потерь

Любая из них подойдёт для обучения линейного классификатора.
Позже мы подробно изучим некоторые из них и выясним, какими свойствами они обладают.

<h1 style="color:#008B8B">2. Метрики качества классификации</h1>

<h2 style="color:#008B8B">2.1 Доля правильных ответов</h2>

### Accuracy

$\large accuracy(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} [a(x_i) = y_i]$ - долей правильных ответов.

Если выборка несбалансированная, допустим, имеется $950$ здоровых людей (из относим к классу -1) и $50$ людей которые болеют некоторой белезнью (относим к классу 1).

Мы можем посторить такую модель, которая всегда будет возвращать отрицательный класс (говорит о том, что человек здоров). У этой модели доля верных ответов составит $0.95$. И данная модель нас не устраивает так как цена ошибки различается.

### Относительная ошибка

Если доля ошибок была улучшена с 20% до 10%, то относительное улучшение составляет 50%. Если доля ошибок была улучшена с 50% до 25%, то относительное
улучшение также равно 50%, хотя данный прирост кажется более существенным.
Если же доля ошибок была улучшена с 0.1% до 0.01%, то относительное улучшение
составляет 90%, что совершенно не соответствует здравому смыслу.

|$$r_1$$   |$$r_2$$      |$$r_1 - r_2$$ |$$\frac{r_1 - r_2}{r_1}$$ |
|:--------:|:-----------:|:------------:|:------------------------:|
|20%       |10%          |10%           |50%                       |        
|50%       |25%          |25%           |50%                       |
|0.1%      |0.01%        |0.09%         |90%                       |

<h2 style="color:#008B8B">2.2 Матрица ошибок</h2>

|            |$$y=1$$             |$$y=-1$$             |
|:----------:|:------------------:|:-------------------:|
|$a(x) = 1$  |True Positive (TP)  |False Positive (FP)  |        
|$a(x) = -1$ |False negative (FN) |True Negative (TN)   |


Гораздо более информативными критериями являются точность (precision)
и полнота (recall):

$\large \text{precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}$ - Метрика точности, показывает насколько можно доверять модели в случае срабатывании. 

В знаменателе $\text{TP} + \text{FP}$ - это все клиенты, которым был выдан кредит. В числителе $\text{TP}$ - те клиенты, которые вернули кредит. 

Модель может выдать кредит только одному пользователю и $\text{precision}$ будет 100%, но модель может не выдавать кредит людям, которые его бы вернули.

$\large \text{recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}$ - Метрика полноты, показывает насколько задействованы клиенты, которые вернули бы кредит.

В знаменателе $\text{TP} + \text{FN}$ - стоят все те, кто обязательно вернут кредит. В числителе $\text{TP}$ - те клиенты, которые вернули кредит. 

## Объединение точности и полноты

|                    |$\text{Model 1}$   |$\text{Model 2}$   |
|:------------------:|:-----------------:|:-----------------:|
|$\text{precision}$  |$0.1$              |$0.55$             |        
|$\text{recall}$     |$1$                |$0.55$             |

### Арифметическое среднее

$\large A = \frac{1}{2} (precision + recall)$

$\large \text{A(Model 1)} = 0.55$

$\large \text{A(Model 2)} = 0.55$

Несмторя на то, что вторая модель лучше первой, среднее арифметическое имеет одно значение. Можем заметить, что эти два алгоритма расположены на одной линии уровня.

<img src="img/4_3.png">

### Минимум

$\large \text{MIN} = min(precision, recall)$ 

Подход с взятием минимума решает проблему для модели выше. Но у этой модели имеетсся другая проблема. Предположим у нас есть две модели:

|                    |$\text{Model 1}$     |$\text{Model 2}$   |
|:------------------:|:-------------------:|:-----------------:|
|$\text{precision}$  |$0.4$                |$0.4$              |        
|$\text{recall}$     |$0.5$                |$0.9$              |

У двух моделей точность равна 0.4, но полнота первой модели 0.5, а второй модели 0.9. И несложно понять, что второй алгоритм лучше. Но минимум у двух моделей будет равен $0.4$.

Если начинает возрастать второй парамтр, тогда оцнка не сможет использовать эту информацию. Это хорошо видно на линиях уровня, если зафиксировать один параметр и увеличивать другой, то линия уровня будет прямой.

<img src="img/4_4.png">

### F-Метра
Решением данной проблемы становится метрика гармонического среднего:

$\large F = \frac{2 \cdot \text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}$

$Model_1 = 0.44$

$Model_2 = 0.55$

Как видно, вторая модель лучше. Вторая точка будет расположена вверхнем углу на салатовой линии уровня. 

Имеется модификация F-меры, которая позволят выбрать что важнее, точность или полнота:

$\large F_{\beta} = (1 + \beta^2) \frac{\text{precision} \cdot \text{recall}}{\beta^2 \text{precision} + \text{recall}}$

<img src="img/4_5.png">