## Метод опорных векторов

### Задача обучения линейного классификатора
Дано:    
Обучающая выборка $X^l=(x_i, y_i)_{i=1} ^l$    
$x_i$ - объекты, векторы из множества $X=\mathcal{R}^n$   
$y_i$ - метки классов, элементы множества $Y=\{-1, +1\}$   

Найти:    
Параметры $w \in \mathcal{R}^n, w_0 \in \mathcal{R}$ линейной модели классификаци    
$a(x, w, w_0)=sign(\langle x, w \rangle-w_0)$    

Критерий - минимизация эмпирического риска: $\sum_{1 \leq i \leq l}[a(x_i, w, w_0)\neq y_i]=\sum_{1 \leq i \leq l}[M_i(w, w_0)<0] \to min_{w, w_0}$, где $M_i(w, w_0)=(\langle x, w \rangle-w_0)y_i$ - отступ, $b(x)=\langle x, w \rangle-w_0$ - дискриминативная функция


### Аппроксимация и регуляризация эмпирического риска
Эмпирический риск - это кусочно-постоянная функция. Замена его оценкой сверху, непрерывной по параметрам
$Q(w, w_0)=\sum_{1 \leq i \leq l}[M_i(w, w_0)<0] \leq \sum_{1 \leq i \leq}(1-M_i()w, w_0)_+ + \frac{1}{2C}||w||^2 \to min_{w, w_0}$

- Аппроксимация штрафует объекты за приближение к границе классов, увеличивая зазор между классами (первое слагаемое)
- Регуляризация штрафует неустойчиве решения в случае мультиколлинеарности


### Оптимальная разделяющая гиперплоскость
Линейный классификатор: $a(x, w)=sign(\langle w, x \rangle-w_0), w,x \in \mathcal{R}^n, w_0 \in \mathcal{R}$

Пусть выборка $X^l=(x_i, y_i)_{i=1} ^l$ линейно разделима: $\exists w, w_0: M_i(w, w_0)=y_i(\langle w, x_i \rangle-w_0)>0, i=1,...,l$

Нормировка: $min_{i=1,...,l} M_i(w, w_0)=1$

Разделяющая полоса: $\{x:-1 \leq \langle w, x \rangle - w_0 \leq 1 \}$

Ширина полосы: $\frac{\langle x_+-x_-, w\rangle}{||w||}=\frac{2}{||w||} \to max$


### Переход к линейно неразделимой выборке
Постановка задачи в случае линейно разделимой выборки:
$\begin{cases}
\frac{1}{2}||w||^2 \to min_{w, w_0} \\
M_i(w, w_0)\geq1, i=1,...,l
\end{cases}$

Общий случай - линейно неразделимая выборка:
$\begin{cases}
\frac{1}{2}||w||^2 + C\sum_{1 \leq i \leq l}\xi_i \to min_{w, w_0, \xi} \\
M_i(w, w_0)\geq1-\xi_i, i=1,...,l \\
\xi_i \geq 0, i=1, ..., l
\end{cases}$
Исключая $\xi$ получаем задачу безусловной минимизации: $C\sum_{1 \leq i \leq l}(1-M_i(w, w_0))_++\frac{1}{2}||w||^2 \to min_{w, w_0}$ 


### Условия Каруша-Куна-Таккера
Задача математического программирования:
$\begin{cases}
f(x) \to min_x \\
g_i(x) \leq 0, i=1, ..., m \\
h_j(x)=0, j=1, ..., k
\end{cases}$

Необходимые условия. Если х-точка локального минимума, то существуют множители $\mu_i, i=1,...,m; \lambda_j, j=1,...,k$:
$\begin{cases}
\frac{\partial \mathcal{L}}{\partial x}=0, \mathcal{L}(x, \mu, \lambda)=f(x)+\sum_{1 \leq i \leq m}\mu_ig_i(x)+\sum_{1 \leq j \leq k}\lambda_jh_j(x) \\
g_i(x) \geq 0, h_j(x)=0 \ (исходные\ ограничения)\\
\mu_i\leq0\ (двойственные\ ограничения)\\
\mu_ig_i(x)=0\ (условие\ дополняющей\ нежесткости)
\end{cases}$


### Применение условий ККТ к задаче SVM
Функция Лагранжа:
$\mathcal{L}(w, w_0, \xi, \lambda, \eta)=\frac{1}{2}||w||^2-\sum_{1 \leq i \leq l}\lambda_i(M_i(w, w_0)-1)-\sum_{1 \leq i \leq l}\xi_i(\lambda_i+\eta_i-C)$

$\lambda_i$ - переменные, двойственные к ограничениям $M_i\geq1-\xi_i$

$\eta_i$ - переменные, двойственные к ограничениям $\xi_i\geq0$

$\begin{cases}
\frac{\partial \mathcal{L}}{\partial w}=0, \frac{\partial \mathcal{L}}{\partial w_0}=0, \frac{\partial \mathcal{L}}{\partial \xi}=0\\
\xi_i\geq0, \lambda_i\geq0, \eta_i\geq0, i=1,...,l\\
\lambda_i=0\ либо\ M_i(w, w_0)=1-\xi_i,i=1,...,l\\
\eta_i=0\ либо\ \xi_i=0, i=1,...,l
\end{cases}$


### Двойственная задача

$\begin{cases}
-\sum_{1 \leq i \leq l}\lambda_i + \frac{1}{2}\sum_{1 \leq i \leq l}\sum_{1 \leq j \leq l}\lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle \to min_{\lambda} \\
0 \leq \lambda_i \leq C, i=1,...,l \\
\sum_{1 \leq i \leq l}\lambda_i y_i=0
\end{cases}$

Решив эту задачу численно относительно $\lambda_i$, получаем линейный классификатор $a(x)=sign(\sum_{1 \leq i \leq l}\lambda_i y_i \langle x_i, x \rangle -w_0)$, где $w_0=\sum_{1 \leq i \leq l}\lambda_i y_i \langle x_i, x \rangle-y_j$ для такого j, что $\lambda_j>0, M_j=1$

Объект $x_i$ называется опорным, если $\lambda_i \neq 0$

## Метод опорных векторов. Обобщение для нелинейного случая

### Двойственная задача

$\begin{cases}
-\sum_{1 \leq i \leq l}\lambda_i + \frac{1}{2}\sum_{1 \leq i \leq l}\sum_{1 \leq j \leq l}\lambda_i\lambda_j y_i y_j \langle x_i, x_j \rangle \to min_{\lambda} \\
0 \leq \lambda_i \leq C, i=1,...,l \\
\sum_{1 \leq i \leq l}\lambda_i y_i=0
\end{cases}$

Решив эту задачу численно относительно $\lambda_i$, получаем линейный классификатор $a(x)=sign(\sum_{1 \leq i \leq l}\lambda_i y_i \langle x_i, x \rangle -w_0)$, где $w_0=\sum_{1 \leq i \leq l}\lambda_i y_i \langle x_i, x \rangle-y_j$ для такого j, что $\lambda_j>0, M_j=1$

Объект $x_i$ называется опорным, если $\lambda_i \neq 0$


### Двойственная задача: нелинейное обобщение SVM
(Меняем салярное произведение векторов на функцию $K(x_i, x_j)$)

$\begin{cases}
-\sum_{1 \leq i \leq l}\lambda_i + \frac{1}{2}\sum_{1 \leq i \leq l}\sum_{1 \leq j \leq l}\lambda_i\lambda_j y_i y_j K(x_i, x_j) \to min_{\lambda} \\
0 \leq \lambda_i \leq C, i=1,...,l \\
\sum_{1 \leq i \leq l}\lambda_i y_i=0
\end{cases}$

Решив эту задачу численно относительно $\lambda_i$, получаем линейный классификатор $a(x)=sign(\sum_{1 \leq i \leq l}\lambda_i y_i K(x_i, x_j) -w_0)$, где $w_0=\sum_{1 \leq i \leq l}\lambda_i y_i K(x_i, x_j)-y_j$ для такого j, что $\lambda_j>0, M_j=1$

Объект $x_i$ называется опорным, если $\lambda_i \neq 0$


### Ядра для нелинейного обобщения SVM
Функция от пары объектов $K(x, \acute{x})$ называется ядром, если она представмимма в виде скалярного произведения $K(x, \acute{x})=\langle \varphi(x), \varphi(\acute{x})\rangle$ при некотором преобразовании $\varphi:X\to H$ из пространства признаков Х в новое пространство Н.

Признак $f_i(x)=K(x_i, x)$ - это оценка близости объекта х к опорному объекту $x_i$. Выбирая опорные объекты, SVM осуществляет отбор признаков в линейном классификаторе $a(x)=sign(\sum_{1 \leq i \leq l}\lambda_iy_iK(x_i, x)-w_0)$

Примеры ядер:
 - $K(x, \acute{x})=(\langle x, \acute{x} \rangle+d)^d$ полиномиальная разделяющая поверхность 
 - $K(x, \acute{x})=\sigma(\langle x, \acute{x} \rangle)$ нейронная сеть с заданной функцией активации
 - $K(x, \acute{x})=th(k_1\langle x, \acute{x} \rangle-k_0), k_0,k_1 \geq 0$ нейросеть с сигмоидными функциями активации
 - $K(x, \acute{x})=exp(-\gamma || x, \acute{x} ||^2)$ сеть радиальных базисных функций


## Логистическая регрессия

### Задача обучения линейного классификатора
Дано:    
Обучающая выборка $X^l=(x_i, y_i)_{i=1} ^l$    
$x_i$ - объекты, векторы из множества $X=\mathcal{R}^n$   
$y_i$ - метки классов, элементы множества $Y=\{-1, +1\}$   

Линейная модель классификаци    
$a(x, w, w_0)=sign(\langle x, w \rangle-w_0)$    

Непрерывная аппроксимация бинарной фукнции потерь:
$Q(w)=\sum_{1 \leq i \leq l}[a(x_i, w)y_i<0] \geq \sum_{1 \leq i \leq l}\mathcal{L}(\langle x_i, w \rangle y_i) \to min_w$    
$M_i(w, w_0)=(\langle x_i, w \rangle-w_0)y_i$ - отступ

$\mathcal{L}(M)=log(1+e^{-M})$ - логарифмическая функция потерь


### Обоснование логарифмической функции потерь

$(x_i, y_i)_{i=1} ^l \backsim p(x, y, w)$ - выборка независимых наблюдений
Принцип максимума правдоподобия: $L(w)=log\prod p(x_i, y_i, w)=\sum_{1 \leq i \leq l}log P(y_i|x_i, w)p(x_i) \to max_w$

Вероятностная модель порождения данных с параметром w
- p(x) не зависит от параметра модели w
- $P(y|x, w)$ описывается линейной моделью классификации

$P(y_i|x_i, w)=\frac{1}{1+exp(-\langle x_i, w \rangle y_i}=\sigma(\langle x_i, w \rangle y_i)$, $\sigma(M)=\frac{1}{1+e^{-M}}$ - сигмоидная функция

Тогда задачи $Q(w) \to min$ и $L(w) \to max$ эквивалентны: $Q(w)=\sum_{1 \leq i \leq l}log(1+exp(-\langle x_i, w \rangle y_i)) \to min_w$


### Оптимизация параметров логистической регрессии
- Метод первого порядка - стохастический градиент: $w^{(t+1)}:=w^{(t)}+\eta_t y_i x_i (1-\sigma_i)$
$\eta_t$ - градиентный шаг, $\sigma_i=\sigma(\langle x_i, w \rangle y_i)=P(y_i|x_i)$ - вероятность правильной классификации х
- Метод второго порядка приводит к IRLS $w^{(t+1)}:=w^{(t)}+\eta_t(F^T\Delta F)^{-1}F^T\tilde{y}$, F - матрица объекты-признаки, $\tilde{y}=(y_i(1-\sigma_i))$ - модифицированный вектор ответов, $\Delta=diag((1-\sigma_i)/\sigma)$ - диагональная матрица

## Пример применения логистической регрессии

Кредитный скоринг

Оценка риска (математического ожидания) потерь объекта: $R(x)=\sum_{y \in Y}D_{xy}P(y|x)=\sum_{y \in Y}D_{xy}\sigma(\langle w, x \rangle y)$, $D_{xy}$ - величина потери для (x, y) 

Методика VaR (Value at Risk)
Оценка функции распределения потерь:
 - для каждого $x_i$ разыгрывается N раз исход $y_i \sim P(y|x_i)$
 - строится эмпирическое распределение потерь $V=\sum_{1 \leq i \leq l}D_{x_i, y_i}$
 - 99% квантиль эмпирического распределения определяет величину резервируемого капитала

## Регуляризованная логистическая регрессия

$L_2$ регуляризация решает проблему мультиколлинеарности (сокращает веса линейно зависимых признаков): $Q(w)=\sum_{1 \leq i \leq l} log(1+exp(-\langle w, x_i\rangle y_i))+\tau\sum_{1 \leq j \leq l}w_j ^2 \to min_w$

$L_1$ - регуляризация имеет эффект отбора признаков (обнуляет веса неинформативных признаков): $Q(w)=\sum_{1 \leq i \leq l} log(1+exp(-\langle w, x_i\rangle y_i)) + \tau\sum_{1 \leq j \leq l} |w_j| \to min_w$

Комбинация - ElasticNet (оставляет информативные признаки при линейной зависимости)

## Метрики качества классификации

### Постановка задачи 
Дано:    
Выборка $X^l=(x_1, ..., x_l)$    
$y_i=y(x_i) \in \{0, 1\}, i=1, ..., l$ - известные бинарные ответы 
$a: X \to Y$ - алгоритм, решающая функция, приближающая y на всем множестве объектов Х

### Accuracy
Доля правильных ответов на выборке: $\frac{1}{l}\sum_{1 \leq i \leq l}[a(x_i)=y_i]$
 - соответствует интуитивным представлениям и качестве классификации
 - имеет проблемы с интерпретацией на несбалансированныхх выборках
 
Смотреть на базовую долю правильных ответов $BaseRate=argmax_{y_0 \in \{0, 1\}}\frac{1}{l}\sum_{1 \leq i \leq l}[y_0=y_i]$

### Матрица ошибок
У разных типов ошибки разная цена
$
 \begin{pmatrix}
 Param & y=1 & y=0 \\
  a(x)=1 & True Positive(TP) & False Positive(FP)\\
  a(x)=0 &  False Negative(FN) & True Negative(TN)
 \end{pmatrix}
$

$accuracy=\frac{TP+TN}{TP+FP+FN+TN}$


### Точность и полнота
Точность (precision) - насколько можно доверять классификатору: $precision=\frac{TP}{FP+TP}$. Чем выше точность тем меньше ложных срабатываний    
Полнота (recall) - как много объектов класса 1 находит классификатор: $recall=\frac{TP}{TP+FN}$. Чем выше полнота тем меньше ложных пропусков


### Усреднение точности и полноты
Арифметическое среднее не дает выбрать более качественный алгоритм
Гармоническое среднее - F-мера : $F=\frac{2*precision*recall}{precision+recall}$

### Постановка задачи 
Дано:    
Выборка $X^l=(x_1, ..., x_l)$    
$y_i=y(x_i) \in \{0, 1\}, i=1, ..., l$ - известные бинарные ответы 
$b: X \to \mathbb{R}$ - алгоритм, оценивающий принадлежность х к классу


### Оценки принадлжности к классу
Классификатор имеет вид: $a(x)=[b(x)>t]$, b(x) - оценка принадлежности к классу 1, t - порог классификации


### PR-кривая
- Отсортируем объекты по возрастанию оценки алгоритмом
- Перебираем все пороги классификации, начиная с максимального
- Для каждого порого считаем точность и полноту
- На график наносим соответствующую точку
- Соединяем точки и получаеем искомую кривую

Свойства: левая точка всегда в (0, 0); правая точка в $(1, l_+/l)$ - число объектов класса 1 в выборке => чем больше площадь под кривой, тем лучше алгоритм AUC-PRC (area under precision-recall curve) - мера качества для алгоритма (точность нормируется на число положительных прогнозов и может изменится при перемене соотношения классов; максимально возможная площадь зависит от соотношения классов; подходит при сильном дисбалансе классов)


### ROC-кривая
reciever operating characteristics     
По оси х откладывается False Positive Rate - доля ошибочных положительных классификаций: $FPR=\frac{FP}{FP+TN}$   
1-FPR - специфичность алгоритма    
По оси y откладывается True Positive Rate - доля правильных положительных классификаций: $TPR=\frac{TP}{TP+FN}$   
TPR - чувствительность алгоритма   

Свойства: левая точка всегда в (0,0); правая точка всегда в (1,1); если выборка идеально разделима, то существует (0,1); чем больше площадь тем лучше качество => AUC-ROC (Area under ROC-curve) - мера качества для алгоритма (метрики качества нормируются на размеры класса; интерпретация - площадь под кривой равна вероятности того, что случайно взятый объект класса 1 получит оценку выше, чем случайно взятый объект из класса 0; проблема с дисбалансом классов)

## Многоклассовая классификация

### Постановка задачи 
Дано:    
Выборка $X^l=(x_1, ..., x_l)$    
$y_i=y(x_i) \in \{0, ..., K\}, i=1, ..., l$ - известные ответы 
Нужно найти $a: X \to Y$ - алгоритм, решающая фукнция


### One-vs-All
Строим К классификаторов, отделяющих каждый класс от остальных. 
Получаем К задач бинарной классификации:
 - $X^i=x^l$ объекты для обучения
 - $y_i ^j = [y_j=i]$ ответы
 - $b_i(x) \in \mathbb{R}$ оценка принадлежности
 
 $a(x)=argmax_{k=1,...,K} b_k(x)$ - получившийся алгоритм (проблема с несбалансированными выборками)
 
 
### All-vs-All
Строим классификаторы для каждой пары классов
Получаем К(К-1) задач бинарной классификации:
 - $X^{km}=\{x \in X^l | y(x)=k\ y(x)=m \}$ - выбираем объекты
 - $y_j ^km=[y_j=k]$ - ответы
 - $b_{km}(x) \in \mathbb{R}$ - оценка принадлежности
 - $b_{km}(x) = - b_{mk}(x)$ - свойство симметрии
 
 $a(x)=argmax_{k=1,...,K} \sum_{i \leq m \leq K}b_{mk}(x)$ - получившийся алгоритм
 
 
### Метрики качества
Доля правильных ответов
Матрица ошибок
Микро-усреднение: найти TP, FP, FN, TN для каждой задачи; усреднение по всем задачам; вычисление итогой метрики (зависит от размера класса)
Макро-усреднение: вычисление итоговой метрики для каждой задачи; усреднение по кдассам (классы вносят равный вклад)

In [None]:
bsi73&$hd