# AI Community @ Семинар № 6
## Оптимизация. Градиентный спуск.

### Оптимизация в контексте машинного обучения
Разберем на примере.

Задача: рассмотрим задачу классификации. 
$$X^\ell = \left\{ (x_i, y_i) \right\}_{i=1}^\ell, x_i \in \mathbb{R}, y_i \in \{+1, -1\}$$

Применим для решения _разделяющий классификатор_:

$$ a(x, w) = \text{sign}(g(x, w)) = [g(x, w) > 0] - [g(x, w) < 0], $$

где $[P(x)] = \begin{cases}
1, & P(x)\ \text{истинно;} \\
0, & \text{иначе.}
\end{cases}$, $w \in \mathbb{R}^n.$

__Определения__. $w$ — _параметры модели, веса_.  
$g(x, w)$ — _разделяющая (дискриминантная) функция_.  
$g(x, w) = 0$ — уравнение _разделяющей поверхности_.  

__Определение__. _Отступ_ (margin) объекта $x_i$ представляет собой следующее выражение:
$$ M_i(w) = g(x_i, w) y_i$$

Физический смысл: $M_i(w) < 0 \Leftrightarrow$ $a(x, w)$ ошибается на $x_i$.

![Типы объектов по их отступу](images/margins.png)

__Определение__. _Функцией потерь_ на объекте $(x, y)$ для разделяющего классификатора $a(x, w) = \text{sign}(g(x, w))$ называется следующая функция:
$$ \mathcal{L}(w, x, y) = \left[ M_i(w) < 0 \right] = \left[ g(x_i, w) y_i < 0 \right]$$


__Определение__. _Эмпирическим риском_ разделяющего классификатора $a(x, w) = \text{sign}(g(x, w))$ на выборке $X^\ell$ называется следующая функция:

$$Q(w) = \sum_{i=1}^\ell \mathcal{L}(w, x_i, y_i) = \sum_{i=1}^\ell \left[ g(x_i, w) y_i < 0 \right]$$

Таким образом эмпирический риск подсчитывает количество ошибок, которые совершает классификатор на выборке. Его минимизация уменьшит количество ошибок. Другими словами — при минимизации эмпирического риска алгоритм будет обучаться. Таким образом, решение задачи классификации мы свели к _задаче оптимизации_:

$$ Q(w) \rightarrow \min_w$$

К сожалению, выбранная нами функция потерь не является дифференцируемой, что осложняет ее оптимизацию. В этом случае производят оптимизацию ее верхней оценки.

__Определение__. _Верхней оценкой_ $\tilde{Q}(w)$ функции $Q(w)$ называют функцию, удовлетворяющую следующему условию:

$$ \forall w \in \mathcal{R}^n: Q(w) \leqslant \tilde{Q}(w) $$

На практике используют множество верхних оценок.

![Различные функции потерь](images/losses.png)

### Градиентный спуск

Пусть мы выбрали функцию $L(M)$ (произвольную). 

Затем, для обучения требуется решить следующую оптимизационную задачу:
$$ Q(w) = \sum_{i=1}^\ell L(M_i(w)) = \sum_{i=1}^\ell L(g(x_i, w) y_i) \rightarrow \min_{w}$$

Для ее решения применяют градиентный спуск:

$$ w^{(0)} := \text{начальное приближение}$$
$$ w^{(t+1)} := w^{(t)} - h \cdot \nabla Q(w^{(t)}) = w^{(t)} - h \cdot \sum_{i=1}^\ell \nabla L(M_i(w^{(t)}))$$
$$ \nabla Q(w) = \left( \frac{\partial Q}{\partial w_j}(w) \right)_{j=1}^n (w \in \mathbb{R}^n)$$

В этом алгоритме $h$ называют _темпом обучения_ (learning rate). Один проход метода по всей выборке называется _эпохой_.

Заметим, что на каждом шаге используется сразу вся выборка. Это вычислительно затратно, поэтому на практике используют _стохастический_ градиентный спуск — вместо всей выборки шаг делается для одного объекта.

$$ w^{(t+1)} := w^{(t)} - h \cdot \nabla L(M_i(w^{(t)})$$

_Замечание_. В стохастическом градиентном спуске шаг и эпоха — это разные вещи. 

Источники:  
[1] Лекции Константина Воронцова по машинному обучению: http://www.machinelearning.ru/wiki/images/5/53/Voron-ML-Lin-SG.pdf