# Градиентный спуск
Градиентные методы - общий подход для обучения моделей (не всегда возможно решить задачу аналитически)


Антиградиент указывает в сторону наискорейшего убывния функции. 

Это можно использовать для поиска минимума функции (минимизация функционала ошибки, например, MSE).

### Алгоритм
1. Стартуем из случайной точки
2. Сдвигаемся по антиградиенту
3. Повторяем, пока не окажемся в точке минимума


### Пример
Один признак

Модель:
$$a(x)=w_1 x + w_0$$

Два параметра: $w_0$ и $w_1$

Функционал ошибки MSE:
$$\displaystyle {Q(w_0, w_1) = \frac{1}{l} \sum _{i=1}^{l}{(w_1 x_i + w_0 - y_i)^2}}$$

<img src='images/MSE.png'>

$$\displaystyle {Q(w_0, w_1) = \frac{1}{l} \sum _{i=1}^{l}{(w_1 x_i + w_0 - y_i)^2}}$$
Счиаем частные производные по каждому из весов:
$$\frac {\partial Q}{\partial w_1} = \frac {2}{l} \sum _{i=1} ^{l} x_i (w_1 x_i + w_0 -y_i)$$

$$\frac {\partial Q}{\partial w_0} = \frac {2}{l} \sum _{i=1} ^{l} (w_1 x_i + w_0 -y_i)$$

Градиент (вектор с двумя компонентами):

$$\nabla Q(w) = (\frac {2}{l} \sum _{i=1} ^{l} x_i (w_1 x_i + w_0 -y_i), \frac {2}{l} \sum _{i=1} ^{l} (w_1 x_i + w_0 -y_i))$$

## Алгоритм градиентного спуска Full GD
### Начальное приближение
Сначала нужно как-то инициализировать веса ($w^0$, 0 - номер итерации). Можно сгенерировать веса из стандартного нормального распределения. 

### Шаг алгоритма (повторять до сходимости)
$$w^t = w^{t-1} - \eta \nabla Q(w^{t-1})$$
- $t$ - номер итерации
- $w^t$ - новая точка
- $\eta$ - размер шага
- $\nabla Q(w^{t-1})$ - градиент в предыдущей точке

Остановить процесс, если:
- вектор весов почти не меняется $||w^t - w^{t-1}|| < \epsilon$
или 
- если норма градиента близка к нулю $||Q(w^{t})|| < \epsilon$

Построить 2 графика (именения w0 w1) и прямая по точкам

Если признаков много:
$$\displaystyle {Q(w) = \frac{1}{l} \sum _{i=1}^{l}{(<w, x> - y_i)^2}}$$

$$\frac {\partial Q}{\partial w_1} = \frac {2}{l} \sum _{i=1} ^{l} x_{i1} (<w, x> -y_i)$$
$$\frac {\partial Q}{\partial w_d} = \frac {2}{l} \sum _{i=1} ^{l} x_{id} (<w, x> -y_i)$$

$$\nabla Q(w) = \frac {2}{l} X^T (Xw -y)$$

### Проблема локальных минимумов
- Локальный минимум - точка, в некоторой окрестности которой нет более маленьких значений
- Глобальный минимум - самая низкая точка функции
- Если функция выпуклая (например MSE), то у неё один глобальный=локальный минимум
- Другие функции потерь могут не быть выпуклыми
<img src='images/local_min.png'>
- Цель - найти глобальный минимум (там меньше ошибка модели), но это не всегда возможно

- Если стартуем из неудачной точки, то находим только локальный минимум (и застреваем там)
<img src='images/local_min2.png'>
- Поэтому градиентный спуск находит __локальный минимум__
- Можно использовать мулитистарт (запуск градиентного спуска из разных начальных точек)

<img src='images/local_min3.png'>

### Длина шага
$$w^t = w^{t-1} - \eta \nabla Q(w^{t-1})$$
$\eta$ позволяет контролировать скорость обучения
- Если сделать длину шага недостаточно маленькой, градиентный спуск может разойтись
Длина шага - параметр, который нужно подбирать

Линия уровня - кривая, вдоль которой функция принимает одно и то же значение. Вид сверху на параболоид

Вектор градиента перепендикулярен линии уровня

#### Переменная длина шага
$$w^t = w^{t-1} - \eta _t \nabla Q(w^{t-1})$$
Длину шага можно менять в зависимости от шага
Например, $$\eta _t = \frac{1}{t}$$. Чем больше итераций сделано, тем меньше шаг
Или $$\eta _t = \lambda(\frac{s}{s+t})^p$$ Дополнительные параметры

#### Масштабирование признаков
- Алгоритм может разойтись, если признаки имеют разные масштабы (линии уровня вытянутые), эллипс, а не круг

$$x_i ^j = \frac{x_i ^j - \mu _j}{\sigma_j}$$

## Стохастический градиентный спуск SGD
Для вычисления обычного градиента, для каждой частной производной происходит суммирование по всей обучающей выборке. Она может быть очень большой. Это нужно делать для каждого шага (на каждой итерации).
Для этого требуется слишком много вычислений. 

Будем шагать не по среднему по всем градиентам, а по градиенту одного объекта (одного слагаемого из функционала ошибки).

## Алгоритм стохастического градиентного спуска

1. Начальное приближение $w^0$
2. Шаг алгоритма 
Повторять, каждый раз выбирая случайных объект $i_t$
$$w^t = w^{t-1} - \eta \nabla L(y_{i_{t}}, a(x_{i_{t}}))$$
Берём значение функции потерь на объекте $i_t$

3. Остановить процесс, если вектор весов почти не меняется $||w^t - w^{t-1}|| < \epsilon$

Траектория стохастического градиентного спуска будет более ломанной, и в конце будет сложно попасть в минимум. Здесь очень важная уменьшающаяся длина шага

Для сходимости SGD требуется гораздо больше итераций, чем для Full GD, но каждый шаг очень быстрый

### Mini-batch SGD
То же самое, что и SGD, но шаг делается по нескольким случайным объектам (batch, пакет)

SGD можно применять на больших выборках, не помещающихся в RAM

## Другие модификации GD
###  Проблемы градиентного спуска:
1. Сложные линии уровня (если линии уровня имеют форму эллипса, первые шаги будут выглядеть как осцилляции (колебания), а не движение в направлении к минимуму). Будет трактория зигзага и много лишних итераций. Чем меньше линии уровня похожи на окружности, тем сложнее градиентному спуску двигаться. Это может произойти из-за немасштабированных признаков или сложной функции потерь.
2. Разная скорость сходимости по разным параметрам
### Градиентный спуск с инерцией (momentum)
$$h_t = \alpha h_{t-1} + \eta _t \nabla Q (w^{t-1})$$

$$w^t = w^{t-1} - h_t$$

- $h_t$ - инерция, усредненное направление движения, обновляется на каждом шаге
- $\alpha$ - параметр затухания (обычно 0.9), гиперпараметр
- $\eta_t$ - длина шага
- _Как будто шарик, который катится в сторону минимума, очень тяжёлый_
- Копим в $h_t$ среднее значение градиента со всех прошлых шагов. Экспоненциально-затухающее среднее. Берём все прошлые значения, умножаем на $\alpha$ и прибавляем новый градиент. Чем раньше был какой-то градиент, тем меньше он будет иметь вклад в $h_t$. 
- Метод очень популярен в глубоком обучении в задачах машинного зрения

Без инерции
<img src='images/gd_momentum.png'>

С инерцией
<img src='images/gd_momentum2.png'>

Осцилляции быстро убывают. 

### Nesterov momentum
$$h_t = \alpha h_{t-1} + \eta _t \nabla Q (w^{t-1} - \alpha h_{t-1})$$

$$w^t = w^{t-1} - h_t$$

- $w^{t-1} - \alpha h_{t-1}$ - неплохая оценка того, куда мы попадём на следующем шаге
- шагаем в направлении $\alpha h_{t-1}$, считаем градиент в этой точке и "дошагиваем" по этому антиградиенту дальше

#### Проблема с разреженными данными
Например, в модели есть категориальные признаки и использовалось one-hot кодирование. По редким бинарным признакам (редкая категория) шаги могут быть очень маленькими, так как объект с редкой категорией может встретитьсся уже ближе к концу работу алгоритма, когда шаги очень маленькие. Веса будут настраиваться хуже.

#### Проблема с разным масштабом
Какой-то признак может меняться в диапазоне от 0 до 1, а какой-то от 0 до 1 млн. Тогда нужно шагать по каждому параметру с разной скоростью. Быстрее обновлять веса при признаке единичного масштаба и медленнее при признаке миллионного масштаба. 

### AdaGrad

$$G^ t _j = G^ {t-1} _j + (\nabla Q(w^{t-1}))^2 _j$$

$$w^t _j = w^{t-1} _j - \frac{\eta _t}{\sqrt{G^t _j + \epsilon} } (\nabla Q (w^{t-1}))_j$$

- В $G_j$ накапливаются квадраты градиентов по $j$ признаку, то есть частных производных по нему. Насколько сильно уже нашагали по j параметру
- Длина шага нормируется на знаменатель. Если по этому признаку много нашагали, то знаменатель большой. 
- По каждому параметру будет своя скорость
- Недостаток алгоритма $G_j$ может только расти на каждой итерации t

### RMSProp
$$G^ t _j = \alpha G^ {t-1} _j + (1-\alpha)(\nabla Q(w^{t-1}))^2 _j$$

$$w^t _j = w^{t-1} _j - \frac{\eta _t}{\sqrt{G^t _j + \epsilon} } g_{tj}$$
- Скорость зависит только от недавних шагов
- $\alpha$ обычно 0.9

### Adam
Совмешает идею инерции и своей длины шага по каждому признаку

// страшная формула

В итоге momentum позволяет избавиться от осцилляций, а методы типа AdaGrad позволяют грамотнее задавать темп движения по каждому параметру. 