# Градиент

Сегодня поговорим о таком понятии, как градиент. Он нужен, чтобы находить параметры (веса) нашей сети.  
Как их найти? Если вспомним материалы ранее, то поймем, что веса мы ищем такие, чтобы минимизировать наш функционал качества.
Как минимизировать функционал качества? Конечно же найти производную... Если мы имеем всего 1 параметр.  
Однако если весов куда больше, чем 1, то на помощь нам поможет **"производная" для n-мерного измерения, и называется она - градиент**.

## Модель
Рассмотрим первую простую модель линейной регрессии, которая выглядит так:
$$
y = \sum_{i=1}^{n} w_ix_i + b,
$$
где $x_i$ - входы модели, $y$ - выход, $w_i$ и $b$ - параметры модели, которые мы будем обучать.

Заметим, что сумма $\sum_{i=1}^{n} w_ix_i$ является скалярным произведением векторов $\vec{w} = (w_1, w_2, ..., w_n)$ и $\vec{x} = (x_1, x_2, ..., x_n)$, поэтому нашу модель можно записать проще:
\begin{equation*}
y = \vec{w}^T \vec{x} + b
\end{equation*}

Проделаем, небольшой трюк, который ещё больше облегчит запись. Для этого перенесём смещение $b$ в конец вектора $\vec{w}$, а в $\vec{x}$ допишем фиктивную единицу, получим $\vec{w} = (w_1, w_2, ..., w_n, b)$, $\vec{x} = (x_1, x_2, ..., x_n, 1)$. Таким образом, придём к записи:
\begin{equation*}
y = \vec{w}^T \vec{x}
\tag{1}
\end{equation*}
В дальнейшем в качестве нашей модели будем использовать именно последнее вырадение.

## Функционал потерь

Пусть имеется выборка $X^{N} = (x_i)^{N}_{i=1}, Y^N = (y_i)^N_{i=1}$. Воспользуемся описанной ранее функцией **среднеквадратической ошибки (MSE - Mean Squarred Error)**:
$$
\begin{equation*}
MSE = \frac{1}{N} \sum_{i=1}^N (y_i-g(x_i|\theta))^2
\tag{2}
\end{equation*}$$,
где $x_i$ - входной вектор размера n. $y_i$ - ответ в виде числа, $g(x_i|\theta)$ - модель, $\theta$ - параметры модели. Подставив линейную регрессию (1) вместо модели $g$ в наш функционал потерь получим:
$$
\begin{equation*}
MSE = \frac{1}{N} \sum_{i=1}^N (y_i-\vec{w}^T \vec{x_i})^2
\tag{3}
\end{equation*}$$

Большинство алгоритмов машинного обучения в том или ином виде включает оптимизацию, т.е. нахождение минимума или максимума функции f(x) при изменении x. Обычно задачу оптимизации формулируют в терминах нахождения минимума. Для нахождения максимума достаточно применить алгоритм минимизации к функции –f(x). Функция, для которой мы ищем минимум или максимум, называется *целевой функцией*. Если речь идет о минимизации, то употребляют также 
термины *функция стоимости*, *функция потерь* или *функция ошибок*. В этом курсе все эти термины будут использоваться как синонимы.

Мы дожны спроектировать алгоритм машинного обучения, который, наблюдая обучающую выборку $X^N, Y^N$, улучшает веса модели $\vec{w}$ таким образом, чтобы функционал качетва MSE был наименьшим. 

# Небольшое отступление

Предполагается, что слушатели курса знакомы с основами математического анализа и линейной алгебры, но всё же сделаем краткий обзор некоторых необходимых понятий. 

Пусть дана дифференцируемая функция $f(x)$. Точки, в которых $f′(x) = 0$, называются *критическими*, или *стационарными*. 

*Локальным минимумом* называется точка, в которой $f(x)$ меньше, чем во всех точках 
малой окрестности, поэтому уменьшить $f(x)$ путем изменения аргумента $x$ на небольшую величину невозможно. *Локальным максимумом* называется точка, в которой $f(x)$ больше, чем во всех точках малой окрестности, поэтому невозможно увеличить $f(x)$ путем изменения аргумента $x$ на небольшую величину. Некоторые критические 
точки не являются ни минимумами, ни максимумами. Они называются *седловыми
точками*. Далее на рис. показаны примеры всех критических точек.

Для функций нескольких переменных следует ввести понятие частной производной. Пусть $f(x_1, x_2, ..., x_n)$ - функция от нескольких переменных. Для удобства введём вектор $x = (x_1, x_2, ..., x_n)$. 

*Частная производная* $\delta/\delta x_i f(x)$ показывает, как изменяется $f$ при изменении 
аргумента $x$ только в одном направлении $x_i$. *Градиент* обобщает понятие производной 
на вектор: *градиентом* функции $f$ называется вектор всех ее частных производных, 
он обозначается $\nabla_x f(x)$. i-м элементом градиента является частная производная $f$ по 
$x_i$: 

$$\nabla_x f(x) = (\frac{\delta f}{\delta x_1}, \frac{\delta f}{\delta x_2}, ..., \frac{\delta f}{\delta x_n}).$$ 

В многомерном случае критическими называются точки, в которых все элементы 
градиента равны 0.

И, наконец, запишем несколько полезных свойств градиента:

\begin{equation*}
\nabla_w \vec w^T \vec a =  \vec a
\tag{4}
\end{equation*}

\begin{equation*}
\nabla_w \vec w^T \vec w = 2 \vec w
\tag{5}
\end{equation*}

\begin{equation*}
\nabla_{\vec w} \vec w^TA \vec w = (A+A^T) \vec w
\tag{6}
\end{equation*}

Где $a, w$ - векторы длины $n$, $A$ - матрица $n \times n$. Предлагается доказать данные свойства самостоятельно в качестве упражнения.

# Точная формула

Для минимизации MSE мы можем просто приравнять градиент по w к 0 и решить получившееся уравнение:
$$\nabla_{\vec{w}} MSE = 0$$
$$\nabla_{\vec{w}} \frac{1}{N} \sum_{i=1}^N (\vec{w}^T \vec{x_i}-y_i)^2  = 0
$$

Перепишем уравнение в векторную форму, воспользовавшись умножением матриц $X=X^N, Y=Y^N$.
$$\nabla_{\vec{w}}(X\vec{w} - Y)^T(X\vec{w}-Y)=0$$

Раскрывая скобки, получаем:
$$\nabla_{\vec{w}}(\vec{w}^T X^T X \vec w - \vec w^TX^TY - Y^T \vec w X + Y^T Y) = 0$$

Возьмём градиент по $\vec w$, пользуясь правилами (4)-(6).
$$2X^T X \vec w - 2X^T Y = 0$$
$$\vec w = (X^T X)^{-1} X^T Y$$

Заметим, что обратная матрица $(X^T X)^{-1}$ может существовать не всегда. Для решения этой проблемы воспользуемся псевдоинверсией, обозначив её как $+$.

\begin{equation*}
\vec w = (X^T X)^+ X^T Y
\tag{7}
\end{equation*}

Вот так выглядит **градиент функции MSE**:

<td> <img src="images/MSE.png" alt="Drawing" style="width: 820px;height: 500px"/> </td>

# Градиентный спуск



На практике точную формулу использовать неудобно. Во-первых обратной матрицы может и не существовать, а во-вторых вычисление обратной матрицы занимает n^3 итераций, где n-количество чисел в матрице. Так, например, чтобы вычислить обратную матрицу размером 1000x1000 нам потребуется 1000x1000x1000 операций($10^9$). Понятно что на практике матрицы могут быть и больше размерностей.

На помощь приходит такое понятие как **градиентный спуск**. Если говорить простым языком, то это можно **сравнить с тем, как мы спускаемся с горы**.

Допустим, мы стоим на горе. Тогда мы должны **посчитать в какую сторону нам двигаться**, чтобы сделать шаг. Считается это очень просто, все так же с помощью градиента от функции. Мы получаем вектор, который указывает в сторону скорейшего возрастания. Берем его с минусом и получаем сторону скорейшего убывания. Именно в ее сторону нам нужно двигаться.

Теперь **мы должны определиться насколько большим хотим сделать наш шаг**. С одной стороны, шагая медленно мы будем очень долго спускаться, но зато точно не пропустим наш минимум. С другой стороны, делая большие шаги, мы можем просто перешагнуть наш минимум и пойти дальше. Такие **параметры обычно подбираются вручную**. Поэтому в нейронных сетях их принято называть **гиперпараметры**.

##### Давайте составим наш алгоритм

1) Выбираем насколько большие хотим делать наши шаги. По-другому это называется learning rate. То есть скорость обучения. $lr = const$

2) Выбираем случайные веса (нашу начальную точку с которой мы будем идти). $\vec w = random$

3) Считаем антиградиент и шагаем в его сторону. Шаг мы делаем с помощью прибавления шага к нашей текущей точке: $\vec w = \vec w -\nabla_{\vec{w}}MSE * lr$

4) **Делаем предыдущий шаг**, либо до тех пор, **пока мы не достигнем минимума**, либо **пока у нас не закончится допустимое число шагов**. Это тоже является гиперпараметром, и нужен для того, чтобы остановить наше обучение, в случае если мы уйдем на графике в какое-нибудь плато. Соответственно, **если у нас слишком маленький шаг, то мы можем быстрее выйти из цикла из-за числа шагов, так и не достигнув минимума**.

4.1) $\nabla_{\vec{w}}MSE * lr < \epsilon$ - выход из цикла, когда достигнем минимума.

4.2) for i in range(epochs) - выход из цикла, при определенном количестве шагов(эпох)

![title](images\gradient_descent_surf_example.png)

# Стохастический градиентный спуск



Но даже алгоритм выше будет не столь эффективен из-за того, что вычисляет градиент функции на каждом шаге. 

А что, если **нам вычислять градиент не всех весов, а только одного** на каждом шаге? Тогда алгоритм будет работать достаточно быстро. Это можно сравнить, как если бы мы вычисляли средний рост студентов не по всей выборке студентов ВУЗа, а взяли лишь рандомного студента и измерили его рост.

Из этого легко понять, что наш график будет вести себя совсем по другому, нежели с обычным градиетным спуском.

Однако, у этого метода есть несколько больших плюсов:

1) Он гораздо быстрее, нежели пользоваться обычным градиетным спуском.  
2) Из-за своей особенности, он, возможно, пропустит локальные минимумы и найдет глобальный.

А теперь сравним сходимость двух алгоритмов:

### Градиентный спуск

![title](images\GD_trajectory.png)

### Стохастический градиентный спуск

![title](images\SGD_trajectory.png)

# Побатчевый градиентный спуск



Как это было видно выше, это далеко не идеальный алгоритм. Попробуем пофиксить проблемы, прошлого алгоритма.

Самое очевидное, это будет **использование не одного критерия для градиента, а сразу нескольких (batch)**. То есть теперь **мы выбираем не одного студента из ВУЗа и ищем его рост, а сразу нескольких студентов**. Это будет все еще намного быстрее, чем брать всю выборку целиком. Однако, это будет намного лучше, если брать 1 рандомного студента.  

Выбирать размер batch нам придется самим, это может быть как 10 объектов из выборки, так и 1/5 нашей выборки. Чем больше это число, тем точнее, но дольше будет работать наш алгоритм.

# Инерционный градиетный спуск

Как видно из рисунка чуть выше, при обычном стохастическом градиентном спуске мы движемся совсем не к центру. Тогда **можно попробовать это исправить, складывая предыдущие результаты нашего градиента. Такой метод называется инерционным**. 

# Лучший градиентный спуск

Мы уже поняли, что методов оптимизации есть достаточно много. **Попытка собрать их все вместе была реализована в градиентном спуске, который называется Adam**. Он считается статистически лучшим спуском, однако это не говорит о том, что он подходит для всех задач. Можно сказать, что для выборки из всех задач будет лучший именной градиентный спуск Adam.

![title](images/grad_spusk2.png)

Поэтому в дальнейших задачах мы будем использовать именно Adam. Его формула выглядит следующим образом:  

![title](images/Adam.png)

Запоминать и понимать эту формулу совсем необязательно) Она уже встроена во все библиотеки. Важно лишь понимать, что в одной формуле собраны все приемы рассмотренные ранее и даже больше. 

* Если кто хочет дополнительно ознакомиться с методами градиентного спуска, есть статья на хабре - https://habr.com/ru/post/318970/

Там очень много методов, в том числе с иллюстрациями их работы. Может быть интересно.