# <center>Функции нескольких переменных
>Существует функция $n$ переменных $x,y,z \dots$, если по некоторому закону каждой системе $n$ чисел $(x,y,z \dots)$ из некоторого множества ставится в соответствие число $u$.

![image.png](attachment:image.png)

>Исключением из этого правила являются так называемые **векторнозначные функции**, для которых значением может быть не одно число, а несколько:
$$ f(x) = \begin{bmatrix} \cos(x) \\ \sin(x) \end{bmatrix} $$
***
**Евклидово расстояние до начала координат:**
$$ f(x,y) = \sqrt{x^2 + y^2} = \rho(M(x,y), O(0,0)) = || \vec{r} || $$
![image-2.png](attachment:image-2.png)

Также евклидово расстояние можно использовать для того, чтобы найти **расстояние между двумя точками**:
$$ f(x,y) = \sqrt{(x-1)^2 + (y-8)^2} = \rho(M(x,y), A(1,8)) $$
![image-3.png](attachment:image-3.png)

Также функцией нескольких переменных является **квадратичная функция потерь** или, как её ещё называют, $L^2$-loss функция:
$$ L^2LossFunction = \sum_{i=1}^n (y_{true} - y_{pred})^2 $$

В качестве аргументов функция $L^2$-loss принимает любые вещественные числа, а её значения могут быть любыми неотрицательными числами.

![image-4.png](attachment:image-4.png)
***
**Сигмоида** является функцией активации нейрона, которая используется при обучении нейронных сетей. Её вариацией является **логистическая функция**, используемая для решения задачи классификации. Если параметров много, то, разумеется, мы получаем её как функцию многих переменных:
$$ E(y) = \frac{\alpha}{(1+e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2)})} $$
Ровно так же, как и одномерная, она может принимать любые значения от 0 до 1 не включительно, и в качестве её аргументов могут выступать любые вещественные числа.



# <center>Частные производные
>Производные для функций нескольких переменных называются **частными производными**.

В обучении нейронных сетей есть два важных этапа:
* **Прямое распространение ошибки** (на этом этапе нейронная сеть предсказывает результат).
* **Обратное распространение ошибки** (на этом этапе нейронная сеть минимизирует разницу между реальным значением и предсказанным).

Именно на втором шаге большую роль играют частные производные, так как позволяют узнать, каков вклад каждого признака в ошибку, и это даёт возможность точно настроить модель.

$ \frac{df}{dx} $ можно интерпретировать следующим образом: «Очень маленькое изменение значения функции $f$, произошедшее вследствие очень маленького изменения аргумента $x$».  
![image.png](attachment:image.png)

**Пример**

$ f(x,y) = x^2y^3 $

$ \frac{\partial}{\partial x} f(x,y) = \frac{\partial}{\partial x}(x^2y^3) = 2xy^3 $ - воспринимаем $y$ как константу.

Также можно встретить следующие общепринятые обозначения:
$$ f'_x \leftrightarrow \frac{\partial f}{\partial x} $$
$$ f'_y \leftrightarrow \frac{\partial f}{\partial y} $$
Пусть дана функция. Чтобы найти частную производную по переменной $x_i$:
1. Фиксируем все переменные, кроме $x_i$.
2. Считаем приращение функции при изменении только этой переменной.
3. Делим приращение из пункта 2 на приращение нашей переменной.
4. Уменьшаем $\Delta x_i$ и получаем $\frac{\partial f}{\partial x_i}$.

Для вторых производных используются следующие обозначения:
![image-2.png](attachment:image-2.png)

Также могут использоваться такие вариации:
![image-3.png](attachment:image-3.png)

**Пример**

![image-4.png](attachment:image-4.png)
![image-5.png](attachment:image-5.png)

>Можно заметить, что **значения смешанных производных** (когда ищем производную сначала по одной переменной, а затем — по другой) **совпадают**. 

![image-6.png](attachment:image-6.png)

**Что, если они тоже зависят друг от друга?**  
В таком случае мы можем найти **полную производную**, то есть производную, в которой учитываются зависимости между переменными. По сути, задача поиска полной производной сводится к замене одной из переменных на функциональную зависимость от другой и поиск производной по единственной оставшейся переменной.


# <center>Безусловные экстремумы
Так же, как и у функции одной переменной, у функции нескольких переменных могут быть локальные и глобальные минимумы и максимумы:

![image.png](attachment:image.png)

Рассмотрим алгоритм поиска минимумов и максимумов для функции нескольких переменных $f(x,y)=x^2 - 10x + y^2 - 12y + 71$.
1. На первом этапе необходимо найти частные производные этой функции:
    $$ \frac{\partial f}{\partial x} = 2x - 10 $$
    $$ \frac{\partial f}{\partial y} = 2y - 12 $$
2. На втором этапе мы находим точки, в которых эти производные принимают нулевые значения:
    $$ x = 5 \space; y=6 $$
Итак, мы получили точку $(5;6)$ — это стационарная точка.

В этой точке может быть **максимум**,  
![image-2.png](attachment:image-2.png)

**минимум**  
![image-3.png](attachment:image-3.png)

или **седловая точка**, в которой производная меняет знак, но которая не является экстремумом:  
![image-4.png](attachment:image-4.png)

3. Наконец, переходим к третьему шагу — определению того, чем будет являться стационарная точка.

    В одномерном случае нам удалось обойтись только первой производной для определения характера точек экстремума. Для функции двух переменных этого недостаточно — нам понадобится новый инструмент, матрица Гессе. Помимо оптимизации, она пригодится для определения характера выпуклости функции многих переменных.

    >**Матрица Гессе** — это матрица вторых частных производных.

Матрица Гессе для функции двух переменных выглядит так:
$$
Hesse =
\begin{pmatrix}
\frac{\partial^2 f}{\partial x^2} & \frac{\partial^2 f}{\partial x \partial y} \\
\frac{\partial^2 f}{\partial y \partial x} & \frac{\partial^2 f}{\partial y^2}
\end{pmatrix}
$$
Критерии для максимума и минимума следующие:

* Если матрица Гессе положительно определена в этой точке, то в ней находится минимум.
* Если матрица Гессе отрицательно определена в этой точке, то в ней находится строгий максимум.
* В иных случаях точка является седловой.

Также иногда мы можем определить, что минимум или максимум являются глобальными. Для этого необходимо помнить следующее:

* Если других экстремумов нет, то экстремум глобальный.
* Если $E_f$(область значений) уходит в $+\infty$, глобального максимума не будет.
* Если $E_f$(область значений) уходит в $-\infty$, глобального минимума не будет.
* У выпуклых функций локальный экстремум является глобальным.


# <center>Введение в оптимизацию
>**Оптимизация функций** — это задача нахождения набора входных данных целевой функции (то есть её аргументов), которые приводят к минимуму или максимуму функции.

Если сформулировать очень кратко, то задача оптимизации заключается в том, чтобы найти максимум или минимум функции:
$$ \min f (x) \space ; max f(x) $$
При этом функция  может принимать на вход одну переменную, вектор из нескольких переменных или другой объект, но возвращать всегда будет число. Функция может быть абсолютно любой, например:
* элементарной функцией;
* функцией потерь модели предсказаний (например, количество топлива, которое потратит грузовик, если будет ехать по маршруту $x$, или заработная плата в зависимости от времени, потраченного на обучение).

Иногда на $x$ накладывается какое-нибудь дополнительное условие:
$$ \min_{a<x<b}f(x); \space \min_{g(x)\geq0}f(x) $$

Чаще всего ограничение выражается равенством или неравенством на другую функцию от $x$.  
Например, грузовики должны проехать по всем пунктам маршрута, т. е. имеем ограничение «количество посещённых пунктов равно 10» или «количество посещённых пунктов минус 10 = 0».

>Задачу на нахождение максимума можно свести к задаче на нахождение минимума, т. к. максимум функции соответствует минимуму функции со знаком минус
$$ \max f(x) \iff \min \big(-f(x)\big) $$
Резюмируя, можно сказать, что задачу оптимизации можно охарактеризовать **тремя составляющими**:
1. Целевая функция $f(x)$

    Первая составляющая задачи оптимизации — это целевая функция , которую мы пытаемся максимизировать или минимизировать. Например, это может быть функция ошибки в модели или функция, которая выражает зависимость размера прибыли от каких-то факторов.
2. Переменные функции $(x)$

    Вторая составляющая нашей задачи — это те аргументы, которые можно варьировать, чтобы достигнуть минимума функции, то есть, переменные, от которых зависит значение этой функции.


3. Ограничения ($a<x<b$)

    Третий компонент — это ограничения, которые накладываются на аргументы. Это могут быть равенства или неравенства, определяющие возможные значения для аргументов.

На данных компонентах основано множество классификаций задач оптимизации:
1. **Задачи безусловной и условной оптимизации**

    Это задачи, где не накладывается никаких дополнительных ограничений и задачи, где ограничения есть, соответственно.
2. **Задачи гладкой и негладкой оптимизации**

    >**Гладкой** называют функцию, у которой можно найти производную в любой точке.

    При подборе метода решения задачи необходимо выяснить:
    * есть ли явные ограничения на гладкость (например, в ходе оптимизации используются производные, а значит важно, чтобы их можно было найти);
    * есть ли менее явные ограничения на гладкость (к примеру, производные не используются и метод можно реализовать, однако его реализация предполагает, что эффективность будет достигнута только в случае гладких функций).
3. **Задачи локальной и глобальной оптимизации**

    В случае решения задачи локальной оптимизации нам подойдёт любой минимум, а для глобальной — только точка глобального минимума.  
    ![image.png](attachment:image.png)


# <center>Условные экстремумы. Метод Лагранжа
Если для исследуемых данных не существует прямой или плоскости, с помощью которых можно поделить выборку на два класса, хорошим методом для решения задачи считается **метод опорных векторов (SVM)**. Алгоритм *SVM* подбирает гиперплоскость таким образом, чтобы выполнялось два условия:
* минимальная ошибка разделения на классы;
* максимально возможное расстояние от разделяющей гиперплоскости до ближайшей точки.  

![image.png](attachment:image.png)

Так как данные обычно не так хорошо разделимы, как изображено выше, используется перенос данных в пространство такой размерности, где они становятся разделимыми:  
![image-2.png](attachment:image-2.png)
Здесь задачей оптимизации является минимизация ошибки разделения выборки, и именно эта задача как раз и может быть решена методом Лагранжа.

>**Метод множителей Лагранжа** является стратегией обнаружения минимумов и максимумов дифференцируемых функций (то есть таких функций, для которых можно найти производную) при условии ограничений равенства на его независимые переменные.

В случае безусловной оптимизации мы решали задачи, приравнивая к нулю производную функции одной переменной или все частные производные в многомерном случае. Далее мы находили экстремумы и выбирали минимум или максимум. В случае с поиском решения задачи условной оптимизации алгоритм будет похож, но в него будут внесены некоторые коррективы.
***
Пусть у нас есть функция $f(x)$, для которой мы хотим найти минимум при ограничении $\phi_i(x)=0$.
$$ \min_{\phi_i(x)=0}f(x) $$
Чтобы решить такую задачу, в первую очередь записываем **функцию Лагранжа**, т. е. объединяем с её помощью саму целевую функцию и функцию ограничений внутри одного выражения:
$$ L(x, \lambda) = f(x) + \sum \lambda_i \phi_i (x) $$
>Дополнительные переменные $\lambda_i$, которые появляются при формулировании функции Лагранжа, называются **множителями Лагранжа**.

По сути, с помощью создания такой новой функции мы свели задачу к уже известной нам задаче безусловной оптимизации. Далее вычисляются частные производные построенной функции Лагранжа по $x$ и дополнительной переменной $\lambda$. Затем находятся точки, в которых производные равны нулю, и точки экстремума.
***
Представим, что мы хотим максимизировать следующую функцию:
$$ f(x,y) = 2x + y $$
Условие:
$$ x^2 + y^2 = 1 $$
Если представить условие визуально, оно выглядит как окружность на координатной плоскости:  
![image-3.png](attachment:image-3.png)
Мы хотим найти такую точку этой окружности, для которой значение функции $f(x,y)=2x+y$ будет максимально возможным. Или, если переформулировать задачу, приведя её к задаче минимизации, мы ищем точку окружности, для которой значение функции $f(x,y) = -2x-y$ будет наименьшим. Именно для метода Лагранжа оба подхода (и поиск максимума, и поиск минимума) являются абсолютно симметричными.

Для того чтобы решить данную задачу, нам необходимо написать функцию Лагранжа. В общем виде она выглядит следующим образом:
$$ L(x,y,\lambda) = f(x,y) + \lambda \big(g(x,y) - c\big) $$
Здесь $f(x,y)$ — это сама функция, $g(x,y) - c$ — функция ограничений, $\lambda$ — множитель Лагранжа.

В данном случае все эти элементы функции Лагранжа принимают следующий вид:
$$ f(x,y) = 2x+y $$
$$ g(x,y) = x^2 + y^2 $$
$$ c = 1 $$
Сама функция записывается следующим образом:
$$ L(x,y,\lambda) = 2x + y + \lambda(x^2 + y^2 - 1) $$
Первым делом мы должны найти частные производные по каждой переменной:
$$ L'_x = 2 + 2\lambda x $$
$$ L'_y = 1 + 2\lambda y $$
$$ L'_\lambda = x^2 + y^2 - 1 $$
Теперь приравняем их к нулю и решим систему уравнений:
$$
\begin{cases}
2 + 2\lambda x = 0 \\
1 + 2\lambda y = 0 \\
x ^2 + y^2 - 1 = 0
\end{cases}
$$
![image-4.png](attachment:image-4.png)

Для определения точек максимума и минимума найдём значения целевой функции в найденных точках:  
![image-5.png](attachment:image-5.png)
Получаем, что в первой точке — минимум, а во второй — максимум.
***
**Пример**
>Длина забора — 20 метров. Какова максимальная площадь прямоугольного участка, который можно огородить?

Пусть мы будем огораживать прямоугольник со сторонами $x_1$ и $x_2$. Нам необходимо максимизировать площадь при периметре, равном 20 м.

Получается, что мы должны максимизировать функцию $f(x_1, x_2) = x_1 \cdot x_2$ при условии $2x_1 + 2x_2 = 20$.

Переформулируем задачу максимизации в задачу минимизации и упростим наше ограничение:
$$ \min_{x_1 + x_2 - 10 = 0} -x_1x_2$$
Запишем функцию Лагранжа:
$$ L(x_1, x_2, \lambda_1) = -x_1x_2 + \lambda_1(x_1 + x_2 + 10) $$
Найдём частные производные:
$$ 
\begin{cases}
L'_{x_1} = -x_2 + \lambda_1 = 0 \\
L'_{x_2} = -x_1 + \lambda_1 = 0 \\
L'_{\lambda_1} = x_1 + x_2 - 10 = 0
\end{cases}
$$
![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)

Получаем искомые $x_1$ и $x_2$, т. е. наибольшая площадь будет у квадрата 5 × 5. Таким образом, максимальная площадь, которую можно огородить, равна $25 м^2$.
***
>Ограничения в виде неравенства можно свести к ограничениям равенства с помощью дополнительной переменной $\tilde{x}$.
$$ \phi_i(x) \leq 0 \iff \phi_i(x) + \tilde{x}^2_i = 0 $$
Записанное выше ограничение стоит понимать следующим образом: если мы хотим, чтобы функция гарантированно была неположительной, то она должна давать ноль в сумме с каким-то заведомо неотрицательным значением.

**Пример**  
>Длина забора — 20 метров. Какова максимальная площадь прямоугольного участка, который можно огородить? Хотя бы одна из сторон прямоугольника должна быть не меньше 6.

Сформулируем задачу как задачу оптимизации:
$$ \max_{2x_1 + 2x_2=20 \space \space x_1 \geq 6}x_1x_2 $$
Сведём задачу к минимизации с ограничениями–равенствами, переформулировав второе ограничение:
$$ \min_{x_1 + x_2 - 10=0 \space \space -x_1 + 6 + \tilde{x}^2_1 = 0}-x_1x_2 $$
Построим функцию Лагранжа:
$$ L(x_1, x_2, \tilde{x}_1, \lambda_1, \lambda_2) =
-x_1x_2 + \lambda_1(x_1 + x_2 - 10) + \lambda_2(-x_1 + 6 + \tilde{x}^2_1)
$$
Найдём все частные производные:  
![image-8.png](attachment:image-8.png)

Приравняем их к нулю:  
![image-9.png](attachment:image-9.png)

В этой системе мы не можем найти все переменные, однако можем решить её отчасти (найти $x_1$ и $x_2$). Получаем, что значения $x_1$ и $x_2$ равны 6 и 4 соответственно, а значит максимальная площадь равна 24.
***


# <center>Градиент и антиградиент
>Градиент функции , обозначаемый как , представляет собой вектор, компоненты которого равны частным производным функции  по всем её аргументам:
$$ \nabla f = 
\begin{bmatrix}
\frac{\partial f}{\partial x} \\
\frac{\partial f}{\partial y} \\
\vdots
\end{bmatrix} $$
>Таким образом, можно найти каждую производную отдельно, соединить все производные вместе и получить градиент.

$\nabla f$ **— векторнозначная функция**. В данном примере эта функция ставит в соответствие двум значениям из одного множества два значения из другого. Из этого следует, что эту функцию очень удобно визуализировать с помощью **векторного поля**, которое представляет собой множество векторов градиента, проведённых из всех возможных точек:  
![image.png](attachment:image.png)

Для того чтобы получить такое поле, в каждой точке проводится вектор, который образуется, если подставить эту точку в вектор градиента. Это векторное поле ещё часто называют **градиентным полем функции**.

Разумеется, градиент можно найти не только для функции, которая зависит от двух аргументов. 

>Градиент определяет направление наискорейшего роста функции.

Если мы заменим все координаты градиента на значения с противоположным знаком, то получим **антиградиент**, который является направлением **наискорейшего убывания функции**.

Допустим, график нашей функции выглядит, как на изображении ниже, то есть у него есть два максимума, которые визуально представлены двумя холмами.

![image-2.png](attachment:image-2.png)

Тогда градиентное поле будет выглядеть следующим образом:

![image-3.png](attachment:image-3.png)

Чтобы понять ещё одно свойство градиента, вспомним о том, что также градиентом называют плавный переход от одного цвета к другому. Это выглядит следующим образом:

![image-4.png](attachment:image-4.png)

Перекладывая понимание градиента на изменение оттенка, а не значения функции (хотя на самом деле можно сказать, что изменяется значение функции, выражающей оттенок), можно утверждать, что на данном рисунке:

* Градиент — это стрелка, задающая направление заливки.
* Линии, вдоль которых яркость одинаковая, будут ортогональны градиенту. Назовём их **линиями уровня яркости**.
* Двигаясь вдоль градиента, мы максимально скоро выйдем на самое яркое место.

Данный пример нужен нам для того, чтобы перейти к пониманию **линий уровня функции**. На изображении выше линия уровня — это линия с одинаковым цветом. По аналогии у функции могут быть линии, в каждой точке которых функция принимает одно и то же значение. Например, пусть у нас есть следующая функция:

![image-5.png](attachment:image-5.png)

Линии уровня для неё (если спроецировать их в нижнюю плоскость) будут выглядеть следующим образом, и, как и в примере с изменением заливки, векторы градиентов будут перпендикулярны линиям уровня:

![image-6.png](attachment:image-6.png)

Когда линии уровня близки друг к другу, мы понимаем, что значение функции там меняется быстро, а значит там наибольший градиент.

Пусть у нас есть функция $f(x,y)=x^2 + y^2$, и мы хотим найти её градиент в точках $M(0;0), N(1;-1), P(1;1)$.

Вычислим частные производные:
$$ \frac{\partial f}{\partial x} = 2x; \space \frac{\partial f}{\partial y} = 2y $$
Составим вектор градиента:
$$ \nabla f = \overrightarrow{grad}f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}) = (2x, 2y) $$
Теперь подставим интересующие нас точки:
$$ \nabla f | = (2x, 2y) |_{M \space x=0, y=0} = (0, 0) $$
$$ \nabla f | = (2x, 2y) |_{N \space x=1, y=-1} = (2, -2) $$
$$ \nabla f | = (2x, 2y) |_{P \space x=1, y=1} = (2, 2) $$
Получаем, что в точке $N$ градиент равен $(2, -2)$, то есть при увеличении $x$ функция будет возрастать, а при увеличении $y$ — убывать. В точке  значение градиента равно $(2,2)$ — это значит, что в окрестности  сумма квадратов возрастает по обеим переменным. В точке $M$ градиент нулевой, то есть все частные производные равны нулю, а значит возможно, что в этой точке находится экстремум.

# <center>Вычисление градиента для числовых векторов
Для вычисления градиента в *Python* есть специальная функция — `gradient()` из библиотеки *NumPy*. Градиент вычисляется на заданной $N$-мерной сетке с шагом, который можно задать вручную.

Например, пусть у нас есть чёрно-белая фотография. Тогда вектор градиента может быть вычислен для каждого пикселя изображения. Это просто мера изменения значений пикселей вдоль направлений $x$ и $y$ вокруг каждого пикселя. То есть производная для функции характеризует скорость её изменения, а производная для численного вектора характеризует, как быстро меняются его значения — таким образом, смысл один и тот же.

Допустим, у нас есть такой фрагмент фотографии:  
![image-7.png](attachment:image-7.png)

Это изображение в оттенках серого, поэтому значения пикселей варьируются от 0 до 255 (0 — чёрный, 255 — белый). Значения пикселей слева и справа от нашего пикселя отмечены на изображении: 56 и 94. Мы просто вычитаем из правого значения левое и делаем вывод, что скорость изменения в направлении $x$ равна 38 $(94 - 56 = 38)$.
# <center>Градиентный спуск
Формально можно записать, что для того, чтобы попасть в следующую точку $x_{n+1}$, необходимо перейти из начальной точки $x_n$ на антиградиент, домноженный на некоторый коэффициент, который называется **шагом градиентного спуска** или **темпом обучения**.
$$ x_{n+1} = x_n - \alpha \nabla f(x_n) $$
Так, шаг за шагом, мы движемся в направлении антиградиента, пока не найдём локальный минимум. Этот процесс может занять тысячи итераций.

Интересная особенность градиентного спуска в том, что он найдёт разные минимумы в зависимости от того, с какой точки мы начнём и какой размер шага выберем.

Например, пусть мы выбрали первоначальную точку $x_0 = 6$, а в качестве шага взяли $0.2$. Тогда через десять шагов мы окажемся в точке $x_1=4$:  
![image-8.png](attachment:image-8.png)

Если мы начнём движение из той же самой точки, однако выберем размер шага, равный $1.5$, окажется, что шаг слишком большой для того, чтобы наш алгоритм сошёлся в минимуме:  
![image-9.png](attachment:image-9.png)

**Недостатки градиентного спуска**
* Одним из ограничений алгоритма градиентного спуска является то, что он **находит только локальные минимумы**. Как только алгоритм находит некоторую точку, которая находится на локальном минимуме, то «застревает» в ней. С этим можно бороться: запускать алгоритм из разных точек и сравнивать результаты, варьировать длину шага (темп обучения), но попадание в глобальный минимум всё равно не гарантировано.

* Градиентный спуск **не различает глобальные и локальные минимумы**. Даже если мы и попадём случайно в глобальный минимум, удачно выбрав точку, то всё равно не узнаем о том, что мы попали в глобальный минимум, так как никак не сможем определить его.

* Другое ограничение градиентного спуска касается **размера шага**. Если мы задаём оптимальный размер шага (который можно подобрать экспериментально), то алгоритм сходится и мы попадаем  в минимум.  
    ![image-10.png](attachment:image-10.png)

    Однако если размер шага слишком велик, алгоритм может никогда не сойтись к локальному минимуму, так как каждый раз будет «перепрыгивать» его.  
    ![image-11.png](attachment:image-11.png)

    Если нам повезёт и алгоритм всё же сойдётся в такой ситуации, он всё равно может сделать больше шагов, чем нужно:  
    ![image-12.png](attachment:image-12.png)

    Однако и в случае очень маленького размера шага тоже потребуется слишком много шагов:  
    ![image-13.png](attachment:image-13.png)
* Градиентный спуск **работает только тогда, когда функция дифференцируема везде**. В противном случае мы можем прийти к точке, где градиент не определён, и тогда мы не сможем использовать формулу для поиска новой точки.  
    ![image-14.png](attachment:image-14.png)

**Резюмируем ↓**

* Градиентный спуск минимизирует дифференцируемые функции с любым количество переменных. Он делает это, стартуя из случайной точки и далее двигаясь с заданным шагом в направлении антиградиента.
* Градиентный спуск не может определить, является найденный минимум локальным или глобальным. 
* Размер шага определяет, быстро или медленно алгоритм сходится к минимуму или расходится.



# <center>Градиентный спуск с momentum
На примере ниже алгоритм колеблется в разные стороны вокруг одной прямой. Было бы здорово явно указать алгоритму держаться ближе к прямой и двигаться вдоль неё.  
![image.png](attachment:image.png)

Решить эту проблему как и позволяет градиентный спуск с momentum. Формально его можно определить следующим образом:

$$ x_{n+1} = x_n - \alpha \nabla f(x_n) + \gamma (x_n - x_{n-1}) $$
>Идея заключается в том, что на каждой итерации градиентного спуска $x$ изменяется градиент, помноженный не только на темп обучения, но и на вектор, на который мы передвинулись в предыдущем шаге, с некоторым коэффициентом.

В формуле выше $\gamma$ — это параметр, который показывает, насколько учитывается предыдущий шаг.

Для прошлого примера это работает так: точка начинает двигаться вдоль прямой (которую можно представить, если соединить точки A и Local Optima), ведущей к локальному минимуму.  
![image-2.png](attachment:image-2.png)

Это помогает ускорить сходимость алгоритма. В целом, это лишь одна из вариаций алгоритма градиентного спуска, и мы можем использовать её для увеличения качества. **Ограничения тут ровно такие же, как и у обычного градиентного спуска**. Нельзя утверждать, что этот метод всегда лучше других в тех или иных ситуациях — это просто ещё один инструмент, которым можно пользоваться при решении задач.


