<p style="align: center;">
    <img align=center src="../img/dls_logo.jpg" width=500 height=500>
</p>

<h1 style="text-align: center;">
    Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ
</h1>

---

<h1 style="text-align: center;">
    <b>Оптимизация и градиентный спуск</b>
</h1>

## Оптимизация функций одной переменной

### Постановка задачи

Одна из самых важных задач, связанных с функциями - это задача **поиска минимума функции** или **задача оптимизации функции**.

Эта задача решается нейронными сетями при обучении. Да, по сути, обучение нейронной сети - это оптимизация одной большой и очень сложной функции с тысячами или даже миллионами аргументов.

При обучении нейронной сети мы хотим измерять, насколько хорошо сеть справляется с поставленной задачей. Для этого вводится **функция потерь** - такая функция, которая в качестве аргументов принимает правильные ответы и ответы нейронной сети, и выдает некоторое число - ошибку. Понятно, что мы хотим, чтобы ошибка сети была минимальной. То есть, ставится задача **минимизации функции потерь**. Мы хотим подобрать такие аргументы (параметры) нейронной сети, чтобы получить минимум функции потерь.

Сейчас мы научимся минимизировать функции.

### Аналитический алгоритм поиска минимума функции одной переменной

Вспомним, что в ноутбуке по производным мы выяснили, что знак производной функции в точке показывает характер изменения функции в этой точке - убывает она, возрастает или имеет локальный экстремум. Давайте сформулируем **необходимое и достаточное условия существования экстремума функции $F$ в точке $x$**:

1. **Необходимое условие:** если функция $F$ имеет экстремум в точке $x$, то либо $F$ не имеет производной в точке $x$, либо $F'(x) = 0$.

2. **Достаточное условие:** если функция $F$ имеет производную в окрестности точки $x$ и производная меняет знак при переходе через эту точку, то в точке $x$ функция $F$ имеет экстремум.

Далее в курсе мы будем рассматривать только дифференцируемые на всей области определения функции (т.е. имеющие производную на всей области определения).

Заметим, что мы говорили сейчас об **экстремумах**, а не **точках минимума**. Если в точке $x$ функция имеет экстремум, то это может быть как точкой минимума, так и точкой максимума.

Чтобы убедиться, что точка является точкой минимума, надо взять вторую производную $F''(x)$. Если $F'(x) = 0$ и $F''(x) > 0$, то $x$ - точка минимума, если же $F'(x) = 0$ и $F''(x) < 0$, то $x$ - точка максимума.

Итак, **алгоритм нахождения точек локального минимума функции $F(x)$** (только для гладких функций):

1. Найти корни уравнения $F'(x) = 0$ (найти те точки $x$, в которых производная равна 0).

2. Для всех корней уравнения $x_i$ вычислить вторую производную $F''(x_i)$. Если она больше нуля, то это точка минимума.

Этот алгоритм **аналитический** - он основан на решении уравнений.

#### Пример 1

Рассмотрим функцию $F = 4x^2 - 3x + 5$. Найдем точки минимума этой функции:

1. Находим производную: $F'(x) = 8x - 3$.

2. Решаем уравнение $F'(x) = 8x - 3 = 0$, $x = \frac{3}{8}$ - получили единственный корень.

3. Находим вторую производную функции $F$ в точке $\frac{3}{8}$: $F''(x) = (8x - 3)' = 8 > 0$, поэтому полученная точка экстремума $x = \frac{3}{8}$ - точка минимума.

Получается, что мы нашли единственную точку минимума $x = \frac{3}{8}$.

Мы можем убедиться в правильности решения, посмотрев на график функции $F$:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

In [None]:
def F(x):
    return 4 * x**2 - 3 * x + 5
   
x = np.linspace(-1, 2, 100)
y = F(x)

plt.figure(figsize=(10, 7))
plt.plot(x, y)
plt.xlabel("$x$")
plt.ylabel("$y$")
plt.scatter([3 / 8], [F(3 / 8)], lw=5)
plt.show()

Этот алгоритм хорошо работает и позволяет находить точные значения координаты точки минимума функции. Но он не всегда применим.

Рассмотрим функцию, знакомую нам по ноутбуку по производным: $F(x) = x^4 + 5x^3 - 10x$. Выглядит она так:

In [None]:
def F(x):
    return x**4 + 5 * x**3 - 10 * x

x = np.linspace(-5, 2, 100)
y = F(x)

plt.figure(figsize=(10, 7))
plt.plot(x, y)
plt.xlabel("$x$")
plt.ylabel("$y$")
plt.scatter([-3.5518, -0.9439, 0.7457], [F(-3.5518), F(-0.9439), F(0.7457)], lw=5)
plt.show()

Мы помним, что у неё есть две точки минимума и одна точка максимума. Давайте допустим, что мы хотим найти координаты точек минимума, используя наш алгоритм. Нам нужно было бы вычислить производную:

$$
F'(x) = 4x^3 + 15x^2 -10
$$

и решить уравнение:

$$
4x^3 + 15x^2 -10 = 0
$$

Но это уравнение третьей степени, которое сложно решить аналитически. Значит, найти точки минимума нашим алгоритмом не получится.

Очевидно, бывают ещё более сложные функции, что уж говорить о функциях многих переменных. Поэтому рассмотрим другой алгоритм поиска минимума функций.

## Алгоритм градиентного спуска: идея

Посмотрим на график этой коварной функции и на случайную точку $(x, y)$ на нём:

In [None]:
def F(x):
    return x**4 + 5 * x**3 - 10 * x

x = np.linspace(-5, 2, 100)
y = F(x)

plt.figure(figsize=(10, 7))
plt.plot(x, y)
plt.xlabel("$x$")
plt.ylabel("$y$")
plt.scatter([-2], [F(-2)], lw=3)
plt.show()

Давайте представим, что мы не видим графика этой функции, но очень хотим найти точку минимума функции.

Из ноутбука по производным мы помним, что знак производной функции в точке показывает, возрастает функция в этой точке или убывает (ну или имеет экстремум). Как нетрудно догадаться, производная в точке $(x, y)$ на нашем графике будет $< 0$, функция в этой точке возрастает.

Это значит, что **какая-то точка локального минимума функции находится левее точки $x$** ("левее" значит, что минимум функции достигается при значении аргумента $< x$). Это отличное наблюдение! Это значит, что если мы уменьшим $x$ на некоторую величину $\Delta x$, то мы можем стать ближе к точке минимума!

Тогда алгоритм поиска точки минимума выглядит так:

1. Берём случайную точку $x$ функции $F$.

2. Вычисляем производную $F'(x)$.

3. Если $F'(x) > 0$, уменьшаем $x$, если $F'(x) < 0$, увеличиваем $x$.

4. Повторяем пункты 2 и 3. 

То есть, мы берём случайную точку и начинаем движение от неё к точке минимума, каждый шаг алгоритма вычисляя производную функции в точке, в которой сейчас находимся и сдвигая эту точку в направлении минимума.

Вычислять производную на каждом шаге нужно, потому что мы в какой-то момент можем "перепрыгнуть" через точку минимума, тогда производная поменяет знак и мы поймём, что нужно двигаться обратно.

В идеале это "движение" должно выглядеть так:

<img src="../img/linear_models_optimization_1.jpg" width=500>

Остаётся два вопроса: на какую величину $\Delta x$ уменьшать и когда останавливать алгоритм.

Давайте попробуем выбрать $\Delta x$. Это нетривиально, ведь мы не видим графика функции и не знаем, насколько далеко точка минимума. А численное значение производной нам показывает только факт убывания функции и скорость убывания (угол наклона графика), но не расстояние до точки минимума.

Другими словами, минимум может быть в точке $x - 0.2$, а может быть и в точке $x - 200$. 

Если мы возьмём слишком большую величину, то можем просто перескочить через точку минимума. Примером такой величины может быть $\Delta x = 2.5$:

In [None]:
def F(x):
    return x**4 + 5 * x**3 - 10 * x

x = np.linspace(-5, 2, 100)
y = F(x)

plt.figure(figsize=(10, 7))
plt.plot(x, y)
plt.xlabel("$x$")
plt.ylabel("$y$")
plt.scatter([-2, -4.5], [F(-2), F(-4.5)], lw=5)
plt.show()

Итак, нужно брать $\Delta x$ довольно маленьким.

Если мы зафиксируем некоторую величину $\Delta x$ и на каждом шаге алгоритма будем сдвигать $x$ на одинаковую величину $\Delta x$ в направлении минимума, то это может занять очень много времени (например, когда точка минимума в точке $x = 1$, а мы стоим в точке $x = 1001$ и $\Delta x = 1$, нам потребуется $1000$ шагов алгоритма, чтобы дойти до минимума). Плюс, если мы стоим в точке $x = 1.5$, то, сдвинувшись на $\Delta x = 1$ по направлению к точке минимума, мы попадём в точку $x = 0.5$. Далее, опять сдвинувшись на $\Delta x = 1$ по направлению к точке минимума, мы попадём в точку $x = 1.5$ и будем так ходить туда-сюда, не приближаясь к точке минимума $x = 1$ ближе.

Давайте ещё раз внимательно посмотрим на график функции и заметим, что чем ближе точка к минимуму, тем плавнее график. Более формально, чем ближе точка к минимуму, тем меньше скорость изменения функции, а значит, тем меньше модуль значения производной.

Мы можем это использовать. Давайте зафиксируем некоторое маленькое число $\varepsilon$ и каждый шаг алгоритма будем двигать $x$ по направлению к минимуму на шаг $\varepsilon \cdot |F'(x)|$. Тогда, пока наша точка будет далеко от минимума, $|F'(x)|$ будет довольно большим и мы будем двигаться большими шагами, а по мере приближения к точке минимума $|F'(x)|$ будет уменьшаться, и наш шаг тоже будет уменьшаться. Так мы менее вероятно перескочим через точку минимума и в итоге подойдём к ней ближе.

Ответ на второй вопрос - когда останавливать алгоритм поиска минимума - может быть разным. Действуя таким образом, ровно в точку минимума мы почти никогда не попадём, придётся остановиться в какой-то точке возле минимума. Но для применения этого алгоритма нахождения точки в окрестности минимума вполне хватает. Чаще всего алгоритм останавливается после прохождения определенного количества шагов и/или достижения определенной близости к точке минимума. Близость, опять же, можно измерять значением производной в точке. Чем ближе, тем модуль производной меньше.

Теперь мы можем сформулировать итоговый алгоритм.

## Алгоритм градиентного спуска 

1. Берём некоторую точку $x$ функции $F$, фиксируем $\varepsilon$ (например, $\varepsilon = 0.001$).


2. Вычисляем производную $F'(x)$.


3. Изменяем $x$: $x = x - \varepsilon F'(x)$.


4. Повторяем третий пункт, пока не пройдёт определенное количество шагов и/или мы не станем достаточно близко к точке минимума.


Этот алгоритм называется **алгоритмом градиентного спуска**. Градиентного - потому что мы "спускаемся" к точке минимума, вычисляя производную (градиент) функции на каждом шаге.

Выглядит это как-то так:

<img src="../img/linear_models_optimization_2.gif">

Заметим, что начиная движение из одной точки, мы можем найти только одну точку локального минимума. Если хочется найти несколько точек, можно запустить алгоритм градиентного спуска несколько раз из разных случайно выбранных точек. Но гарантии, что мы найдём все точки минимума или что найдём точку глобального минимума, нет.

Существует множество модификаций и оптимизаций алгоритма градиентного спуска, но о них мы говорить не будем. Центральная идея у них одна и та же - спуск к точке минимума, используя градиент функции.

## Оптимизация функций многих переменных

Давайте перейдём к функциям многих переменных. 

Идея нахождения минимума функции многих переменных такая же, как и для функции одной переменной. 

Давайте рассмотрим функцию $F(x_1, x_2, \ldots, x_n)$ $n$ переменных. Алгоритм выглядит так:

1. Берём некоторую точку $x = (x_1, x_2, \ldots, x_n)$ функции, фиксируем $\varepsilon$ (например, $\varepsilon = 0.001$).


2. Вычисляем частные производные $F'_{x_k}(x)$ по всем $n$ аргументам функции в точке $x = (x_1, x_2, \ldots, x_n)$, получаем градиент:

$$
\nabla F = (F'_{x_1}(x_1, x_2, \ldots, x_n), F'_{x_2}(x_1, x_2, \ldots, x_n), \ldots, F'_{x_n}(x_1, x_2, \ldots, x_n)) = \left(\frac{\partial F}{\partial x_1}(x_1, x_2, \ldots, x_n),\frac{\partial F}{\partial x_2}(x_1, x_2, \ldots, x_n), \ldots, \frac{\partial F}{\partial x_n}(x_1, x_2, \ldots, x_n)\right)
$$

3. Сдвигаемся:

$$
x_1 : x_1 = x_1 - \varepsilon F'_{x_1}(x_1, x_2, \ldots, x_n)
$$

$$
x_2 : x_2 = x_2 - \varepsilon F'_{x_2}(x_1, x_2, \ldots, x_n)
$$

$$
\cdots
$$

$$
x_n : x_n = x_n - \varepsilon F'_{x_n}(x_1, x_2, \ldots, x_n)
$$

или в векторной записи:

$$
x = x - \varepsilon \nabla F(x)
$$

4. Повторяем третий пункт, пока не пройдёт определенное количество шагов и/или мы не станем достаточно близко к точке минимума по каждой из координат.

То есть мы вычисляем частные производные по каждому аргументу функции, понимаем для каждого аргумента функции, возрастает или убывает функция по этому аргументу и меняем значения всех $n$ аргументов в ту сторону, где функция убывает.

В случае функции двух переменных алгоритм может выглядеть так:

<img src="../img/linear_models_optimization_3.gif">

**Упражнение:** вычислите шаг градиентного спуска фукнции $F(x_1,x_2,x_3,x_4)=x_1\cdot x_2 + x_3^5 + e^{x_4}$ для некоторого фиксированного $\varepsilon$ и начального приближения $x_0=(x_1^0,x_2^0, x_3^0,x_4^0)$. Выпишите формулу градиентного спуска в этом случае.