# **Градиентный спуск и методы его оптимизации**
## ***Автор: Даниил Савинов***
<a id='top'></a>

### ***Содержание***

* 1. [Введение](#intro)
* 2. [Градиентный спуск в рамках матанализа](#grad_desc_in_math)
  * 2.1. [Производная](#deriv)
      * 2.1.1. [Понятие производной функции от одной переменной](#common_deriv)
      * 2.1.2. [Понятие производной функции от нескольких переменных](#partial_deriv)
  * 2.2. [Условие задачи (градиентный спуск на стыке матанализа и МО)](#task_descrip)
  * 2.3. [Функция потерь](#loss_func)
  * 2.4. [Градиентный спуск](#basics_grad_desc)
  * 2.5. [Математическая интерпретация функции потерь](#math_loss_func)
* 3. [Градиентный спуск в рамках машинного обучения](#grad_desc_in_ml)
  * 3.1. [Пример реализации batch-градиентного спуска](#batch_grad_desc_code_examp)
  * 3.2. [Недостатки градиентного спуска](#grad_desc_disadvantages)
      * 3.2.1. [Нахождение ложного локального минимума](#wrong_min_error)
      * 3.2.2. [Высокая асимптотика алгоритма](#high_asimptotics)
* 4. [Методы оптимизации градиентного спуска](#batch_grad_desc_optimize)
  * 4.1. [Определение начальной координаты](#start_coord)
  * 4.2. [Метод нормирования градиента (clip gradient)](#clip_grad)
  * 4.3. [Цикл `while`](#while_grad_desc)
  * 4.4. [Стохастический градиентный спуск](#stoch_grad_desc)
* 5. [Заключение](#conclusion)

## **1. Введение**
<a id='intro'></a>
[**Вернуться к содержанию**](#top)

Большинство задач машинного обучения (далее сокр. МО), как правило, представляют собой задачи или классификации, или регрессии. Ярким примером задач последнего типа является задача аппроксимации линейной функции.

Ниже будет рассмотрено применение самого популярного метода оптимизации для решения данной задачи. Речь пойдёт о градиентном спуске и методах его оптимизации.

*Примечание: в данном документе будут встречаться программные коды, написанные на языке `Python` версии `3.8` с использованием библиотеки `PyTorch`.*

## **2. Градиентный спуск в рамках матанализа**
<a id='grad_desc_in_math'></a>
[**Вернуться к содержанию**](#top)

### 2.1. Производная
<a id='deriv'></a>

#### 2.1.1. Понятие производной функции от одной переменной
<a id='common_deriv'></a>

Рассмотрим некую функцию от одной переменной $f(x)$ (см. *Рис. 1*). Пусть дана точка $x_0$ (лежащая на оси $Ox$), тогда $f(x_0)$ - некая точка на оси $Oy$, и тогда точка на графике будет иметь коордианты $(x_0;f(x_0))$.

Пусть наша задача состоит в исследовании поведения функции $f(x)$ в окрестности $B(x_0)$ точки $x_0$:

$f(y), y \in B(x_0) \Longleftrightarrow f(x_0 + \Delta x)$, где $\Delta x$ достаточно мало, т.е. $x_0 - \epsilon \leqslant \Delta x \leqslant x_0 + \epsilon$. Пусть $x_1 = x_0 + \Delta x$ (точка на оси $Ox$), тогда $f(x_1) = f(x_0 + \Delta x)$ - некая точка на оси $Oy$, и тогда точка на графике будет иметь координаты $(x_0 + \Delta x;f(x_0 + \Delta x))$.

Также дано, что $f(x)$ в $B(x_0)$ возрастает.

***Рис. 1: Функция $f(x)$ и точки $x_0, x_1, f(x_0), f(x_1)$***
![upd_1 — copy.jpeg](attachment:b3707751-241e-4106-894a-2f2e29f11dc8.jpeg)

Решим выше поставленную задачу путём вычисления $f(x_0 + \Delta x)$ - отрезка от $Ox$ до $f(x)$. Для этого проведём касательную к графику функции $f(x)$ в точке $x_0$. Очевидно, касательная будет иметь вид прямой и задаваться линейной функцией $y=kx$* (см. *Рис. 2*).

**Касательная будет задаваться линейной функцией $y = kx$, так как начало координат для данной функции будет располагаться в точке $(x_0;f(x_0))$ в системе координат $O\Delta x\Delta y$ (что объяснет отсутствие в функции свободного члена $b$)*.

***Рис. 2: Касательная к графику $f(x)$ и отрезок $f(x_0 + \Delta x)$***
![upd_2 — копия.jpeg](attachment:72cdbcc1-2fd8-4c97-87ef-25d10307ccd4.jpeg)

Рассмотрим чертёж, находящийся внутри голубой окружности, более подробно (см. *Рис. 3*).

Из *Рис. 3* следует, что отрезок $f(x_0 + \Delta x)$ состоит из трёх частей:
1. $f(x_0)$ - отмечена зелёным пунктиром;
2. $k\Delta x$ - отмечена жёлтым пунктиром;
3. $\bar{\bar{o}}(\Delta x)$ - отмечена красным пунктиром.

Очевидно, первую часть $f(x_0 + \Delta x)$ составляет отрезок $f(x_0)$.

Вторую часть составляет отрезок $k\Delta x$, где $k$ - $\tan \alpha$ (где $\alpha$ - угол между касательной и осью $O\Delta x$); угловой коэффициент касательной*.

Как было выше упомянуто, на промежутке $B(x_0)$ $f(x)$ возрастает. Это гарантирует, что $f(x_0) + k\Delta x < f(x_0 + \Delta x)$, поэтому требуется добавить третью часть - некую **поправку** для верного равенства. Обозначим эту поправку за $\bar{\bar{o}}(\Delta x)$.

**Понятия углового коэффициента касательной и $\tan \alpha$ здесь и далее считаются равнозначными, так как: $f(x_0) = y_0, f(x_0 + \Delta x) = y_1, \Delta x = x_1 - x_0 \Longrightarrow \tan \alpha = \frac{y_1 - y_0}{x_1 - x_0} = \frac{kx_1 + b - kx_0 - b}{x_1 - x_0} = \frac{k(x_1 - x_0)}{x_1 - x_0} = k$*.

***Рис. 3: Система $O\Delta x, O\Delta y$ и отрезок $f(x_0 + \Delta x)$***
<a id="Pic_3"></a>
![upd-3 — копия.jpeg](attachment:ab23a5ce-0b7e-42d8-9cc6-fe5851e0bef5.jpeg)

Обратим внимание на красный отрезок, так называемую поправку $\bar{\bar{o}}(\Delta x)$ на *Рис. 3*.

Если выполняется предел* $\lim\limits_{\Delta x \to 0} \frac{\bar{\bar{o}}(\Delta x)}{\Delta x} = 0$, то линейное приближение (аппроксимацию) функции $f(x)$ касательной $y = kx$ можно считать **"хорошим"** ("хорошей") и тогда $k$ (угловой коэффициент касательной) будет являться **производной** $f(x)$.

**По условию данный предел так же справедливо выглядит так: $\lim\limits_{\Delta x \to 0} \bar{\bar{o}}(\Delta x) = 0$, но в данном случае необходимо подчеркнуть, что $\bar{\bar{o}}(\Delta x)$ мала не сама по себе, а лишь сравнительно с $\Delta x$ (для чего пределом и является их частное).*

#### ***Итого:***

$f(x_0 + \Delta x) = f(x_0) + k\Delta x + \bar{\bar{o}}(\Delta x) \Longrightarrow k =  \lim\limits_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} ≝ f'(x_0)$, причём $\lim\limits_{\Delta x \to 0} \frac{\bar{\bar{o}}(\Delta x)}{\Delta x} = 0$.

С помощью теорем матанализа можно научиться вычислять производные (угловые коэффициенты касательных $k$) некоторых функций, например: $(x^n)' = nx^{n-1}$. А с помощью знака производной ($\pm k$) можно определить сторону (влево или вправо по $Ox$), в которой находится минимум функции.

#### 2.1.2. Понятие производной функции от нескольких переменных
<a id='partial_deriv'></a>

Рассмотрим некую функцию от двух переменных $f(x, y)$ (см. *Рис. 4*). Даны точки $x_0$ и $y_0$ (на осях $Ox$ и $Oy$ соответственно).

Пусть наша задача состоит в исследовании поведения функции $f(x, y)$ в окрестности $B(x_0, y_0)$ точек $x_0$ и $y_0$, причём $B(x_0, y_0) = \{(x_0 + \Delta x, y_0 + \Delta y), |\Delta x| < \epsilon, |\Delta y| < \epsilon\}$.

***Рис. 4: Функция $f(x, y)$ и точки $x_0, y_0, z_0$***
![IMG_64E2ACE54D7E-1.jpeg](attachment:92b11e85-2d6e-4fd1-961e-6b182fc07037.jpeg)

Решим поставленную задачу с помощью линейного приближения $L(x, y)$ функции $f(x, y)$ в $B(x_0, y_0)$. Итак, задача сводится к нахождению наилучшего линейного приближения функции $f(x, y)$ в $B(x_0, y_0)$.

Очевидно, что $L(x, y)$ имеет вид $ax + by + c$. Учитывая то, что $f(x, y)$ -- функция от **двух** переменных, следует рассмотреть отдельно **два** случая:
1. $f(x, y)$ при фиксированном $y$ $(y = const = y_0)$;
2. $f(x, y)$ при фиксированном $x$ $(x = const = x_0)$.

Так как один из аргументов $f(x, y)$ будет принят за константу, то получится график функции от **одной** переменной (очевидно, в 2-мерной системе координат).

Сначала рассмотрим случай $f(x, y), y = const = y_0 \Longrightarrow f(x, y_0)$ (см. *Рис. 5*):

***Рис. 5: Функция $f(x, y_0)$ и касательная $l_x$***
![№5.jpeg](attachment:a21d2a54-c180-41b8-ace0-b7a3c292171c.jpeg)

На *Рис. 5* изображена функция $f(x, y_0)$ и касательная $l_x$ к $f(x, y_0)$ в окрестности $B(x, y_0) = \{(x_0 + \Delta x, y_0), |\Delta x| < \epsilon\}$ точки $x_0$.

Исходя из *Рис. 5*, угол наклона $l_x$ равен $\alpha$, значит мы можем вычислить угловой коэффициент $l_x$, равный $k_x = \tan \alpha$, который в свою очередь равен **производной** $f'(x, y_0)$. Но не стоит забывать, что мы имеем дело с функцией от двух переменных $f(x, y)$, и поэтому производная от такой функции уже будет являться **частной***.

*Тот случай, когда название математического термина говорит само за себя: так как берётся производная не всей функции, а лишь её **"части"**, т.е. по одной из переменных, принимая остальные за константы, то, очевидно, отсюда и исходит название "частичный", иначе говоря, -- "частный".

Итак, $\tan \alpha = k_x = f'(x, y_0) ≝ f'_x(x_0, y_0) = \frac{\partial f}{\partial x}(x_0, y_0)$.

Возвращаясь к исходной задаче, нам требуется найти наилучшее линейное приближение. Если существует наилучшее линейное приближение всей функции $f(x, y)$, то его график должен содержать синий отрезок (см. *Рис. 5*) касательной $l_x$, так как последний -- наилучшее приближение в окрестности $B(x_0 + \Delta x, y_0)$.

Проделаем ту же самую работу и с функцией $f(x_0, y)$ (её 2-мерный график, касательная $l_y$ в окрестности $B(x_0, y_0 + \Delta y) = \{(x_0, y_0 + \Delta y), |\Delta y| < \epsilon\}$, угол наклона $l_y$, равный $\beta$) и получим: $\tan \beta = k_y = f'(x_0, y) ≝ f'_y(x_0, y_0) = \frac{\partial f}{\partial y}(x_0, y_0)$.

Итак, мы получили две касательные $l_x$ и $l_y$ к двум графикам функций с одной переменной ($f(x, y_0)$ и $f(x_0, y)$ соответственно), следовательно, две частные производные по $x$ ($f'_x(x_0, y_0)$) и по $y$ ($f'_y(x_0, y_0)$) и, следовательно, два отрезка, вместе составляющие **касательную плоскость** $L(x, y)$ к графику $f(x, y)$ в окрестности $B(x_0, y_0)$ (см. *Рис. 6*).

***Рис. 6: Функция $f(x, y)$ и касательная плоскость***
![№6.jpeg](attachment:1c4921c6-042d-462e-be25-dd81e27b4304.jpeg)

<a id="proof"></a>

И вместе данные две частные производные образуют единый вектор, называющийся **градиентом**: $grad f(x_0, y_0) = \{f'x(x_0, y_0); f'y(x_0, y_0)\}$.

Вектор градиента лежит на плоскости $Oxy$ и при его проекции ($grad f(x_0, y_0) = \{f'_x(x_0, y_0), f'_y(x_0, y_0), \Delta L$*$\}$)на $f(x, y)$ указывает в направлении максимального роста функции.

Докажем последнее утверждение.

*Здесь и далее подразумевается, что $\Delta L = \Delta z = L(\Delta x, \Delta y) - L(0, 0)$; данные обозначения было применено для подчёркивания именно линейного приближения. $L(x, y)$ -- функция наилучшего линейного приближения $f(x,y)$ в $B(x_0, y_0)$.

Для начала рассмотрим скалярное произведение векторов.

Пусть даны вектора $\vec x = \{x_1, x_2\}$ и $\vec y = \{y_1, y_2\}$. Тогда скалярным произведением этих векторов будет являться $\vec x \cdot \vec y = x_1y_1 + x_2y_2$. Причём $\vec x \cdot \vec y = x_1y_1 + x_2y_2 \Longleftrightarrow ||\vec x|| \cdot ||\vec y|| \cdot \cos \angle (\vec x, \vec y) \Longrightarrow \vec x \cdot \vec x = ||\vec x||^2$, где $||\vec x||$ - длина $\vec x$, а $\angle (\vec x, \vec y)$ - угол между векторами $\vec x$ и $\vec y$.

Итак, пусть $L(x, y) = 3x + 4y, \Delta z = \Delta L$, тогда:

$\Delta L = L(\Delta x, \Delta y) - L(0, 0)$*$ = 3\Delta x + 4\Delta y = (1)$. По условию, $||\Delta x; \Delta y|| = \sqrt{(\Delta x)^2 + (\Delta y)^2} \leqslant \epsilon$, следовательно, $(\Delta x)^2 + (\Delta y)^2 = \epsilon^2 \Longrightarrow ||\{\Delta x; \Delta y\}|| = \epsilon$. $(1) = \{3; 4\} \cdot \{\Delta x; \Delta y\} = ||\{3; 4\}|| \cdot \epsilon \cdot \cos \angle (\{3; 4\}, \{\Delta x; \Delta y\})$.

*Направление, для которого $L(\Delta x, \Delta y) - L(0, 0)$ максимально, -- это направление максимального роста $f(x, y)$, т.е. направление вектора градиента.

Теперь обратимся к пункту [2.1.1.](#grad_desc_in_math) "Производная от функции с одной переменной", где рассматривалось наилучшее линейное приближение функции $f(x)$, в частности к *[Рис. 3](#Pic_3)*. Используя последний, мы определили, что $f(x_0 + \Delta x) = f(x_0) + k\Delta x + \bar{\bar{o}}(\Delta x)$.

В случае с функцией от двух переменных $f(x, y)$ изображение будет выглядеть иначе, но сохраняя структуру *[Рис. 3](#Pic_3)*:

$f(x_0 + \Delta x, y_0 + \Delta y) = f(x_0, y_0) + L(\Delta x, \Delta y) = f(x_0, y_0) + f'_x(x_0, y_0)\Delta x + f'_y(x_0, y_0)\Delta y + \bar{\bar{o}}(\{\Delta x; \Delta y\})$.

Снова обратимся к *[Рис. 3](#Pic_3)*: если $f(x_0 + \Delta x) = f(x_0) + k\Delta x + \bar{\bar{o}}(\Delta x)$ при $\lim\limits_{\Delta x \to 0} \frac{\bar{\bar{o}}(\Delta x)}{\Delta x} = 0$, то $k\Delta x$ -- наилучшее линейное приближение $f(x)$ в $B(x_0)$.

Аналогичное рассмотрим и для $f(x, y)$ от двух переменных: если $f(x_0 + \Delta x, y_0 + \Delta y) = f(x_0, y_0) + k_x\Delta x + k_y\Delta y + \bar{\bar{o}}(\{\Delta x; \Delta y\})$ при $\lim\limits_{||\{\Delta x; \Delta y\}|| \to 0} \frac{\bar{\bar{o}}(\{\Delta x; \Delta y\})}{||\{\Delta x; \Delta y\}||} = 0$, то $(k_x\Delta x + k_y\Delta y)$ -- наилучшее линейное приближение $f(x, y)$.

#### ***Итого:***

1. $f(x_0 + \Delta x, y_0 + \Delta y) = (x_0, y_0) + f'_x(x_0, y_0)\Delta x + f'_y(x_0, y_0)\Delta y + \bar{\bar{o}}(\{\Delta x; \Delta y\})$;

2. $\bar{\bar{o}}(\{\Delta x; \Delta y\}) = f(x_0 + \Delta x, y_0 + \Delta y)^{\#1} - [f(x_0, y_0) + k_x\Delta x + k_y\Delta y]^{\#2}$, где $^{\#1}$ -- функция от двух переменных в $(x_0, y_0)$, а $^{\#2}$ -- её приближение.

### 2.2. Условие задачи (градиентный спуск на стыке матанализа и МО)
<a id='task_descrip'></a>

Рассмотрим группу точек на двумерной плоскости. Предположим, что данные связаны с ростом и весом группы студентов. Мы пытаемся предсказать какую-то связь между этими величинами, чтобы впоследствии предсказать вес некоторых новых студентов. Это, по сути, простой пример контролируемого машинного обучения.

Проведем произвольную прямую в пространстве, которая пересекает некоторые точки. Уравнение этой прямой: $y = kx + b$, где $k$ - коэффициент угла наклона, а $b$ - перемещение по оси $Oy$ (см. *Рис. 7*).

***Рис. 7: Задача аппроксимации линейной функции***
![y=kx+b.png](attachment:54550cc5-2eb9-4fd1-9da4-9ea62c10d80d.png)

Учитывая уже известный набор входных данных (в нашем случае $x$-координаты) и соответствующие им выходные данные ($y$-координаты), модель пытается сделать прогнозы для нового набора входных данных (см. *Рис. 8*).

***Рис. 8: Схема модели машинного обучения***

![ML-model.png](attachment:73f6addc-aa5b-4853-8055-d314084a908c.png)

### 2.3. Функция потерь (MSE)
<a id='loss_func'></a>

Однако возникает вопрос: насколько "хороша" модель, иначе говоря, насколько точное сравнительно с реальностью предсказание она сделала? Логично предположить, что данный вопрос решается тривиально:

$MSE = \frac{\sum_{i=1}^{N} (Y'_i - Y_i)^2}{N}$, где $N$ - кол-во точек, $Y'_i$ - предсказанное значение, а $Y_i$ - входное значение.

В машинном обучении такие функции называются **функции потерь** или **функции стоимости** (сделаем допущение: функция потерь и функция стоимости - равнозначные термины). В данноми случае мы используем разновидность функции потерь, которая называется **MSE** (Mean Squared Error) -- среднеквадратичная ошибка.

**Цель** практически любого алгоритма машинного обучения - **минимизировать функцию потерь**.

Функция потерь предназначена для отслеживания ошибки с каждым примером обучениям, в то время как производная функции относительного одного веса – это то, куда нужно сместить вес, чтобы минимизировать ее для этого примера обучения.

Стоит отдельно рассмотреть вопрос, почему функция потерь среднеквадратичная, а не абсолютная. Дело в том, что квадрат разности значений облегчает процесс оптимизации. Действительно, чтобы оптимизировать функцию под определённые значения, нужно вычислить первую производную функции стоимости, а вычислить производную от абсолютных значений гораздо сложнее, нежели от квадратов. Кроме того, квадрат разности увеличивает различие ошибки, таким образом, делая неверные предсказания более выраженными, чем верные.

Рассмотрим график функции $y = x^2$ в декартовой системе координат (см. *Рис. 9*).

***Рис. 9: График функции $y = x^2$***

![y=x^2.png](attachment:46871b84-2a48-4f05-85d0-290537a20fb1.png)

Чтобы достичь минимума функции, необходимо найти такое значение $x$, чтобы значение $y$ было минимальным (красная точка на *Рис. 9*).

Исходя из двумерности графика на *Рис. 9*, найти минимум функции не составляет труда. Однако функция далеко не всегда может располагаться в двумерном пространстве, что значительно усложнит процесс нахождения минимума. В таком случае, функция будет иметь несколько аргументов (больше одного), т.е. быть функцией от нескольких переменных.

Итак, перед нами стоит задача нахождения локального минимума некой функции от нескольких переменных. Обратимся к *[доказанному факту](proof)*: вектор градиента направлен в сторону наибольшего роста функции. Несложно сделать вывод, что тогда направление наибольшего убывания функции -- это ни что иное, как направление, противоположное вектору градиента.

Но проблема в том, что противоположный вектор вектору градиента указывает на направление наибольшего убывания функции, а не на локальный минимум. Поэтому для нахождения последнего необходимо большое количество векторов градиентов, последовательно отложенных друг от друга.

Таким образом, рано или поздно спустя некоторое количество **итераций** (проходов) мы окажемся в локальном минимуме функции. Такой способ нахождения минимума функции называется **градиентным спуском**.

### 2.4. Градиентный спуск
<a id='basics_grad_desc'></a>

**Градиентный спуск** - итеративный алгоритм оптимизации, применяющийся в большинстве случаев при оптимизации весов нейронной сети.

***Рис. 10: Возможные варианты спуска***

![1*ItujOVbVS683btoMNcSrWw.png](attachment:dfef65f0-7b07-4095-ac8a-6eea60a62d56.png)

Рассмотрим *Рис. 10*. Представим, что мы находимся в зелёной точке и хотим спустится с холма в низину. Для достижения нашей цели следует определиться с двумя вопросами:

* в какую сторону идти (влево или вправо);
* как идти (короткими или длинными шагами)?

Для решения этих вопросов в алгоритме градиентного спуска используются производные. Таким образом, если в точке $x$ существует производная, то существует и направление, при движении в котором алгоритм достигнет минимума.

Рассмотрим *Рис. 11*.

Пусть, касательные, проведённые через зелёную и синию точки, обозначаются $a$ и $b$ соответственно. Тогда можно обратить внимание на различный угол наклона касательных: несмотря на то, что обе касательные идут в одном направлении (вниз), угол наклона $a$ к графику функции более "крутой", чем угол наклона $b$. Из этого следует, что для достижения локального минимума из синей точки понадобиться сделать **строго меньше шагов**, чем из зелёной точки.

***Рис. 11: Касательные к графику $y = x^2$***

![1*wOcqaaLlNo7X56PJ-lYFqQ-2.png](attachment:6db55bca-658c-4446-9743-3a498bf5e93f.png)

### 2.5. Математическая интерпретация функции потерь
<a id='math_loss_func'></a>

В течение градиентного спуска параметры функции $y = kx + b$ ($k$ и $b$) изменяются на какое-то значение. Пусть это значение будет $\beta$. Тогда:

$k_1 = k_0 - \beta k_0, b_1 = b_0 - \beta b_0 (1) \Longrightarrow$

$\Longrightarrow MSE = \frac{\sum_{i=1}^{N} (Y'_i - Y_i)^2}{N}\Longrightarrow$

$\Longrightarrow J(k, b) = \frac{\sum_{i=1}^{N} (Y'_i - Y_i)^2}{N} \Longrightarrow$

$ \Longrightarrow J(k, b) = \frac{\sum_{i=1}^{N} (MSE_i)^2}{N}, MSE_i = (Y'_i - Y_i)^2 \Longrightarrow $

$\Longrightarrow$ ... $\Longrightarrow$

$ \Longrightarrow \frac{dJ(k, b)}{dk} = MSE * x * \alpha,$

$\frac{dJ(k, b)}{db} = MSE * \alpha$, где $\alpha$ - коэффициент обучения, определяющий, какой длины нужно сделать шаг $\Longrightarrow$

$\Longrightarrow$ Так как $(1) \Longrightarrow$

$\Longrightarrow k_1 = k_0 - MSE * x * \alpha$

$b_1 = b_0 - MSE * \alpha$,

где $k_0, b_0$ - предыдущие значения параметров, а $k_1, b_1$ - следующие значения параметров.

## **3. Градиентный спуск в рамках машинного обучения**
<a id = 'grad_desc_in_ml'></a>
[**Вернуться к содержанию**](#top)

### 3.1. Пример реализации batch-градиентного спуска
<a id = 'batch_grad_desc_code_examp'></a>

In [1]:
import torch


def batch_grad_desc(f, X0s: list, N=10001, alpha=.01, step=1) -> list:
    XMins = []                                                      # список для хранения минимумов
    for x0 in X0s:                                                  # цикл по x0 (координаты старта градиентного спуска)
        for _ in range(N):                                          # цикл по количеству шагов
            X = torch.tensor([x0],                                  # тензор X, содержащий x-координату текущей-
                             dtype=torch.float, requires_grad=True) # -точке с возможностью взятия производной
            y = f(X)                                                # функция от X
            y.backward()                                            # вычисляем производную по y
            x0 -= X.grad.item() * alpha * step                      # совершаем шаг, аппроксимируя x0
        XMins.append(x0)                                            # после прохода цикла предполагаемый минимум функции добавляется в список
    return XMins                                                    # возвращает список минимумов


f = lambda x: x**4 + x**3 - 1
X0s = [-20., -7., -5., 5., 7., 20.]
XMins = batch_grad_desc(f, X0s)
for x0, xmin in zip(X0s, XMins):
    print(f'при x0 = {x0}: x = {xmin}, y = {f(xmin)}')

при x0 = -20.0: x = nan, y = nan
при x0 = -7.0: x = -0.7500000286102306, y = -1.1054687499999991
при x0 = -5.0: x = -0.75, y = -1.10546875
при x0 = 5.0: x = -0.75, y = -1.10546875
при x0 = 7.0: x = nan, y = nan
при x0 = 20.0: x = nan, y = nan


### 3.2. Недостатки градиентного спуска
<a id = 'grad_desc_disadvantages'></a>

#### 3.2.1. Нахождение ложного локального минимума
<a id = 'wrong_min_error'></a>

Судя по выходным данным предыдущей ячейки кода, градиентному спуску не во всех случаях удалось найти минимум функции $y = x^4 + x^3 - 1$. При $x_0 = -7.0$ градиентный спуск нашёл истинный минимум функции. При $x_0 = -5.0; 5.0$ -- примерный минимум. Однако в остальных случаях ($x_0 = -20.0; 7.0; 20.0$) код вернул `nan`. Алгоритм градиентного спуска допустил ошибки по следующим причинам.

Сперва рассмотрим неточные минимумы при $x_0 = -5.0; 5.0$. Алгоритм вычислил примерный минимум функции. Когда такое случается, это говорит о том, что алгоритму либо не хватило шагов, чтобы достигнуть истинного минимума, либо шагов, напротив, было слишком много, и алгоритм перескочил через точку минимума функции. Эти проблемы обусловлены неверным выбором точки для началы градиентного спуска.

В остальных же случаях алгоритм градиентного спуска вернул `nan`. Это значит, что алгоритм **разошёлся**, произошло **расхождение**. Это значит, что шаг градиентного спуска был таковым, что мы перескочили точку предполагаемого минимума, вследствие чего лишь удалились от последней (см. *Рис. 12*).

***Рис. 12: Расхождение градиентного спуска ($y(x_0) < y(x_1)$)***

![resized_grad_descent.jpeg](attachment:63aade6e-67b3-4cd1-a801-b2ab54a5f238.jpeg)

#### 3.2.2. Высокая асимптотика алгоритма
<a id = 'high_asimptotics'></a>

Рассмотрим следующий пример: дана задача аппроксимировать линейную функцию $y = k\sin(x) + b$. При этом дан набор *(batch)* точек, содержащий в себе 10 координат $x$ и 10 $y$: $[(0, 1), (1, 2), ..., (8, 9), (9, 10)]$.

Чтобы решить данную задачу воспользуемся градиентным спуском: будем аппроксимировать параметры (коэффициенты) $k$ и $b$ до тех пор, пока не достигнем минимума функции потерь.

На первый взгляд решённая нами задача не является трудной. Однако это так лишь до тех пор, пока количество входных данных (в нашем случае batch'ей) находится в границах допустимого. Но что, если вместо этих 10 пар значений будет дан датасет из 1000, 10000, или даже, как часто это бывает, из 10000 таких значений? Очевидно что вычислительная сложность нашего алгоритма станет слишком высокой, из-за чего время работы программы будет аналогично долгим.

Решения всех вышеперечисленных недостатков batch-градиентного спуска будут рассмотрены в следующей главе.

## **4. Методы оптимизации градиентного спуска**
<a id = 'batch_grad_desc_optimize'></a>
[**Вернуться к содержанию**](#top)

### 4.1. Определение начальной координаты
<a id='start_coord'></a>

В тех случаях, когда функция, минимум которой требуется найти, представляет из себя полином вида $Ax^n + Bx^{n-1} + ... + Yx + Z$, за точку старта градиентного спуска можно взять минимум функции старшего члена полинома ($Ax^n$).

*Пример:* $y = 5x^8 - 3x^3 + x^2 - 12$.

В данном случае градиентный спуск следует начать с точки $x_0 = f_{min}, f = 5x^8$ --> $x_0 = 0$

### 4.2. Метод нормирования градиента (clip gradient)
<a id='clip_grad'></a>

Чтобы избежать расхождения градиентного спуска применяют **метод нормирования вектора градиента**. В машинном обучении данный метод называется **clip gradient**. Его суть состоит в том, что при достижении вектора градиента определённой длины, его координаты обновляются таким образом, что длина вектора становится равной определённой *константе* (чаще всего, *единице*). Благодаря этой операции можно избежать проблемы расхождения, ведь теперь шаг значительно уменьшится, причём пропорционально изначальной длине вектора:

$\overrightarrow{g}\{g_x; g_y\}$ --> $||\overrightarrow{g}||_2\{ \frac{g_x}{\sqrt{g_x^2 + g_y^2}}; \frac{g_y}{\sqrt{g_x^2 + g_y^2}} \}$, где  $||\overrightarrow{g}||_2$ -- нормированный вектор $\overrightarrow{g}$

Ниже приведён пример реализации функции `clip gradient`:

In [2]:
import torch


def clip_grad(grad: torch.Tensor, max_grad_len: float) -> tuple:
    grad_len = torch.norm(grad)                        # вычисление длины вектора градиента
    if grad_len < max_grad_len:                        # если длина вектора меньше максимальной длины:
        return grad, grad_len                          # вернуть градиент (без изменений)
    return (grad / grad_len) * max_grad_len, grad_len  # иначе: вернуть вектор градиента делённый на длину-
                                                       # -вектора и умноженный на максимальную длину

    
clip_grad(torch.tensor([1, 2], dtype=torch.float), 1.)

(tensor([0.4472, 0.8944]), tensor(2.2361))

Подтвердим корректность программы, вручную вычислив нормированный вектор $\overrightarrow{g}\{1; 2\}$:

$ ||\overrightarrow{g}||_2\{ \frac{g_x}{\sqrt{g_x^2 + g_y^2}}; \frac{g_y}{\sqrt{g_x^2 + g_y^2}} \} = ||\overrightarrow{g}||_2\{ \frac{1}{\sqrt{1^2 + 2^2}}; \frac{2}{\sqrt{1^2 + 2^2}} \} = ||\overrightarrow{g}||_2\{ \frac{1}{\sqrt{5}}; \frac{2}{\sqrt{5}} \} \approx ||\overrightarrow{g}||_2\{0.4472;  0.8944\} $

### 4.3. Цикл `while`
<a id='while_grad_desc'></a>

Итеративность градиентного спуска можно организовать и другим способом: с помощью цикла с условием `while` (рус. -- "пока"). Цикл `while` повторяет вложенные в себя операции до тех пор, пока выполняется данное условие. В случае градиентного спуска в качестве условия можно использовать фиксированную константу, представляющую из себя желаемую длину вектора, при достижении которой градиент больше не уменьшается, и градиентный спуск прекращается. Это не только улучшает асимптотику алгоритма, но и предотвращает ошибку нахождения ложного минимума.

Ниже приведён пример реализации batch-градиентного спуска с циклом `while`:

In [3]:
import torch


def batch_grad_desc(f, x0: float, alpha=.01, step=1, max_grad_len=1., desired_grad_len=1e-6) -> float:
    grad_len = desired_grad_len + 1                               # по условию гарантировано, что текущая длина вектора-
                                                                  # -строго больше желаемой длины вектора
    while grad_len > desired_grad_len:                            # цикл while
        X = torch.tensor([x0],                                    # тензор X, содержащий x-координату текущей-
                         dtype=torch.float, requires_grad=True)   # -точке с возможностью взятия производной
        y = f(X)                                                  # функция от X
        y.backward()                                              # вычисляем производную по y
        clipped_grad, grad_len = clip_grad(X.grad, max_grad_len)  # с помощью функции clip_grad нормируем вектор градиента
        x0 -= clipped_grad.item() * alpha * step                  # совершаем шаг, аппроксимируя x0
    return x0                                                     # возвращает минимум функции


f = lambda x: x**4 + x**3 - 1
x0 = -5.
x_min = batch_grad_desc(f, x0)
print(f'x0 = {x0}; Minimum: x = {x_min}, y = {f(x_min)}')

x0 = -5.0; Minimum: x = -0.7500004339218777, y = -1.1054687499997882


Обратите внимание на совпадение результатов работы программы из предыдущей ячейки с ранее вычисленным минимумом функции обычным batch-градиентным спуском.

### 4.4. Стохастический градиентный спуск
<a id=stoch_grad_desc></a>

Самым весомым недостатком batch-градиентного спуска является высокая вычислительная сложность алгоритма, так как мы при каждой итерации аппроксимируем $x_0$ на всём датасете. Однако зачем для аппроксимации $x_0$ использовать весь датасет, если можно использовать его **часть** (науч. -- **batch** или **chunk**), при условии, что все эти части **равны по размеру** и относительно **равнозначны**. Такая разновидность градиентного спуска называется стохастическим градиентным спуском.

В стохастическом градиентном спуске параметры аппроксимируются градиентом одного batch'а по уже знакомой формуле:

$k_1 = k_0 - MSE * x_i * \alpha$, где $k$ - аппроксимируемый параметр, а $x_i$ -- $i$-й batch

Пробегая через очередной batch, алгоритм осуществляет приведённый выше пересчёт для каждого $i$-го batch'а. Через датасет (список batch'ей) может быть осуществлено несколько проходов, которые называются **эпохами**, прежде чем алгоритм сойдётся. Чем больше эпох осуществлено для аппроксимации параметров, тем точнее будет результат. Существует ещё один, но не менее важный аспект стохастического градиентного спуска: перед началом очередной эпохи (прохода по всем batch'ам), необходимо перетрясти датасет, дабы избежать зацикливания.

Нельзя не отметить, что помимо достоинств, стохастический градиентный спуск имеет и свои недостатки. И основным из них является более низкая точность аппроксимации, сравнительно с batch-градиентным спуском. Это обусловлено работой алгоритма не на всём датасете, а лишь на его частях. Тем не менее, в случаях датасетов **большого объёма** стохастическая вариация градиентного спуска является оптимальным решением с точки зрения соотношения "время-качество".

Обобщённо, алгоритм стохастического градиентного спуска устроен так же, как и batch-вариация (модель и сама оптимизация), за исключением допольнительного процесса -- подготовки данных. В течение это операции датасет разделяется на batch'и и, как правило, перемешивается. 

Ниже приведён пример реализации стохастического градиентного спуска в рамках решения задачи аппроксимации линейной функции вида $y = k_1x + k_2x + b + n$, где $k_1, k_2$ и $b$ - искомые параметры, а $n$ - случайный шум (представлен нормальным распределением); пусть параметры $k_1, k_2$ и $b$ будут равны $1$, $2$ и $3$ соответственно:

In [4]:
%%time
import torch


def dataloader(M: int, k1: float, k2: float, b: float,
               batch_size=10, shuffle=True) -> zip:                       # Часть 1: подготовка данных 
    X = torch.rand(M, 2) * 100
    y = k1 * X[:,0] + k2 * X[:,1] + b + torch.randn(M)
    if shuffle:
        perm = torch.randperm(X.shape[0])
        X = X[perm]
        y = y[perm]
    X_batches = torch.split(X, batch_size)
    y_batches = torch.split(y, batch_size)
    return zip(X_batches, y_batches)

def model(k1k2b, X_batch):                                                # Часть 2: модель
    return k1k2b[0] * X_batch[:,0] + k1k2b[1] * X_batch[:,1] + k1k2b[2]

def main(k1: float, k2: float, b: float, M: int, epochs=1,
         alpha=.1, step=1, max_grad_len=1.) -> tuple:                     # Часть 3: оптимизация
    k1k2b = torch.tensor([1., 1., 0.], dtype=torch.float, requires_grad=True)
    for epoch in range(epochs):
        for X_batch, y_batch in dataloader(100, 1, 2, 3, 7):
            yy = model(k1k2b, X_batch)
            mse = ((yy - y_batch)**2).mean()
            mse.backward()
            clipped_grad, _ = clip_grad(k1k2b.grad, max_grad_len)
            k1k2b = (k1k2b - clipped_grad * alpha * step).clone().detach().requires_grad_(True)
    return k1k2b[0].item(), k1k2b[1].item(), k1k2b[2].item()


k1, k2, b = main(1., 2., 3., 100, epochs=10000)
print(f'k1 = {k1}, k2 = {k2}, b = {b}')

k1 = 1.0472500324249268, k2 = 2.0283684730529785, b = 3.000293016433716
CPU times: user 12.4 s, sys: 16.9 ms, total: 12.5 s
Wall time: 12.5 s


Значениями выходных данных можно подтвердить вышеизложенные свойства стохастического градиентного спуска: высокая скорость работы, но меньшая точность. Если у вас возникли сомнения в низкой асимптотике данного алгоритма алгоритма, прошу обратить внимание, что размер исходного датасета составляет 100 пар значений, а количество эпох -- 10000 (всего $100 \cdot 10000 = 1000000$ шагов градиентного спуска).

## **5. Заключение**
<a id = 'conclusion'></a>
[**Вернуться к содержанию**](#top)

Градиентный спуск -- один из, если не самый популярный алгоритм оптимизации в машинном обучении. С помощью него и работает функция обратного распространения ошибки в перцептроне (нейронной сети), и решается столь базовая задача, как аппроксимация линейной функции.

Помимо вышеперечисленных способов усовершенствования градиентного спуска существует также множество других его вариаций и модификаций (например, метод Ньютона и квазиньютоновские методы), но последние являются более сложными методами, требующие дополнительных специфических вычислений, которые обычно более вычислительно затратны, нежели вычисление самого градиента.