# Введение

Градиентный спуск - алгоритм, использующийся для нахождения экстремумов функции многих переменных. В основе работы алгоритма лежит понятие градиента.
Градиент - вектор, направленный в сторону максимального возрастания функции. Формула градиента для функции $f(x_0, x_1, \dots, x_n)$ выглядит следующим образом:
$$
\nabla f(x_0,x_1, \dots, x_n) = (\frac{\partial f}{\partial x_0}, \frac{\partial f}{\partial x_1}, \dots, \frac{\partial f}{\partial x_n})
$$
Идея градиентного спуска состоим в том, чтобы идти вдоль вектора $\nabla f$, постепенно приближаясь к экстремуму функции.

# Градиентный спуск для функции одной переменной

Рассмотрим пример градиентного спуска для функции $f(x)=x^2$. Градиент для функции $f(x)$ является производной $f'(x) = 2x$. Будем исходить из того, что мы ищем минимум функции $f(x)$. Тогда двигаться будем в противоположную от градиента сторону $-f'(x)$. Также нам нужна точка, откуда мы начнем движение $x_0$. Кроме того, добавим параметр $0<\alpha<1$, который будет отвечать за то, насколько сильно мы смещаемся вдоль градиента. Итоговая функция для вычисления следующей точки, которая должна быть ближе к минимуму функции выглядит так:  

$$
x_{i+1}=x_i - \alpha f'(x)
$$

Для заданной ранее функции $f(x)$ получим: $x_{i+1}=x_i - \alpha 2 x$.
Для алгоритма градиентного спуска зададим количество итераций, за которое он должен найти минимум функции и условие остановки, если он найдет минимум функции раньше, чем закончится количество итераций. В качестве условия установки возьмём следующие правило: $|\alpha f'(x)| \leq \epsilon$.

<br>

<p><img width="360" height="200" src="./block_diagrams/gradient_descent.png"></p>
Блок-схема алгоритма

# Реализация в python

Для начала импортируем необходимые библиотеки:

In [None]:
import main
import numpy as np
from IPython.display import HTML

Реализация алгоритма и его визуализации

In [None]:
def gradient_descent(x0, alpha, n_iter, epsilon = 1e-06):
    """
    Алгоритм градиентного спуска для поиска минимума функции f(x)=x^2
    :param x0: начальное значение аргумента
    :param alpha: множитель, определяющий как сильно изменяется аргумент
    :param n_iter: количество итераций
    :param epsilon: необходимая точность (10^-6)
    :returns значение аргумента в точке минимума
    """
    x = x0
    for _ in range(n_iter):
        difference = alpha * 2 * x
        if abs(difference) <= epsilon:
            return x
        x = x - difference
    return x

Очевидно, что минимум функции $f(x)=x^2$ находится в точке 0.

In [None]:
%matplotlib inline 
x0 = -5
alpha = 0.1
n_iter = 10
x = gradient_descent(x0, alpha, n_iter)
print(x)
animation = main.gradient_descent_animation(x0, alpha, n_iter)
HTML(animation.to_jshtml())

# Использование градиентного спуска для нахождения оптимальных параметров линейной регрессии

Допустим, имеется следующая таблица данных:

| x:     | 5     | 15     | 25     | 35     | 45     | 55     |
|--------|-------|--------|--------|--------|--------|--------|
| **y:** | **5** | **20** | **14** | **32** | **22** | **38** |

Необходимо выполнить аппроксимацию уравнением $y=ax+b$ так, чтобы $\sum_{i=1}^{n}(y_i-ax_i-b)^2\to min$. Задача сводится к нахождению оптимальных значений параметров a и b. Для решения данной задачи можно использовать алгоритм градиентного спуска:

<br>

<p><img width="360" height="200" src="./block_diagrams/gradient_descent_lr.png"></p>
Блок-схема алгоритма

Градиент для данной функции выглядит следующим образом:

$\nabla f(a, b) = (\frac{\partial f}{\partial a}, \frac{\partial f}{\partial b})$

$\frac{\partial f}{\partial a}=\sum_{i=1}^{n}-2(y_i-ax_i-b)x_i$

$\frac{\partial f}{\partial b}=\sum_{i=1}^{n}-2(y_i-ax_i-b)$

# Реализация в python

Зададим исходные массивы данных:

In [None]:
X = np.array([5, 15, 25, 35, 45, 55])
Y = np.array([5, 20, 14, 32, 22, 38])

Объявим функцию:

In [None]:
def gradient_descent(X, Y, a, b, alpha, n_iter, epsilon = 1e-06):
    """
    Алгоритм градиентного спуска для поиска минимума функции f(x)=x^2
    :param X: исходный вектор x
    :param Y: исходный вектор y
    :param a: начальное значение параметра a
    :param b: начальное значение параметра b
    :param alpha: множитель, определяющий как сильно изменяется аргумент
    :param n_iter: количество итераций
    :param epsilon: необходимая точность (10^-6)
    :returns значение аргумента в точке минимума
    """
    for i in range(n_iter):
        h_a = np.sum(-2 * (Y - a * X - b) * X)
        h_b = np.sum(-2 * (Y - a * X - b))
        if abs(h_a) <= epsilon and abs(h_b) <= epsilon:
            return a, b
        a = a - alpha * h_a
        b = b - alpha * h_b
        if (i+1) % 10000 == 0 or 1 <= (i + 1) <= 10:
            loss = np.sum((Y - a * X - b) ** 2 )
            print(f"n = {i + 1}, Loss: {loss:.5f}")
    return a, b

Попробуем найти минимум функции

In [None]:
%matplotlib inline
a = 0
b = 0
alpha = 0.00002
n_iter = 100_000
result = gradient_descent(X, Y, a, b, alpha, n_iter)
animation = main.gradient_descent_lr_animation(X, Y, a, b, alpha, n_iter)
print(result)
HTML(animation.to_jshtml())


# Использование стохастического градиентного спуска для нахождения оптимальных параметров линейной регрессии

Основное отличие между классическим и стохастическим градиентным спуском заключается в выборе набора векторов входных данных для расчета градиента. Если классический алгоритм использует всю совокупность данных на каждой итерации, то стохастический использует пакеты определённого размера, включающие в себя случайный набор векторов входных данных. Например, для 3 итераций классического градиентного спуска набор входных данных всегда будет:
| x:     | 5     | 15     | 25     | 35     | 45     | 55     |
|--------|-------|--------|--------|--------|--------|--------|
| **y:** | **5** | **20** | **14** | **32** | **22** | **38** |

Когда как для стохастического, при размере пакета 2, 1-ая итерация:
| x:     | 5     | 55     |
|--------|-------|--------|
| **y:** | **5** | **38** |

2-ая итерация:
| x:     | 15    | 35     |
|--------|-------|--------|
| **y:** | **20** | **32** |

3-ая итерация:
| x:     | 25     | 45     |
|--------|-------|--------|
| **y:** | **14** | **22** |

Если пакеты закончились до окончания работы алгоритма, они просто формируются заново.

<p><img width="600" height="200" src="./block_diagrams/stohastic_gradient_descent_lr.png"></p>
Блок-схема алгоритма

# Реализация в Python

Определим функцию:

In [None]:
def stochastic_gradient_descent(X, Y, a, b, alpha, n_iter, batch_size, epsilon=1e-06):
    """
    Алгоритм градиентного спуска для поиска минимума функции f(x)=x^2
    :param X: исходный вектор x
    :param Y: исходный вектор y
    :param a: начальное значение параметра a
    :param b: начальное значение параметра b
    :param alpha: множитель, определяющий как сильно изменяется аргумент
    :param n_iter: количество итераций
    :param batch_size: размер одного пакета
    :param epsilon: необходимая точность (10^-6)
    :returns значение аргумента в точке минимума
    """
    rng = np.random.default_rng(0)
    indices = rng.choice(X.shape[0], size=len(X), replace=False)
    shuffled_X = X[indices]
    shuffled_Y = Y[indices]
    start = 0
    end = batch_size
    for i in range(n_iter):
        if end >= len(X):
            indices = rng.choice(X.shape[0], size=len(X), replace=False)
            shuffled_X = X[indices]
            shuffled_Y = Y[indices]
            start = 0
            end = batch_size

        batch_X = shuffled_X[start:end]
        batch_Y = shuffled_Y[start:end]
        h_a = np.sum(-2 * (batch_Y - a * batch_X - b) * batch_X)
        h_b = np.sum(-2 * (batch_Y - a * batch_X - b))
        if abs(h_a) <= epsilon and abs(h_b) <= epsilon:
            return a, b
        a = a - alpha * h_a
        b = b - alpha * h_b
        start += batch_size
        end += batch_size
        if (i + 1) % 10000 == 0 or 1 <= (i + 1) <= 10:
            loss = np.sum((Y - a * X - b) ** 2)
            print(f"n = {i + 1}, Loss: {loss:.5f}")
    return a, b

Найдем минимум функции:

In [None]:
a = 0
b = 0
alpha = 0.00002
n_iter = 100_000
batch_size = 3
result = stochastic_gradient_descent(X, Y, a, b, alpha, n_iter, batch_size)
animation = main.stochastic_gradient_descent_lr_animation(X, Y, a, b, alpha, n_iter, batch_size)
print(result)
HTML(animation.to_jshtml())