# Введение

Градиентный спуск - алгоритм, использующийся для нахождения экстремумов функции многих переменных. В основе работы алгоритма лежит понятие градиента.
Градиент - вектор, направленный в сторону максимального возрастания функции. Формула градиента для функции $f(x_0, x_1, \dots, x_n)$ выглядит следующим образом:
$$
\nabla f(x_0,x_1, \dots, x_n) = (\frac{\partial f}{\partial x_0}, \frac{\partial f}{\partial x_1}, \dots, \frac{\partial f}{\partial x_n})
$$
Идея градиентного спуска состоим в том, чтобы идти вдоль вектора $\nabla f$, постепенно приближаясь к экстремуму функции.

# Градиентный спуск для функции одной переменной

Рассмотрим пример градиентного спуска для функции $f(x)=x^2$. Градиент для функции $f(x)$ является производной $f'(x) = 2x$. Будем исходить из того, что мы ищем минимум функции $f(x)$. Тогда двигаться будем в противоположную от градиента сторону $-f'(x)$. Также нам нужна точка, откуда мы начнем движение $x_0$. Кроме того, добавим параметр $0<\alpha<1$, который будет отвечать за то, насколько сильно мы смещаемся вдоль градиента. Если значение $\alpha$ будет слишком большим, то алгоритм не будет сходиться. Если значения $\alpha$ будет слишком маленьким, то алгоритм будет сходиться слишком медленно. Параметр $\alpha$ называется гиперпараметром и часто определяется экспериментально. Итоговая функция для вычисления следующей точки, которая должна быть ближе к минимуму функции выглядит так:  

$$
x_{i+1}=x_i - \alpha f'(x)
$$

Для заданной ранее функции $f(x)$ получим: $x_{i+1}=x_i - \alpha 2 x$.
Для алгоритма градиентного спуска зададим количество итераций, за которое он должен найти минимум функции и условие остановки, если он найдет минимум функции раньше, чем закончится количество итераций. В качестве условия установки возьмём следующие правило: $|\alpha f'(x)| \leq \epsilon$.

<br>

<p><img width="360" height="200" src="./block_diagrams/gradient_descent.png"></p>
Блок-схема алгоритма

# Реализация в python

Для начала импортируем необходимые библиотеки:

In [1]:
import main
import numpy as np
from IPython.display import HTML

Реализация алгоритма и его визуализация:

In [2]:
def gradient_descent(x0, alpha, n_iter, epsilon = 1e-06):
    """
    Алгоритм градиентного спуска для поиска минимума функции f(x)=x^2
    :param x0: начальное значение аргумента
    :param alpha: множитель, определяющий как сильно изменяется аргумент
    :param n_iter: количество итераций
    :param epsilon: необходимая точность (10^-6)
    :returns: значение аргумента в точке минимума
    """
    x = x0
    for _ in range(n_iter):
        difference = alpha * 2 * x
        if abs(difference) <= epsilon:
            return x
        x = x - difference
    return x

Очевидно, что минимум функции $f(x)=x^2$ находится в точке 0.

In [21]:
%matplotlib inline 
x0 = -5
alpha = 0.99
n_iter = 15
x = gradient_descent(x0, alpha, n_iter)
print(x)
animation = main.gradient_descent_animation(x0, alpha, n_iter)
HTML(animation.to_jshtml())

3.6928455132270193


# Использование градиентного спуска для нахождения оптимальных параметров линейной регрессии

Допустим, имеется следующая таблица данных:

| x:     | 5     | 15     | 25     | 35     | 45     | 55     |
|--------|-------|--------|--------|--------|--------|--------|
| **y:** | **5** | **20** | **14** | **32** | **22** | **38** |

Необходимо выполнить аппроксимацию уравнением $y=ax+b$ так, чтобы $\sum_{i=1}^{n}(y_i-ax_i-b)^2\to min$. Задача сводится к нахождению оптимальных значений параметров a и b. Для решения данной задачи можно использовать алгоритм градиентного спуска:

<br>

<p><img width="400" height="200" src="./block_diagrams/gradient_descent_lr.png"></p>
Блок-схема алгоритма

Градиент для данной функции выглядит следующим образом:

$\nabla f(a, b) = (\frac{\partial f}{\partial a}, \frac{\partial f}{\partial b})$

$\frac{\partial f}{\partial a}=\sum_{i=1}^{n}-2(y_i-ax_i-b)x_i$

$\frac{\partial f}{\partial b}=\sum_{i=1}^{n}-2(y_i-ax_i-b)$

# Реализация в python

Зададим исходные массивы данных:

In [4]:
X = np.array([5, 15, 25, 35, 45, 55])
Y = np.array([5, 20, 14, 32, 22, 38])

Объявим функцию:

In [5]:
def gradient_descent_lr(X, Y, a, b, alpha, n_iter, epsilon = 1e-06):
    """
    Алгоритм градиентного спуска для поиска минимума функции f(x)=x^2
    :param X: исходный вектор x
    :param Y: исходный вектор y
    :param a: начальное значение параметра a
    :param b: начальное значение параметра b
    :param alpha: множитель, определяющий как сильно изменяется аргумент
    :param n_iter: количество итераций
    :param epsilon: необходимая точность (10^-6)
    :returns: значение аргумента в точке минимума
    """
    for i in range(n_iter):
        h_a = np.sum(-2 * (Y - a * X - b) * X)
        h_b = np.sum(-2 * (Y - a * X - b))
        if abs(h_a) <= epsilon and abs(h_b) <= epsilon:
            return a, b
        a = a - alpha * h_a
        b = b - alpha * h_b
        if (i+1) % 10000 == 0 or 1 <= (i + 1) <= 10:
            loss = np.sum((Y - a * X - b) ** 2 )
            print(f"n = {i + 1}, Loss: {loss:.5f}")
    return a, b

Попробуем найти минимум функции

In [6]:
%matplotlib inline
a = 0
b = 0
alpha = 0.00002
n_iter = 100_000
result = gradient_descent_lr(X, Y, a, b, alpha, n_iter)
animation = main.gradient_descent_lr_animation(X, Y, a, b, alpha, n_iter)
print(result)
HTML(animation.to_jshtml())


n = 1, Loss: 1942.62388
n = 2, Loss: 1111.88403
n = 3, Loss: 688.58855
n = 4, Loss: 472.90112
n = 5, Loss: 362.99769
n = 6, Loss: 306.99515
n = 7, Loss: 278.45711
n = 8, Loss: 263.91325
n = 9, Loss: 256.49996
n = 10, Loss: 252.71994
n = 10000, Loss: 216.85036
n = 20000, Loss: 206.95862
n = 30000, Loss: 203.90115
n = 40000, Loss: 202.95612
n = 50000, Loss: 202.66401
n = 60000, Loss: 202.57373
n = 70000, Loss: 202.54582
n = 80000, Loss: 202.53719
n = 90000, Loss: 202.53453
n = 100000, Loss: 202.53370
(0.5403989671193141, 5.617488725675044)


# Использование стохастического градиентного спуска для нахождения оптимальных параметров линейной регрессии

Стохастический градиентный спуск использует на каждой итерации расчета градиента один случайный вектор входных данных. Это уменьшает скорость сходимости, но позволяет преодолевать локальные минимумы, а также существенно ускоряет скорость расчета градиента, что имеет сильный эффект при большом объеме входных данных. Данный алгоритм является нестабильным - следующий шаг не обязательно приближает нас к минимуму функции, поэтому имеет смысл хранить параметры, при которых значение функции было минимальным.

<p><img width="700" height="600" src="./block_diagrams/stohastic_gradient_descent_lr.png"></p>
Блок-схема алгоритма


# Реализация в Python

Объявим функцию:

In [7]:
def stochastic_gradient_descent_lr(X, Y, a, b, alpha, n_iter, epsilon=1e-06, seed = 0):
    """
    Алгоритм градиентного спуска для поиска минимума функции f(x)=x^2
    :param X: исходный вектор x
    :param Y: исходный вектор y
    :param a: начальное значение параметра a
    :param b: начальное значение параметра b
    :param alpha: множитель, определяющий как сильно изменяется аргумент
    :param n_iter: количество итераций
    :param epsilon: необходимая точность (10^-6)
    :param seed: значения для инициализации генератора случайных чисел (0)
    :returns: значение аргумента в точке минимума
    """
    best_loss = np.sum((Y - a * X - b) ** 2)
    best_a = a
    best_b = b
    rng = np.random.default_rng(seed)
    for i in range(n_iter):
        random_index = rng.integers(0, len(X))
        h_a = np.sum(-2 * (Y[random_index] - a * X[random_index] - b) * X[random_index])
        h_b = np.sum(-2 * (Y[random_index] - a * X[random_index] - b))
        if abs(h_a) <= epsilon and abs(h_b) <= epsilon:
            break
        a = a - alpha * h_a
        b = b - alpha * h_b
        loss = np.sum((Y - a * X - b) ** 2)
        if loss < best_loss:
            best_loss = loss
            best_a = a
            best_b = b
        if (i + 1) % 10000 == 0 or 1 <= (i + 1) <= 10:
            print(f"n = {i + 1}, Loss: {loss:.5f}")
    return best_a, best_b

Найдем минимум функции:

In [8]:
%matplotlib inline
a = 0
b = 0
alpha = 0.00002
n_iter = 150_000
result = stochastic_gradient_descent_lr(X, Y, a, b, alpha, n_iter)
animation = main.stochastic_gradient_descent_lr_animation(X, Y, a, b, alpha, n_iter)
print(result)
HTML(animation.to_jshtml())

n = 1, Loss: 2807.51858
n = 2, Loss: 2470.95145
n = 3, Loss: 2172.89660
n = 4, Loss: 2095.43681
n = 5, Loss: 2020.24688
n = 6, Loss: 2014.41923
n = 7, Loss: 2008.60723
n = 8, Loss: 2002.81083
n = 9, Loss: 1930.36033
n = 10, Loss: 1770.24456
n = 10000, Loss: 240.73213
n = 20000, Loss: 251.80391
n = 30000, Loss: 228.76661
n = 40000, Loss: 259.21297
n = 50000, Loss: 220.14460
n = 60000, Loss: 221.77396
n = 70000, Loss: 216.83058
n = 80000, Loss: 215.27543
n = 90000, Loss: 212.09581
n = 100000, Loss: 211.16876
n = 110000, Loss: 207.99349
n = 120000, Loss: 208.62502
n = 130000, Loss: 214.76417
n = 140000, Loss: 206.32526
n = 150000, Loss: 206.80404
(0.5733539589860135, 4.28551397596059)


# Использование мини-пакетного стохастического градиентного спуска для нахождения оптимальных параметров линейной регрессии

Основное отличие между классическим и мини-пакетным стохастическим градиентным спуском заключается в выборе набора векторов входных данных для расчета градиента. Если классический алгоритм использует всю совокупность данных на каждой итерации, то мини-пакетный стохастический использует пакеты определённого размера, включающие в себя случайный набор векторов входных данных. Например, для 3 итераций классического градиентного спуска набор входных данных всегда будет:
| x:     | 5     | 15     | 25     | 35     | 45     | 55     |
|--------|-------|--------|--------|--------|--------|--------|
| **y:** | **5** | **20** | **14** | **32** | **22** | **38** |

Когда как для мини-пакетного стохастического, при размере пакета 2, 1-ая итерация:
| x:     | 5     | 55     |
|--------|-------|--------|
| **y:** | **5** | **38** |

2-ая итерация:
| x:     | 15    | 35     |
|--------|-------|--------|
| **y:** | **20** | **32** |

3-ая итерация:
| x:     | 25     | 45     |
|--------|-------|--------|
| **y:** | **14** | **22** |

Если пакеты закончились до окончания работы алгоритма, они просто формируются заново. Данное решение является компромиссом между стохастическим и классическим градиентными спусками. Оно также может проскакивать локальные минимумы, при этом имея лучшую сходимость и стабильность чем у стохастического градиентного спуска и имея лучшую скорость вычисления градиента чем у классического градиентного спуска.

<p><img width="700" height="600" src="./block_diagrams/mini_batch_stohastic_gradient_descent_lr.png"></p>
Блок-схема алгоритма

# Реализация в Python

Определим функцию:

In [9]:
def minibatch_stochastic_gradient_descent_lr(X, Y, a, b, alpha, n_iter, batch_size, epsilon=1e-06, seed = 0):
    """
    Алгоритм градиентного спуска для поиска минимума функции f(x)=x^2
    :param X: исходный вектор x
    :param Y: исходный вектор y
    :param a: начальное значение параметра a
    :param b: начальное значение параметра b
    :param alpha: множитель, определяющий как сильно изменяется аргумент
    :param n_iter: количество итераций
    :param batch_size: размер одного пакета
    :param epsilon: необходимая точность (10^-6)
    :param seed: значения для инициализации генератора случайных чисел (0)
    :returns: значение аргумента в точке минимума
    """
    best_loss = np.sum((Y - a * X - b) ** 2)
    best_a = a
    best_b = b
    rng = np.random.default_rng(seed)
    indices = rng.choice(X.shape[0], size=len(X), replace=False)
    shuffled_X = X[indices]
    shuffled_Y = Y[indices]
    start = 0
    for i in range(n_iter):
        if start >= len(X):
            indices = rng.choice(X.shape[0], size=len(X), replace=False)
            shuffled_X = X[indices]
            shuffled_Y = Y[indices]
            start = 0
        end = min(len(X), start + batch_size)
        batch_X = shuffled_X[start:end]
        batch_Y = shuffled_Y[start:end]
        h_a = np.sum(-2 * (batch_Y - a * batch_X - b) * batch_X)
        h_b = np.sum(-2 * (batch_Y - a * batch_X - b))
        if abs(h_a) <= epsilon and abs(h_b) <= epsilon:
            break
        a = a - alpha * h_a
        b = b - alpha * h_b
        start += batch_size
        loss = np.sum((Y - a * X - b) ** 2)
        if loss < best_loss:
            best_loss = loss
            best_a = a
            best_b = b
        if (i + 1) % 10000 == 0 or 1 <= (i + 1) <= 10:
            print(f"n = {i + 1}, Loss: {loss:.5f}")
    return best_a, best_b

Найдем минимум функции:

In [10]:
a = 0
b = 0
alpha = 0.00002
n_iter = 150_000
batch_size = 3
result = minibatch_stochastic_gradient_descent_lr(X, Y, a, b, alpha, n_iter, batch_size)
animation = main.minibatch_stochastic_gradient_descent_lr_animation(X, Y, a, b, alpha, n_iter, batch_size)
print(result)
HTML(animation.to_jshtml())

n = 1, Loss: 2917.91603
n = 2, Loss: 2044.26524
n = 3, Loss: 1559.41834
n = 4, Loss: 1222.48937
n = 5, Loss: 963.07367
n = 6, Loss: 774.71860
n = 7, Loss: 617.87806
n = 8, Loss: 524.03338
n = 9, Loss: 448.28048
n = 10, Loss: 402.62932
n = 10000, Loss: 228.24495
n = 20000, Loss: 216.76820
n = 30000, Loss: 210.50558
n = 40000, Loss: 206.92280
n = 50000, Loss: 205.04947
n = 60000, Loss: 204.02925
n = 70000, Loss: 203.28068
n = 80000, Loss: 202.95531
n = 90000, Loss: 202.76924
n = 100000, Loss: 203.00611
n = 110000, Loss: 202.64707
n = 120000, Loss: 202.57745
n = 130000, Loss: 202.58089
n = 140000, Loss: 202.54862
n = 150000, Loss: 202.57651
(0.5417480636272388, 5.562788544103691)


# Использование стохастического градиентного спуска для нахождения оптимальных параметров линейной регрессии c использованием библиотек sklearn и PyTorch

Импортируем библиотеки:

In [11]:
from sklearn.linear_model import SGDRegressor
import torch
import torch.nn as nn
import torch.optim as optim

Объявим функции:

In [12]:
def sk_SGD_lr(X, Y, alpha, n_iter, epsilon=1e-06, seed = 0):
    model = SGDRegressor(max_iter = n_iter,learning_rate='constant',eta0=alpha, tol=epsilon, random_state=seed, n_iter_no_change=10) # Определение модели
    model.fit(X.reshape(-1, 1), Y) # обучение модели
    return model.coef_[0], model.intercept_[0] # вывод результатов

def torch_SGD_lr(X, Y, alpha, n_iter, epsilon=1e-06, seed = 0):
    torch.manual_seed(seed)
    
    X_torch = torch.tensor(X, requires_grad=False)
    Y_torch = torch.tensor(Y, requires_grad=False)
    
    def loss_function(y_pred, y_true): 
        return torch.sum((y_true - y_pred) ** 2) # функция потерь
   
    class SimpleLinearRegression(nn.Module): # наша модель (линейное уравнение)
        def __init__(self):
            super().__init__()
            self.a = nn.Parameter(torch.randn(1))
            self.b = nn.Parameter(torch.randn(1))
            
        def forward(self, x):
            return self.a * x + self.b
    
    model = SimpleLinearRegression() # создаем экземпляр модели
    optimizer = optim.SGD(model.parameters(), lr=alpha) # создаем оптимизатор

    n_iter_no_change = 10
    best_loss = float('inf')
    no_improve_count = 0
    
    for i in range(n_iter):
        # Прямой проход
        Y_pred = model(X_torch) # значения модели для данных параметров
        
        # Вычисление потерь
        loss = loss_function(Y_pred, Y_torch) # значение функции потерь для данных параметров
        
        # Обратное распространение - вычисление градиента
        optimizer.zero_grad() # обнуление градиентов
        loss.backward() # вычисление градиентов
        optimizer.step() # обновление параметров
        
        if loss.item() + epsilon < best_loss:
            best_loss = loss.item()
            no_improve_count = 0
        else:
            no_improve_count += 1

        # Досрочная остановка
        if no_improve_count >= n_iter_no_change:
            break

    
    return model.a.item(), model.b.item() # возвращение результатов

Основное отличие от нашей реализации заключается в правиле остановки. Данные реализации прекращают оптимизацию если в течение n-ого количества итераций подряд (n_iter_no_change) минимальное значение функции потерь не будет уменьшаться на значение больше или равное tol (loss + tol > better_loss).

Найдем минимум:

In [13]:
a = 0
b = 0
alpha = 0.00002
n_iter = 150_000
with main.suppress_stdout():
    result1 = stochastic_gradient_descent_lr(X, Y, a, b, alpha, n_iter)
result2 = sk_SGD_lr(X, Y, alpha, n_iter)
result3 = torch_SGD_lr(X, Y, alpha, n_iter)
delta = np.array(result1) - np.array(result2)
print(f'Наша реализация: {result1}')
print(f'Реализация sklearn: {result2}')
print(f'Реализация PyTorch: {result3}')

Наша реализация: (0.5733539589860135, 4.28551397596059)
Реализация sklearn: (0.5448958422644238, 5.460485263064655)
Реализация PyTorch: (0.5448738932609558, 5.439769268035889)


# Градиентный спуск для функции многих переменных

Для создания универсального алгоритма для вычисления градиента будем использовать формулу центральной разности:

$$
\frac{\partial f}{\partial x_i}=\frac{f(x_1, x_2, \dots,x_i+h,\dots,x_n)-f(x_1, x_2, \dots,x_i-h,\dots,x_n)}{2h};  h\rightarrow 0
$$

<p><img width="600" height="200" src="./block_diagrams/gradient.png"></p>
Блок-схема алгоритма для простой функции и функции потерь

Используя такой расчет градиента, можно модифицировать уже созданные ранее алгоритмы.

# Реализация в Python

Функции расчета градиента для обычной функции и функции потерь:

In [14]:
def gradient(function, parameters, argument_increment=1e-06):
    """
    Алгоритм для вычисления градиента по формуле центральной разности для функций
    :param function: исходная функция
    :param parameters: параметры функции
    :param argument_increment: значение приращения аргумента (не обязательно)
    :return:
    """
    gradient = np.zeros_like(parameters)
    for i in range(len(parameters)):
        parameters_h_plus = parameters.copy()
        parameters_h_minus = parameters.copy()
        parameters_h_plus[i] += argument_increment
        parameters_h_minus[i] -= argument_increment
        gradient[i] = (function(*parameters_h_plus) - function(*parameters_h_minus)) / (2 * argument_increment)
    return gradient

In [15]:
def gradient_lf(loss_function, parameters, X, Y, argument_increment=1e-06):
    """
        Алгоритм для вычисления градиента по формуле центральной разности для функций потерь
        :param loss_function: исходная функция потерь
        :param parameters: параметры функции
        :param X: матрица входных данных
        :param Y: матрица выходных данных
        :param argument_increment: значение приращения аргумента (не обязательно)
        :return:
        """
    gradient = np.zeros_like(parameters)
    for i in range(len(parameters)):
        parameters_h_plus = parameters.copy()
        parameters_h_minus = parameters.copy()
        parameters_h_plus[i] += argument_increment
        parameters_h_minus[i] -= argument_increment
        gradient[i] = ((loss_function(*parameters_h_plus, X, Y) -
                        loss_function(*parameters_h_minus, X, Y))
                       / (2 * argument_increment))
    return gradient

Градиентный спуск для обычной функции и функции потерь:

In [16]:
def general_gradient_descent(function, initial_parameters, alpha, n_iter, epsilon=1e-06):
    """
    Алгоритм градиентного спуска для поиска локального минимума функции
    :param function: функция, минимум которой необходимо найти
    :param initial_parameters: начальные значения параметров
    :param alpha: скорость спуска
    :param n_iter: количество итераций
    :param epsilon: значение для остановки алгоритма, когда изменение по каждому параметру <= epsilon (не обязательно)
    :return: значение параметров в предполагаемом минимуме функции
    """
    parameters = initial_parameters.copy()
    for _ in range(n_iter):
        grad = gradient(function, parameters)
        difference = alpha * grad
        if np.all(np.abs(difference) <= epsilon):
            break
        parameters -= difference
    return parameters

In [17]:
def general_gradient_descent_lf(loss_function, initial_parameters, alpha, n_iter, X, Y, epsilon=1e-06):
    """
    Алгоритм градиентного спуска для поиска локального минимума функции потерь
    :param loss_function: функция потерь, минимум которой необходимо найти
    :param initial_parameters: начальные значения параметров
    :param alpha: скорость спуска
    :param n_iter: количество итераций
    :param X: матрица входных данных
    :param Y: матрица выходных данных
    :param epsilon: значение для остановки алгоритма, когда изменение по каждому параметру <= epsilon (не обязательно)
    :return: значение параметров в предполагаемом минимуме функции
    """
    parameters = initial_parameters.copy()
    for _ in range(n_iter):
        G = gradient_lf(loss_function, parameters, X, Y)
        difference = alpha * G
        if np.all(np.abs(difference) <= epsilon):
            break
        parameters -= difference
    return parameters

Стохастический градиентный спуск для функции потерь:

In [18]:
def general_stochastic_gradient_descent_lf(loss_function, initial_parameters, alpha, n_iter, X, Y, epsilon=1e-06, seed = 0):
    """
    Алгоритм градиентного спуска для поиска локального минимума функции потерь
    :param loss_function: функция потерь, минимум которой необходимо найти
    :param initial_parameters: начальные значения параметров
    :param alpha: скорость спуска
    :param n_iter: количество итераций
    :param X: матрица входных данных
    :param Y: матрица выходных данных
    :param epsilon: значение для остановки алгоритма, когда изменение по каждому параметру <= epsilon (не обязательно)
    :param seed: значения для инициализации генератора случайных чисел (0)
    :return: значение параметров в предполагаемом минимуме функции
    """
    parameters = initial_parameters.copy()
    best_loss = loss_function(*parameters, X, Y)
    best_parameters = parameters.copy()
    rng = np.random.default_rng(seed)
    for _ in range(n_iter):
        random_index = rng.integers(0, len(X))
        G = gradient_lf(loss_function, parameters, X[random_index], Y[random_index])
        difference = alpha * G
        if np.all(np.abs(difference) <= epsilon):
            break
        parameters -= difference
        loss = loss_function(*parameters, X, Y)
        if loss < best_loss:
            best_loss = loss
            best_parameters = parameters.copy()
    return best_parameters

Мини-пакетный стохастический градиентный спуск для функции потерь:

In [19]:
def general_minibatch_stochastic_gradient_descent_lf(loss_function, initial_parameters, alpha, n_iter, X, Y, batch_size, epsilon=1e-06, seed = 0):
    """
    Алгоритм градиентного спуска для поиска локального минимума функции потерь
    :param loss_function: функция потерь, минимум которой необходимо найти
    :param initial_parameters: начальные значения параметров
    :param alpha: скорость спуска
    :param n_iter: количество итераций
    :param X: матрица входных данных
    :param Y: матрица выходных данных
    :param batch_size: размер одного пакета
    :param epsilon: значение для остановки алгоритма, когда изменение по каждому параметру <= epsilon (не обязательно)
    :param seed: значения для инициализации генератора случайных чисел (0)
    :return: значение параметров в предполагаемом минимуме функции
    """
    parameters = initial_parameters.copy()
    best_loss = loss_function(*parameters, X, Y)
    best_parameters = parameters.copy()
    rng = np.random.default_rng(seed)
    indices = rng.choice(X.shape[0], size=len(X), replace=False)
    shuffled_X = X[indices]
    shuffled_Y = Y[indices]
    start = 0
    for _ in range(n_iter):
        if start >= len(X):
            indices = rng.choice(X.shape[0], size=len(X), replace=False)
            shuffled_X = X[indices]
            shuffled_Y = Y[indices]
            start = 0
        end = min(len(X), start + batch_size)
        batch_X = shuffled_X[start:end]
        batch_Y = shuffled_Y[start:end]
        G = gradient_lf(loss_function, parameters, batch_X, batch_Y)
        difference = alpha * G
        if np.all(np.abs(difference) <= epsilon):
            break
        parameters -= difference
        start += batch_size
        loss = loss_function(*parameters, X, Y)
        if loss < best_loss:
            best_loss = loss
            best_parameters = parameters.copy()
    return best_parameters

In [20]:
def loss_function(a, b, x_arr, y_arr):
    return np.sum((y_arr - a - b * x_arr) ** 2)

a = 0
b = 0
alpha = 0.00002
n_iter = 100_000
batch_size = 3
result1 = general_gradient_descent_lf(loss_function, [a, b], alpha, n_iter, X, Y)
result2 = general_stochastic_gradient_descent_lf(loss_function, [a, b], alpha, n_iter, X, Y)
result3 = general_minibatch_stochastic_gradient_descent_lf(loss_function, [a, b], alpha, n_iter, X, Y, batch_size)
print(f"Классический градиентный спуск: {result1}")
print(f"Стохастический градиентный спуск: {result2}")
print(f"Мини-пакетный градиентный спуск: {result3}")

Классический градиентный спуск: [5.61629924 0.54042892]
Стохастический градиентный спуск: [1.43664853 0.64597967]
Мини-пакетный градиентный спуск: [5.33749339 0.54743834]


Стохастический градиентный спуск показывает такие плохие результаты из-за условия остановки. Данное условие плохо тем, что при расчете градиента для какого-то вектора входных данных изменения параметров могут быть достаточно маленькими, чтобы досрочно завершить работу алгоритма, когда как при расчете градиента при учете всех входных параметров эти изменения были бы достаточно большими, чтобы продолжить работу алгоритма. Аналогичное можеть произойти и с мини-пакетным стохастическим градиентным спуском.

# Выводы

Классический градиентный спуск является стабильным (то есть на каждой итерации алгоритм движется в сторону минимума функции) и обладает наибольшей скоростью сходимости. Стохастический градиентный спуск нестабильный и обладает маленькой скоростью сходимости, однако способен иногда обходить локальные минимумы, а так же существенно быстрее вычисляет градиент при работе с большими объемами данных. Мини-пакетный стохастический градиентный спуск - компромисс между классическим и стохастическим алгоритмом. Он обладает большей скорость сходимости, чем стохастический и более стабилен. Он также способен иногда обходить локальные минимумы. Скорость расчета градиента у мини-пакетного алгоритма выше, чем у классического.

Также выяснилось, что условие остановки было выбрано неудачно, и стохастический и мини-пакетный градиентные спуски могут досрочно завершать работу, так и не достигнув заданной точности. Вместо оценки изменения параметров лучше оценивать изменение функции. Это позволит избежать данной проблемы.