In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Метод градиентного спуска
## Минимизируй это

Рассмотрим способ минимизации функции при помощи градиентного спуска. Начнём с определения градиента: 

$$\nabla f = \frac{\partial f}{\partial x_1}\vec{e_1} + \frac{\partial f}{\partial x_2}\vec{e_2} + ... + \frac{\partial f}{\partial x_n}\vec{e_n}$$

Это вектор, компоненты которого являются частными производными функции. Важная особенность градиента заключается в том, что он показывает направление наискорейшего роста функции. Тогда антиградиент $-\nabla f$ показывает направление, в котором функция убывает. Это очень удобно в задачах минимизации. В рамках машинного обучения это может использоваться для поиска оптимальных параметров $\theta$, например, в задаче регрессии, когда их количество слишком велико. 

Рассмотрим простой синтетический одномерный пример только лишь для наглядной визуализации. Найдём минимум функции $f = (\theta - 3)^2$. Выбрав некоторое начальное приближение $\theta_0$ и двигаясь в направлении антиградиента $\theta_1 = \theta_0 - \alpha\nabla f$ с некоторым шагом $\alpha$ будем получать всё меньшие и меньшие значения целевой функции:

In [None]:
def f(x):
    return (x - 3) ** 2

theta = np.linspace(-2, 8)
y = f(theta)

plt.plot(theta, y);
plt.xlim(-2, 8);

В качестве начального приближения $\theta_0$ выберем точку $\theta_0 = 0$: 

In [None]:
def f(x):
    return (x - 3) ** 2

theta = np.linspace(-2, 8)
y = f(theta)

theta0 = 0
y0 = f(theta0)

plt.plot(theta, y);
plt.scatter(theta0, y0, c='r');
plt.xlim(-2, 8);

Антиградиент $-\nabla f = 2(3 - \theta)$ в точке $\theta_0$ будет равен $2(3 - \theta_0) = 2(3 - 0) = 6$. Выберем шаг $\alpha = 0.1$ и сделаем несколько итераций:

In [None]:
def f(x):
    return (x - 3) ** 2

def grad(x):
    return 2*(x - 3)

alpha = 0.2

theta = np.linspace(-2, 8)
y = f(theta)


theta_min = [0]
for i in range(10):
    theta_current = theta_min[-1]
    theta_i = theta_current - alpha * grad(theta_current)
    
    theta_min.append(theta_i)


plt.plot(theta, y);
plt.scatter(theta_min, f(np.array(theta_min)), c=range(len(theta_min))[::-1], cmap='autumn');
plt.xlim(-2, 8);

Проблему локальных минимумов и выбора начального приближения мы не будем рассматривать здесь.