In [33]:
%matplotlib inline
import math
import torch
from d2l import torch as d2l

## 随机梯度更新

目标函数
$$
f(x) = \frac{1}{n} \sum_{i=1}^n f_i (x)
$$

其梯度计算为
$$
\nabla f(x) = \frac{1}{n}\sum_{i=1}^n \nabla f_i(x)
$$

如果使用梯度下降法，则每个自变量迭代的计算代价为$O(n)$，它随$n$线性增长，
当训练数据集较大时，每次迭代的梯度下降计算代价将较高


随机梯度下降(SGD)，可降低每次迭代时的计算代价，在随机梯度下降的每次迭代中，对数据
样本随机均匀采样一个索引$i$，其中$i \in 1,...,n$，并计算梯度$\nabla f_i(x)$更新$x$

$$
x \leftarrow x - \xi \nabla f_i(x)
$$

每次迭代的计算代价从梯度下降的$O(n)$下降到常数$O(1)$，此时随机梯度$\nabla f_i(x)$
是对完整梯度$\nabla f(x)$的无偏估计

$$
E_i \nabla f_i(x) = \frac{1}{n}\sum_{i=1}^n \nabla f_i(x) = \nabla f(x)
$$

对于平均而言，随机梯度是对梯度的良好估计

In [34]:
def f(x1, x2):  # 目标函数
    return x1 ** 2 + 2 * x2 ** 2

def f_grad(x1, x2):  # 目标函数的梯度
    return 2 * x1, 4 * x2

def sgd(x1, x2, s1, s2, f_grad):
    g1, g2 = f_grad(x1, x2)
    # 模拟有噪声的梯度
    g1 += torch.normal(0.0, 1, (1,))
    g2 += torch.normal(0.0, 1, (1,))
    eta_t = eta * lr()
    return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

def constant_lr():
    return 1

eta = 0.1
lr = constant_lr  # 常数学习速度
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

TypeError: train_2d() got an unexpected keyword argument 'f_grad'

## 动态学习率

如果太快，则过早停止优化；如果太慢，则在优化上浪费太多时间

指数衰减

$$
\xi(t) = \xi_0 e^{-\lambda t}
$$

In [35]:
def exponential_lr():
    # 在函数外部定义，而在内部更新的全局变量
    global t
    t += 1
    return math.exp(-0.1 * t)

t = 1
lr = exponential_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=1000, f_grad=f_grad))

TypeError: train_2d() got an unexpected keyword argument 'f_grad'

In [36]:
def polynomial_lr():
    # 在函数外部定义，而在内部更新的全局变量
    global t
    t += 1
    return (1 + 0.1 * t) ** (-0.5)

t = 1
lr = polynomial_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

TypeError: train_2d() got an unexpected keyword argument 'f_grad'