# 权重衰减
上⼀节中我们观察了过拟合现象，即模型的训练误差远小于它在测试集上的误差。虽然增⼤训练
数据集可能会减轻过拟合，但是获取额外的训练数据往往代价⾼昂。本节介绍应对过拟合问题的
常⽤⽅法：权重衰减（weight decay）。
### ⽅法
权重衰减等价于$L_2$范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出
的模型参数值较小，是应对过拟合的常⽤⼿段。我们先描述$L_2$范数正则化，再解释它为何⼜称权
重衰减。
$L_2$范数正则化在模型原损失函数基础上添加L2范数惩罚项，从而得到训练所需要最小化的函数。
$L_2$范数惩罚项指的是模型权重参数每个元素的平⽅和与⼀个正的常数的乘积。以[“线性回归”](3.1linear-regression.ipynb)⼀
节中的线性回归损失函数

$$\ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2$$

为例，其中$w_1, w_2$是权重参数，$b$是偏差参数，样本$i$的输⼊为$x^{(i)}_1, x^{(i)}_2 ，标签为y^{(i)}，样本数为n$。将
权重参数⽤向量$w = [w1, w2]$表⽰，带有$L_2$范数惩罚项的新损失函数为

$$\ell(w_1, w_2, b) + \frac \lambda {2n} \lVert w \rVert^2 $$

其中超参数$λ > 0$。当权重参数均为0时，惩罚项最小。当$λ$较⼤时，惩罚项在损失函数中的⽐重较
⼤，这通常会使学到的权重参数的元素较接近0。当$λ$设为0时，惩罚项完全不起作⽤。上式中$L_2$范
数平⽅$\lVert w \rVert^2$展开后得到$w_1^2 + w^2_2$。有了$L_2$范数惩罚项后，在小批量随机梯度下降中，我们将[“线
性回归”](3.1linear-regression.ipynb)⼀节中权重$w_1和w_2$的迭代⽅式更改为

$
    \begin{aligned}
    w_1 &\leftarrow (1-\frac{\eta \lambda}{|\mathcal{B}|})w_1 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \frac{ \partial \ell^{(i)}(w_1, w_2, b)  }{\partial w_1},\\
    w_2 &\leftarrow (1-\frac{\eta \lambda}{|\mathcal{B}|})w_2 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \frac{ \partial \ell^{(i)}(w_1, w_2, b)  }{\partial w_2}\\
    \end{aligned}
$

可⻅，$L_2$范数正则化令权重$w_1和w_2$先⾃乘小于1的数，再减去不含惩罚项的梯度。因此，$L_2$范数
正则化⼜叫权重衰减。权重衰减通过惩罚绝对值较⼤的模型参数为需要学习的模型增加了限制，
这可能对过拟合有效。实际场景中，我们有时也在惩罚项中添加偏差元素的平⽅和。
## ⾼维线性回归实验
下⾯，我们以⾼维线性回归为例来引⼊⼀个过拟合问题，并使⽤权重衰减来应对过拟合。设数据
样本特征的维度为$p。对于训练数据集和测试数据集中特征为x_1, x_2, . . . , x_p$的任⼀样本，我们使⽤
如下的线性函数来⽣成该样本的标签：

$$y=0.05+\sum_{i=1}^n0.01x_i+\epsilon, $$

其中噪声项ϵ服从均值为0、标准差为0.01的正态分布。为了较容易地观察过拟合，我们考虑⾼维
线性回归问题，如设维度p = 200；同时，我们特意把训练数据集的样本数设低，如20。
