## 模型选择

在机器学习中，我们通常在评估几个候选模型后选择最终的模型。这个过程叫做模型选择。有时，需要进行比较的模型在本质上是完全不同的（比如，决策树与线性模型）。又有时，我们需要比较不同的超参数设置下的同一类模型。

例如，训练多层感知机模型时，我们可能希望比较具有不同数量的隐藏层、不同数量的隐藏单元以及不同的的激活函数组合的模型。为了确定候选模型中的最佳模型，我们通常会使用验证集。

### 𝐾折交叉验证

当训练数据稀缺时，我们甚至可能无法提供足够的数据来构成一个合适的验证集。这个问题的一个流行的解决方案是采用 𝐾 折交叉验证。这里，原始训练数据被分成 𝐾 个不重叠的子集。然后执行 𝐾 次模型训练和验证，每次在 𝐾−1 个子集上进行训练，并在剩余的一个子集（在该轮中没有用于训练的子集）上进行验证。最后，通过对 𝐾 次实验的结果取平均来估计训练和验证误差。

## 过拟合和欠拟合

过拟合和欠拟合定义:

- **欠拟合**：如果模型不能降低训练误差，这可能意味着我们的模型过于简单（即表达能力不足），无法捕获我们试图学习的模式。此外，由于我们的训练和验证误差之间的泛化误差很小，我们有理由相信可以用一个更复杂的模型降低训练误差。这种现象被称为欠拟合（underfitting）。

- **过拟合**：当我们的训练误差明显低于验证误差时要小心，这表明严重的过拟合（overfitting）。

过拟合分为两种:

1. **参数过拟合**：参数过拟合是指模型训练过程中对参数调节过于细致，导致对训练数据学习过度。
2. **结构过拟合**：指选择的模型过于复杂，以致对训练数据描述过于精细。


设测试数据$\boldsymbol{x}$的真实目标值为$h(\boldsymbol{x})$，观察到的目标值为$t$，模型预测值为$y(\boldsymbol{x})$, 并记$(\boldsymbol{x})$和$t$的联合分布为$p(\boldsymbol{x}, t)$。则模型目标值$t$与预测值$y(\boldsymbol{x})$之间的误差如下：

$$
\begin{aligned}
& \iint(y(x)-t)^{2} p(x, t) \mathrm{d} \boldsymbol{x} \mathrm{d} t \\
=& \iint(y(\boldsymbol{x})-h(\boldsymbol{x})+h(\boldsymbol{x})-t)^{2} p(\boldsymbol{x}, t) \mathrm{d} \boldsymbol{x} \mathrm{d} t\\
=& \int (y(\boldsymbol{x}) - h(\boldsymbol{x}))^{2} p(\boldsymbol{x}) dx + \iint (h(\boldsymbol{x}) - t)^{2} p(\boldsymbol{x}, t) d\boldsymbol{x} dt
\end{aligned} 
$$

其中，假设目标值$t$符合以$h(\boldsymbol{x})$为中心的正态分布，因此交叉项为零。可见，误差函数可分解为预测误差$\int (y(\boldsymbol{x}) - h(\boldsymbol{x}))^{2} p(\boldsymbol{x}) dx$和噪声$\iint (h(\boldsymbol{x}) - t)^{2} p(\boldsymbol{x}, t) d\boldsymbol{x} dt$两部分，前者与模型有关，后者与数据中的噪声有关。

考虑第一部分预测误差，预测函数是通过某一数据集$D$训练出来的，因此将其明确写作$y(x ; D)$, 由于$D$中的数据不同会引起模型差异，考虑这些差异，模型预测的期望值为$\mathbb{E}_{D}[y(x ; D)]$，整理如下：

$$
\begin{aligned}
\{y(x ; D)-h(x)\}^{2}=&\left\{y(x ; D)-\mathbb{E}_{D}[y(x ; D)]+\mathbb{E}_{D}[y(x ; D)]-h(x)\right\}^{2} \\
=&\left\{y(x ; D)-\mathbb{E}_{D}[y(x ; D)]\right\}^{2}+\left\{\mathbb{E}_{D}[y(x ; D)]-h(x)\right\}^{2} \\
&+2\left\{y(x ; D)-\mathbb{E}_{D}[y(x ; D)]\right\}\left\{\mathbb{E}_{D}[y(x ; D)]-h(x)\right\}
\end{aligned}
$$

对$D$求期望，有：

$$
\mathbb{E}_{D}\{y(x ; D)-h(x)\}^{2}=\left\{\mathbb{E}_{D}[y(x ; D)]-h(x)\right\}^{2}+\mathbb{E}_{D}\left\{\left[y(x ; D)-\mathbb{E}_{D}(x ; D)\right]\right\}^{2}
$$

上式右侧第一项是预测的期望$\mathbb{E}_{D}[y(x ; D)]$和真实值$h(x)$之间的差异，第二项是由于数据不同产生的偏差，所以：

$$
TotalError = Bias + Variance + Noise
$$

## 代码