## 模型选择、过拟合、欠拟合

当模型在训练集上更准确时，它在测试数据集上却不一定更准确。

- **训练数据集** 用于模型训练的数据集，对应的误差为**训练误差**。 
- **测试数据集** 用于测试训练后的模型性能的数据集，通常使用测试集的误差来近似**泛化误差**。

在模型选择的时候，就要选择使泛化误差最小的模型。

但从严格意义上讲，**测试集只能在所有超参数和模型选择参数选定后使用一次，不能使用测试数据对模型进行调参。** 

由于，无法从训练误差估计泛化误差，因此也不能只能训练数据集选择模型。 因此，通常在训练数据集和测试数据集外的数据进行模型选择，这部分数据称为验证数据集。 通常来说，可从给定的训练数据集中随机选择一小部分作为验证集，而将剩余的部分作为真正的训练集。

** K折交叉验证** 
把原始训练数据集随机的分割为$K$个不重合的子数据集，然后做$K$此模型训练和验证。　每一次，使用一个子数据集作为验证集，并使用其他的$K-1$子数据集来训练模型。　在这$K$次训练和验证中，每次用来验证模型的子数据集都不同。　最后，对这$K$次训练误差和验证误差分别求平均。

### 过拟合、欠拟合

给定的数据集，如果模型的复杂度过低，很容易出现欠拟合；模型的复杂度过高，很容易出现过拟合。　欠拟合，在训练时无法得到较低的训练误差；过拟合，则在测试集上误差远小于训练误差。　

影响欠拟合和过拟合的一个重要因素就是训练数据集的大小。　一般来说，如果训练样本中数据过少，特别市比模型参数量更少时，容易发生过拟合。　另外，泛化误差不会随着训练样本的增大而增加，因此在允许的范围内，总是希望训练数据集大一些。　

## 多项式函数拟合实验

生成一个人工数据集，给定样本特征$x$，使用如下三阶函数生成该样本的标签
$$
y = 1.2x - 3.4x^2 + 5.6x^3 + 5 + \sigma
$$

In [3]:
import torch
import numpy as np 

n_train,n_test,true_w,true_b = 100,100,[1.2,3.4,5.6],5

# 生成数据集
features = torch.randn((n_train+ n_test,1))
poly_features = torch.cat((features,torch.pow(features,2),torch.pow(features,3)),1)

labels = (true_w[0] * poly_features[:,0] + true_w[1] * poly_features[:,1] + true_w[2] * poly_features[:,2] + true_b)
labels += torch.tensor(np.random.normal(0,0.01,size=labels.size()),dtype=torch.float32)

print(features[:2],poly_features[:2],labels[:2])

tensor([[-0.0797],
        [ 0.8541]]) tensor([[-7.9722e-02,  6.3555e-03, -5.0667e-04],
        [ 8.5407e-01,  7.2943e-01,  6.2299e-01]]) tensor([ 4.9249, 11.9828])
