# 交叉验证
机器学习是一个迭代过程。

面临参数变量及模型的选择问题。

和`Train-Test`划分相比，交叉验证提供了更可靠的模型质量度量，尽管需要更多地运行时间。

## `Train-Test`划分的缺点
机器学习是一个迭代过程。

当数据量较小时，随机因素可能影响模型的选择。实际上，对小数据集的理想建模决策通常不是大数据集上的最佳建模决策。

## 交叉验证的处理过程
在交叉验证中，我们在不同的数据子集上运行我们的建模过程，以获得多个模型质量度量。

例如，我们将数据集划分为5部分，每部分占整个数据集的1/5。选用第一部分作为测试集，其余部分作为训练集，训练得到一个基于20％保留集的模型质量度量，就像使用简单的`Train-Test`拆分一样。然后，依次对其余部分采用相同操作。最后，将结果整合在一起进行考虑。

## 交叉验证和`Train-Test`划分的选择问题
- 交叉验证提供了更精确的模型质量度量，需要更多的运行时间
- 当数据集较小时，应该使用交叉验证
- 当数据集较大时，考虑到训练时间，应该使用`Train-Test`划分
- 数据集大、小没有明确的划分
- 可以运行交叉验证并每次实验得到的分数是否接近，如果结果相近，那么`Train-Test`划分可能就足够了

# 示例
读取数据

In [3]:
import pandas as pd
data = pd.read_csv('input/melb_data.csv')
cols_to_use = ['Rooms', 'Distance', 'Landsize', 'BuildingArea', 'YearBuilt']
X = data[cols_to_use]
y = data.Price

指定建模步骤的Pipeline(如果不使用Pipeline，运行交叉验证可能会很困难)

In [4]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import Imputer

my_pipeline = make_pipeline(Imputer(), RandomForestRegressor())

获得交叉验证分数

In [5]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(my_pipeline, X, y, scoring='neg_mean_absolute_error')
print(scores)

[-325760.6592326  -301566.80263933 -280392.58119011]


通常需要模型质量的单一度量来比较模型，所以对所有分数取平均值。

In [7]:
print('Mean Absolute Error %2f' %(-1 * scores.mean()))

Mean Absolute Error 302573.347687


使用交叉验证为我们提供了更好的模型质量度量。