## 使用交叉验证评估模型

### 1、K-折交叉验证（K-kold Cross Validation）
+ 交叉验证旨在通过多次划分数据集更全面地评估模型在该数据集上的泛化能力
+ scikit-learn中，交叉验证函数为：cross_val_score
+ 划分次数（也叫折数）通过cv参数来指定，通常使用3、5或10

In [7]:
from sklearn.model_selection import cross_val_score # 交叉验证函数
from sklearn.datasets import load_iris 
from sklearn.linear_model import LogisticRegression 
 
iris = load_iris() # 加载iris数据集
model = LogisticRegression(max_iter=10000) # 创建逻辑回归模型

# 交叉验证，参数依次为：模型、数据、数据标签、cv（即折数K）
scores = cross_val_score(model, iris.data, iris.target, cv=3) # cv=3，即3折交叉，输出3个评估成绩
print(scores) # 每次的评估成绩（数组）
print(scores.mean()) # 计算平均成绩

[0.98 0.96 0.98]
0.9733333333333333


### 2、留一法交叉验证（Leave-one-out Cross Validation）

In [8]:
from sklearn.datasets import load_iris
from sklearn.model_selection import LeaveOneOut, cross_val_score
from sklearn.neighbors import KNeighborsClassifier 

iris = load_iris() # 加载数据集
model = KNeighborsClassifier() # 创建模型

loo = LeaveOneOut() # 定义留一法策略，作为cv参数的值
scores = cross_val_score(model, iris.data, iris.target, cv=loo)

print(len(scores)) # 留一法输出150个评估成绩（因为样本数为150）
print(scores.mean()) # 计算平均成绩

150
0.9666666666666667


### 3、打乱划分交叉验证（Shuffle-split Cross Validation）

In [9]:
from sklearn.datasets import load_iris
from sklearn.model_selection import ShuffleSplit, cross_val_score
from sklearn.linear_model import LogisticRegression 

iris = load_iris()
model = LogisticRegression(max_iter=10000)

# 划分5次，每次取100个样本作为训练集，10个样本作为测试集
shuffle_split = ShuffleSplit(train_size=100, test_size=10, n_splits=5) 
scores = cross_val_score(model, iris.data, iris.target, cv=shuffle_split) 
print(scores)
print(scores.mean())

# 除指定样本个数外，还可以指定百分比
# 这里就是划分5次，每次取80%为训练集，20%为测试集
shuffle_split = ShuffleSplit(train_size=0.8, test_size=0.2, n_splits=5) 

[0.9 1.  0.9 1.  0.9]
0.9400000000000001
