# 选择模型

## 评估算法

### 评估算法的方法

在评估机器学习算法的时候，不将训练数据集直接作为评估数据集，最直接原因计算过度拟合，不能有效的发现算法模型不足。    
假设算法记住了所有的训练数据集，采用相同的数据集来评价算法时，会得到很高的评分，但是在预测新数据集时会表现的很糟糕。    
四种不同的分离数据集方法，用来分离训练数据集和评估数据集，并用其评估算法模型：
- 分离训练数据集和评估数据集
- k折交叉验证分离
- 弃一交叉验证分离
- 重复随机评估、训练数据集分离

In [16]:
# 分离数据集和评估数据集

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import warnings
warnings.filterwarnings('ignore')
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
test_size = 0.3333
seed = 4
X_train, X_test, Y_traing, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
model = LogisticRegression()
model.fit(X_train, Y_traing)
result = model.score(X_test, Y_test)
print('算法评估结果： %.3f%%' % (result * 100))

算法评估结果： 80.469%


In [33]:
# k折交叉验证分离
from sklearn.model_selection import KFold,cross_val_score
from sklearn.linear_model import LogisticRegression

num_folds = 9
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed)
model = LogisticRegression()
result = cross_val_score(model, X, Y, cv=kfold)
print('算法评估结果： %.3f%% (%.3f%%)' % (result.mean() * 100, result.std() * 100))

算法评估结果： 77.475% (5.206%)


In [34]:
# 弃一交叉验证分离

from sklearn.model_selection import LeaveOneOut

loocv = LeaveOneOut()
result = cross_val_score(model, X, Y, cv=loocv)
print('算法评估结果： %.3f%% (%.3f%%)' % (result.mean() * 100, result.std() * 100))

算法评估结果： 76.823% (42.196%)


In [35]:
# 重复随机分离评估数据集与训练数据集
from sklearn.model_selection import ShuffleSplit

test_size = 0.33
n_splits = 10
kfold = ShuffleSplit(n_splits=n_splits, test_size=test_size, random_state=seed)
result = cross_val_score(model, X, Y, cv=kfold)
print('算法评估结果： %.3f%% (%.3f%%)' % (result.mean() * 100, result.std() * 100))

算法评估结果： 76.535% (1.672%)


## 总结

- k折交叉验证一般选3,5,10；不知道如何设置就选10