## 模型调优

在机器学习中，经常会遇到两种问题，其一为过拟合，其一为欠拟合。

- 过拟合是由于模型过于复杂，更倾向于对数据进行记忆，这样的模型泛化能力很差，对于这类错误被称作Error due to Variance；

- 欠拟合是由于模型过于简单，不能对数据进行很好的预测。这类错误也被称作Error due to Bias。

那我们该如何更直观的评判出，模型是否处于过拟合或者欠拟合状态呢？
### 模型复杂度曲线（Model Complexity Graph）

我们可以用横轴表示模型的复杂度，用纵轴表示模型的Error，分别绘制训练集与验证集（**不是测试集哦！！**）的效果，如下图所示，显然模型在中间位置是处于最佳状态。

![aybaE8.md.png](https://s1.ax1x.com/2020/08/05/aybaE8.md.png)

#### K折交叉验证

为了获取更好的（泛化能力更强）模型，我们可以对数据进行分组，用数据的几部分作为训练集，剩余部分作为验证集，这样我们就可以获得一个K组数据用于模型拟合。

如下图所示：
![ayqsiD.md.png](https://s1.ax1x.com/2020/08/05/ayqsiD.md.png)

这可以通过Sklearn来实现：

```python
from sklearn.model_selection import KFold
kf = KFold(12,3)
# 当然你还可以设定为随机取数
kf = KFold(12,3,shuffle=True)

for train_indices,val_indices in kf:
    print(train_indices,val_indices)

```



### 学习曲线（Learning Curve）

我们还可以使用学习曲线来评判模型的拟合状态，曲线的绘制过程是这样的：
- 选择n条样本对模型进行训练，记录模型对训练集与验证集的Error；
- 不断增大n，并重复如上操作；
- 将所有的结果绘制曲线。

如下图，分别表示欠拟合（High Bias），最佳拟合与过拟合（High Variance）的学习曲线。

![ayXPq1.md.png](https://s1.ax1x.com/2020/08/05/ayXPq1.md.png)

- 欠拟合：两条曲线会不断靠近，但是最终会收敛在一个较高的Error；
- 过拟合：两条曲线不断靠近，但二者平稳后，仍有一段距离，而且验证集的错误会收敛于较高的Error。

### 表格搜索（Grid Search）

在对模型进行优化时，往往需要调整多个超参数，我们可以根据这些超参数去绘制表格，然后逐个去验证各组超参数的模型性能，这种方法即为表格搜索。

如下图所示，为SVM的两个超参数使用表格搜索寻找最优解的结果：
![ayjBXd.png](https://s1.ax1x.com/2020/08/05/ayjBXd.png)



在Sklearn中，可以按照如下方式调用GridSearch：
```python
from sklearn.model_selection import GridSearchCV
# 定义参数区间
parameters = {'kernel':['poly', 'rbf'],'C':[0.1, 1, 10]}
# 定义评分
from sklearn.metrics import make_scorer
from sklearn.metrics import f1_score
scorer = make_scorer(f1_score)

# Create the object.
grid_obj = GridSearchCV(clf, parameters, scoring=scorer)
# Fit the data
grid_fit = grid_obj.fit(X, y)

# 获得最优结果
best_clf = grid_fit.best_estimator_
```