## 超参数调参方法--自动调参
### 调参的基本思想--交叉验证（Cross Validation）
* 将样本拆分为 k 个子集，用其中一个子集当做测试集，剩余的 k-1 个子集当作训练集。在这组训练集下训练完模型后，需要评估其性能。之后再换其他子集当做测试集，剩余的子集当做训练集进行模型训练，循环往复，直到所有子集都做过训练集为止。最后计算所有模型的平均性能。
* 每一组超参数执行一遍上述操作，最后取平均性能最优的一组超参数作为最优参数。

<img src="./img/cross_validation.png" width = "50%" height = "50%" alt="交差验证"/>

## 参数选择
### 子集划分方式（多种）
* k-fold：训练集划分为 k 个
* leave=one-out：子集划分为 n 个
* hold-out：n 个样本中随机选出 m 个作为测试集
### 超参数选择
* grid-search：给出超参数的范围，穷举遍历
* random search：给出随机的规则，生成一组随机的超参数组合进行遍历
### 评价指标：
* 分类问题：分类精度、平衡精度、平均精度
* 回归问题：最大误差、均方误差、均方根误差

选择通常需要结合具体问题**按照经验**进行选择

## 具体实现
grid-search 方法：`GridSearchCV`
| 参数 | 说明 |
| --- | --- |
| estimator | 想要获取的模型，里面的超参数待调 |
| param_grid | 备选的超参数，调参要遍历的参数集合 |
| scoring | 评价指标，输入指标的名称字符串 |
| cv | 划分为几组 |

In [2]:
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV

In [3]:
iris = datasets.load_iris()
parameters = {
    'kernel': ('linear', 'rbf'),
    'C': [1, 10]
}

In [4]:
svc = svm.SVC()
clf = GridSearchCV(svc, parameters)

In [5]:
clf.fit(iris.data, iris.target)
sorted(clf.cv_results_.keys())

['mean_fit_time',
 'mean_score_time',
 'mean_test_score',
 'param_C',
 'param_kernel',
 'params',
 'rank_test_score',
 'split0_test_score',
 'split1_test_score',
 'split2_test_score',
 'split3_test_score',
 'split4_test_score',
 'std_fit_time',
 'std_score_time',
 'std_test_score']

In [12]:
clf.best_estimator_

SVC(C=1, kernel='linear')

可以看出，模型依然是 SVC，只有它的超参数被调节了

In [10]:
clf.best_params_

{'C': 1, 'kernel': 'linear'}