In [16]:
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
data = load_boston()
train_feats, val_feats, train_labs, val_labs = train_test_split(data["data"], data["target"], test_size=0.2, random_state=42)

# sk-learn超参数调优方法
机器学习和深度学习模型中有两类参数：一类参数可以通过数据训练调优，另一类参数是通过先验的知识人为设定，后一类参数叫做超参数

sk-learn的模型可以通过model.get_params()查看超参数

## 超参数调优的流程

选择模型 $\Longrightarrow$ 确定模型超参数空间 $\Longrightarrow$ 选择搜索方法 $\Longrightarrow$ 交叉验证机制和评分函数

sklearn 提供了两种通用的参数优化方法：网络搜索和随机采样
- 网格搜索交叉验证（GridSearchCV）：以穷举的方式遍历所有可能的参数组合
- 随机采样交叉验证（RandomizedSearchCV）：依据某种分布对参数空间采样，随机的得到一些候选参数组合方案

因为调参我们还是希望参与感强一点，这样选出来的模型和参数更能让人信服，所以一般用网格搜索，比较灵活，可以看到自己关心的超参数取值

In [24]:
from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor()
model.get_params()

{'alpha': 0.9,
 'criterion': 'friedman_mse',
 'init': None,
 'learning_rate': 0.1,
 'loss': 'ls',
 'max_depth': 3,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'presort': 'auto',
 'random_state': None,
 'subsample': 1.0,
 'verbose': 0,
 'warm_start': False}

### GridSearchCV:
给出要搜索的参数空间列表param_grid，其中每个元素都是一个字典，key值是要搜索的参数名，value是对应参数可选的值。
把model和param_grid传进GridSearchCV里，然后用数据fit一下，得出最优的超参clf.best_estimator_
默认情况下，参数搜索使用estimator的score函数来评估模型在某种参数配置下的性能：
- 分类器对应于 sklearn.metrics.accuracy_score
- 回归器对应于 sklearn.metrics.r2_score

tips：
- 但是在某些场景下，有更合适的评分函数，例如在非平衡的分类问题中，准确率sccuracy_score通常不管用。这时，可以通过参数scoring来指定GridSearchCV评分函数
- 参数搜索可以并行化，通过参数"n_jobs"来指定并行的个数。
- 在出错参数上只是提示警告，设置参数error_score=0(or=np.NaN)

In [34]:
from sklearn.model_selection import GridSearchCV
param_grid = {"n_estimators":[10,100,200,300], "max_depth":[3,5,7]}
grid_search = GridSearchCV(model, param_grid)
grid_search = grid_search.fit(train_feats, train_labs)
print(grid_search.best_estimator_)

GradientBoostingRegressor(alpha=0.9, criterion='friedman_mse', init=None,
             learning_rate=0.1, loss='ls', max_depth=3, max_features=None,
             max_leaf_nodes=None, min_impurity_decrease=0.0,
             min_impurity_split=None, min_samples_leaf=1,
             min_samples_split=2, min_weight_fraction_leaf=0.0,
             n_estimators=100, presort='auto', random_state=None,
             subsample=1.0, verbose=0, warm_start=False)
