## 算法调参

机器学习模型都是参数化的，可以通过调参来提高模型的准确度。找最佳参数组合当做查询问题；调整到何时遵循偏差和方差协调的原则

### 机器学习算法调参
调整算法参数是采用机器学习解决问题的最后一个步骤，有时也被称为超参数优化。参数分为两种：一种是影响模型在训练集上的准确度或防止过拟合能力的桉树；另一种是不影响这两者的参数。模型在样本总体上的准确度由其在训练集上的准确度及其防止过拟合能力共同决定，所以在调参时主要针对第一种参数进行调整，最终达到模型在训练集上的准确度和防止过拟合能力大和谐~    
两种自动寻找最优化参数的算法：
- 网格搜索优化参数
- 随机搜索优化参数


In [2]:
# 网格搜索优化参数：通过遍历已定义参数列表来评估算法的参数，从而找到最优参数

import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV
import warnings
warnings.filterwarnings('ignore')

filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
array = data.values
X = array[:, 0:8]
Y = array[:, 8]

# 算法实例化
model = Ridge()
# 设置要遍历的参数
param_grid = {'alpha':[1, 0.1, 0.01, 0.001, 0]}
# 通过网格搜索查询最优参数
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid.fit(X, Y)
# 搜索结果
print('最高得分：%.3f' % grid.best_score_)
print('最优参数: %s' % grid.best_estimator_.alpha)
print('\n其他几个选项')
print(grid.best_index_)
print(grid.best_params_)


最高得分：0.280
最优参数: 1

其他几个选项
0
{'alpha': 1}


In [3]:
# 随机搜索优化参数：通过固定次数的迭代，采用随机采样分布的方式搜索合适的参数

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform

param_grid = {'alpha': uniform()}

grid = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=100, random_state=7)
grid.fit(X, Y)

print('最高得分：%.3f' % grid.best_score_)
print('最优参数: %s' % grid.best_estimator_.alpha)
print('\n其他几个选项')
print(grid.best_index_)
print(grid.best_params_)

最高得分：0.280
最优参数: 0.9779895119966027

其他几个选项
4
{'alpha': 0.9779895119966027}


如果算法的参数少于三个，推荐使用网格搜索优化参数    
如果需要优化的参数超过三个，推荐使用随机搜索优化参数