# 超参数调优

超参数调优是指通过调整模型的超参数来优化模型性能的过程。常用的超参数调优方法包括网格搜索、随机搜索和贝叶斯优化等。超参数调优可以显著提高模型的性能，是机器学习实践中的重要步骤。

## 网格搜索

网格搜索是一种穷举搜索方法，通过对所有可能的超参数组合进行遍历，找到最优的超参数组合。

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt

# 设置字体和解决负号显示问题
plt.rcParams['font.sans-serif'] = 'Hiragino Sans GB'
plt.rcParams['axes.unicode_minus'] = False

# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# 定义随机森林模型和较小的参数网格
rf = RandomForestClassifier(random_state=42)
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [None, 10],
    'min_samples_split': [2, 5]
}

# 进行网格搜索
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=3, scoring='accuracy')
grid_search.fit(X, y)

# 输出最优参数和最优准确率
print(f'最优参数: {grid_search.best_params_}')
print(f'最优准确率: {grid_search.best_score_:.2f}')


最优参数: {'max_depth': None, 'min_samples_split': 5, 'n_estimators': 50}
最优准确率: 0.89


## 随机搜索

随机搜索是一种随机采样的搜索方法，通过在超参数空间中随机选择一些参数组合，找到较优的超参数组合。随机搜索比网格搜索效率更高，适用于超参数空间较大的情况。

In [4]:
from sklearn.model_selection import RandomizedSearchCV

# 进行随机搜索
random_search = RandomizedSearchCV(estimator=rf, param_distributions=param_grid, n_iter=8, cv=5, scoring='accuracy', random_state=42)
random_search.fit(X, y)

# 输出最优参数和最优准确率
print(f'最优参数: {random_search.best_params_}')
print(f'最优准确率: {random_search.best_score_:.2f}')


最优参数: {'n_estimators': 50, 'min_samples_split': 2, 'max_depth': 10}
最优准确率: 0.90


## 贝叶斯优化

贝叶斯优化是一种基于贝叶斯统计的优化方法，通过构建代理模型，迭代地选择最优的超参数组合。贝叶斯优化比网格搜索和随机搜索更高效，适用于高维度的超参数空间。

In [5]:
from skopt import BayesSearchCV

# 定义贝叶斯优化的搜索空间
search_spaces = {
    'n_estimators': (50, 200),
    'max_depth': (10, 30),
    'min_samples_split': (2, 10)
}

# 进行贝叶斯优化
bayes_search = BayesSearchCV(estimator=rf, search_spaces=search_spaces, n_iter=10, cv=5, scoring='accuracy', random_state=42)
bayes_search.fit(X, y)

# 输出最优参数和最优准确率
print(f'最优参数: {bayes_search.best_params_}')
print(f'最优准确率: {bayes_search.best_score_:.2f}')

最优参数: OrderedDict([('max_depth', 26), ('min_samples_split', 6), ('n_estimators', 129)])
最优准确率: 0.90


通过以上示例，我们了解了网格搜索、随机搜索和贝叶斯优化的基本原理和应用。在实际应用中，选择合适的超参数调优方法可以显著提高模型的性能。