# 12.0 简介

核心概念：

- 超参数 (Hyperparameter)：在训练过程之外定义的参数，如随机森林中决策树的数量、SVM的C和gamma等
- 超参数调优 (Hyperparameter Tuning)：在训练前设定这些值的过程
- 模型选择 (Model Selection)：从多个候选模型中选择最佳模型的过程

# 12.1 使用穷举搜索选择最佳模型

问题： 如何通过搜索一系列超参数来选择最佳模型

In [5]:
from turtledemo.sorting_animate import randomize

# 加载库
import numpy as np
from sklearn import linear_model,datasets
from sklearn.model_selection import GridSearchCV

# 加载数据
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 创建逻辑回归对象
logistic = linear_model.LogisticRegression(solver='liblinear')

# 创建正则化惩罚的候选超参数区间
penalty = ['l1', 'l2']

# 创建正则化候选超参数区间
C = np.logspace(0,4,10)

# 创建候选超参数的字典
hyperparameters = dict(C = C,penalty = penalty)

# 创建网格搜索对象
gridsearch = GridSearchCV(logistic,hyperparameters,cv=5,verbose=1)

#训练网格搜索
best_model = gridsearch.fit(features,target)

Fitting 5 folds for each of 20 candidates, totalling 100 fits




In [4]:
# 查看最佳超参数
print('Best Penalty:', best_model.best_estimator_.get_params()['penalty'])
print('Best C:', best_model.best_estimator_.get_params()['C'])

Best Penalty: l1
Best C: 7.742636826811269


In [6]:
# 预测目标向量
best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

关键知识点：
- GridSearchCV 会遍历所有超参数组合的笛卡尔积
- 本例中：2种penalty × 10个C值 = 20个候选模型
- cv=5 表示使用5折交叉验证
- verbose 控制输出信息的详细程度（0-3）
- 最佳模型会自动在完整数据集上重新训练（refit=True）

# 12.2使用随机搜索选择最佳模型

问题： 如何节省计算资源来选择最佳模型

In [8]:
# 加载库
from scipy.stats import uniform
from sklearn import linear_model,datasets
from sklearn.model_selection import RandomizedSearchCV

# 加载数据
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 创建逻辑回归对象
logistic = linear_model.LogisticRegression(solver='liblinear')

# 创建正则化惩罚大的候选超参数区间
penalty = ['l1', 'l2']

# 创建正则化候选超参数的分布
C = uniform(loc=0,scale=4)

# 创建超参数字典
hyperparameters = dict(C = C,penalty = penalty)

# 创建随机搜索字典
randomizedsearch = RandomizedSearchCV(logistic,hyperparameters,random_state=1,n_iter=100,verbose=0,n_jobs=-1)

# 训练随机搜索
best_model = randomizedsearch.fit(features,target)

In [9]:
uniform(loc=0,scale=4).rvs(10)

array([0.13055783, 1.69176982, 3.84475755, 0.55388775, 1.96602952,
       2.00659963, 1.74773725, 1.71293752, 1.33476686, 2.4065495 ])

In [10]:
# 查看最佳超参数
print('Best Penalty:',best_model.best_estimator_.get_params()['penalty'])
print('Best C:',best_model.best_estimator_.get_params()['C'])

Best Penalty: l1
Best C: 1.668088018810296


In [11]:
# 预测目标向量
best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2,
       2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

关键知识点：
- RandomizedSearchCV 从指定分布中随机采样超参数组合
- n_iter：指定采样次数（而非遍历所有组合）
- 适用于超参数空间很大时，比穷举搜索更高效
- 可以使用 scipy.stats 中的分布（如uniform、loguniform等）

# 12.3 从多种学习算法中选择最佳模型

问题： 搜索不同种类的学习算法及其超参数

In [13]:
# 加载库
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline

# 设置随机数种子
np.random.seed(0)

# 加载数据
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 创建流水线
pipe = Pipeline([('classifier',RandomForestClassifier())])

# 创建候选学习算法及超参数的字典
search_space = [
    {
        'classifier':[LogisticRegression(solver='liblinear')],
        'classifier__penalty':['l1','l2'],
        'classifier__C':np.logspace(0,4,10)},
    {
        'classifier':[RandomForestClassifier()],
        'classifier__n_estimators':[10,100,1000],
        'classifier__max_features':[1,2,3]
    }
]

# 创建GridSearchCV对象
gridsearch = GridSearchCV(pipe,search_space,cv=5,verbose=0)

# 执行网格搜索
best_model = gridsearch.fit(features,target)



In [14]:
# 查看最佳模型
best_model.best_estimator_.get_params()['classifier']

In [15]:
# 预测目标向量
best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

关键知识点：
- 使用 Pipeline 配合占位符 "classifier"
- 搜索空间是一个列表，每个元素是一个字典
- 不同算法可以有不同的超参数
- scikit-learn会自动尝试所有候选算法组合
- 用 best_estimator_.get_params()["classifier"] 查看最终选中的算法类型

# 12.4 将模型的预处理加入模型选择过程

问题： 在模型选择时纳入数据预处理步骤

In [18]:
# 加载库
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline,FeatureUnion
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 设置随机种子
np.random.seed(0)

# 加载数据
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 创建一个包含StandardScaler和PCA的预处理对象
preprocess = FeatureUnion([('std',StandardScaler()),('pca',PCA())])

# 创建一个流水线
pipe = Pipeline([('preprocess',preprocess),
                 ('classifier',LogisticRegression(solver='liblinear'))])

# 创建候选值的取值空间
search_space = [{'preprocess__pca__n_components':[1,2,3],
                 'classifier__penalty':['l1','l2'],
                 'classifier__C':np.logspace(0,4,10)},]

# 创建网格搜索对象
clf = GridSearchCV(pipe,search_space,cv=5,verbose=0,n_jobs=-1)

# 训练模型
best_model = clf.fit(features,target)

In [19]:
# 查看最佳主成分数量
best_model.best_estimator_.get_params()['preprocess__pca__n_components']

1

关键知识点：
- FeatureUnion：并行组合多个预处理器（如标准化+PCA）
- 预处理参数通过 preprocess__pca__n_components 这样的双下划线语法访问
- 关键点：预处理必须在交叉验证的每一折内部进行，防止数据泄漏
- 这确保了测试数据在验证过程中始终是不可见的

# 12.5 用并行化加速模型选择

问题： 加快模型选择的速度

In [20]:
# 加载库
import numpy as np
from sklearn import linear_model,datasets
from sklearn.model_selection import GridSearchCV

# 加载数据
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 创建逻辑回归对象
logistic = linear_model.LogisticRegression(solver='liblinear')

# 创建正则化惩罚的候选超参数区间
penalty = ['l1', 'l2']

# 创建参数C的候选值区间
C = np.logspace(0,4,1000)

# 创建超参数选项
hyperparameters = dict(C = C,penalty = penalty)

# 创建网格搜索对象
gridsearch = GridSearchCV(logistic,hyperparameters,cv=5,verbose=1,n_jobs=-1)

# 执行网格搜索
best_model = gridsearch.fit(features,target)

Fitting 5 folds for each of 2000 candidates, totalling 10000 fits


In [21]:
# 创建使用单个核的网络搜索
clf = GridSearchCV(logistic,hyperparameters,cv=5,verbose=1,n_jobs=1)

# 执行网格搜索
best_model = gridsearch.fit(features,target)

Fitting 5 folds for each of 2000 candidates, totalling 10000 fits


关键知识点：
- n_jobs=-1：使用所有可用的CPU核心
- 并行训练多个模型，显著缩短搜索时间
- 现代笔记本通常有4个核心，可同时训练4个模型
- verbose 设置后可以看到并行进度信息

# 12.6 使用针对特定算法的方法加速模型选择

问题： 加快模型选择的速度

In [23]:
# 加载库
from sklearn import linear_model,datasets

# 加载数据
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 创建LogisticRegressionCV对象
logit = linear_model.LogisticRegressionCV(Cs = 100)

# 训练模型
logit.fit(features,target)

关键知识点：
- 某些算法有专用的CV类（如 LogisticRegressionCV, RidgeCV, LassoCV 等）
- 这些类针对特定算法优化，比通用 GridSearchCV 更快
- Cs 参数：整数表示在logspace中采样个数，列表表示指定值
- 缺点：只能搜索该算法特定的参数（如只能搜C，不能同时搜penalty）

# 12.7 模型选择后的性能评估

问题： 避免评估偏差，得到无偏的性能估计

In [24]:
# 加载库
import numpy as np
from sklearn import linear_model,datasets
from sklearn.model_selection import GridSearchCV,cross_val_score

# 加载数据
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 创建逻辑回归对象
logistic = linear_model.LogisticRegression(solver='liblinear')

# 创建超参数C的20个候选值
C = np.logspace(0,4,20)

# 创建超参数字典
hyperparameters = dict(C=C)

# 创建网格搜索
gridsearch = GridSearchCV(logistic,hyperparameters,cv=5,verbose=0,n_jobs=-1)

# 执行嵌套交叉验证并输出平均得分
cross_val_score(gridsearch,features,target).mean()

0.9733333333333334

关键知识点：
- 数据泄漏风险：如果用同一数据做模型选择和性能评估，会导致乐观偏差
- 嵌套交叉验证：外层CV评估性能，内层CV（GridSearchCV内部）选择超参数
- 本例：外层3折 × 内层5折 × 20个候选 = 300次训练
- 计算成本高，但能给出无偏的性能估计

### 本章学习路径图
1. 模型选择基础
   - 进阶方向：GridSearchCV（穷举）→ RandomizedSearchCV（随机）→ 专用CV类（算法特定）
2. 多算法比较（Pipeline）
3. 加入预处理（FeatureUnion）
4. 加速优化（n_jobs并行化）
5. 无偏评估（嵌套交叉验证）

关键技巧总结：
- 超参数命名：通过 __ 连接（如 classifier__C）
- 搜索空间设计：列表实现多算法，字典实现多参数组合
- 防止数据泄漏：预处理必须纳入Pipeline，在CV内部执行
- 效率权衡：GridSearch（全面但慢）vs RandomizedSearch（快但可能错过最优）
- 评估严谨性：最终性能评估需使用独立测试集或嵌套交叉验证