In [20]:
### 3.2.1 GridSearchCV
#GridSearchCV 是 scikit-learn 中用于参数搜索和模型选择的工具之一。它执行了一种穷尽搜索（grid search），
#遍历指定参数的所有可能组合，然后利用交叉验证来评估每个参数组合的性能，最终选择性能最佳的参数组合。
#搜索包括：
#    估计器（回归器或分类器，如sklearn.svm.SVC（））；
#    参数空间；
#    一种用于搜索或采样候选者的方法；
#    交叉验证方案；
#    分数函数。

#svm最优参数搜索
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV
iris = datasets.load_iris()
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]} #定义要搜索的参数（核函数kernel和正则化参数C），进行排列组合穷举搜索。
svc = svm.SVC()
clf = GridSearchCV(svc, parameters)
clf.fit(iris.data, iris.target)     #参数空间搜索（各种参数组合的模型训练）

In [21]:
# 查看明细结果 - 例如查看每种参数组合的评价指标
clf.cv_results_  

{'mean_fit_time': array([0.00159588, 0.00178905, 0.0017941 , 0.00179286]),
 'std_fit_time': array([0.00079753, 0.00074767, 0.00115808, 0.0007408 ]),
 'mean_score_time': array([0.00099959, 0.00100207, 0.00079288, 0.00140038]),
 'std_score_time': array([6.35059858e-04, 1.71502358e-05, 3.96554151e-04, 4.91080688e-04]),
 'param_C': masked_array(data=[1, 1, 10, 10],
              mask=[False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_kernel': masked_array(data=['linear', 'rbf', 'linear', 'rbf'],
              mask=[False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'C': 1, 'kernel': 'linear'},
  {'C': 1, 'kernel': 'rbf'},
  {'C': 10, 'kernel': 'linear'},
  {'C': 10, 'kernel': 'rbf'}],
 'split0_test_score': array([0.96666667, 0.96666667, 1.        , 0.96666667]),
 'split1_test_score': array([1.        , 0.96666667, 1.        , 1.        ]),
 'split2_test_score': array([0.96666667, 0.96666667, 0.9       , 0.966

In [22]:
# 最佳得分
clf.best_score_  #最佳参数是核函数为linear + 正则行C为1的参数组合。

0.9800000000000001

In [23]:
# 获取最佳模型的参数
clf.best_params_   

{'C': 1, 'kernel': 'linear'}

In [24]:
#获取最近模型
clf.best_estimator_

In [42]:
### 3.2.2 RandomizedSearchCV 
#RandomizedSearchCV 是 scikit-learn 中用于参数搜索和模型选择的另一种工具，与 GridSearchCV 不同之处在于它使用了随机搜索而不是穷举搜索。
#这种方法可以在给定的参数空间中进行随机抽样，从而更有效地探索大型参数空间，特别是对于那些参数数量较多或者参数取值范围较广的情况。

from sklearn.model_selection import RandomizedSearchCV
from sklearn.svm import SVC
from scipy.stats import uniform, randint
from sklearn import svm, datasets

iris = datasets.load_iris()
param_dist = {'kernel': ['linear', 'rbf'], 'C': uniform(loc=0, scale=10)} #与 GridSearchCV 不同，
                              #RandomizedSearchCV 需要定义参数的分布而不是具体的参数取值。可以使用 scipy.stats 中的
                              #分布函数来定义参数的分布，#比如均匀分布 uniform、正态分布 norm、离散分布 randint 等。
svm = SVC()
random_search = RandomizedSearchCV(estimator=svm, param_distributions=param_dist, n_iter=10, cv=5, random_state=42) #n_iter参数指定了随机搜索的迭代次数，即抽样次数。
random_search.fit(iris.data, iris.target)

In [38]:
# 查看明细结果 - 例如查看参数组合的评价指标。参数组合通过随机抽样获取。
random_search.cv_results_  

{'mean_fit_time': array([0.00119586, 0.00159736, 0.00161557, 0.00099072, 0.00140333,
        0.00099015, 0.00120215, 0.00060186, 0.00080209, 0.00163226]),
 'std_fit_time': array([7.45410117e-04, 4.90240278e-04, 5.04331062e-04, 2.04987852e-05,
        7.96891979e-04, 1.08144285e-03, 4.17986771e-04, 4.91434830e-04,
        4.01198538e-04, 5.06278614e-04]),
 'mean_score_time': array([0.00100265, 0.00079651, 0.00058532, 0.00079889, 0.00059681,
        0.00101051, 0.00058646, 0.00059814, 0.00079088, 0.00077076]),
 'std_score_time': array([0.00110225, 0.00039827, 0.00047806, 0.0003998 , 0.00048734,
        0.00110817, 0.00047909, 0.00048838, 0.00073291, 0.00038783]),
 'param_C': masked_array(data=[3.745401188473625, 1.834347898661638,
                    5.986584841970366, 4.458327528535912,
                    0.5808361216819946, 3.337086111390218,
                    7.080725777960454, 0.5641157902710026,
                    8.324426408004218, 0.007787658410143283],
              mask=[Fal

In [39]:
#最佳分数
random_search.best_score_  #通常效果优于穷举搜索，因为我不太可能恰好枚举到最有参数，特别当参数是小数的时候。

0.9866666666666667

In [40]:
# 获取最佳模型的参数
random_search.best_params_  

{'C': 7.080725777960454, 'kernel': 'rbf'}

In [41]:
# 获取最佳模型的参数
random_search.best_estimator_  

In [None]:
###<进阶> 3.2.3 搜索连续减半的最优参数
#sklearn提供了搜索性能更优的参数搜索方案，例如 HalvingGridSearchCV、  HalvingRandomSearchCV
#更多请参考 https://scikit-learn.org/stable/modules/grid_search.html#exhaustive-grid-search