# 网格搜索选择使用哪个模型

你甚至可以进一步将GridSearchCV和Pipeline结合起来：还可以搜索管道中正住执行的实际步骤(比如用StandardScaler还是用MinMaxScaler)。这样会导致更大的搜索空间，应该予以仔细考虑。尝试所有可能的解决方案，通常并不是一种可行的机器学习策略。但下面是一个例子：再iris数据集上比较 RandomForestClassifier和SVC。SVC可能需要对数据进行缩放，所以我们还需要搜索是使用StandardScaler还是不使用预处理。我们知道,RandomFoestClassifter不需要预处理。我们先定义管道。这里我们显式地对步骤命名。我们需要两个步骤，一个用于预处理，然后是一个分类器。我们可以用 
SVC和 StandardScaler来将其实例化:

In [1]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
pipe = Pipeline([('preprocessing', StandardScaler() ) , ('classifier', SVC())]) 

现住我们可以定义需要搜索的parameter_grid。我们希望classifier是 RandomForestClassifier或SVC。由于这两种分类器需要调节不同的参数，并且需要不同的预处理，所以我们可以使用"在非网格的空间中搜索"中所讲的搜索网格列表。为了将一个估计器分配给一个步骤，我们使用步骤名称作为参数名称。如果我们想跳过管道中的某个步骤(例如，RandonForest不需要预处理)，则可以将该步骤设置为None：

In [2]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

param_grid = [
    {'classifier': [SVC()], 'preprocessing': [StandardScaler(), None],
     'classifier__gamma': [0.001, 0.01, 0.1, 1, 10, 100],
     'classifier__C': [0.001, 0.01, 0.1, 1, 10, 100]},
    {'classifier': [RandomForestClassifier(n_estimators=100)],
     'preprocessing': [None], 'classifier__max_features': [1, 2, 3]}]

现在，我们可以像前面一样将网格搜索实例化并在cancer数据集上运行：

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
grid = GridSearchCV(pipe, param_grid, cv=5)
grid.fit(X_train, y_train)

print("Best params:\n{}\n".format(grid.best_params_))
print("Best cross-validation score: {:.3f}".format(grid.best_score_)) 
print("Test set score: {:.3f}".format(grid.score(X_test, y_test)))

Best params:
{'classifier': SVC(C=10, gamma=0.01), 'classifier__C': 10, 'classifier__gamma': 0.01, 'preprocessing': StandardScaler()}

Best cross-validation score: 0.986
Test set score: 0.979


网格搜索的结果是SVC与 StandardScaler预处理，在 C=10和gama=0.01时给出最佳结果。