# 构建管道

我们来看一下如何使用Pipeline类来表示在使用MinMaxScaler缩放数据之后再训练一个 SVM的工作流程（暂时不用网格搜索）。首先，我们构建一个由步骤列表组成的管道对象。每个步骤都是一个元组，其中包含一个名称（你选定的任意字符串）和一个估计器的实例：

In [3]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
# 这里我们创建了两个步骤:第一个叫作"scaler" , 是MSMaxScaler的实例
# 第二个叫作 "svm",是SVC的实例。现在我们可以像任何其他scikit-learn 估计器一样来拟合这个管道：
pipe = Pipeline([("scaler", MinMaxScaler()), ("svm", SVC())])
pipe.fit(X_train, y_train)
# pipe.fit首先对第一个步骤(缩放器)调用fit , 然后使用该缩放器对训练数据进行变换.最后用缩放后的数据来拟合SVM。
# 要想在测试数据上进行评估，我们只需调用 pipe.score：
print("Test score: {:.3f}".format(pipe.score(X_test, y_test)))

Test score: 0.972


如果对管道调用score方法，则首先使用缩放器对测试数据进行变换，然后利用缩放后的测试数据对SVM调用score方法。如你所见,这个结果与我们从本章开头的代码得到的结果(手动进行数据变换)是相同的。利用管道，我们减少"预处理+分类"过程所需要的代码量。但是，使用管道的主要优点在于，现在我们可以在cross_val_score或 GridSearchCV中使用这个估计器。