# 什么是 Pipelines?

Pipelines是组织数据处理和建模代码的简单方法。具体而言，一个管道捆绑了预处理和建模的多个步骤，因此可以像使用单个步骤一样使用整个捆绑包。

Pipeline的好处：
- ** 更简洁的代码: **无需在处理的每个步骤中跟踪训练（和验证）数据。在每个处理步骤中记录数据可能会变得混乱。用Pipeline，你不需要手动跟踪每一步。
- ** 更少的代码 **
- ** 更容易生产 **
- ** 更多的模型测试选项 **

# 示例
## 加载数据

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 读取数据
data = pd.read_csv('input/melb_data.csv')
cols_to_use = ['Rooms', 'Distance', 'Landsize', 'BuildingArea', 'YearBuilt']
X = data[cols_to_use]
y = data.Price
train_X, test_X, train_y, test_y = train_test_split(X, y)

假如有如下操作：
- 使用`Imputer`处理缺失值
- 紧接着使用`RandomForestRegressor`进行预测
可以使用函数`make_pipeline`将上述步骤捆绑在一起，代码如下。

In [4]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import Imputer

my_pipeline = make_pipeline(Imputer(), RandomForestRegressor())

现在，可以把这个pipeline作为整体，进行拟合及预测。

In [5]:
my_pipeline.fit(train_X, train_y)
predictions = my_pipeline.predict(test_X)

作为对比，下面的代码，实现相同的功能。

In [6]:
my_imputer = Imputer()
my_model = RandomForestRegressor()

imputed_train_X = my_imputer.fit_transform(train_X)
imputed_test_X = my_imputer.transform(test_X)
my_model.fit(imputed_train_X, train_y)
predictions_ = my_model.predict(imputed_test_X)

这个简单的pipeline只在代码优雅性方面有改进。但随着数据处理日益复杂，pipeline变得越来越有价值。

# 理解 pipeline
觉大多数 `scikit-learn` 对象是 `transformers` 和 `models`。

- `Transformers: `在建模之前对数据进行预处理。Imputer类(用于填补缺失值)就是Transformer的一个示例。未来，将学习更多的Transformer，并且会经常使用多个Transformer。
- `Models: `用于预测。在将数据应用到模型之前，通常需要对其进行预处理(使用Transformer)。

可以通过对象的使用方式，区分该对象是Transformer还是Model。在fit一个Transformer之后，使用`transform`命令使用它；但是，在fit一个Model之后，使用`predict`命令来使用它。

一个Pipeline必须从Transformer步骤开始，并以Model结束。