# 简介

scikit-learn 库中的一个实用工具，用于构建机器学习工作流。它可以将多个预处理步骤和机器学习模型串联起来，形成一个完整的数据处理和建模流程。

```
模块名称：Pipeline
模块类型：实用工具
功能：构建机器学习工作流
主要参数：
steps：指定工作流中的每个步骤，以元组列表的形式给出，每个元组包含步骤的名称和步骤对象。
主要属性：
named_steps：字典形式的属性，用于访问工作流中的每个步骤。
使用场景：
当需要对数据进行多个预处理步骤，然后应用机器学习模型时，可以使用 Pipeline 来组织和管理这些步骤。
示例用法：
在机器学习任务中使用 Pipeline 来构建数据预处理和建模流程。
```

In [7]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

# 加载示例数据集
iris = load_iris()
X, y = iris.data, iris.target

# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建一个简单的 Pipeline，包括缺失值填充、数据标准化和逻辑回归三个步骤
# pipeline = Pipeline(steps=[  # 其中steps参数可以省略
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # 缺失值填充
    ('scaler', StandardScaler()),                 # 数据标准化
    ('classifier', LogisticRegression())          # 逻辑回归模型
])

# 拟合数据并进行预测
pipeline.fit(X_train, y_train)
predictions = pipeline.predict(X_test)

# 打印预测结果
# print("原始值：", X_test)
print("预测结果：", predictions)
print("正常结果：", y_test)



预测结果： [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]
正常结果： [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]
