# 简介

scikit-learn 库中的一个预处理工具，用于对不同列应用不同的转换器。它允许你分别对不同的列应用特定的数据转换方法，然后将这些转换后的列合并成单个特征矩阵。
```
模块名称：ColumnTransformer
模块类型：预处理工具
功能：对不同的列应用不同的转换器
主要参数：
transformers：指定要应用的转换器和列的组合。
remainder：指定如何处理未指定转换器的列，默认为 'drop'，表示删除这些列；也可以设置为 'passthrough'，表示保持未转换的列。
主要属性：
transformers_：训练数据中每个转换器及其应用的列。
使用场景：
当需要对不同类型的特征进行不同的预处理操作时，例如对数值型特征进行缩放，对分类特征进行独热编码等。
示例用法：
在数据预处理流水线中使用 ColumnTransformer 来处理具有不同特征类型的数据。
```


In [2]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
import numpy as np

# 创建一个示例数据集
data = np.array([[1, 'a', 3], [2, 'b', 4], [3, 'c', np.nan]])

# 创建 ColumnTransformer 对象，对不同列应用不同的转换器
ct = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), [0]),   # 对第 0 列进行标准化
        ('cat', OneHotEncoder(), [1]),    # 对第 1 列进行独热编码
        ('imp', SimpleImputer(strategy='mean'), [2])  # 对第 2 列进行均值填充
    ],
    remainder='passthrough'  # 其余列保持不变
)

# 创建 Pipeline 对象，将 ColumnTransformer 与其他步骤组合起来
pipeline = Pipeline(steps=[('preprocessor', ct)])

# 拟合数据并进行转换
X_transformed = pipeline.fit_transform(data)

# 打印转换后的结果
print("转换后的数据：")
print(X_transformed)


转换后的数据：
[[-1.22474487  1.          0.          0.          3.        ]
 [ 0.          0.          1.          0.          4.        ]
 [ 1.22474487  0.          0.          1.          3.5       ]]
