sklearn.preprocessing.FunctionTransformer 是 scikit-learn 中用于创建自定义转换器的工具，它允许你将任意 Python 函数封装为符合 sklearn 接口的转换器，从而集成到 Pipeline 或 ColumnTransformer 中。这在需要进行自定义特征工程时非常有用。

## 一、核心作用与原理

1. 作用：
    * 将自定义的数值转换函数（如对数变换、标准化、特征组合等）封装为 sklearn 转换器，使其能与其他预处理步骤或模型无缝衔接。
2. 原理：
    * 通过 func 参数指定要应用的函数；
    * 通过 inverse_func 参数指定逆变换函数（可选，用于 inverse_transform 方法）；
    * 支持处理二维数组（样本 × 特征），自动处理特征轴。

## 二、关键参数详解

In [1]:
from sklearn.preprocessing import FunctionTransformer

transformer = FunctionTransformer(
    func=None,                 # 要应用的变换函数
    inverse_func=None,         # 逆变换函数（可选）
    validate=False,            # 是否验证输入是否为二维数组
    accept_sparse=False,       # 是否接受稀疏矩阵
    check_inverse=True,        # 是否检查逆变换的正确性
    kw_args=None,              # 传递给 func 的额外参数
    inv_kw_args=None           # 传递给 inverse_func 的额外参数
)

1. func：    
    自定义的变换函数，输入和输出应为二维数组（形状为 [n_samples, n_features]）。若为 None，则使用恒等变换（即不改变输入）。
2. inverse_func：    
    逆变换函数，用于 inverse_transform 方法。例如，若 func 是对数变换，则 inverse_func 应为指数变换。
3. validate：
    * True：强制验证输入是否为二维数组，且 dtype 为 float；
    * False（默认）：跳过验证，提高性能（需确保输入格式正确）。

## 三、案例代码：自定义转换器

### 1. 简单数值变换（对数变换）

In [2]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression

# 自定义对数变换函数
def log_transform(X):
    return np.log1p(X)  # 使用 log(1+x) 避免对数处理零值

# 自定义逆变换函数（用于还原预测结果）
def exp_transform(X):
    return np.expm1(X)  # exp(x)-1 是 log(1+x) 的逆运算

# 创建 FunctionTransformer
log_transformer = FunctionTransformer(
    func=log_transform,
    inverse_func=exp_transform,
    validate=True
)

# 示例数据（右偏分布）
X = np.array([[1], [10], [100], [1000]])
y = np.array([2, 4, 6, 8])

# 构建包含自定义转换器的管道
pipeline = Pipeline([
    ('log_transform', log_transformer),
    ('regressor', LinearRegression())
])

# 训练模型
pipeline.fit(X, y)

# 预测并还原结果
X_new = np.array([[50]])
y_pred = pipeline.predict(X_new)
print("对数变换后的预测值:", y_pred)  # 输出：[5.19...]
print("还原后的预测值:", exp_transform(y_pred))  # 输出：[180.8...]

对数变换后的预测值: [5.26540622]
还原后的预测值: [192.52490582]


### 2. 特征组合（创建交互特征）

In [3]:
# 自定义特征组合函数
def combine_features(X):
    """将特征两两相乘，创建交互特征"""
    n_samples, n_features = X.shape
    # 创建空数组存储组合特征
    combined = np.zeros((n_samples, n_features * (n_features - 1) // 2))
    col_idx = 0
    for i in range(n_features):
        for j in range(i + 1, n_features):
            combined[:, col_idx] = X[:, i] * X[:, j]
            col_idx += 1
    return np.hstack([X, combined])  # 合并原始特征和组合特征

# 创建转换器
feature_combiner = FunctionTransformer(
    func=combine_features,
    validate=True
)

# 示例数据
X = np.array([
    [1, 2],
    [3, 4],
    [5, 6]
])

# 转换数据
X_transformed = feature_combiner.transform(X)
print("原始特征:\n", X)
print("转换后特征:\n", X_transformed)
# 输出：
# 原始特征:
#  [[1 2]
#   [3 4]
#   [5 6]]
# 转换后特征:
#  [[ 1.  2.  2.]   # 原始特征：[1, 2]，组合特征：1*2=2
#   [ 3.  4. 12.]   # 原始特征：[3, 4]，组合特征：3*4=12
#   [ 5.  6. 30.]]  # 原始特征：[5, 6]，组合特征：5*6=30

原始特征:
 [[1 2]
 [3 4]
 [5 6]]
转换后特征:
 [[ 1.  2.  2.]
 [ 3.  4. 12.]
 [ 5.  6. 30.]]


## 3. 处理特定列（结合 ColumnTransformer）

In [4]:
from sklearn.compose import ColumnTransformer

# 示例数据（包含数值和分类特征）
X = np.array([
    [1000, "A"],
    [2000, "B"],
    [3000, "A"]
])

# 自定义对数变换函数（仅处理第一列）
def log_transform_first_col(X):
    X_copy = X.copy()
    X_copy[:, 0] = np.log1p(X_copy[:, 0].astype(float))
    return X_copy

# 创建列转换器
preprocessor = ColumnTransformer(
    transformers=[
        ('log_transform', FunctionTransformer(log_transform_first_col), [0]),
        ('passthrough', 'passthrough', [1])  # 保留第二列不变
    ]
)

# 转换数据
X_transformed = preprocessor.fit_transform(X)
print("转换后数据:\n", X_transformed)
# 输出：
# [[6.90775528 'A']
#  [7.60090246 'B']
#  [8.00636757 'A']]

转换后数据:
 [['6.90875477931522' 'A']
 ['7.601402334583733' 'B']
 ['8.006700845440367' 'A']]


## 四、实际应用场景

1. 特定领域的变换：    
如金融数据的对数变换、图像处理中的灰度转换、音频数据的梅尔频率变换等。
2. 特征组合与提取：    
创建自定义特征组合（如面积 = 长 × 宽）、提取统计特征（如标准差、偏度）。
3. 数据清洗：    
处理缺失值、异常值或特定格式的数据转换。
4. 与 Pipeline 集成：    
将自定义变换纳入自动化工作流，确保训练和预测阶段的处理逻辑一致。

## 五、注意事项

1. 输入输出格式：
    * func 和 inverse_func 应接受并返回二维数组（形状为 [n_samples, n_features]）；
    * 若处理单特征，需确保输入形状为 [n_samples, 1]。
2. 性能考虑：
    * 设置 validate=False 可跳过输入验证，提高处理速度；
    * 对于大型数据集，考虑使用向量化操作或并行计算。
3. 可逆性：
    * 若需使用 inverse_transform（如在预测后还原结果），需确保 inverse_func 是 func 的真正逆运算。