sklearn.impute.SimpleImputer 是 scikit-learn 中用于单变量缺失值插补的基础工具，它通过简单统计量（如均值、中位数）或固定值填充缺失值。以下是其核心参数的详细解释及应用案例：

## 一、核心参数详解
1. missing_values=np.nan
 * 作用：指定数据中缺失值的表示方式。
 * 示例：
    - 若缺失值用 -1 表示：missing_values=-1。
    - 若用字符串 'nan' 表示：missing_values='nan'。
2. strategy='mean'
 * 作用：指定插补策略。
 * 可选值：
    - 'mean'（默认）：用均值填充（仅适用于数值型数据）。
    - 'median'：用中位数填充（对异常值更鲁棒，适用于数值型数据）。
    - 'most_frequent'：用众数填充（适用于数值型和分类数据）。
    - 'constant'：用固定值填充（需配合 fill_value 参数）。
3. fill_value=None
 * 作用：当 strategy='constant' 时，指定填充的固定值。
 * 示例：
    - 用 0 填充：fill_value=0。
    - 用字符串 'missing' 填充分类特征：fill_value='missing'。
4. verbose=0
 * 作用：控制插补过程的日志级别。
 * 可选值：
    - 0（默认）：不输出日志。
    - 1：输出基本日志。
    - 2：输出详细日志。
5. copy=True
 * 作用：是否复制数据进行插补，避免原地修改原始数据。
 * 示例：
    - copy=False：直接在原始数据上修改，节省内存。
6. add_indicator=False
 * 作用：是否添加缺失值指示符列。
 * 效果：
    - 若为 True，输出会增加二进制列，指示每个样本的缺失位置。
 * 应用场景：
    - 缺失值的位置可能包含信息时（如医疗数据中某些指标未测量可能暗示特殊情况）。

## 二、代码样例：数值型数据插补

### 1. 均值 / 中位数插补

In [1]:
import numpy as np
from sklearn.impute import SimpleImputer

# 创建含缺失值的数值型数据
X = np.array([
    [1, 2, np.nan],
    [4, np.nan, 6],
    [7, 8, 9]
])

# 均值插补
mean_imputer = SimpleImputer(strategy='mean')
X_mean = mean_imputer.fit_transform(X)
print("均值插补结果：")
print(X_mean)
# 输出：
# [[1. 2. 7.5]
#  [4. 5. 6. ]
#  [7. 8. 9. ]]

# 中位数插补
median_imputer = SimpleImputer(strategy='median')
X_median = median_imputer.fit_transform(X)
print("\n中位数插补结果：")
print(X_median)
# 输出：
# [[1. 2. 7.5]
#  [4. 5. 6. ]
#  [7. 8. 9. ]]

均值插补结果：
[[1.  2.  7.5]
 [4.  5.  6. ]
 [7.  8.  9. ]]

中位数插补结果：
[[1.  2.  7.5]
 [4.  5.  6. ]
 [7.  8.  9. ]]


### 2. 常数插补

In [2]:
# 常数插补（用0填充）
constant_imputer = SimpleImputer(strategy='constant', fill_value=0)
X_constant = constant_imputer.fit_transform(X)
print("\n常数插补结果（用0填充）：")
print(X_constant)
# 输出：
# [[1. 2. 0.]
#  [4. 0. 6.]
#  [7. 8. 9.]]


常数插补结果（用0填充）：
[[1. 2. 0.]
 [4. 0. 6.]
 [7. 8. 9.]]


### 3. 添加缺失值指示符

In [3]:
# 添加缺失值指示符
indicator_imputer = SimpleImputer(add_indicator=True)
X_indicator = indicator_imputer.fit_transform(X)
print("\n带缺失值指示符的结果（最后三列是指示符）：")
print(X_indicator)
# 输出：
# [[1. 2. 7.5 0. 0. 1.]  # 第三列有缺失值
#  [4. 5. 6. 0. 1. 0.]  # 第二列有缺失值
#  [7. 8. 9. 0. 0. 0.]]  # 无缺失值


带缺失值指示符的结果（最后三列是指示符）：
[[1.  2.  7.5 0.  1. ]
 [4.  5.  6.  1.  0. ]
 [7.  8.  9.  0.  0. ]]


## 三、代码样例：分类数据插补

### 1. 众数插补

In [4]:
# 创建含缺失值的分类数据
X_cat = np.array([
    ['red', 'apple', np.nan],
    ['blue', np.nan, 'banana'],
    ['red', 'apple', 'orange']
], dtype=object)

# 众数插补
mode_imputer = SimpleImputer(strategy='most_frequent')
X_cat_mode = mode_imputer.fit_transform(X_cat)
print("\n分类数据众数插补结果：")
print(X_cat_mode)
# 输出：
# [['red' 'apple' 'orange']
#  ['blue' 'apple' 'banana']
#  ['red' 'apple' 'orange']]


分类数据众数插补结果：
[['red' 'apple' 'banana']
 ['blue' 'apple' 'banana']
 ['red' 'apple' 'orange']]


### 2. 常数插补（自定义填充值）

In [5]:
# 常数插补（用 'unknown' 填充）
constant_cat_imputer = SimpleImputer(
    strategy='constant', 
    fill_value='unknown'
)
X_cat_constant = constant_cat_imputer.fit_transform(X_cat)
print("\n分类数据常数插补结果：")
print(X_cat_constant)
# 输出：
# [['red' 'apple' 'unknown']
#  ['blue' 'unknown' 'banana']
#  ['red' 'apple' 'orange']]


分类数据常数插补结果：
[['red' 'apple' 'unknown']
 ['blue' 'unknown' 'banana']
 ['red' 'apple' 'orange']]


## 四、代码样例：混合数据类型插补

In [6]:
from sklearn.compose import ColumnTransformer

# 示例数据（包含数值和分类特征）
X_mixed = np.array([
    [1000, "A", np.nan],
    [2000, np.nan, 6],
    [np.nan, "A", 9]
])

# 分别处理数值列和分类列
preprocessor = ColumnTransformer(
    transformers=[
        ('num', SimpleImputer(strategy='mean'), [0, 2]),  # 数值列
        ('cat', SimpleImputer(strategy='most_frequent'), [1])  # 分类列
    ]
)

X_mixed_imputed = preprocessor.fit_transform(X_mixed)
print("\n混合数据插补结果：")
print(X_mixed_imputed)
# 输出：
# [[1000.    'A'    7.5]
#  [2000.    'A'    6. ]
#  [1500.    'A'    9. ]]

ValueError: SimpleImputer does not support data with dtype <U32. Please provide either a numeric array (with a floating point or integer dtype) or categorical data represented either as an array with integer dtype or an array of string values with an object dtype.

## 五、最佳实践建议

1. 数值型数据：
 * 数据分布对称：使用均值插补。
 * 数据偏态或含异常值：使用中位数插补。
2. 分类 / 文本数据：
 * 类别分布均衡：使用众数插补。
 * 缺失率高：考虑使用 'constant' 并自定义填充值（如 'missing'）。
3. 保留缺失信息：
 * 当缺失本身可能是重要特征时（如用户未填写某些字段），添加指示符列。
4. 与 Pipeline 集成：

In [7]:
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('impute', SimpleImputer(strategy='median')),
    ('scale', StandardScaler()),
    ('model', RandomForestClassifier())
])

NameError: name 'StandardScaler' is not defined