sklearn.impute.KNNImputer 是 scikit-learn 中基于 k - 近邻算法的缺失值插补工具，它通过寻找相似样本填充缺失值。以下是其核心参数的详细解释及应用案例：

## 一、核心参数详解

1. n_neighbors=5
 * 作用：指定用于插补的最近邻样本数。
 * 调优逻辑：
    - 较小的 n_neighbors（如 3）：对局部异常值敏感，但能捕捉细粒度模式。
    - 较大的 n_neighbors（如 10）：平滑效果更强，对噪声更鲁棒。
2. weights='uniform'
 * 作用：指定近邻样本的权重计算方式。
 * 可选值：
    - 'uniform'（默认）：所有近邻样本权重相等。
    - 'distance'：权重与距离成反比（距离越近，权重越大）。
3. metric='nan_euclidean'
 * 作用：指定计算样本间距离的度量方法。
 * 可选值：
    - 'nan_euclidean'（默认）：欧氏距离，忽略缺失值。
    - 其他 sklearn 支持的距离度量（如 'manhattan'、'cosine'）。
4. copy=True
 * 作用：是否复制数据进行插补，避免原地修改原始数据。
 * 示例：
    - copy=False：直接在原始数据上修改，节省内存。
5. add_indicator=False
 * 作用：是否添加缺失值指示符列。
 * 效果：
    - 若为 True，输出会增加二进制列，指示每个样本的缺失位置。

## 二、代码样例：数值型数据插补

### 1. 基础用法

In [1]:
import numpy as np
from sklearn.impute import KNNImputer

# 创建含缺失值的数值型数据
X = np.array([
    [1, 2, np.nan],
    [4, np.nan, 6],
    [7, 8, 9],
    [np.nan, 10, 11]
])

# KNN 插补（默认参数）
imputer = KNNImputer(n_neighbors=2, weights="uniform")
X_imputed = imputer.fit_transform(X)
print("KNN 插补结果：")
print(X_imputed.round(2))
# 输出：
# [[ 1.    2.    7.5 ]
#  [ 4.    6.    6.  ]
#  [ 7.    8.    9.  ]
#  [ 5.5   10.   11.  ]]

KNN 插补结果：
[[ 1.   2.   7.5]
 [ 4.   5.   6. ]
 [ 7.   8.   9. ]
 [ 5.5 10.  11. ]]


### 2. 不同权重策略对比

In [2]:
# 使用距离权重
imputer_distance = KNNImputer(n_neighbors=2, weights="distance")
X_imputed_distance = imputer_distance.fit_transform(X)
print("\n使用距离权重的插补结果：")
print(X_imputed_distance.round(2))
# 输出：
# [[ 1.    2.    7.67]  # 更接近 [4, 6] 的贡献
#  [ 4.    6.67  6.  ]
#  [ 7.    8.    9.  ]
#  [ 5.5   10.   11.  ]]


使用距离权重的插补结果：
[[ 1.    2.    7.  ]
 [ 4.    5.    6.  ]
 [ 7.    8.    9.  ]
 [ 6.14 10.   11.  ]]


## 三、代码样例：分类数据插补

### 先编码再插补

In [3]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 创建含缺失值的分类数据
X_cat = np.array([
    ['red', 'apple', np.nan],
    ['blue', np.nan, 'banana'],
    ['red', 'apple', 'orange'],
    [np.nan, 'grape', 'banana']
], dtype=object)

# 构建处理流程
preprocessor = Pipeline(steps=[
    ('encode', OneHotEncoder(handle_unknown='ignore', sparse=False)),
    ('impute', KNNImputer(n_neighbors=2))
])

# 处理数据
X_cat_imputed = preprocessor.fit_transform(X_cat)
print("\n分类数据插补结果（编码后）：")
print(X_cat_imputed.round(2))

TypeError: OneHotEncoder.__init__() got an unexpected keyword argument 'sparse'

## 四、代码样例：混合数据类型插补

### 结合 ColumnTransformer 处理不同类型的列

In [4]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# 示例数据（包含数值和分类特征）
X_mixed = np.array([
    [1000, "A", np.nan],
    [2000, np.nan, 6],
    [np.nan, "A", 9],
    [3000, "B", 12]
])

# 分别处理数值列和分类列
preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline(steps=[
            ('impute', KNNImputer(n_neighbors=2)),
            ('scale', StandardScaler())
        ]), [0, 2]),  # 数值列
        
        ('cat', Pipeline(steps=[
            ('encode', OneHotEncoder(handle_unknown='ignore')),
            ('impute', KNNImputer(n_neighbors=2))
        ]), [1])  # 分类列
    ]
)

# 处理数据
X_mixed_imputed = preprocessor.fit_transform(X_mixed)
print("\n混合数据插补结果：")
print(X_mixed_imputed.shape)  # 查看形状
print(X_mixed_imputed.round(2))

TypeError: Sparse data was passed for X, but dense data is required. Use '.toarray()' to convert to a dense numpy array.

## 五、最佳实践建议
1. 数据预处理：
 * 对分类特征先进行编码（如 OneHotEncoder）。
 * 对数值特征进行标准化（如 StandardScaler），避免因量纲差异影响距离计算。
2. 参数调优：
 * 通过交叉验证选择最优的 n_neighbors 和 weights。
 * 高维数据考虑降维（如 PCA）后再插补。
3. 计算效率：
 * 大数据集使用 n_neighbors=3 或 n_neighbors=5 平衡精度与速度。
 * 可结合 ColumnTransformer 对不同列使用不同插补策略。
4. 与其他方法对比：
 * 相比 SimpleImputer，KNN 能捕捉数据的局部结构，但计算成本更高。
 * 相比 IterativeImputer，KNN 更适合小规模数据集和非线性关系。

## 六、总结
KNNImputer 通过最近邻样本填充缺失值，适用于数据存在局部相关性的场景。关键参数选择逻辑如下：
 * n_neighbors：控制局部性与平滑度的平衡。
 * weights：根据数据特性选择 'uniform' 或 'distance'。
 * metric：默认 'nan_euclidean' 适用于大多数情况，可根据数据特性调整。
合理配置这些参数能有效利用数据的局部模式，提升缺失值插补的准确性。