在机器学习中，类别特征编码是处理非数值型数据（如性别、颜色、城市）的关键步骤。OrdinalEncoder 和 OneHotEncoder 是 scikit-learn 中最常用的两种类别特征编码工具，它们分别适用于不同类型的类别数据。下面详细介绍它们的用法、参数及应用场景。

## 一、OrdinalEncoder：顺序编码

1. 核心作用
    将类别特征转换为整数编码，每个类别被映射为一个唯一的整数。适用于有序类别（如教育程度：小学 < 中学 < 大学）。
2. 关键参数

In [None]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder(
    categories='auto',       # 类别顺序，'auto' 自动学习，或手动指定列表
    dtype=np.float64,        # 输出数据类型
    handle_unknown='error',  # 处理未知类别的方式
    unknown_value=None,      # 未知类别的替代值（需设置 handle_unknown='use_encoded_value'）
)

3. 参数详解
    * categories：
      - 'auto'（默认）：从训练数据中自动学习类别顺序（按字典序排序）；
      - 手动指定列表：如 [['low', 'medium', 'high']]，明确类别顺序。
    * handle_unknown：
      - 'error'（默认）：遇到未知类别时抛出错误；
      - 'use_encoded_value'：将未知类别映射为 unknown_value 指定的值（需同时设置该参数）。

In [1]:
import numpy as np
from sklearn.preprocessing import OrdinalEncoder

# 创建示例数据（有序类别）
X = np.array([
    ['low'],
    ['medium'],
    ['high'],
    ['medium']
])

# 创建 OrdinalEncoder 实例，手动指定类别顺序
encoder = OrdinalEncoder(categories=[['low', 'medium', 'high']])

# 拟合并转换数据
X_encoded = encoder.fit_transform(X)

print("原始数据：")
print(X)
print("\n编码后的数据：")
print(X_encoded)  # 输出：[[0.], [1.], [2.], [1.]]

# 查看类别映射
print("\n类别映射：")
print(encoder.categories_)  # 输出：[array(['low', 'medium', 'high'], dtype=object)]

# 处理未知类别（需设置 handle_unknown='use_encoded_value'）
new_data = np.array([['unknown']])
encoder = OrdinalEncoder(
    categories=[['low', 'medium', 'high']],
    handle_unknown='use_encoded_value',
    unknown_value=-1
)
encoder.fit(X)
print("\n处理未知类别：")
print(encoder.transform(new_data))  # 输出：[[-1.]]

原始数据：
[['low']
 ['medium']
 ['high']
 ['medium']]

编码后的数据：
[[0.]
 [1.]
 [2.]
 [1.]]

类别映射：
[array(['low', 'medium', 'high'], dtype=object)]

处理未知类别：
[[-1.]]


## 二、OneHotEncoder：独热编码

1. 核心作用
    将类别特征转换为二进制向量，每个类别对应一个二进制列，值为 1 表示样本属于该类别。适用于无序类别（如颜色：红、绿、蓝）。
2. 关键参数

In [2]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(
    categories='auto',       # 类别顺序，同 OrdinalEncoder
    drop=None,               # 是否删除冗余列（如二分类只保留一列）
    sparse_output=True,      # 是否返回稀疏矩阵
    dtype=np.float64,        # 输出数据类型
    handle_unknown='error',  # 处理未知类别的方式
    min_frequency=None,      # 最小类别频率，低于此值的类别视为不频繁
    max_categories=None,     # 最大类别数，超过部分视为不频繁
)

3. 参数详解
    * drop
      - None（默认）：不删除任何列；
      - 'first'：删除每个特征的第一个类别（适用于线性模型避免共线性）；
      - 'if_binary'：如果是二分类，只保留一列。
    * sparse_output
      - True（默认）：返回稀疏矩阵（节省内存，适合高维度）；
      - False：返回密集数组。
    * handle_unknown
      - 'error'（默认）：遇到未知类别时抛出错误；
      - 'ignore'：未知类别在转换时被编码为全零向量（仅适用于 sparse_output=False）。

In [3]:
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# 创建示例数据（无序类别）
X = np.array([
    ['red'],
    ['blue'],
    ['green'],
    ['blue']
])

# 创建 OneHotEncoder 实例
encoder = OneHotEncoder(sparse_output=False)  # 返回密集数组便于查看

# 拟合并转换数据
X_encoded = encoder.fit_transform(X)

print("原始数据：")
print(X)
print("\n编码后的数据：")
print(X_encoded)  # 输出：[[1. 0. 0.], [0. 1. 0.], [0. 0. 1.], [0. 1. 0.]]

# 查看特征名称
print("\n特征名称：")
print(encoder.get_feature_names_out())  # 输出：['x0_blue' 'x0_green' 'x0_red']

# 处理未知类别
new_data = np.array([['yellow']])
encoder = OneHotEncoder(
    sparse_output=False,
    handle_unknown='ignore'
)
encoder.fit(X)
print("\n处理未知类别（ignore）：")
print(encoder.transform(new_data))  # 输出：[[0. 0. 0.]]

# 删除冗余列（适用于线性模型）
encoder = OneHotEncoder(
    sparse_output=False,
    drop='first'  # 删除每个特征的第一个类别
)
X_encoded_drop = encoder.fit_transform(X)
print("\n删除冗余列后：")
print(X_encoded_drop)  # 输出：[[0. 0.], [1. 0.], [0. 1.], [1. 0.]]
print(encoder.get_feature_names_out())  # 输出：['x0_green' 'x0_red']

原始数据：
[['red']
 ['blue']
 ['green']
 ['blue']]

编码后的数据：
[[0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]]

特征名称：
['x0_blue' 'x0_green' 'x0_red']

处理未知类别（ignore）：
[[0. 0. 0.]]

删除冗余列后：
[[0. 1.]
 [0. 0.]
 [1. 0.]
 [0. 0.]]
['x0_green' 'x0_red']


## 三、两种编码方法的对比

|特性	|OrdinalEncoder	|OneHotEncoder|
| ---- | ---- | ---- |
|适用场景	|有序类别（如等级、评分）	|无序类别（如性别、国籍）|
|输出维度	|与特征数相同（每个特征转为一列）	|每个类别生成一列（维度显著增加）|
|数值含义	|类别间存在顺序关系	|类别间无顺序关系|
|对模型的影响	|可能误导模型（如线性模型误判顺序为大小）	|避免顺序假设，但可能导致维度灾难|
|处理未知类别	|需显式设置 unknown_value	|可忽略或报错|

## 四、实际应用建议
1. 有序类别（如 “低级”<“中级”<“高级”）：使用 OrdinalEncoder，并手动指定 categories 确保顺序正确。
2. 无序类别（如 “红”“绿”“蓝”）：使用 OneHotEncoder，尤其在树模型以外的算法中（如线性回归、神经网络）。
3. 高基数类别（类别数极多，如城市名）：
    * 考虑使用 OneHotEncoder 的 min_frequency 或 max_categories 参数合并低频类别；
    * 或使用嵌入方法（如神经网络中的嵌入层）。
4. 与 ColumnTransformer 结合：

In [4]:
from sklearn.compose import ColumnTransformer

preprocessor = ColumnTransformer(
    transformers=[
        ('ordinal', OrdinalEncoder(), ['教育程度']),
        ('onehot', OneHotEncoder(), ['性别', '职业'])
    ]
)

## 五、总结
* OrdinalEncoder：简单高效，适合有序类别，但需注意避免对模型引入错误的顺序假设。
* OneHotEncoder：通用可靠，适合无序类别，但需注意高维度带来的计算和内存开销。