# 简介

OneHotEncoder 是 scikit-learn 库中的一个预处理工具，用于将分类特征转换为独热编码（One-Hot Encoding）。它将每个分类特征的每个类别转换为一个新的特征，并使用 0 和 1 来表示是否存在该类别。

```
模块名称：OneHotEncoder
模块类型：预处理工具
功能：将分类特征转换为独热编码
主要参数：
categories：指定每个特征的类别，如果不指定，则自动从数据中推断类别。
drop：指定是否删除第一个类别编码，默认为 None，表示保留所有类别编码。
sparse：指定是否返回稀疏矩阵，默认为 True。
dtype：指定输出数组的数据类型，默认为 np.float64。
主要属性：
categories_：训练数据中每个特征的类别。
使用场景：
处理具有无序类别的特征，例如颜色（红、绿、蓝）、性别（男、女）等。
示例用法：
对分类特征进行独热编码，使其适合用于机器学习模型训练。
```


Numpy格式数据集

In [2]:
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# 创建一个示例数据集
data = [['red', 1], ['green', 2], ['blue', 3]]
X = np.array(data)

# 创建 OneHotEncoder 对象，并拟合数据
encoder = OneHotEncoder()
encoded_X = encoder.fit_transform(X)

# 打印编码后的结果
print("编码后的数据：")
print(encoded_X.toarray())


编码后的数据：
[[0. 0. 1. 1. 0. 0.]
 [0. 1. 0. 0. 1. 0.]
 [1. 0. 0. 0. 0. 1.]]


上面的数据集把两个字段都进行了 OneHotEncoder，下面给一个只对颜色（红、绿、蓝）进行 OneHotEncoder 的示例

In [5]:
import numpy as np
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# 创建一个示例数据集
data = [['red', 1], ['green', 2], ['blue', 3]]
X = np.array(data)

# 创建 ColumnTransformer 对象，只对颜色字段进行独热编码
ct = ColumnTransformer(
    [('one_hot_encoder', OneHotEncoder(), [0])],  # 对第 0 列进行独热编码
    remainder='passthrough'  # 其余列保持不变
)

# 拟合数据并进行转换
X_encoded = ct.fit_transform(X)

# 打印编码后的结果
print("编码后的数据：")
print(X_encoded)


编码后的数据：
[['0.0' '0.0' '1.0' '1']
 ['0.0' '1.0' '0.0' '2']
 ['1.0' '0.0' '0.0' '3']]


Pandas格式数据集

In [4]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# 创建一个示例数据集（Pandas 格式）
data = {
    'color': ['red', 'green', 'blue', 'red', 'green'],
    'size': ['small', 'medium', 'large', 'medium', 'small'],
    'weight': [10, 20, 30, 15, 25]
}
df = pd.DataFrame(data)

# 创建 OneHotEncoder 对象，并拟合数据
encoder = OneHotEncoder()
encoder.fit(df[['color', 'size']])  # 仅选择需要编码的分类特征

# 进行独热编码转换
encoded_features = encoder.transform(df[['color', 'size']])

# 将独热编码结果转换为 DataFrame
encoded_df = pd.DataFrame(encoded_features.toarray(), columns=encoder.get_feature_names_out(['color', 'size']))

# 将编码后的 DataFrame 与原始数据集拼接
encoded_df = pd.concat([encoded_df, df[['weight']].reset_index(drop=True)], axis=1)

# 打印编码后的数据集
print("编码后的数据集：")
print(encoded_df)


编码后的数据集：
   color_blue  color_green  color_red  size_large  size_medium  size_small  \
0         0.0          0.0        1.0         0.0          0.0         1.0   
1         0.0          1.0        0.0         0.0          1.0         0.0   
2         1.0          0.0        0.0         1.0          0.0         0.0   
3         0.0          0.0        1.0         0.0          1.0         0.0   
4         0.0          1.0        0.0         0.0          0.0         1.0   

   weight  
0      10  
1      20  
2      30  
3      15  
4      25  
