#### 特征编码
- 序号编码
- 独热编码
- 二进制编码

In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder

data = [{'姓名': '张三','性别': '男','学历': '小学'},
        {'姓名': '李四','性别': '女','学历': '高中'},
        {'姓名': '王五','性别': '其他','学历': '高中'},
        {'姓名': '小六','性别': '女','学历': '初中'}]

X = pd.DataFrame(data)
encoder = OrdinalEncoder()
X_encodered = encoder.fit_transform(X['学历'].values.reshape(-1, 1))
print(encoder.categories_)
X_encodered

[array(['初中', '小学', '高中'], dtype=object)]


array([[1.],
       [2.],
       [2.],
       [0.]])

In [2]:
X

Unnamed: 0,姓名,性别,学历
0,张三,男,小学
1,李四,女,高中
2,王五,其他,高中
3,小六,女,初中


In [3]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
X_encoded = encoder.fit_transform(X['性别'].values.reshape(-1, 1))
print(encoder.categories_)
X_encoded.toarray()

[array(['其他', '女', '男'], dtype=object)]


array([[0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.]])

In [4]:
from collections import Counter
import math
from sklearn.preprocessing import OrdinalEncoder

def to_binary(data, col):
    """
    将数据中的某一列使用二进制编码进行替换

    :param data: 原始完整数据
    :param col: 需要使用二进制编码表示的列名称
    :return: 替换后的数据
    """

    # 以字典形式统计当前所选列数据共有多少种取值
    k_dict = Counter(data[col])
    print(k_dict)

    # 计算根据当前取值个数所需要的二进制位数
    max_len = math.ceil(math.log2(len(k_dict)))
    print(max_len)

    # 对每个取值进行二进制映射
    encoder = OrdinalEncoder()
    encoded = encoder.fit_transform(data[col].values.reshape(-1, 1))
    print(encoder.categories_)
    print(encoded + 1)  # +1保证最小是1不是0
    for n, k in enumerate(encoder.categories_[0]):
        print(n, k)
        # 计算当前取值的二进制形式
        r = list(bin(n + 1))[2:]  # +1保证最小是1不是0
        print(r)
        # 以 0 补足缺少的位数
        r = ['0'] * (max_len - len(r)) + r
        print(r)
        k_dict[k] = "".join(r)
    print(k_dict)

    # 使用二进制映射，对所选列数据中的元素进行替换
    # 例如：以 '001' 进行替换
    col_data = data[col].map(k_dict)

    # 将一列数据以 '位' 进行拆分
    new_data = pd.DataFrame()
    for i in range(max_len):
        new_data[f'{col}_{i}'] = col_data.map(lambda x: list(x)[i])

    # 将二进制表示的特征与之前数据进行水平合并并返回
    return pd.concat([data, new_data], axis=1).drop(columns=[col])

to_binary(X, '性别')

Counter({'女': 2, '男': 1, '其他': 1})
2
[array(['其他', '女', '男'], dtype=object)]
[[3.]
 [2.]
 [1.]
 [2.]]
0 其他
['1']
['0', '1']
1 女
['1', '0']
['1', '0']
2 男
['1', '1']
['1', '1']
Counter({'男': '11', '女': '10', '其他': '01'})


Unnamed: 0,姓名,学历,性别_0,性别_1
0,张三,小学,1,1
1,李四,高中,1,0
2,王五,高中,0,1
3,小六,初中,1,0
