# 手动实现one-hot编码

In [None]:
import numpy as np
# 预料准备
corpus = ['这 是 第一个 文档',
    '这是 第二个 文档',
    '这是 最后 一个 文档',
    '现在 没有 文档 了']

# 构建词袋
word = []
for corpu in corpus:
    word.extend(corpu.split())
    word = list(set(word))
word_list = list(set(word))

# 给词表编码
word_dic = {word:index for index,word in enumerate(word_list)}

# 定义one-hot编码函数
def get_onehot(index):
    # 初始化全零向量
    onehot = np.zeros(len(word_list), dtype=int)
    # 标记对应索引位置为1
    onehot[index] = 1
    # 返回one-hot向量
    return onehot


array([0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0])

In [18]:
# 原始句子
corpu = corpus[0]
# 将句子转换为index
index = [word_dic[word] for word in corpu.split()]
# 计算one-hot编码
one_hot = np.array([get_onehot(i) for i in index])
print(one_hot)

[[0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 0 0 1 0]]


# Sklearn实现one-hot编码

In [16]:
from sklearn.preprocessing import OneHotEncoder,LabelBinarizer

# 初始化编码器
lb = LabelBinarizer()
lb.fit(word_list)

# 原始句子
sentence = corpus[0].split()

# 转换为 one-hot 编码
one_hot_encoded = lb.transform(sentence)

# 输出结果
print(one_hot_encoded)
print(lb.inverse_transform(one_hot_encoded))

[[0 0 0 0 0 0 0 0 0 1 0]
 [0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0]]
['这' '是' '第一个' '文档']
