# One Hot Encoding

在NLP领域，如何将单词数值化呢，One-Hot编码就是一种很简单的方式。假设我们现在有单词数量为 $\mathbf{N}$ 的词表，那可以生成一个长度为 $\mathbf{N}$ 的向量来表示一个单词，在这个向量中该单词对应的位置数值为1，其余单词对应的位置数值全部为0。

在文本向量化中，One-Hot编码的分类数据一般为单词或字符，以下以单词为例。通过这种编码方式，每个唯一的单词都用一个向量表示。向量的长度等于词汇表的单词数量，其中只有一个位置为1，其余位置都为0。这种表达 式生成的是稀疏向量，其中每个单词都由一个唯一的二进制向量表示，该向量中只有一个高位（1），其他都是低位（0）。

## 优点与缺点

优点：
● 简单快捷

缺点：
● 数据稀疏、耗时耗空间、不能很好地展示词与词之间的相似关系，且还未考虑到词出现的频率，因而无法区别词的重要性
● 词汇表偏大时会导致向量维度过高，从而造成内存使用量偏大

One-hot 的基本假设是词之间的语义和语法关系是相互独立的，仅仅从两个向量是无法看出两个词汇之间的关系的，这种独立性不适合词汇语义的运算（向量之间是正交的，向量之间的点积为0，因此无法直接通过向量计算的方式来得出单词之间的关系。）
维度爆炸问题，随着词典规模的增大，句子构成的词袋模型的维度变得越来越大，矩阵也变得超稀疏，这种维度的爆增，会大大耗费计算资源

## 应用场景

● One-Hot编码通常用于文本处理的初始阶段或单词量相对较小的情况。


<img src="./images/img.png" alt="Image" style="display: block; margin-left: auto; margin-right: auto; width: 400px;">

In [57]:
import numpy as np
import os
import pandas as pd

# 文本数据
# corpus = ["The cat sat the mat", "The dog ate my homework"]
# 没有去除标点符号
file_path = os.path.join("./data", "corpus.txt")
with open(file_path, encoding="utf-8") as f:
    corpus = f.readlines()

# 构建词汇表
vocab = sorted(set(" ".join(corpus).split()))
word_to_idx = {word: idx for idx, word in enumerate(vocab)}


# 将文本转换为索引
def text_to_indices(text, word_to_idx):
    return [word_to_idx[word] for word in text.split()]


# 将语料库中的每句话转换为索引
indices_corpus = [text_to_indices(sentence, word_to_idx) for sentence in corpus]
# 获取词汇表大小
vocab_size = len(vocab)

# print("词汇表:", vocab)
# print("索引映射:", word_to_idx)
# print("转换后的索引:", indices_corpus)


# 将索引转换为 one-hot 编码
def indices_to_one_hot(indices, vocab_size):
    one_hot_encoded = np.zeros((len(indices), vocab_size))
    one_hot_encoded[np.arange(len(indices)), indices] = 1
    return one_hot_encoded


# 将语料库中的每个句子转换为 one-hot 编码
one_hot_corpus = [indices_to_one_hot(indices, vocab_size) for indices in indices_corpus]
# print("one-hot 编码后的语料库:", one_hot_corpus)

# 打印 one-hot 编码结果
for sentence, one_hot_sentence in zip(corpus, one_hot_corpus):
    print(f"句子: '{sentence.strip()}'")
    print("One-hot 编码:")
    print(one_hot_sentence)
# df = pd.DataFrame(one_hot_corpus[0], columns=vocab)
# df

句子: 'John likes to watch moives, Mary likes too.'
One-hot 编码:
[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]]
句子: 'John also likes to watch football games.'
One-hot 编码:
[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]]


In [70]:
import torch
from torch.nn.functional import one_hot


# 将索引转换为 one-hot 编码
def indices_to_one_hot(indices, vocab_size):
    one_hot_encoded = [one_hot(torch.tensor(idx), num_classes=vocab_size) for idx in indices]
    return torch.stack(one_hot_encoded)


# 将语料库中的每个句子转换为 one-hot 编码
one_hot_corpus = [indices_to_one_hot(indices, vocab_size) for indices in indices_corpus]

# 打印 one-hot 编码结果
for sentence, one_hot_sentence in zip(corpus, one_hot_corpus):
    print(f"句子: '{sentence.strip()}'")
    print("One-hot 编码:")
    print(one_hot_sentence)

# df1 = pd.DataFrame(one_hot_corpus[0].numpy(), columns=vocab)
# df1
# df2 = pd.DataFrame(one_hot_corpus[1].numpy(), columns=vocab)
# df2

句子: 'John likes to watch moives, Mary likes too.'
One-hot 编码:
tensor([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 1, 0]])
句子: 'John also likes to watch football games.'
One-hot 编码:
tensor([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 0, 0, 0, 0]])
