# 词嵌入

## 独热向量

我们构建每个词的数值向量表示，这些向量称为独热向量(one-hot vector)。这些向量构成的序列能够以向量序列(数字构成的表格)的方式完美捕捉原始文本。

In [1]:
import numpy as np

# 输入句子
sentence = """Thomas Jefferson began building Monticello at the age of 26."""

# 步骤 1: 将句子分词
words = sentence.split()

# 步骤 2: 创建词汇表（提取唯一单词）
vocab = list(set(words))

# 步骤 3: 为词汇表中的每个单词分配一个索引
word_to_index = {word: idx for idx, word in enumerate(vocab)}

# 步骤 4: 使用 numpy 创建独热矩阵
vocab_size = len(vocab)  # 词汇表大小
one_hot_matrix = np.zeros((len(words), vocab_size), dtype=int)  # 初始化零矩阵

# 将每个单词编码为独热向量
for i, word in enumerate(words):
    one_hot_matrix[i, word_to_index[word]] = 1  # 根据单词索引设置对应位置为 1

# 步骤 5: 打印结果
print("词汇表:", vocab)
print("\n单词与索引的映射:", word_to_index)
print("\n独热矩阵:\n", one_hot_matrix)

词汇表: ['began', 'Thomas', 'the', 'Monticello', 'age', 'at', 'of', 'Jefferson', '26.', 'building']

单词与索引的映射: {'began': 0, 'Thomas': 1, 'the': 2, 'Monticello': 3, 'age': 4, 'at': 5, 'of': 6, 'Jefferson': 7, '26.': 8, 'building': 9}

独热矩阵:
 [[0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 0]
 [1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1]
 [0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0]
 [0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 0 0 1 0]]


## 词袋模型

上述基于独热向量的句子表示方法保留了原始句子的所有细节，包括语法和词序。但是，相对于上述的短句子而言的整个表格却很大，对长文档来说这种做法不太现实。如果把所有的独热向量加在一起，而不是一次一次地”回放“它们，我们会得到一个词袋向量。这个向量也被称为词频向量，因为它只计算了词的频率，而不是词的顺序。

In [1]:
# 输入多句
sentences = [
    "Thomas Jefferson began building Monticello at the age of 26.",
    "Jefferson was the third president of the United States.",
    "Monticello is located in Virginia."
]

# 步骤 1: 对所有句子进行分词
all_words = []
for sentence in sentences:
    all_words.extend(sentence.split())  # 将所有句子的单词加入列表

# 步骤 2: 创建全局词汇表（唯一单词）
vocab = list(set(all_words))  # 去重，得到全局唯一单词列表

# 步骤 3: 为词汇表中的每个单词分配一个索引
word_to_index = {word: idx for idx, word in enumerate(vocab)}

# 步骤 4: 初始化词袋向量矩阵
bow_matrix = []

# 步骤 5: 为每个句子生成词袋向量
for sentence in sentences:
    bow_vector = [0] * len(vocab)  # 初始化零向量
    for word in sentence.split():
        bow_vector[word_to_index[word]] += 1  # 根据单词的索引增加计数
    bow_matrix.append(bow_vector)  # 将当前句子的向量加入矩阵

# 步骤 6: 打印结果
print("词汇表:", vocab)
print("\n单词与索引的映射:", word_to_index)
print("\n词袋向量矩阵:")
for i, vector in enumerate(bow_matrix):
    print(f"句子 {i + 1}: {vector}")

词汇表: ['Virginia.', '26.', 'of', 'age', 'United', 'Thomas', 'located', 'began', 'Jefferson', 'president', 'States.', 'was', 'Monticello', 'the', 'is', 'in', 'building', 'at', 'third']

单词与索引的映射: {'Virginia.': 0, '26.': 1, 'of': 2, 'age': 3, 'United': 4, 'Thomas': 5, 'located': 6, 'began': 7, 'Jefferson': 8, 'president': 9, 'States.': 10, 'was': 11, 'Monticello': 12, 'the': 13, 'is': 14, 'in': 15, 'building': 16, 'at': 17, 'third': 18}

词袋向量矩阵:
句子 1: [0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0]
句子 2: [0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 2, 0, 0, 0, 0, 1]
句子 3: [1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0]
