# 词向量模型
---
词向量模型（Word Embedding Models）是自然语言处理（NLP）中的核心技术，旨在将词汇映射到连续的实数向量空间中，从而捕捉词语的语义和语法关系。以下是其核心概念、常见模型及实际应用：

### **词向量的核心作用**
1. **语义表示**  
   - 将离散的词语转换为连续的向量，使得计算机能通过数学运算处理语义。
   - 例如：`国王 - 男人 + 女人 ≈ 女王`（通过向量加减模拟语义关系）。

2. **降维与泛化**  
   - 解决传统方法（如One-Hot编码）的高维稀疏问题，提升模型效率和泛化能力。

3. **上下文捕捉**  
   - 通过大规模语料训练，模型能学习词语在上下文中的动态含义（如“苹果”在水果和科技公司中的不同含义）。



### **常见词向量模型**
#### 1. **Word2Vec**（Google, 2013）
- **核心思想**：通过上下文预测目标词（Skip-Gram）或通过目标词预测上下文（CBOW）。
- **特点**：
  - 轻量高效，适合大规模语料。
  - 生成的向量能捕捉词语的线性关系（如类比任务）。
- **示例代码**（使用Gensim库）：
  ```python
  from gensim.models import Word2Vec
  
  sentences = [["cat", "jumps"], ["dog", "runs"]]
  model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)
  print(model.wv["cat"])  # 输出"cat"的词向量
  ```

#### 2. **GloVe**（Stanford, 2014）
- **核心思想**：基于全局词共现矩阵，利用矩阵分解生成词向量。
- **特点**：
  - 结合了全局统计信息和局部上下文窗口。
  - 在词类比任务和相似度计算中表现优异。

#### 3. **FastText**（Facebook, 2016）
- **核心思想**：将词语拆分为字符级n-gram，解决未登录词（OOV）问题。
- **特点**：
  - 对形态丰富的语言（如德语、土耳其语）效果更好。
  - 例如：“apple”可分解为“ap”、“app”、“pple”等子词。



### **训练词向量的关键步骤**
1. **语料准备**  
   - 使用大规模文本数据（如维基百科、新闻语料）。
2. **预处理**  
   - 分词、去停用词、词干提取等。
3. **模型选择**  
   - 根据任务选择Word2Vec、GloVe或FastText。
4. **参数调优**  
   - 向量维度（通常100-300）、窗口大小、负采样数等。



### **实际应用场景**
1. **文本分类**  
   - 将词向量作为输入特征，训练分类模型（如LSTM、CNN）。
2. **语义搜索**  
   - 计算查询词与文档的向量相似度，提升搜索相关性。
3. **机器翻译**  
   - 对齐不同语言的词向量空间（如跨语言词嵌入）。
4. **推荐系统**  
   - 利用物品描述文本的词向量，增强推荐语义理解。



### **词向量的局限性**
1. **静态表示**  
   - 传统词向量无法处理一词多义（如“bank”在“河岸”和“银行”中的不同含义）。
   - **解决方案**：使用上下文相关模型（如BERT、ELMo）。
2. **依赖语料质量**  
   - 训练数据的偏见会影响词向量结果（如性别偏见：“程序员→男性”）。
3. **计算资源消耗**  
   - 大规模语料训练需要较高的内存和计算能力。


### **现代演进：从词向量到上下文表示**
- **Transformer模型**（如BERT、GPT）取代传统静态词向量，通过动态上下文编码实现更精准的语义表示。
- **示例**：BERT生成的词向量会根据句子上下文变化，解决“苹果”在不同语境中的歧义。


### **总结**
- **词向量模型**是NLP的基石，将词语映射到语义空间，支撑下游任务（如分类、翻译）。
- **选择建议**：
  - 小规模数据：使用预训练模型（如Gensim的Google News Word2Vec）。
  - 未登录词多：优先选择FastText。
  - 需要上下文感知：采用BERT等Transformer模型。
  

---


Word2Vec 和 Transformer 是自然语言处理（NLP）中两个里程碑式的技术，分别代表了不同阶段的语义建模思想。它们在目标、结构和应用场景上既有联系也有显著区别。


### **核心联系**
1. **词向量作为基础**  
   - Word2Vec 生成的**静态词向量**（如 `word2vec-google-news`）常被用作 Transformer 模型的**输入嵌入层**，为后续的上下文建模提供初始语义表示。
   - 例如：Transformer 的输入层会将每个词转换为向量，类似 Word2Vec 的嵌入过程。

2. **上下文建模的延续性**  
   - Word2Vec 通过局部上下文窗口（如 CBOW/Skip-Gram）捕捉词的共现关系，而 Transformer 通过**自注意力机制**（Self-Attention）建模全局上下文依赖。两者均致力于捕捉词与词之间的语义关联。

3. **预训练思想的铺垫**  
   - Word2Vec 的“无监督预训练”为后续 Transformer 模型（如 BERT、GPT）的预训练范式提供了启发。



### **核心区别**
| **维度**         | **Word2Vec**                            | **Transformer**                          |
|-------------------|-----------------------------------------|------------------------------------------|
| **目标**          | 生成**静态词向量**                      | 生成**动态上下文相关表示**               |
| **上下文建模**    | 基于局部窗口（固定窗口大小）            | 基于全局自注意力（全序列依赖）           |
| **词义消歧**      | 无法处理一词多义（如“苹果”仅一个向量）  | 动态调整词义（如“苹果”在不同句中的向量） |
| **模型复杂度**    | 简单（浅层神经网络）                    | 复杂（多层编码器/解码器 + 注意力机制）   |
| **输入输出形式**  | 输入为词，输出为固定向量                | 输入为词序列，输出为上下文相关向量       |
| **训练资源需求**  | 低（适合小规模数据）                    | 高（需大规模数据与算力）                 |
| **典型应用**      | 词类比、简单分类任务                    | 机器翻译、文本生成、问答系统             |



### **具体分析**
#### 1. **词向量性质**
- **Word2Vec**：  
  每个词对应唯一向量，与上下文无关。例如“苹果”在“吃苹果”和“苹果手机”中向量相同。  
  ```python
  # Word2Vec 的静态表示
  vector_apple = word2vec_model["苹果"]  # 固定不变
  ```

- **Transformer**：  
  词向量根据上下文动态变化。例如 BERT 中，“苹果”在句子 A 和句子 B 中的向量不同。  
  ```python
  # Transformer 的动态表示（以 BERT 为例）
  output = bert_model("吃苹果")
  vector_apple_1 = output.last_hidden_state[1]  # 对应“苹果”的向量

  output = bert_model("苹果手机")
  vector_apple_2 = output.last_hidden_state[0]  # 同一词，不同上下文中的向量
  ```

#### 2. **上下文建模能力**
- **Word2Vec**：  
  通过滑动窗口捕捉局部共现关系，但无法建模长距离依赖。例如在句子“虽然天气不好，但我还是决定去爬山”中，“爬山”与“天气”的关联可能被窗口大小限制忽略。

- **Transformer**：  
  自注意力机制直接计算序列中任意两个词的关系，无论距离多远。例如可以捕捉“爬山”与句首“虽然”的逻辑关联。

#### 3. **模型结构差异**
- **Word2Vec**：  
  单层神经网络（输入层 → 隐藏层 → 输出层），无深度结构。  
  ![Word2Vec结构](https://miro.medium.com/v2/resize:fit:720/format:webp/1*I4Sw4Xk8BISz5IE8XeVsWw.png)

- **Transformer**：  
  多层堆叠的编码器/解码器，每层包含自注意力层和前馈网络。  
  ![Transformer结构](https://miro.medium.com/v2/resize:fit:1400/format:webp/1*BHzGVskWGS_3jEcYYi6miQ.png)



### **协作与演进**
1. **从 Word2Vec 到 Transformer 的过渡**  
   - Word2Vec 提供词级语义基础，Transformer 通过动态建模实现句子/篇章级语义理解。
   - 例如：早期机器翻译系统（如 Seq2Seq + LSTM）使用 Word2Vec 作为词嵌入，而现代系统（如 Transformer-based）直接端到端学习上下文表示。

2. **联合应用场景**  
   - **冷启动问题**：在小数据场景中，先用 Word2Vec 初始化词向量，再用 Transformer 微调。
   - **轻量级任务**：对实时性要求高的场景（如搜索推荐），仍可能使用 Word2Vec 的静态向量加速计算。


### **总结**
- **选择建议**：  
  - 若任务需要简单、快速的词级语义表示（如关键词扩展），优先使用 Word2Vec。  
  - 若任务依赖上下文理解（如文本生成、情感分析），必须使用 Transformer 或其变体（如 BERT、GPT）。

- **演进关系**：  
  Word2Vec 是词向量技术的奠基者，而 Transformer 是上下文建模的集大成者，两者共同推动了 NLP 从“词级静态表示”到“上下文动态建模”的跨越。


---



Word2Vec 是 Google 在 2013 年提出的经典词向量模型，其核心目标是通过**上下文预测词**（或通过词预测上下文），从而学习低维稠密的词向量表示。以下是其算法流程的详细拆解：

### **一、核心思想**
Word2Vec 包含两种模型：
1. **CBOW（Continuous Bag-of-Words）**  
   **通过上下文预测中心词**（例如：用 ["The", "cat", "on", "the"] 预测 "mat"）。
   
2. **Skip-Gram**  
   **通过中心词预测上下文**（例如：用 "mat" 预测 ["The", "cat", "on", "the"]）。

两者的本质都是通过**浅层神经网络**学习词向量，但方向相反。以下以 **Skip-Gram** 为例详细说明流程。



### **二、Skip-Gram 算法流程**
#### **1. 输入与输出**
- **输入**：中心词 $ w_t $（例如 "mat"）。
- **输出**：上下文窗口内的词（如前后各2个词：["The", "cat", "on", "the"]）。
- **窗口大小（window）**：可调参数（通常取5-10）。

#### **2. 模型结构**
```plaintext
输入层 → 隐藏层（词向量层） → 输出层（Softmax概率分布）
```
- **输入层**：中心词的 **One-Hot 编码**（维度为词汇表大小 $ V $）。
- **隐藏层**：权重矩阵 $ W_{V \times d} $（$ d $ 为词向量维度），直接生成中心词的向量表示。
- **输出层**：权重矩阵 $ W'_{d \times V} $，通过 Softmax 计算上下文词的概率分布。

![Skip-Gram模型结构](https://miro.medium.com/v2/resize:fit:1400/format:webp/1*eHjB0HcS7yB5x2g0qTl2sA.png)

#### **3. 具体步骤**
1. **One-Hot编码**  
   将中心词 $ w_t $ 转换为一个 $ V $ 维的稀疏向量（只有对应词位置为1，其余为0）。

2. **生成词向量**  
   输入向量与权重矩阵 $ W $ 相乘，得到隐藏层的词向量 $ v_{w_t} $（即 $ W $ 的第 $ t $ 行）。  
   $$
   v_{w_t} = W^T \cdot \text{OneHot}(w_t)
   $$

3. **计算上下文概率**  
   将 $ v_{w_t} $ 与输出层权重矩阵 $ W' $ 相乘，得到每个词的得分，再通过 Softmax 转换为概率分布：  
   $$
   p(w_c | w_t) = \frac{\exp(v_{w_t} \cdot v'_{w_c})}{\sum_{i=1}^V \exp(v_{w_t} \cdot v'_{w_i})}
   $$
   其中 $ v'_{w_c} $ 是输出层矩阵 $ W' $ 中对应上下文词 $ w_c $ 的向量。

4. **损失函数**  
   最小化交叉熵损失：  
   $$
   \mathcal{L} = -\sum_{w_c \in \text{Context}} \log p(w_c | w_t)
   $$

5. **参数更新**  
   通过反向传播和梯度下降优化 $ W $ 和 $ W' $，最终 $ W $ 即为所有词的词向量矩阵。

#### **4. 优化技巧**
- **== 负采样（Negative Sampling）==**：  
  将 Softmax 替换为二分类问题，随机采样负例（非上下文词）加速训练。  
  损失函数变为：  
  $$
  \mathcal{L} = -\log \sigma(v_{w_t} \cdot v'_{w_c}) - \sum_{k=1}^K \log \sigma(-v_{w_t} \cdot v'_{w_k})
  $$
  其中 $ K $ 是负样本数（通常取5-20）。

- **层次 Softmax（Hierarchical Softmax）**：  
  用哈夫曼树编码词汇表，将计算复杂度从 $ O(V) $ 降到 $ O(\log V) $。



### **三、CBOW 算法流程**
与 Skip-Gram 类似，但方向相反：
1. **输入**：上下文词的 One-Hot 编码的平均或拼接。
2. **输出**：中心词的概率分布。
3. **隐藏层向量**：上下文词向量的平均。
4. **损失函数**：  
   $$
   \mathcal{L} = -\log p(w_t | \text{Context})
   $$


### **四、关键参数**
| 参数              | 作用                                                                 |
|-------------------|----------------------------------------------------------------------|
| **向量维度（d）** | 通常取100-300维，维度越高表达能力越强，但可能过拟合。                |
| **窗口大小**      | 决定上下文范围，较大窗口捕捉主题相关性，较小窗口聚焦语法关系。       |
| **负采样数（K）** | 影响训练速度和效果，K越大模型越准但越慢。                           |
| **迭代次数**      | 通常3-15轮，需监控验证集效果防止过拟合。                            |



### **五、示例说明**
#### **句子："The cat sat on the mat"**
1. **Skip-Gram 训练样本**（窗口大小=2）：  
   - 中心词 "sat" → 上下文 ["cat", "on"]  
   - 中心词 "on" → 上下文 ["sat", "the"]  
   - ...其他词同理。

2. **CBOW 训练样本**（窗口大小=2）：  
   - 上下文 ["The", "cat", "on", "the"] → 中心词 "sat"  
   - 上下文 ["cat", "sat", "the", "mat"] → 中心词 "on"  
   - ...其他词同理。



### **六、输出结果**
- 最终得到两个矩阵：  
  - $ W $（输入层→隐藏层）：**词向量矩阵**（每行对应一个词的向量）。  
  - $ W' $（隐藏层→输出层）：通常丢弃，但也可作为补充特征。

---

### **七、优缺点总结**
| **优点**                          | **缺点**                          |
|-----------------------------------|-----------------------------------|
| 高效，适合大规模语料              | 无法处理一词多义（静态向量）      |
| 捕捉语义/语法相似性（如类比任务） | 未考虑全局词共现（相比GloVe）     |
| 支持增量训练                      | 对低频词效果较差                  |



### **八、代码示例（Gensim库）**
```python
from gensim.models import Word2Vec

sentences = [
    ["The", "cat", "sat", "on", "the", "mat"],
    ["Dog", "runs", "in", "the", "park"]
]

# 训练Skip-Gram模型
model = Word2Vec(
    sentences,
    vector_size=100,   # 向量维度
    window=5,          # 上下文窗口
    sg=1,              # 1=Skip-Gram, 0=CBOW
    negative=5,        # 负采样数
    min_count=1        # 忽略低频词阈值
)

# 获取词向量
vector_cat = model.wv["cat"]
print(vector_cat)

# 找相似词
similar_words = model.wv.most_similar("cat", topn=3)
print(similar_words)  # 输出：[('dog', 0.92), ('mat', 0.85), ...]
```


### **总结**
Word2Vec 通过浅层神经网络和上下文预测任务，将词语映射到低维向量空间，核心流程包括：  
1. **构建训练样本**（中心词-上下文对）  
2. **定义网络结构**（输入层 → 隐藏层 → 输出层）  
3. **优化损失函数**（交叉熵 + 负采样/层次Softmax加速）  
4. **提取词向量**（输入层权重矩阵）。  


其简单高效的特性使其成为词向量技术的基石，后续模型（如GloVe、FastText）均在此基础上改进。


---

In [2]:
# word2vec 本质相似与分类任务 ， 反向传播的过程中更新参数，也要更新训练样本 
import io
import re
import string
import tqdm
import numpy as np
import tensorflow as tf
from tensorflow.keras import layers


In [3]:
# 基础设置
# Load the TensorBoard notebook extension
%load_ext tensorboard

In [4]:
SEED = 42
AUTOTUNE = tf.data.AUTOTUNE

# 单个句子向量化

In [5]:
sentence = "The wide road shimmered in the hot sun"
tokens = list(sentence.lower().split())
print(len(tokens))

8


In [6]:
# 创建一个词汇表来保存从标记到整数索引的映射：
vocab, index = {}, 1  # start indexing from 1
vocab['<pad>'] = 0  # add a padding token
for token in tokens:
    if token not in vocab:
        vocab[token] = index
        index += 1
vocab_size = len(vocab)
print(vocab)

{'<pad>': 0, 'the': 1, 'wide': 2, 'road': 3, 'shimmered': 4, 'in': 5, 'hot': 6, 'sun': 7}


In [7]:
# 创建一个逆词汇表来保存从整数索引到标记的映射：
inverse_vocab = {index: token for token, index in vocab.items()}
print(inverse_vocab)

{0: '<pad>', 1: 'the', 2: 'wide', 3: 'road', 4: 'shimmered', 5: 'in', 6: 'hot', 7: 'sun'}


In [8]:
# 将你的句子矢量化：
example_sequence = [vocab[word] for word in tokens]
print(example_sequence)

[1, 2, 3, 4, 5, 1, 6, 7]


In [9]:
# tf.keras.preprocessing.sequence模块提供了一些有用的函数，可以简化 word2vec 的数据准备。
# 可以使用从给定的范围内的标记tf.keras.preprocessing.sequence.skipgrams中生成 skip-gram 对
# example_sequencewindow_size[0, vocab_size)
window_size = 2
positive_skip_grams, _ = tf.keras.preprocessing.sequence.skipgrams(
    example_sequence,
    vocabulary_size=vocab_size,
    window_size=window_size,
    negative_samples=0)
print(len(positive_skip_grams))

26


In [10]:
# 打印一些正向的 skip-gram：
for target, context in positive_skip_grams[:5]:
    print(f"({target}, {context}): ({inverse_vocab[target]}, {inverse_vocab[context]})")

(1, 4): (the, shimmered)
(3, 4): (road, shimmered)
(5, 4): (in, shimmered)
(2, 3): (wide, road)
(3, 1): (road, the)


In [11]:
# 针对一个 skip-gram 进行负采样
"""
    该skipgrams函数通过在给定的窗口跨度上滑动来返回所有正 skip-gram 对。
    要生成可用作训练负样本的更多 skip-gram 对，您需要从词汇表中抽取随机单词。
    使用该tf.random.log_uniform_candidate_sampler函数在窗口中为给定目标单词抽取num_ns一定数量的负样本。
    可以在一个 skip-gram 的目标单词上调用该函数，并将上下文单词作为 true 类传递以将其排除在抽样之外。
"""
# Get target and context words for one positive skip-gram.
target_word, context_word = positive_skip_grams[0]

# Set the number of negative samples per positive context.
num_ns = 4

context_class = tf.reshape(tf.constant(context_word, dtype="int64"), (1, 1))
negative_sampling_candidates, _, _ = tf.random.log_uniform_candidate_sampler(
    true_classes=context_class,  # class that should be sampled as 'positive'
    num_true=1,  # each positive skip-gram has 1 positive context class
    num_sampled=num_ns,  # number of negative context words to sample
    unique=True,  # all the negative samples should be unique
    range_max=vocab_size,  # pick index of the samples from [0, vocab_size]
    seed=SEED,  # seed for reproducibility
    name="negative_sampling"  # name of this operation
)
print(negative_sampling_candidates)
print([inverse_vocab[index.numpy()] for index in negative_sampling_candidates])

tf.Tensor([2 1 4 3], shape=(4,), dtype=int64)
['wide', 'the', 'shimmered', 'road']


In [12]:
# 构建一个训练样本
# Reduce a dimension so you can use concatenation (in the next step).
squeezed_context_class = tf.squeeze(context_class, 1)

# Concatenate a positive context word with negative sampled words.
context = tf.concat([squeezed_context_class, negative_sampling_candidates], 0)

# Label the first context word as `1` (positive) followed by `num_ns` `0`s (negative).
label = tf.constant([1] + [0]*num_ns, dtype="int64")
target = target_word

In [13]:
print(f"target_index    : {target}")
print(f"target_word     : {inverse_vocab[target_word]}")
print(f"context_indices : {context}")
print(f"context_words   : {[inverse_vocab[c.numpy()] for c in context]}")
print(f"label           : {label}")

target_index    : 1
target_word     : the
context_indices : [4 2 1 4 3]
context_words   : ['shimmered', 'wide', 'the', 'shimmered', 'road']
label           : [1 0 0 0 0]


In [14]:
print("target  :", target)
print("context :", context)
print("label   :", label)

target  : 1
context : tf.Tensor([4 2 1 4 3], shape=(5,), dtype=int64)
label   : tf.Tensor([1 0 0 0 0], shape=(5,), dtype=int64)


# 使用莎士比亚作品的文本文件

In [15]:
path_to_file = tf.keras.utils.get_file('shakespeare.txt', 'https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt')

In [16]:
with open(path_to_file) as f:
    lines = f.read().splitlines()
for line in lines[:20]:
    print(line)

First Citizen:
Before we proceed any further, hear me speak.

All:
Speak, speak.

First Citizen:
You are all resolved rather to die than to famish?

All:
Resolved. resolved.

First Citizen:
First, you know Caius Marcius is chief enemy to the people.

All:
We know't, we know't.

First Citizen:
Let us kill him, and we'll have corn at our own price.


In [17]:
# 使用非空行构造一个tf.data.TextLineDataset对象以用于下一步
text_ds = tf.data.TextLineDataset(path_to_file).filter(lambda x: tf.cast(tf.strings.length(x), bool))

In [18]:
# 将语料库中的句子向量化
# Now, create a custom standardization function to lowercase the text and
# remove punctuation.
def custom_standardization(input_data):
    lowercase = tf.strings.lower(input_data)
    return tf.strings.regex_replace(lowercase,
        '[%s]' % re.escape(string.punctuation), '')


# Define the vocabulary size and the number of words in a sequence.
vocab_size = 4096
sequence_length = 10

# Use the `TextVectorization` layer to normalize, split, and map strings to
# integers. Set the `output_sequence_length` length to pad all samples to the
# same length.
vectorize_layer = layers.TextVectorization(
    standardize=custom_standardization,
    max_tokens=vocab_size,
    output_mode='int',
    output_sequence_length=sequence_length)

In [19]:
# 调用TextVectorization.adapt文本数据集来创建词汇表
vectorize_layer.adapt(text_ds.batch(1024))

In [20]:
# 一旦调整了层的状态以表示文本语料库，就可以通过 访问词汇表TextVectorization.get_vocabulary。
# 此函数返回按频率排序（降序）的所有词汇标记的列表。
# Save the created vocabulary for reference.
inverse_vocab = vectorize_layer.get_vocabulary()
print(inverse_vocab[:20])

['', '[UNK]', np.str_('the'), np.str_('and'), np.str_('to'), np.str_('i'), np.str_('of'), np.str_('you'), np.str_('my'), np.str_('a'), np.str_('that'), np.str_('in'), np.str_('is'), np.str_('not'), np.str_('for'), np.str_('with'), np.str_('me'), np.str_('it'), np.str_('be'), np.str_('your')]


In [21]:
# 现在可以vectorize_layer使用 来为text_ds(a tf.data.Dataset) 中的每个元素生成向量。
# 应用Dataset.batch、Dataset.prefetch、Dataset.map和Dataset.unbatch。
# Vectorize the data in text_ds.
text_vector_ds = text_ds.batch(1024).prefetch(AUTOTUNE).map(vectorize_layer).unbatch()

In [22]:
# 从数据集中获取序列
sequences = list(text_vector_ds.as_numpy_iterator())
print(len(sequences))

32777


In [23]:
for seq in sequences[:5]:
    print(f"{seq} => {[inverse_vocab[i] for i in seq]}")

[ 89 270   0   0   0   0   0   0   0   0] => [np.str_('first'), np.str_('citizen'), '', '', '', '', '', '', '', '']
[138  36 982 144 673 125  16 106   0   0] => [np.str_('before'), np.str_('we'), np.str_('proceed'), np.str_('any'), np.str_('further'), np.str_('hear'), np.str_('me'), np.str_('speak'), '', '']
[34  0  0  0  0  0  0  0  0  0] => [np.str_('all'), '', '', '', '', '', '', '', '', '']
[106 106   0   0   0   0   0   0   0   0] => [np.str_('speak'), np.str_('speak'), '', '', '', '', '', '', '', '']
[ 89 270   0   0   0   0   0   0   0   0] => [np.str_('first'), np.str_('citizen'), '', '', '', '', '', '', '', '']


In [24]:
sampling_table = tf.keras.preprocessing.sequence.make_sampling_table(size=10)
print(sampling_table)

[0.00315225 0.00315225 0.00547597 0.00741556 0.00912817 0.01068435
 0.01212381 0.01347162 0.01474487 0.0159558 ]


In [25]:
# Generates skip-gram pairs with negative sampling for a list of sequences
# (int-encoded sentences) based on window size, number of negative samples
# and vocabulary size.
def generate_training_data(sequences, window_size, num_ns, vocab_size, seed):
    # Elements of each training example are appended to these lists.
    targets, contexts, labels = [], [], []

    # Build the sampling table for `vocab_size` tokens.
    sampling_table = tf.keras.preprocessing.sequence.make_sampling_table(vocab_size)

    # Iterate over all sequences (sentences) in the dataset.
    for sequence in tqdm.tqdm(sequences):

        # Generate positive skip-gram pairs for a sequence (sentence).
        positive_skip_grams, _ = tf.keras.preprocessing.sequence.skipgrams(
            sequence,
            vocabulary_size=vocab_size,
            sampling_table=sampling_table,
            window_size=window_size,
            negative_samples=0)

        # Iterate over each positive skip-gram pair to produce training examples
        # with a positive context word and negative samples.
        for target_word, context_word in positive_skip_grams:
            context_class = tf.expand_dims(
                tf.constant([context_word], dtype="int64"), 1)
            negative_sampling_candidates, _, _ = tf.random.log_uniform_candidate_sampler(
                true_classes=context_class,
                num_true=1,
                num_sampled=num_ns,
                unique=True,
                range_max=vocab_size,
                seed=seed,
                name="negative_sampling")

            # Build context and label vectors (for one target word)
            context = tf.concat([tf.squeeze(context_class,1), negative_sampling_candidates], 0)
            label = tf.constant([1] + [0]*num_ns, dtype="int64")

            # Append each element from the training example to global lists.
            targets.append(target_word)
            contexts.append(context)
            labels.append(label)

    return targets, contexts, labels

In [26]:
# 从序列生成训练样本
targets, contexts, labels = generate_training_data(
    sequences=sequences,
    window_size=2,
    num_ns=4,
    vocab_size=vocab_size,
    seed=SEED)

targets = np.array(targets)
contexts = np.array(contexts)
labels = np.array(labels)

print('\n')
print(f"targets.shape: {targets.shape}")
print(f"contexts.shape: {contexts.shape}")
print(f"labels.shape: {labels.shape}")

100%|██████████| 32777/32777 [00:15<00:00, 2092.87it/s]




targets.shape: (64584,)
contexts.shape: (64584, 5)
labels.shape: (64584, 5)


In [27]:
BATCH_SIZE = 1024
BUFFER_SIZE = 10000
dataset = tf.data.Dataset.from_tensor_slices(((targets, contexts), labels))
dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE, drop_remainder=True)
print(dataset)

<_BatchDataset element_spec=((TensorSpec(shape=(1024,), dtype=tf.int64, name=None), TensorSpec(shape=(1024, 5), dtype=tf.int64, name=None)), TensorSpec(shape=(1024, 5), dtype=tf.int64, name=None))>


In [28]:
dataset = dataset.cache().prefetch(buffer_size=AUTOTUNE)
print(dataset)

<_PrefetchDataset element_spec=((TensorSpec(shape=(1024,), dtype=tf.int64, name=None), TensorSpec(shape=(1024, 5), dtype=tf.int64, name=None)), TensorSpec(shape=(1024, 5), dtype=tf.int64, name=None))>


In [29]:
class Word2Vec(tf.keras.Model):
    def __init__(self, vocab_size, embedding_dim):
        super(Word2Vec, self).__init__()
        self.target_embedding = layers.Embedding(vocab_size,
                                        embedding_dim,
                                        name="w2v_embedding")
        self.context_embedding = layers.Embedding(vocab_size,
                                        embedding_dim)

    def call(self, pair):
        target, context = pair
        # target: (batch, dummy?)  # The dummy axis doesn't exist in TF2.7+
        # context: (batch, context)
        if len(target.shape) == 2:
            target = tf.squeeze(target, axis=1)
        # target: (batch,)
        word_emb = self.target_embedding(target)
        # word_emb: (batch, embed)
        context_emb = self.context_embedding(context)
        # context_emb: (batch, context, embed)
        dots = tf.einsum('be,bce->bc', word_emb, context_emb)
        # dots: (batch, context)
        return dots

In [30]:
def custom_loss(x_logit, y_true):
    return tf.nn.sigmoid_cross_entropy_with_logits(logits=x_logit, labels=y_true)

In [31]:
embedding_dim = 128
word2vec = Word2Vec(vocab_size, embedding_dim)
word2vec.compile(optimizer='adam',
                loss=tf.keras.losses.CategoricalCrossentropy(from_logits=True),
                metrics=['accuracy'])

In [32]:
tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir="logs")

In [33]:
word2vec.fit(dataset, epochs=20, callbacks=[tensorboard_callback])

Epoch 1/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 10ms/step - accuracy: 0.2194 - loss: 1.6088
Epoch 2/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - accuracy: 0.5969 - loss: 1.5894
Epoch 3/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - accuracy: 0.6059 - loss: 1.5313
Epoch 4/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 8ms/step - accuracy: 0.5535 - loss: 1.4422
Epoch 5/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 8ms/step - accuracy: 0.5684 - loss: 1.3448
Epoch 6/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - accuracy: 0.6038 - loss: 1.2475
Epoch 7/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - accuracy: 0.6419 - loss: 1.1565
Epoch 8/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - accuracy: 0.6790 - loss: 1.0729
Epoch 9/20
[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m

<keras.src.callbacks.history.History at 0x2115a131280>

In [34]:
# docs_infra: no_execute
%tensorboard --logdir logs

Reusing TensorBoard on port 6006 (pid 16976), started 0:34:10 ago. (Use '!kill 16976' to kill it.)