# 近似训练
> 目前不太知道在说什么: https://zh.d2l.ai/chapter_natural-language-processing-pretraining/approx-training.html

注意之前提到的 `word2vec` 的跳元模型, 在求解给定中心词下上下文词出现的概率的时候, 是利用 $softmax$ 操作, 那么 $softmax$ 中梯度计算包括求和, 但是在一个词典上求和的梯度的计算复杂度比较大, 为了降低计算复杂度, 这里考虑两种近似方法: 负采样和分层 $softmax$
## 负采样
负采样修改了原目标函数, 给定中心词 $w_c$ 的上下文窗口, 任意上下文词 $w_o$ 来自该上下文窗口的被认为是由下面对应的概率如下:
$$
P(D = 1 \mid w_c, w_o) = \sigma(\mathbf{u}_o^T \mathbf{v}_c)
$$
其中 $\sigma$ 使用 `sigmoid`激活函数定义 $\sigma(x) = \frac {1}{1 + \exp(-x)}$

我们需要最大化文本序列中所有时间的联合概率来训练词嵌入, 给定长度为$T$的文本序列, 使用 $w^{(t)}$表示时间步$t$的词, 并且使上下文窗口为$m$, 考虑最大化联合概率:
$$
\prod_{t=1}^T \prod_{-m \leq j \leq m, j \neq 0} P(D = 1 | w^{(t)}, w^{(t+j)})
$$
跳元模型利用负采样来避免在整个数据集上的计算, 假设事件 $S$ 为中心词 $w_c$ 生成上下文词 $w_o$可以由如下两个相互独立的事件近似:
1. 中心词 $w_c$ 和上下文词 $w_o$ 同时出现在该训练数据窗口
2. 中心词 $w_c$ 和噪声词不同是出现在该训练数据窗口
   1. 中心词 $w_c$ 和第一个噪声词 $w_1$ 不在同一个窗口
   2. 中心词 $w_c$ 和第二个噪声词 $w_2$ 不在同一个窗口
   3. 中心词 $w_c$ 和第$K$个噪声词 $w_k$ 不在同一个窗口

并且其中噪声词按照分布 $P(w)$ 生成, 所以 $\log P(w_o \mid w_c)$ 可以写成如下的形式(两个部分相加即可):
$$
\log P\left(w_{o} \mid w_{c}\right)=\log \left[P\left(D=1 \mid w_{o}, w_{c}\right) \prod_{\substack{k=1, w_{k} \sim P(w)}}^{K} P\left(D=0 \mid w_{k}, w_{c}\right)\right]
$$
同时可以进行一些列化简, 最终可以得到:
$$
-\log P\left(w_{o} \mid w_{c}\right)=-\log \frac{1}{1+\exp \left(-\boldsymbol{u}_{o}^{T} \boldsymbol{v}_{c}\right)}-\sum_{\substack{k=1, w_{k} \sim P(w)}}^{K} \log \frac{1}{1+\exp \left(\boldsymbol{u}_{i_{k}}^{T} \boldsymbol{v}_{c}\right)}
$$
所以这里就可以省略在整个词表上的计算, 只需要关注噪声词和上下文词的计算即可

## 层序Softmax
层序 `Softmax` 也是一种近似方法, 这一个方法使用二叉树, 并且树中的每一个节点表示词表 $\mathcal{V}$ 中的一个词
![image.png](attachment:9b8763dd-01d5-49e1-afed-33a2a084c2de.png)
使用 $L(w)$ 表示二叉树中表示字$w$的从根节点道叶节点路径上的节点数量, 设 $n(w,j)$ 为该路径上的第$j$个节点, 上下文向量可以表示为$\mathbf{u}_{n(w,j)}$, 层序`Softmax`把之前的条件概率近似为:
![image.png](attachment:87045214-f5af-42c2-9ea9-e0675c2f5396.png)
例如 $P(w_3 \mid w_c)$ 可以表示为:
$$
P(w_3 \mid w_c) = \sigma(\mathbf{u}_{n(w_3,1)}^\top \mathbf{v}_c) \cdot \sigma(-\mathbf{u}_{n(w_3,2)}^\top \mathbf{v}_c) \cdot \sigma(\mathbf{u}_{n(w_3,3)}^\top \mathbf{v}_c).
$$
并且由于 $\sigma(x) + \sigma(-x) = 1$, 所以可以发现:
$$
\sum_{w \in \mathcal{V}} P(w \mid w_c) = 1
$$