# GloVe

## 问题设定

GloVe是Global Vectors for Word Representation的缩写。

对于One-hot词向量：

$$
\begin{aligned}
I &= [1, 0, 0] \\
Like &= [0, 1, 0] \\
Apple &= [0, 0, 1] 
\end{aligned}
$$

无法通过两向量夹角余弦值计算其相似度，word2vec是一种嵌入模型，通过这种模型训练出的词向量可以较好的表示出词之间的相似度，但是word2vec仅仅考虑了两个词在一段上下文的相关度，而GloVe考虑了两个词向量在全文中的相关度。

## 共现矩阵（Co-occurrence Probabilities Matrix）

训练GloVe模型前，首先需要构建一个共现矩阵，设词表大小为V，共现矩阵将是一个V行V列的方阵，而第i行第j列的表示了以第i个中心词$w_i$，第j个背景词$w_j$出现的次数。

假设我们有上下文：

$$
an\ apple\ a\ day\ keeps\ an\ apple\ a\ day
$$

我们设定滑窗大小m等于2，我们将会有如下中心词-背景词对：

中心词  |    背景词   |
:---:  |    :---:   |
an     | apple, a   |
apple  | an, a, day |
a      | an, apple, day, keeps   |
day    | apple, a, keeps, an     |
keeps  | a, day, an, apple       |
an     | day, keeps, apple, a |
apple  | keeps, an, a, day |
a      | an, apple, day |
day    | apple, a |

然后遍历中心词-背景词对，更新共现矩阵，以上图为例，最后共现矩阵的结果将有如下形式：

|        |   An  | apple | a | day | keeps |
|    -   |   -   |   -   | - |  -  |   -   |
|   An   |   0   |   2   | 2 |  1  |   1   |
|  apple |   2   |   0   | 2 |  2  |   1   |
|    a   |   2   |   2   | 0 |  2  |   1   |
|   day  |   0   |   2   | 2 |  0  |   1   |
|  keeps |   1   |   1   | 1 |  1  |   0   |

共现矩阵揭示了某种规律，定义共现矩阵的第i行的和为：

$$
X_i = \sum^{V}_{j=1}X_{i, j}
$$

之后我们有条件概率，即第j列对应的词出现在第i行上下文中的条件概率：

$$
\mathbb{P}_{i, j} = \frac{X_{i, j}}{X_i}
$$

而对于某个词$w_k$，他在第i行或者第j行上下文出现的条件概率的比值：

$$
\frac{\mathbb{P}_{i, k}}{\mathbb{P}_{j, k}}
$$

这个值是可以直接观测并计算到的，并将会有如下规律：
- 如果$w_j$与$w_k$相关，且$w_i$与$w_k$相关，那么这个比值将会趋近于1
- 如果$w_j$与$w_k$相关，且$w_i$与$w_k$不相关，那么这个比值将会很小
- 如果$w_j$与$w_k$不相关，且$w_i$与$w_k$相关，那么这个比值将会很大
- 如果$w_j$与$w_k$不相关，且$w_i$与$w_k$不相关，那么这个比值将会趋近于1

## 损失函数

我们希望设计一个损失函数，希望对词表内每两个词对，$w_i$与$w_j$，尽可能与$w_k$在共现矩阵中对于第i, j上下文中，出现的条件概率比值相近：

$$
\frac{\mathbb{P}_{i, k}}{\mathbb{P}_{j, k}} = \frac{\exp (v^T_i v_k) }{\exp (v^T_j v_k)}
$$

两边取对数，对于分子分母：

$$
\log \frac{X_{i, k}}{X_i} = \log X_{i, k} - \log X_i = v^T_i v_k \\
\log \frac{X_{j, k}}{X_j} = \log X_{j, k} - \log X_j = v^T_j v_k
$$

可以看到问题得到了简化，我们希望左式的分子尽可能等于右式的分子，分母亦然，则问题被简化为：对于词表内任意一组词对i, j，我们希望最小化下式：

$$
\sum^{V}_{i=1} \sum^{V}_{j=1} \left( v^T_i v_j - \log X_i - \log(X_{i, j})\right )^2
$$

其中偏置项$b_i, b_j$将会替换$\log X_i$:

但是并不是每一个词对都是平权的，需要考虑词频来设定每一个词对的权重：

$$
f(X_{i, j}) = 
\begin{cases}
(X_{i, j} \ /\ C)^{0.75}& \text{ X > c }\\
1& \text{ X < 0}
\end{cases}
$$

最后我们希望最小化：

$$
\sum^{V}_{i=1} \sum^{V}_{j=1} f(X_{i, j}) \left( v^T_i v_j + b_i + b_j - \log(X_{i, j})\right )^2
$$

最后使用中心词向量$v_j$与背景词向量$v_i$的和作为中心词向量的表示。