# Word2Vec

## 问题设定

对于One-hot的词向量：

$$
\begin{aligned}
I &= [1, 0, 0] \\
Like &= [0, 1, 0] \\
Apple &= [0, 0, 1] 
\end{aligned}
$$

无法通过两向量夹角余弦值计算其相似度，word2vec提供了Skip-Gram（跳字模型）与CBOW（连续词袋模型）两个词嵌入模型，通过这种模型训练出的词向量可以较好的表示出词之间的相似度。

# Skip-Gram

即跳字模型，其核心思想是对于一个上下文，设定一个大小为$m$的滑窗，在滑窗内选择$1$个中心词，预测滑窗内$m - 1$个背景词。即如果上下文是：

$$
I\  eat\  apple\  every\  day
$$

对每一个词进行One-hot编码：

$$
\begin{aligned}
I &= [1, 0, 0, 0, 0] \\ 
eat &= [0, 1, 0, 0, 0] \\
apple &= [0, 0, 1, 0, 0] \\
every &= [0, 0, 0, 1, 0] \\
day &= [0, 0, 0, 0, 1]
\end{aligned}
$$

设定滑窗大小为$2$，如果选择中心词$apple$，那么将会有以下训练数据：

$$
\begin{aligned}
x &= [0, 0, 1, 0, 0] \\ 
y &= [1, 0, 0, 0, 0], [0, 1, 0, 0, 0], [0, 0, 0, 1, 0], [0, 0, 0, 0, 1]
\end{aligned}
$$

设计一个只有1个输入层、1个隐藏层、1个输出层的神经网络，其中输出层的神经元个数等于输入层即等于One-hot编码的维度，而隐含层的神经元个数通常远小于输出层，比如One-hot维度如果是10000，隐含层可以只有300个神经元：

我们通过最大化似然函数：

$$
\prod^{N}_{i=1} \prod_{-m <= j <= m} \mathbb{P} \left( w^{i+j} \ \lvert \  w^i \right)
$$

即对于上下文内所有的词，给定中心词$w^i$，预测滑窗内其他词，越准确越好。对上式取对数并展开：

$$
\begin{aligned}
\prod^{N}_{i=1} \prod_{-m <= j <= m} \mathbb{P} \left( w^{i+j} \ \lvert \  w^i \right) &= \sum^{N}_{i=1} \sum_{-m <= j <= m} \log \mathbb{P} \left( w^{i+j} \ \lvert \  w^i \right) \\
&= \sum^{N}_{i=1} \sum_{-m <= j <= m} \log \left( \frac{\exp(\mathrm{u^T_{i+j} \cdot v_{i}} )}{ \mathrm{\sum^{N}_{k=1} \exp(\mathrm{u^T_{k} \cdot v_{i}})}} \right) \\
\end{aligned}
$$

其中，$\mathrm{v_i}$即是隐藏层的权重，也是隐藏层的$z_i$，也是第i个词的词向量，$\mathrm{u_{i+j}}$是输出层的权重，也是第i+j个词的词向量的另一个表达。最大化上式的最大似然函数，即最小化下式交叉熵：

$$
- \sum^{N}_{i=1} \mathrm{y_i} \cdot \log \mathrm{p_i}
$$

其中$\mathrm{y_i}$与$\mathrm{p_i}$是维度为词表长度的向量，分别代表观测值与计算值，对$\mathrm{v_i}$求梯度有：

$$
\frac {\partial \log \mathbb{P} \left( w^{i+j} \ \lvert \  w^i \right)} {\mathrm{v_i}} &= 
$$