# 词向量
2012年，微软实习生Thomas Mikolov发现了一种用一定维度的向量来表示词的含义的方法。Mikolov训练了一个神经网络来预测每个目标词附近的共现词，称为Word2Vec。  
Word2Vec仅仅基于大型**未标注** 文本语料库来学习词的含义，而不需要标记Word2Vec词汇表中的词，只需要准备足够大的语料。  
Word2Vec的任务为教网络预测句子中目标词附近的词，而不是通过带有词含义的标签来直接学习目标词的含义。  
预测本身并不是Word2Vec的关键，预测只是达到目的的一种手段，真正关心的是其内部表示，即Word2Vec在生成这些预测过程中逐渐构建的向量。  
在LSA中，词只需要在相同的文档中出现，它们的含义就会相互感染，并融入到词的主题向量中；对于Word2Vec词向量，这些词必须彼此相邻

In [None]:
from nlpia.book.examples.ch06_nessvectors import *  # Word2Vec的预训练模型，非常大，除非内存够，不然不要导入
nessvector('Marie_Curie').round(2)

LSA中基于整篇文档构建的主题向量非常适合文本分类、语义搜索和聚类，但LSA生成的主题-词向量不够精确，不能用于短文本或复合词的语义推理、分类和聚类。

## 如何计算Word2Vec表示
1. 训练Skip-gram方法，基于目标词(输入词)预测上下文(输出词)
2. 连续词袋(continuous bag-of-words, CBOW)方法，基于邻近词(输入词)预测目标词(输出词)。
词向量模型训练结束后将不再进行额外的训练，因此可以忽略网络的输出层，只用隐藏层的输入权重来作为词嵌入表示，即这个权重矩阵就是所需要的词嵌入。
### Skip-gram方法
在Skip-gram中，需要预测输入词周围窗口的词。
### 什么是Softmax
Softmax可以将输出结果压缩为0到1之间的值，所有输出的和加起来等于1，这样Softmax函数的输出层结果就可以当作概率。
### 连续词袋方法
根据周围词去预测中心词，输入为一个代表周围词的多热向量(multi-hot vector)。  
因在构建句子中词之间的关系，会在句子中设置一个滑动窗口来选择目标词的周围词，滑动窗口内的所有词将被认为是窗口中央的目标词的连续词袋的内容。  
### 如何选择Skip-gram与CBOW
skip-gram方法对于小型语料库和一些词项比较适用。  
在Skip-gram方法中，由于网络结构的原因，将会产生更多的训练样本，但CBOW方法在常用词上有更高但精确性，且训练速度更快。
### Word2Vec计算方法
#### 高频2-gram
因有些词经常与其他词组合出现，如：姓名，这种预测并没有多少价值，为了提高Word2Vec嵌入的精确率，Mikolov在Word2Vec词汇表中加入了一些2-gram和3-gram作为词项，使用共现频率来区分应该被认为是单个词项的2-gram、3-gram，若计算后得到的分数高于阈值，则将这两个词作为词项对包含在Word2Vec词汇表中。
### 高频词条降采样
减少像停用词的影响，但不是忽略，故可以在训练过程中对词进行与其出现频率成反比的采样。  
相比于罕见词，高频词被赋予对向量更小的影响力。  
### 负采样
当一个训练样本(一个词)输入网络后，会引起网络中所有权重的更新，这样会改变词汇表中所有词的向量值，若词汇表达数十亿级别，会使得参数更新变得十分低效，为加快词向量模型的训练速度，Mikolov采用了负采样方法。  
Mikolov建议只在输出向量中选取少量的负样本进行权重更新，而不用去更新词窗口以外所有其他词的权重，选取n个负样本词对(目标输出词之外的词)，根据其对输出的共现来更新对应的权重，通过这种方法可以极大的减少计算，且对网络性能没有明显影响。

In [1]:
from nlpia.data.loaders import get_data
word_vectors = get_data("word2vec")

  [datetime.datetime, pd.datetime, pd.Timestamp])
  MIN_TIMESTAMP = pd.Timestamp(pd.datetime(1677, 9, 22, 0, 12, 44), tz='utc')
  np = pd.np
  np = pd.np
  np = pd.np
  np = pd.np
  2%|▏         | 7825/402111 [03:14<2:43:14, 40.26it/s]


KeyboardInterrupt: 

## Word2Vec和GloVe 
Word2Vec依赖于必须经反向传播来训练，反向传播在效率上通常不如使用梯度下降法直接优化的代价函数。  
GloVe：计算词的共现次数并记录在一个正方形矩阵中，这个正方形矩阵可以通过奇异值分解，分解得到的两个权重矩阵的意义与Word2Vec产生的完全相同。这个方法是对词共现的全局向量直接进行优化。  
GloVe可以产生相当于Word2Vec输入权重矩阵和输出权重矩阵的矩阵，其生成的语言模型具有与Word2Vec相同的准确绿，且花费时间更少。通过GloVe更有可能找到词向量表示的全局最优解，从而得到更精确的结果。  
在计算效率上GloVe使用SVD作为优化算法优于使用反向传播进行优化的Word2Vec算法。  
GloVe的优点如下：
1. 训练过程更快
2. 更有效的利用CPU、内存（可以处理更大规模的文档）
3. 更有效的利用数据(对小型语料库有帮助)
4. 在相同训练次数下精确率更高

## fastText
与Word2Vec中预测周围词不同，该算法预测周围的n个字符，例如将“whisper”生成以下两字符的gram和三字符的gram：  
[wh, whi, hi, his, is, isp, sp, spe, pe, per, er]  
fastText为每个n字符的gram训练一个向量表示，其中包含词、拼错的词、词片段甚至是单个字符，这种方法比原来的Word2Vec能够更好的处理罕见词。

## Word2Vec和LSA
LSA主题-词向量也提供了词向量表征，但LSA主题-文档向量是这些文档中所有词的主题-词向量的和，而在Word2Vec中，若要得到一个对于整篇文档的主题-文档向量类似的词向量，则需要对文档中所有Word2Vec词向量求和。  
LSA训练速度比Word2Vec更快，而且在长文档分类和聚类方面表现较好。  
Word2Vec的主要应用是语义推理，LSA主题-词向量模型也可以做到这点但准确率较差，若想通过LSA得到接近于Word2Vec推理的效果，必须将文档分成句子，然后使用这些短句来训练LSA模型。  
  
LSA模型优点：
1. 训练速度较快
2. 长文本区分度更好
  
Word2Vec和GloVe优点：
1. 对大型语料库的利用更有效。
2. 在回答类比问题等用词推理的领域更为准确。

## 词向量是有偏见的
词向量根据语料库来学习词之间的关系，若语料库是金融相关的，那“bank”的词向量将主要偏向存款业务，若语料库是地质学相关的，那“bank”将被训练为河流和小溪相关。

## 利用Doc2Vec计算文档相似度
将Word2Vec的概念扩展到句子、段落或整个文档。  
训练结束后，如何生成未知文档的文档向量呢？  
在推理阶段，该算法将更多的文档向量添加到文档矩阵中，并根据冻结的词向量矩阵来计算添加的向量及其权重。通过推断文档向量，可以获得整个文档的语义表示。  