# 词向量到2word2vec与相关应用
## NLP常见任务
- 自动摘要
- 指代消解
- 机器翻译
- 词性标注
- 分词(中文, 日文等)
- 主题识别
- 文本分类

## NLP处理方法
- 传统: 基于规则
- 现代: 基于统计机器学习
    - HMM, CRF, SVM, LDA, CNN...
    - "规则"隐含在模型参数里

## 此编码需要保证词的相似性
Nearest words to frog:

## 简单词/短语翻译
- 向量空间分布的相似性

## 向量空间子结构
- 最终目标: 词向量表示作为机器学习, 特别是深度学习的输入和表示空间

## 在计算机中表示一个词
Dict
### 问题
1. 不能分辨细节的区别
2. 需要大量人为劳动
3. 主观
4. 无法发现新词
5. 难以精确计算词之间的相似度

## 离散表示: Bag of Words
- 文档的向量表示可以直接将各词的词向量表示加和
- 词权重 -- 词在文档中的顺序没有被考虑
    - TF-IDF
    - Binary weighting

## 离散表示: Bi-gram和N-gram
- 优点: 考虑了词的顺序
- 缺点: 词表的膨胀
## 语言模型
- 一句话(词组合)出现的概率
- Unigram/1-gram
- Bi-gram/2-gram

## 离散表示的问题
- 无法衡量词向量之间的关系
- 词表维度随着语料库增长膨胀
- n-gram次序列随语料库膨胀更快
- 数据稀疏问题

## 分布式表示(Distributed representation)
- 用一个词附近的其他词来表示该词
- 现代统计自然语言处理中最有创见的想法之一

## 共现矩阵(Cocurrence matrix)
Word-Document的共现矩阵主要用于发现主体(topic), 用于主体模型, 如LSA(Latent Semantic Analysis)

局域窗中的Word-Word共现矩阵可以挖掘语法和语义信息--是一个对称矩阵


## 存在的问题
将共现矩阵行列作为词向量
- 向量为数随着词典大小线性增长
- 存贮整个词典的空间消耗非常大
- 一些模型如文本分类模型会面临稀疏性问题
- 模型会欠稳定

## 解决方式
构造低维稠密向量作为词的分布式表示(25-1000)维

### SVD降维
### SVD降维问题
- 计算量大O(n^3)
- 难以为词典中国新加入的词分配词向量
- 与其他深度学习模型框架差异大

## NNLM(Neural Network Language model)
- 直接从语言模型出发, 将模型最优化过程转化为求词向量表示的过程
    - **目标函数:** $L(\theta)=\sum_{t}logP(w_t|w_{t-n+1},...w_{t-1})$
- 使用了非对称的前向窗函数, 窗长度为n-1
- 滑动窗口遍历整个语料求和, 计算量正比于语料库大小
- 概率P满足归一化条件, 这样不同位置t处的概率才能相加, 即
$$\sum_{w\in \{vocabulary\}}P(w|w_{t-n+1},...w_{t-1})=1$$

## NNLM结构
![](https://cdn.jsdelivr.net/gh/Alephant6/PicBed/202206051617806.png)
- (N-1)个前向词: one-hot表示
- 采用线性映射将One-hot表示投影到稠密D维表示
- 输出层: Softmax
- 各层权重最优化: BP + SGD

## NNLM的计算复杂度
![](https://cdn.jsdelivr.net/gh/Alephant6/PicBed/202206051629363.png)

## word2vec: CBOW(连续词袋)
![](https://cdn.jsdelivr.net/gh/Alephant6/PicBed/202206051631071.png)

## CBOW: 层次Softmax
![](https://cdn.jsdelivr.net/gh/Alephant6/PicBed/202206051633840.png)