# 文本表示
文本表示，简单的说就是不将文本视为字符串，而视为在数学上处理起来更为方便的向量。而怎么把字符串变为向量，就是文本表示的核心问题。

* 根本原因是计算机不方便直接对文本字符串进行处理，因此需要进行数值化或者向量化。
* 便于机器学习。不仅传统的机器学习算法需要这个过程，深度学习也需要这个过程。
* 良好的文本表示形式可以极大的提升算法效果。

## 1 文本表示分类
* 离散表示
 * one-hot表示（词级）
 * multi-hot表示（句、段、篇级）
* 分布式表示
 * 基于矩阵
   * 基于降维的方法
   * 基于聚类的方法
 * 基于神经网络
   * CBOW（word2vec）
   * Skip-gram(word2vec)
   * NNLM
   * C&W

## 2 词袋模型与TF-IDF
词袋模型构建了一个领域词典，通过每一个词是否出现来构建不同文档的特征向量。通过比较词袋向量能够基本定位两个文档的内容相似度。

举例来说
> 今天天气很好

可以通过词袋模型转化为词袋向量

> [1, 1, 0, 1, ...]

该向量对应的词表为

> ['今天', '天气', '我', '很好', ...]


基础的词袋模型对于词频不够敏感，忽略了词语的先后顺序以及词语之间的关联性，同时其对于新词的敏感性较低。*（因为词袋模型只考虑一个词是否在一段话中出现，未考虑其出现次数和顺序）*

因此，部分学者采用TF-IDF对词袋模型进行优化以改进词袋模型对词频的敏感性。

脚本 Experiment_5_DL_classification 采用了基础词袋模型构建分类器。

## 3语言模型
语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。通过构建语言模型能够对当前句子出现合理性进行判断，同时也可以结合上文出现词的情况对下一个可能出现的词进行预测。即让一个词语的概率依赖于它前面一个词语。我们将这种模型称作bigram，前两个词叫做trigram，完全独立的模型为unigram（单独考虑每个词出现的概率）。

如表示bigram可以采用

 $$P(𝑤_𝑖|𝑤_{i-1})$$

通过多个bigram表示句子可以采用：
 $$P(w_1,w_2,w_3...w_n)=\prod_{i=2}^NP(w_i|w_{i-1})$$
 
使用词向量模型一般用于为对应词汇生成其分布式向量。而使用语言模型一般面向生成式任务，即在已有文本上文基础上，下文最可能描述什么内容；或已知上下文开展完形填空。

通过语言模型的结构构建深度学习网络进行训练，能够在捕捉词语与上下文之间关系的同时学习词语本身的分布式表达，从而让词汇能够基于上下文获得动态的表达，从而能够解决一次多义等问题。

## 4 word2vec
以词袋模型multi-hot同样的方法为例，如果用one-hot相同的方式编码单词，不同的词之间的词义相似性是不能进行比较的，比如黑猫和白猫可能会被当作完全不同的词，同时也会为数据表示带来非常大的冗余。因此，我们希望能用分布式向量来对词语进行表示，节省存储开销的同时能够对不同词语之间的关系进行量化。

因此，研究者们提出了word2vec模型，这里以其中的连续词袋模型（CBOW）进行原理阐述，其他的类型如Skip-gram，以及其他的细节处理如负采样，请学有余力的同学课后进行了解。

以CBOW构建word2vec的过程为：
1.	对于m个词长度的输入上下文，我们产生它们的one-hot向量（$x^{(c-m)},\cdots,x^{(c-1)},x^{(c+1)},\cdots,x^{(c+m)}$）。
2.	我们得到上下文的嵌入词向量（$v_{c-m+1}=Vx^{(c-m+1)},\cdots, $v_{c+m}=Vx^{(c+m)} ）
3.	将这些向量取平均$\hat v={v_{c-m}+v_{c-m+1}+\cdots+v_{c+m}\over2m}$
4.	产生一个得分向量 $z=U\hat v$
5.	将得分向量转换成概率分布形式$\hat y=softmax(z)$
6.	我们希望我们产生的概率分布 ,与真实概率分布$\hat y$相匹配。而$y$刚好也就是我们期望的真实词语的one-hot向量。

其中V代表将输入向量转化为隐藏层的向量矩阵，v表示转化后的向量

In [6]:
%%html
<img src='./img/word2vec.png', width=400, height=200>

## 5 Word2vec 模型构建及词表示

In [9]:
from gensim.models import Word2Vec
import pandas as pd

data = pd.read_csv('./data/ctb5.1_pos_train.tsv', sep='\t', header=None)

print(data.head())

    0   1
0  上海  NR
1  浦东  NR
2  开发  NN
3   与  CC
4  法制  NN


### 将文本内容取出，训练一个word2vec模型

In [11]:
# 取出文本部分
content = data[0]
print(content.head())

0    上海
1    浦东
2    开发
3     与
4    法制
Name: 0, dtype: object


In [12]:
# 将文本部分转化为列表格式
content_list = [content.tolist()]

print('文本总词数为： ', len(content_list))
print(content_list[0][:10])

文本总词数为：  1
['上海', '浦东', '开发', '与', '法制', '建设', '同步', '新华社', '上海', '二月']


In [14]:
# 拼接文本，查看文本长度
content_str = "".join(content_list[0])

print("文本总长度为：", len(content_str))
print(content_str)

文本总长度为： 804154
上海浦东开发与法制建设同步新华社上海二月十日电（记者谢金虎、张持坚）上海浦东近年来颁布实行了涉及经济、贸易、建设、规划、科技、文教等领域的七十一件法规性文件，确保了浦东开发的有序进行。浦东开发开放是一项振兴上海，建设现代化经济、贸易、金融中心的跨世纪工程，因此大量出现的是以前不曾遇到过的新情况、新问题。对此，浦东不是简单的采取“干一段时间，等积累了经验以后再制定法规条例”的做法，而是借鉴发达国家和深圳等特区的经验教训，聘请国内外有关专家学者，积极、及时地制定和推出法规性文件，使这些经济活动一出现就被纳入法制轨道。去年初浦东新区诞生的中国第一家医疗机构药品采购服务中心，正因为一开始就比较规范，运转至今，成交药品一亿多元，没有发现一例回扣。建筑是开发浦东的一项主要经济活动，这些年有数百家建筑公司、四千余个建筑工地遍布在这片热土上。为规范建筑行为，防止出现无序现象，新区管委会根据国家和上海市的有关规定，结合浦东开发实际，及时出台了一系列规范建设市场的文件，其中包括工程施工招投标管理办法、拆迁工作若干规定、整治违章建筑实施办法、通信设施及管线配套建设意见、建设工地施工环境管理暂行办法等，基本做到了每个环节都有明确而又具体的规定。建筑公司进区，有关部门先送上这些法规性文件，然后有专门队伍进行监督检查。尽管浦东新区制定的法规性文件有些比较“粗”，有些还只是暂行规定，有待在实践中逐步完善，但这种法制紧跟经济和社会活动的做法，受到了国内外投资者的好评，他们认为，到浦东新区投资办事有章法，讲规矩，利益能得到保障。（完）外商投资企业成为中国外贸重要增长点新华社北京二月十一日电（记者唐虹）海关统计表明，“八五”期间（一九九０年―一九九五年），中国外商投资企业的进出口呈直线上升之势，出口年均增长百分之四十三点二，进口年均增长百分之三十八点六。去年实现进出口总值达一千零九十八点二亿美元，占全国进出口总值的比重由上年的百分之三十七提高到百分之三十九。外商投资企业在改善中国出口商品结构中发挥了显著作用。去年外商投资企业出口商品中，工业制成品占九成以上，达四百三十八点八亿美元，比上年增长了百分之三十六点七，明显高于全国平均水平。外商投资企业的出口商品仍以轻纺产品为主，其中，出口额最大的商品是服装，去年为七十六点八亿美元。而进口商品则以机械设备和工业原材料为主。（完）中

### word2vec模型参数

|名称|描述|
|:-|:-| 
|sg|用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。| 
|size|是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。| 
|window|表示当前词与预测词在一个句子中的最大距离是多少| 
|min_count|可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5| 
|alpha|学习速率|
|seed|用于随机数发生器。与初始化词向量有关|
|workers|参数控制训练的并行数|
|negative|如果>0,则会采用negativesamp·ing，用于设置多少个noise words|
|cbow_mean|如果为0，则采用上下文词向量的和，如果为1（defau·t）则采用均值。只有使用CBOW的时候才起作用。|
|iter|迭代次数，默认为5|
|sorted_vocab|如果为1（defau·t），则在分配word index 的时候会先对单词基于频率降序排序。|

In [15]:
# 使用CBOW训练模型
model = Word2Vec(content_list, size=100, window=3, min_count=1,
                workers=4, sg=0)

In [16]:
# 使用余弦距离计算，取出目标词最相似的前n个词
model.most_similar('增长', topn=10)

# 结果出现很多不相关的词是因为数据清洗工作不够

  


[('的', 0.9703110456466675),
 ('。', 0.9694963097572327),
 ('，', 0.9694287180900574),
 ('美元', 0.9692532420158386),
 ('企业', 0.9663867354393005),
 ('中国', 0.9660840034484863),
 ('、', 0.964785099029541),
 ('发展', 0.9612747430801392),
 ('全', 0.9596081376075745),
 ('已', 0.9592780470848083)]

In [17]:
# 比较两个词的相似度
model.similarity("上海", "开发区")

  


0.2929536

In [18]:
# 普通模式存储模型
# 如果模型、数据较大，则建议使用二进制存储
model.save("./data/w2v_demo")

In [19]:
# 导入模型
new_model = Word2Vec.load("./data/w2v_demo").wv

print(new_model['开发'])

[-0.00811321  0.00638419 -0.01381431  0.00164335  0.00897561  0.005105
  0.00126313 -0.00013722  0.00622537 -0.00356907 -0.00343398  0.00191148
  0.01021266  0.00218012  0.00254337 -0.0005447  -0.00604563 -0.00127335
  0.0023385   0.00459362  0.00654059 -0.00272777  0.00598643  0.00790951
  0.00443163 -0.01335592 -0.0048444   0.00029193 -0.00338014 -0.00977301
 -0.00200225 -0.00089275  0.00253466 -0.00280997  0.00822583  0.00409053
 -0.00444234  0.00257331  0.01492933 -0.00569282 -0.00891665  0.01017243
  0.00032181 -0.00017685 -0.0003444   0.00970724 -0.0056587  -0.00142577
  0.01307456  0.00155016  0.00686247  0.00612772  0.00391625  0.00503604
  0.0040247   0.00531696 -0.00093156 -0.00725718 -0.00451633  0.00655542
 -0.00200787 -0.01421334  0.00070425 -0.00207756 -0.01644806 -0.00702055
 -0.01421975  0.00108639 -0.00888638  0.00894528  0.00426407 -0.01361506
  0.00726268  0.01139209 -0.00588811  0.00754122 -0.00032214 -0.00320867
  0.00349263  0.0070021   0.00865777 -0.00296959  0.0

## 目前热门的预训练语言模型
* ELMO：基于上下文的word-embedding
* GPT：使用Transformer来捕捉长距离依赖
* BERT：预训练双向Transformer