## Doc2vec 的原理

* https://www.imooc.com/article/41650
* gensim 基于Doc2vec 论文 实现的代码-提供了Doc2vec 训练的案例  <br>
https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec
* Doc2vec 论文 https://arxiv.org/abs/1405.4053v2

Doc2Vec 或者叫做 paragraph2vec, sentence embeddings，是一种非监督式算法，可以获得sentences/paragraphs/documents 的向量表达，是 word2vec 的拓展。

## Doc2vec 两种实现方式

2013 年 Mikolov 提出了 word2vec 来学习单词的向量表示 ,可以将 word 表示成向量形式，那么句子／段落／文档是否也可以只用一个向量表示？

方法1: 先得到 word 的向量表示，然后用一个简单的平均来代表文档。 <br>
方法2:然后用一个简单的平均来代表文档。 

* dbow (distributed bag of words)


In [6]:
# python gensim 中实现
# model = gensim.models.Doc2Vec(documents,dm = 0, alpha=0.1, size= 20, min_alpha=0.025)

* dm (distributed memory) 

In [8]:
## python gensim 
## model = gensim.models.Doc2Vec(documents,dm = 1, alpha=0.1, size= 20, min_alpha=0.025)

二者在 gensim 实现时的区别是 dm = 0 还是 1.

Doc2Vec 的目的是获得文档的一个固定长度的向量表达。

数据：多个文档，以及它们的标签，可以用标题作为标签。  
影响模型准确率的因素：语料的大小，文档的数量，越多越高；文档的相似性，越相似越好。

## Usage examples

In [11]:
from gensim.test.utils import common_texts
from gensim.models.doc2vec import Doc2Vec,TaggedDocument

In [14]:
#  数据的格式，对于中文的文章，我们需要分词
common_texts

[['human', 'interface', 'computer'],
 ['survey', 'user', 'computer', 'system', 'response', 'time'],
 ['eps', 'user', 'interface', 'system'],
 ['system', 'human', 'system', 'eps'],
 ['user', 'response', 'time'],
 ['trees'],
 ['graph', 'trees'],
 ['graph', 'minors', 'trees'],
 ['graph', 'minors', 'survey']]

In [17]:
# TaggedDocument : doc 和 i 组成
documents = [TaggedDocument(doc,[i])  for i,doc in enumerate(common_texts)]
documents

[TaggedDocument(words=['human', 'interface', 'computer'], tags=[0]),
 TaggedDocument(words=['survey', 'user', 'computer', 'system', 'response', 'time'], tags=[1]),
 TaggedDocument(words=['eps', 'user', 'interface', 'system'], tags=[2]),
 TaggedDocument(words=['system', 'human', 'system', 'eps'], tags=[3]),
 TaggedDocument(words=['user', 'response', 'time'], tags=[4]),
 TaggedDocument(words=['trees'], tags=[5]),
 TaggedDocument(words=['graph', 'trees'], tags=[6]),
 TaggedDocument(words=['graph', 'minors', 'trees'], tags=[7]),
 TaggedDocument(words=['graph', 'minors', 'survey'], tags=[8])]

In [18]:
# Doc2Vec 模型训练
model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=4)

In [19]:
# 模型保存
model.save("doc2vec_model")

In [20]:
# 模型加载
model2 = Doc2Vec.load("doc2vec_model")

In [21]:
# Infer vector for a new document:
text_words = ["system", "response"]

In [23]:
vector = model2.infer_vector(text_words)
print(vector)

[ 0.08685704  0.00889632 -0.01070497 -0.06270082 -0.01931767]


上述过程，就是我们通过Doc2Vec 的方式提取文本的特征，然后给予这些这些特征就可以进行文本分类训练啦

## 项目总结：
* Doc2vec 模型 doc_list 的格式 需要分词的内容
* TaggedDocument 我们可以查看对应的源码，可以自己按照这个格式实现自己的TaggedDocument 格式的类