# word2vec
---
Word2Vec 是一种著名的 词嵌入（Word Embedding） 方法，它可以计算每个单词在其给定语料库环境下的 分布式词向量（Distributed Representation，亦直接被称为词向量）。词向量表示可以在一定程度上刻画每个单词的语义。

## 简单用法
---
### 读取语料
---
* class gensim.models.word2vec.BrownCorpus（dirname ）
从布朗语料库（NLTK数据的一部分）迭代句子,dirname是存储布朗语料库的根目录(通过nltk.download()下载布朗语料库)，得到的这个对象可以通过循环迭代语料库的句子。

* class gensim.models.word2vec.LineSentence(source, max_sentence_length=10000, limit=None)
与上一样，也是产生迭代器，但需要更改下文件格式。简单的格式：一篇文档=一行; 单词已经过预处理并由空格分隔。

* class gensim.models.word2vec.PathLineSentences（source，max_sentence_length = 10000，limit = None ）
与LineSentence类一样，不过这里是处理根目录下的所有文件，同样文件中句子格式需要处理

* class gensim.models.word2vec.Text8Corpus（fname，max_sentence_length = 10000 ）
从text8语料库中迭代句子


In [1]:
from gensim.models import word2vec

file_path = 'word2vec训练数据.txt'
# 使用LineSentence读取语料
sentences = word2vec.LineSentence(file_path)

### 训练word2vec语义向量
---
```python
class gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5,  
                   max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,  
                   sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=hash, iter=5, null_word=0,  
                   trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH, compute_loss=False, callbacks=(),  
                   max_final_vocab=None)  
```
* sentence(iterable of iterables):可迭代的句子可以是简单的list，但对于较大的语料库，可以考虑直接从磁盘/网络传输句子的迭代。见BrownCorpus，Text8Corpus 或LineSentence.
* SG(INT {1 ，0}) -定义的训练算法。如果是1，则使用skip-gram; 否则，使用CBOW。
* hs：是否采用基于Hierarchical Softmax的模型。参数为1表示使用，0表示不使用
* size(int) - 特征向量的维数。
* window(int) - 句子中当前词和预测词之间的最大距离。
* min_count(int) - 忽略总频率低于此值的所有单词。 

    关于Hierarchical Softmax与negative sampling，可以参考以下博客:  
        http://www.cnblogs.com/pinard/p/7243513.html  
        https://www.cnblogs.com/pinard/p/7249903.html  

In [2]:
model = word2vec.Word2Vec(sentences, hs=1,min_count=1,window=2,size=128)

### 保存模型
---
model.save(file_name)
* file_name:存储模型的名称

In [3]:
model.save('model_word2vec_test')

### 加载模型
---
word2vec.Word2Vec.load(file_name)
* file_name:存储的模型的名称

In [4]:
model = word2vec.Word2Vec.load('model_word2vec_test')

In [5]:
# 获取单词word2vec值
model['apple']

array([ -4.49542701e-02,   8.05083513e-02,  -2.86384404e-01,
        -2.28744335e-02,  -5.72136082e-02,   6.77325651e-02,
        -1.92947462e-01,  -1.59176052e-01,  -3.13154794e-02,
        -8.99701789e-02,  -2.91670468e-02,  -1.11418039e-01,
         2.80972064e-01,  -8.18192363e-02,  -9.02986154e-02,
         2.09552854e-01,   6.51546046e-02,  -1.98360413e-01,
         1.95879802e-01,   4.65310663e-01,  -2.06638277e-01,
        -3.28917317e-02,   3.41773555e-02,   1.33826151e-01,
        -6.09533414e-02,   3.34803939e-01,   3.37274104e-01,
         1.51200667e-01,  -9.53703672e-02,  -2.59918690e-01,
        -2.82655358e-01,  -2.11445779e-01,   1.35404002e-02,
         1.15187936e-01,  -7.70035312e-02,   2.89677113e-01,
        -1.09858043e-01,  -3.03654850e-01,  -8.24007317e-02,
         1.04838744e-01,   3.38284560e-02,   8.95413086e-02,
        -1.22524180e-01,  -9.29293633e-02,   1.51894912e-01,
        -2.36794010e-01,   8.58983994e-02,  -2.16335282e-01,
         1.18892707e-01,

In [6]:
# 计算两个单词的语义相似度
print(model.similarity('魅族','全网通'))
print(model.similarity('16g','64g'))
print(model.similarity('粉色','金色'))

0.617068983169
0.981825965193
0.983594876016


### 网上中文语料库
腾讯AI实验室宣布，正式开源一个大规模、高质量的中文词向量数据集  
https://ai.tencent.com/ailab/nlp/embedding.html  
120G+训练好的word2vec模型（中文词向量）  
https://blog.csdn.net/tu_22/article/details/79035769  
还有一些开源语料库，可以自己拿去训练。。。。。。