# 基于gensim的Word2vec词向量训练

Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。 它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口.

基本概念:
- 语料（Corpus）：一组原始文本的集合，用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中，Corpus通常是一个可迭代的对象（比如列表）。每一次迭代返回一个可用于表达文本对象的稀疏向量。
- 向量（Vector）：由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。
- 稀疏向量（SparseVector）：通常，我们可以略去向量中多余的0元素。此时，向量中的每一个元素是一个(key, value)的元组.
- 模型（Model）：是一个抽象的术语。定义了两个向量空间的变换（即从文本的一种向量表达变换为另一种向量表达）。


[Gensim之Word2Vec使用手册](https://blog.csdn.net/The_lastest/article/details/81734980)

## 数据预处理（分词）

In [2]:
from gensim.models import word2vec
import jieba
import jieba.analyse

In [12]:
jieba.suggest_freq('沙瑞金', True)
jieba.suggest_freq('田国富', True)
jieba.suggest_freq('高育良', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('蔡成功', True)
jieba.suggest_freq('孙连城', True)
jieba.suggest_freq('季昌明', True)
jieba.suggest_freq('丁义珍', True)
jieba.suggest_freq('郑西坡', True)
jieba.suggest_freq('赵东来', True)
jieba.suggest_freq('高小琴', True)
jieba.suggest_freq('赵瑞龙', True)
jieba.suggest_freq('林华华', True)
jieba.suggest_freq('陆亦可', True)
jieba.suggest_freq('刘新建', True)
jieba.suggest_freq('刘庆祝', True)

with open('in_the_name_of_people.txt') as f:
    document = f.read()
    document_cut = jieba.cut(document)
    result = ' '.join(document_cut)
    result = result.encode('utf-8')
    with open('in_the_name_of_people_segment.txt', 'wb') as f1:
        f1.write(result)

## 训练词向量
Gensim中的Word2Vec类就是用来训练词向量的，这个类实现了词向量训练的两种基本模型skip-gram和CBOW。

In [13]:
sentences = word2vec.LineSentence('in_the_name_of_people_segment.txt') 
model = word2vec.Word2Vec(sentences, hs=1, min_count=1, window=3, size=100)

## 应用

### 计算两个词的相似度（余弦距离）

In [20]:
print(model.wv.similarity('沙瑞金', '侯亮平'))

0.9301957418702593


### 计算两个词的距离

In [28]:
print(model.wv.distance('沙瑞金', '侯亮平'))

0.06980425812974067


### 取与给定词最相近的topn个词

In [29]:
print(model.wv.most_similar(['沙瑞金'],topn=3))

[('高育良', 0.9623672366142273), ('田国富', 0.9526243209838867), ('学生', 0.942626953125)]


### 找出与其他词差异最大的词

In [32]:
print(model.wv.doesnt_match(['沙瑞金', '人民', '季昌明', '正义', '腐败']))

正义
