# 基于word2vec使用中文wiki语料库训练词向量

### 0. 数据获取

* 使用的语料库是wiki百科的中文语料库，下载地址：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

* 共365363篇文章

In [3]:
import warnings
warnings.filterwarnings("ignore")

from gensim.corpora import WikiCorpus
import time
import re
import zhconv
import jieba
import multiprocessing
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

### 1. 将xml的wiki数据转换为text格式

In [2]:
%%time
input_file_name = 'zhwiki-latest-pages-articles.xml.bz2'
output_file_name = 'wiki.zh.txt'
print('开始读入wiki数据...')
input_file = WikiCorpus(input_file_name, lemmatize=False, dictionary={})
print('wiki数据读入完成！')

with open(output_file_name, 'w', encoding="utf-8") as output_file:
    print('处理程序开始...')
    count = 0
    start = time.time()
    for text in input_file.get_texts():
        output_file.write(' '.join(text) + '\n')
        count = count + 1
        if count % 10000 == 0:
            end = time.time()
            print(f'目前已处理{count}条数据，阶段耗时{int(end-start)}秒。')
            start = time.time()
    print('处理程序结束！')

开始读入wiki数据...
wiki数据读入完成！
处理程序开始...
目前已处理10000条数据，阶段耗时74秒。
目前已处理20000条数据，阶段耗时54秒。
目前已处理30000条数据，阶段耗时47秒。
目前已处理40000条数据，阶段耗时48秒。
目前已处理50000条数据，阶段耗时47秒。
目前已处理60000条数据，阶段耗时50秒。
目前已处理70000条数据，阶段耗时45秒。
目前已处理80000条数据，阶段耗时46秒。
目前已处理90000条数据，阶段耗时43秒。
目前已处理100000条数据，阶段耗时43秒。
目前已处理110000条数据，阶段耗时62秒。
目前已处理120000条数据，阶段耗时48秒。
目前已处理130000条数据，阶段耗时54秒。
目前已处理140000条数据，阶段耗时52秒。
目前已处理150000条数据，阶段耗时51秒。
目前已处理160000条数据，阶段耗时50秒。
目前已处理170000条数据，阶段耗时52秒。
目前已处理180000条数据，阶段耗时53秒。
目前已处理190000条数据，阶段耗时140秒。
目前已处理200000条数据，阶段耗时189秒。
目前已处理210000条数据，阶段耗时91秒。
目前已处理220000条数据，阶段耗时81秒。
目前已处理230000条数据，阶段耗时70秒。
目前已处理240000条数据，阶段耗时76秒。
目前已处理250000条数据，阶段耗时60秒。
目前已处理260000条数据，阶段耗时73秒。
目前已处理270000条数据，阶段耗时69秒。
目前已处理280000条数据，阶段耗时66秒。
目前已处理290000条数据，阶段耗时58秒。
目前已处理300000条数据，阶段耗时60秒。
目前已处理310000条数据，阶段耗时65秒。
目前已处理320000条数据，阶段耗时67秒。
目前已处理330000条数据，阶段耗时67秒。
目前已处理340000条数据，阶段耗时70秒。
目前已处理350000条数据，阶段耗时71秒。
目前已处理360000条数据，阶段耗时75秒。
处理程序结束！
Wall time: 40min 19s


### 2. 去除非中文词

In [12]:
%%time
input_file_name = 'wiki.zh.txt'
output_file_name = 'wiki.cn.txt'
input_file = open(input_file_name, 'r', encoding='utf-8')
output_file = open(output_file_name, 'w', encoding='utf-8')

print('开始读入数据文件...')
lines = input_file.readlines()
print('读入数据文件结束！')

print('去除非中文词--程序执行开始...')
count = 1
cn_reg = '[^\u4e00-\u9fa5]+'

for line in lines:
    line = re.sub(cn_reg, "", line)
    output_file.write(line + '\n')
    count += 1
    if count % 10000 == 0:
        print(f'目前已分词{count}条数据。')
print('去除非中文词--程序执行结束！')

开始读入数据文件...
读入数据文件结束！
去除非中文词--程序执行开始...
目前已分词10000条数据。
目前已分词20000条数据。
目前已分词30000条数据。
目前已分词40000条数据。
目前已分词50000条数据。
目前已分词60000条数据。
目前已分词70000条数据。
目前已分词80000条数据。
目前已分词90000条数据。
目前已分词100000条数据。
目前已分词110000条数据。
目前已分词120000条数据。
目前已分词130000条数据。
目前已分词140000条数据。
目前已分词150000条数据。
目前已分词160000条数据。
目前已分词170000条数据。
目前已分词180000条数据。
目前已分词190000条数据。
目前已分词200000条数据。
目前已分词210000条数据。
目前已分词220000条数据。
目前已分词230000条数据。
目前已分词240000条数据。
目前已分词250000条数据。
目前已分词260000条数据。
目前已分词270000条数据。
目前已分词280000条数据。
目前已分词290000条数据。
目前已分词300000条数据。
目前已分词310000条数据。
目前已分词320000条数据。
目前已分词330000条数据。
目前已分词340000条数据。
目前已分词350000条数据。
目前已分词360000条数据。
去除非中文词--程序执行结束！
Wall time: 1min 1s


### 3. 繁体转为简体

In [15]:
%%time
input_file_name = 'wiki.cn.txt'
output_file_name = 'wiki.cn.simple.txt'
input_file = open(input_file_name, 'r', encoding='utf-8')
output_file = open(output_file_name, 'w', encoding='utf-8')

print('开始读入繁体文件...')
lines = input_file.readlines()
print('读入繁体文件结束！')

print('转换程序执行开始...')
start = time.time()
count = 1
for line in lines:
    output_file.write(zhconv.convert(line, 'zh-hans'))
    count += 1
    if count % 10000 == 0:
        end = time.time()
        print(f'目前已转换{count}条数据，阶段耗时{int(end-start)}秒。')
        start = time.time()
print('转换程序执行结束！')

开始读入繁体文件...
读入繁体文件结束！
转换程序执行开始...
目前已转换10000条数据，阶段耗时17秒。
目前已转换20000条数据，阶段耗时13秒。
目前已转换30000条数据，阶段耗时12秒。
目前已转换40000条数据，阶段耗时9秒。
目前已转换50000条数据，阶段耗时9秒。
目前已转换60000条数据，阶段耗时9秒。
目前已转换70000条数据，阶段耗时6秒。
目前已转换80000条数据，阶段耗时8秒。
目前已转换90000条数据，阶段耗时7秒。
目前已转换100000条数据，阶段耗时7秒。
目前已转换110000条数据，阶段耗时6秒。
目前已转换120000条数据，阶段耗时6秒。
目前已转换130000条数据，阶段耗时9秒。
目前已转换140000条数据，阶段耗时5秒。
目前已转换150000条数据，阶段耗时7秒。
目前已转换160000条数据，阶段耗时5秒。
目前已转换170000条数据，阶段耗时8秒。
目前已转换180000条数据，阶段耗时5秒。
目前已转换190000条数据，阶段耗时4秒。
目前已转换200000条数据，阶段耗时6秒。
目前已转换210000条数据，阶段耗时5秒。
目前已转换220000条数据，阶段耗时9秒。
目前已转换230000条数据，阶段耗时7秒。
目前已转换240000条数据，阶段耗时7秒。
目前已转换250000条数据，阶段耗时7秒。
目前已转换260000条数据，阶段耗时7秒。
目前已转换270000条数据，阶段耗时7秒。
目前已转换280000条数据，阶段耗时7秒。
目前已转换290000条数据，阶段耗时7秒。
目前已转换300000条数据，阶段耗时5秒。
目前已转换310000条数据，阶段耗时8秒。
目前已转换320000条数据，阶段耗时6秒。
目前已转换330000条数据，阶段耗时8秒。
目前已转换340000条数据，阶段耗时5秒。
目前已转换350000条数据，阶段耗时6秒。
目前已转换360000条数据，阶段耗时6秒。
转换程序执行结束！
Wall time: 4min 52s


### 4. 分词

In [2]:
input_file_name = 'wiki.cn.simple.txt'
output_file_name = 'wiki.txt'
input_file = open(input_file_name, 'r', encoding='utf-8')
output_file = open(output_file_name, 'w', encoding='utf-8')

print('开始读入数据文件...')
lines = input_file.readlines()
print('读入数据文件结束！')

print('分词程序执行开始...')
start = time.time()
count = 1
for line in lines:
    output_file.write(' '.join(jieba.cut(line)))
    count += 1
    if count % 10000 == 0:
        end = time.time()
        print(f'目前已分词{count}条数据，阶段耗时{int(end-start)}秒。')
        start = time.time()
print('分词程序执行结束！')

开始读入数据文件...


Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ZCF\AppData\Local\Temp\jieba.cache


读入数据文件结束！
分词程序执行开始...


Loading model cost 1.060 seconds.
Prefix dict has been built successfully.


目前已分词10000条数据，阶段耗时149秒。
目前已分词20000条数据，阶段耗时96秒。
目前已分词30000条数据，阶段耗时87秒。
目前已分词40000条数据，阶段耗时78秒。
目前已分词50000条数据，阶段耗时78秒。
目前已分词60000条数据，阶段耗时67秒。
目前已分词70000条数据，阶段耗时65秒。
目前已分词80000条数据，阶段耗时60秒。
目前已分词90000条数据，阶段耗时59秒。
目前已分词100000条数据，阶段耗时59秒。
目前已分词110000条数据，阶段耗时66秒。
目前已分词120000条数据，阶段耗时57秒。
目前已分词130000条数据，阶段耗时59秒。
目前已分词140000条数据，阶段耗时60秒。
目前已分词150000条数据，阶段耗时56秒。
目前已分词160000条数据，阶段耗时59秒。
目前已分词170000条数据，阶段耗时63秒。
目前已分词180000条数据，阶段耗时54秒。
目前已分词190000条数据，阶段耗时49秒。
目前已分词200000条数据，阶段耗时50秒。
目前已分词210000条数据，阶段耗时52秒。
目前已分词220000条数据，阶段耗时46秒。
目前已分词230000条数据，阶段耗时54秒。
目前已分词240000条数据，阶段耗时49秒。
目前已分词250000条数据，阶段耗时50秒。
目前已分词260000条数据，阶段耗时57秒。
目前已分词270000条数据，阶段耗时67秒。
目前已分词280000条数据，阶段耗时58秒。
目前已分词290000条数据，阶段耗时55秒。
目前已分词300000条数据，阶段耗时48秒。
目前已分词310000条数据，阶段耗时52秒。
目前已分词320000条数据，阶段耗时55秒。
目前已分词330000条数据，阶段耗时58秒。
目前已分词340000条数据，阶段耗时56秒。
目前已分词350000条数据，阶段耗时55秒。
目前已分词360000条数据，阶段耗时54秒。
分词程序执行结束！


### 5. 训练

In [4]:
%%time
input_file_name = 'wiki.txt'
model_file_name = 'wiki.model'

print('转换过程开始...')
model = Word2Vec(LineSentence(input_file_name),
                 size=400,  # 词向量长度为400
                 window=5,
                 min_count=5,
                 workers=multiprocessing.cpu_count())
print('转换过程结束！')

print('开始保存模型...')
model.save(model_file_name)
print('模型保存结束！')

转换过程开始...
转换过程结束！
开始保存模型...
模型保存结束！
Wall time: 38min 59s


In [None]:
# 加载模型
model = Word2Vec.load('./wiki.model')

In [28]:
%%time
example = "小猫"
word = model.most_similar(example)
print(f'{example} ==> \n')
for t in word:
    print(t[0],t[1])
print("- "*20)
example = "大猫"
word = model.most_similar(example)
print(f'{example} ==> \n')
for t in word:
    print(t[0],t[1])

小猫 ==> 

小狗 0.7167114019393921
猫咪 0.6655534505844116
爱犬 0.5953876972198486
兔子 0.5944821834564209
咕咕 0.594245970249176
流浪狗 0.5718818306922913
小鸡 0.571489691734314
狸猫 0.569256067276001
吉娃娃 0.5650903582572937
猫 0.5615079402923584
- - - - - - - - - - - - - - - - - - - - 
大猫 ==> 

宠物猫 0.48416590690612793
天竺鼠 0.4796520471572876
狸猫 0.466729998588562
吉娃娃 0.46487247943878174
猎狗 0.4463025629520416
小狗 0.44608205556869507
博美犬 0.44185078144073486
腊肠犬 0.44161030650138855
大型犬 0.44143423438072205
卷毛 0.44055691361427307
Wall time: 170 ms


* 国王 + 男人 = 王后 + 女人  ？ ？

In [33]:
man = '男人'
woman = '女人'
king = '国王'
queen = '王后'
word = model.most_similar(positive=[king, man],negative=[queen],topn=1)
print(f'result = {word[0][0]}')
if word[0][0]==woman:
    print('It is amazing!')

result = 女人
It is amazing!


In [11]:
%%time
print(model.doesnt_match(u'太后 妃子 贵人 贵妃 才人'.split()))
print(model.similarity(u'书籍',u'书本'))
print(model.similarity(u'逛街',u'书本'))

太后
0.616728
0.12081672
Wall time: 61.8 ms


In [13]:
help(model)

Help on Word2Vec in module gensim.models.word2vec object:

class Word2Vec(gensim.models.base_any2vec.BaseWordEmbeddingsModel)
 |  Word2Vec(sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000, compute_loss=False, callbacks=(), max_final_vocab=None)
 |  
 |  Train, use and evaluate neural networks described in https://code.google.com/p/word2vec/.
 |  
 |  Once you're finished training a model (=no more updates, only querying)
 |  store and use only the :class:`~gensim.models.keyedvectors.KeyedVectors` instance in `self.wv` to reduce memory.
 |  
 |  The model can be stored/loaded via its :meth:`~gensim.models.word2vec.Word2Vec.save` and
 |  :meth:`~gensim.models.word2vec.Word2Vec.load` methods.
 |  
 |  The trained word vectors can 