# 词向量模型训练
本研究采用 中文宾州树 词性标注数据集构建词向量模型。请各位同学综合使用训练脚本中的预处理步骤，结合中文停用词词表，构建一个质量更高的中文词向量模型，并对比其中词的相似度，查询词的相似词，以及输出词的词向量进行测试。

## 训练word2vec的数据集读取

In [2]:
from gensim.models import Word2Vec
import pandas as pd

data = pd.read_csv('./data/ctb5.1_pos_train.tsv', sep='\t', header=None)

# 取出文本部分
content = data[0]

# 将文本部分转化为列表格式
content_list = content.tolist()
print("文本总词数为：", len(content_list))
print(content_list[:20])

文本总词数为： 493691
['上海', '浦东', '开发', '与', '法制', '建设', '同步', '新华社', '上海', '二月', '十日', '电', '（', '记者', '谢金虎', '、', '张持坚', '）', '上海', '浦东']


## 停用词表读取

In [3]:
# 读取停用词表
with open('./data/stopwords/baidu_stopwords.txt', 'r', encoding='utf-8') as f:
    stopwords = f.readlines()
    stopwords =[word.replace('\n', '') for word in stopwords]
    print(stopwords[:5])

['--', '?', '“', '”', '》']


In [7]:
# 去掉停用词
filtered_content = [w for w in content_list if not w in stopwords]

print(filtered_content[:20], len(filtered_content))

['上海', '浦东', '开发', '法制', '建设', '同步', '新华社', '上海', '二月', '十日', '电', '（', '记者', '谢金虎', '、', '张持坚', '）', '上海', '浦东', '近年'] 361903


## 使用CBOW训练模型

In [8]:
filtered_content = [filtered_content]

model = Word2Vec(filtered_content, size=100, window=3, 
                 min_count=1, workers=4, sg=0)

## 使用余弦距离计算，取出与目标词最相似的前n个词

In [9]:
model.most_similar('增长', topn=10)

  """Entry point for launching an IPython kernel.


[('，', 0.977546751499176),
 ('中国', 0.9759781360626221),
 ('经济', 0.9754443168640137),
 ('。', 0.9727919101715088),
 ('美元', 0.9705412983894348),
 ('企业', 0.9691895246505737),
 ('发展', 0.964545488357544),
 ('已', 0.9636561274528503),
 ('、', 0.9635355472564697),
 ('投资', 0.9633230566978455)]

## 比较两个词的相似度

In [10]:
model.similarity("上海", "开发区")

  """Entry point for launching an IPython kernel.


0.83228266

## 存储模型

In [11]:
model.save("./data/w2v_filtered")

In [12]:
print(model['开发'])

[ 1.76969059e-02  2.13950239e-02 -4.31284029e-03  2.21407861e-02
  1.15016161e-03  7.56588206e-03 -3.41478945e-03  7.49544054e-03
  6.24884706e-05  1.29936896e-02 -8.54469091e-03 -7.53878290e-03
  2.76276522e-04  4.75815643e-04  1.57149676e-02 -9.81380790e-03
 -3.20120738e-03 -3.94775579e-03 -2.63233576e-03 -8.20463244e-03
  6.28957665e-03 -1.84687888e-05  1.14577319e-02  1.30312270e-04
  5.26027288e-03 -1.30014103e-02 -1.07022030e-02 -3.66522698e-04
  1.74695312e-03  1.13246753e-03 -1.64797850e-04  5.36111416e-03
  1.59822125e-03  9.92304832e-03  1.55754397e-02  1.61093622e-02
  1.07395584e-02  4.49602026e-03  2.01776600e-03 -4.39551938e-03
  8.95472337e-03 -1.55029949e-02  5.25941467e-03 -1.80926849e-03
 -1.40972957e-02  1.97693873e-02 -9.28190164e-03 -1.75679699e-02
 -7.08652288e-03  7.05111958e-03 -1.33670168e-02 -8.57312698e-03
 -4.98532504e-03 -2.16139597e-03  3.10194353e-03 -4.41076700e-03
 -8.73010047e-03  3.03820544e-03  1.21869026e-02  3.77184851e-03
  9.14199371e-03  3.79899

  """Entry point for launching an IPython kernel.
