# 使用TensorFlow训练词向量

In [42]:
# 引入Python包，__future__ 包是为了扩展Python当前版本对代码的兼容性
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

In [43]:
# 引入我们需要使用的包
import collections
import math
import random
import jieba
import numpy as np
from six.moves import xrange
import tensorflow as tf
import pickle

## 词向量的训练步骤

词向量的训练步骤主要分为六个步骤

### 第一步：文本预处理函数

In [44]:
def read_data():
    #定义好需要处理的文件路径
    train_data_path = 'train_data/word/all_review.txt'
    stopwords_path = 'train_data/word/stopwords.txt'

    # 定义一个空数组，用来存放停用词
    stopwords = []

    #读取stopwords.txt中的所有内容
    fopen = open(stopwords_path, "r")
    # 读取文件中的每一行数据
    for line in fopen.readlines():
        stopwords.append(line.strip())
    #关闭文档
    fopen.close()
    print('共{n}个停用词'.format(n=len(stopwords)))

    #读取训练的语料

    train_data = []  # 存放读取出来的训练语料

    data_open = open(train_data_path, "r")
    line = data_open.readline()
    while line:
        while '\n' in line:
            line = line.replace('\n', '')
        while ' ' in line:
            line = line.replace(' ', '')
        if len(line) > 0:  # 如果句子长度大于0，也就是句子不为空
            datawords = list(jieba.cut(line, cut_all=False))
            # 去除停用词,new_datawords存放每一行去除停用词之后的文本
            new_datawords=[]
            for word in datawords:
                if word not in stopwords:
                    new_datawords.append(word)
                else:
                    pass
            train_data.extend(new_datawords)
        line = data_open.readline()
    # 关闭文档
    data_open.close()
    print('一共分词{n}个'.format(n=len(train_data)))
    return train_data

#### 获取预处理好的文本

In [45]:
train_data = read_data()

共508个停用词
一共分词1373204个


## 第二步：建立词典，将比较少出现的词汇用UNK代替

#### 首先我们需要设置这个词典的词汇量的大小

In [46]:
vocabulary_size = 40000 # 设置词汇量的大小

In [47]:
def construct_trainset(traindata):
    count = [['UNK', -1]]

    count.extend(collections.Counter(traindata).most_common(vocabulary_size - 1))
    # count得到的格式为：[['UNK', -1], ('学习', 22596), ('我', 21683), ('老师', 17704), ('课程', 17268)]
    print("count", len(count))

    dictionary = dict() # 定义一个字典,格式为：{'UNK': 0, '看书': 1, '学习': 2, '我': 3, '老师': 4, '课程': 5}

    for word, _ in count:
        dictionary[word] = len(dictionary)

    data_index = list()
    unk_count = 0
    for word in traindata:
        if word in dictionary:
            #找出traindata中的词在dictionary这个排好序号的字典中的索引，
            index = dictionary[word]
        else:
            index = 0
            unk_count += 1
        # 把索引号存放在data_index中
        data_index.append(index)

    count[0][1] = unk_count
    # dictionary字典中的值和keys调换顺序
    reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))
    # print('reverse_dictionary',reverse_dictionary)
    return data_index, count, dictionary, reverse_dictionary

### 获取词典

In [48]:
data, count, dictionary, reverse_dictionary=construct_trainset(train_data)

count 40000


### 将词典存储为pkl文件

In [49]:
output1 = open('model/dictionary.pkl', 'wb')

output2 = open('model/reverse_dictionary.pkl', 'wb')

pickle.dump(dictionary, output1)
pickle.dump(reverse_dictionary, output2)

In [50]:
#删除train_data节省内存
del train_data

### 查看训练数据中频率出现最多的词

In [51]:
print('Most common words (+UNK)', count[:5])

Most common words (+UNK) [['UNK', 8062], ('学习', 22596), ('老师', 17704), ('课程', 17268), ('很', 16089)]


## 第三步：构建训练函数，生成Word2Vec的训练样本，使用skip-gram模式

### 参数解释

- batch_size: 每个训练批次的数据量
- num_skips: 每个单词生成的样本数量，不能超过skip_window的两倍，并且必须是batch_size的整数倍
- skip_window: 单词最远可以联系的距离，设置为1则表示当前单词只考虑前后两个单词之间的关系，也称为滑窗的大小

In [52]:
data_index = 0
def generate_batch(batch_size, num_skips, skip_window):
    global data_index #声明为全局变量，方便后期多次使用
     #使用Python中的断言函数，提前对输入的参数进行判别，防止后期出bug而难以寻找原因
    assert batch_size % num_skips == 0
    assert num_skips <= 2 * skip_window
    #创建一个batch_size大小的数组，数据类型为int32类型，数值随机
    batch = np.ndarray(shape=(batch_size), dtype=np.int32)
    #数据维度为[batch_size,1]
    labels = np.ndarray(shape=(batch_size, 1), dtype=np.int32)
    #入队的长度
    span = 2 * skip_window + 1  # [ skip_window target skip_window ]
    #创建双向队列。最大长度为span
    buffer = collections.deque(maxlen=span)
    #对双向队列填入初始值
    for _ in range(span):
        buffer.append(data[data_index])
        data_index = (data_index + 1) % len(data)
    
    #进入第一层循环，i表示第几次入双向队列
    for i in range(batch_size // num_skips):
        target = skip_window  # 定义buffer中第skip_window个单词是目标
        
        #定义生成样本时需要避免的单词，因为我们要预测的是语境单词，不包括目标单词本身，因此列表开始包括第skip_window个单词
        targets_to_avoid = [skip_window]
        for j in range(num_skips):
            while target in targets_to_avoid:
                target = random.randint(0, span - 1)
            #因为该语境单词已经被使用过了，因此将其添加到需要避免的单词库中
            targets_to_avoid.append(target)
            batch[i * num_skips + j] = buffer[skip_window] #目标词汇
            labels[i * num_skips + j, 0] = buffer[target] #语境词汇
        #此时buffer已经填满，后续的数据会覆盖掉前面的数据
        buffer.append(data[data_index])
        data_index = (data_index + 1) % len(data)
    return batch, labels # return:返回每个批次的样本以及对应的标签

### 获取每个批次的样本以及对应的标签

In [53]:
batch, labels = generate_batch(batch_size=8, num_skips=2, skip_window=1)

In [54]:
for i in range(8):
    print("目标单词："+reverse_dictionary[batch[i]]+"对应编号为：".center(20)+str(batch[i])+"   对应的语境单词为: ".ljust(20)+reverse_dictionary[labels[i,0]]+"    编号为",labels[i,0])


目标单词：开       对应编号为：       804   对应的语境单词为:        ﻿    编号为 24781
目标单词：开       对应编号为：       804   对应的语境单词为:        一门    编号为 118
目标单词：一门       对应编号为：       118   对应的语境单词为:        开    编号为 804
目标单词：一门       对应编号为：       118   对应的语境单词为:        进阶    编号为 3537
目标单词：进阶       对应编号为：       3537   对应的语境单词为:        一门    编号为 118
目标单词：进阶       对应编号为：       3537   对应的语境单词为:        版    编号为 704
目标单词：版       对应编号为：       704   对应的语境单词为:        进阶    编号为 3537
目标单词：版       对应编号为：       704   对应的语境单词为:        课程    编号为 3


## 第四步：构建训练模型

### 定义训练参数

In [55]:
batch_size = 128 #训练样本的批次大小
embedding_size = 128 #单词转化为词向量的维度
skip_window = 5 #单词可以联系到的最远距离
num_skips = 2 #每个目标单词提取的样本数


### 定义模型验证的参数

In [56]:
valid_size = 2      #验证的单词数，切记这个数字要和len(valid_word)对应，要不然会报错哦
valid_window = 100  #  #指验证单词只从频数最高的前100个单词中进行抽取
num_sampled = 64    # 训练时用来做负样本的噪声单词的数量


### 设置验证集

In [57]:
valid_word = ['课程','教学']
valid_examples =[dictionary[li] for li in valid_word]

### 开始定义Skip-Gram Word2Vec模型的网络结构

#### 创建一个graph作为默认的计算图，同时为输入数据和标签申请占位符，并将验证样例的随机数保存成TensorFlow的常数

In [58]:
graph = tf.Graph()
with graph.as_default():
    train_inputs = tf.placeholder(tf.int32, shape=[batch_size])
    train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])
    valid_dataset = tf.constant(valid_examples, dtype=tf.int32)
    #选择运行的device为CPU
    with tf.device('/cpu:0'):
        
        # tf.Variable生成随机数，tf.random_uniform平均分布，#单词大小为40000，向量维度为128，随机采样在（-1，1）之间的浮点数
        embeddings = tf.Variable(
            tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))
         #使用tf.nn.embedding_lookup()函数查找train_inputs对应的向量embed
        embed = tf.nn.embedding_lookup(embeddings, train_inputs)
        
         #优化目标选择NCE loss
        #使用截断正太函数初始化NCE损失的权重,偏重初始化为0
        nce_weights = tf.Variable(
            tf.truncated_normal([vocabulary_size, embedding_size],
                                stddev=1.0 / math.sqrt(embedding_size)))
        nce_biases = tf.Variable(tf.zeros([vocabulary_size]),dtype=tf.float32)     
        
        #计算学习出的embedding在训练数据集上的loss，并使用tf.reduce_mean()函数进行汇总
        loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce_weights,
                                         biases=nce_biases,
                                         inputs=embed,
                                         labels=train_labels,
                                         num_sampled=num_sampled,
                                         num_classes=vocabulary_size))
        
        #  #定义优化器为SGD，且学习率设置为1.0.然后计算嵌入向量embeddings的L2范数norm，并计算出标准化后的normalized_embeddings
        optimizer = tf.train.GradientDescentOptimizer(1.0).minimize(loss)
        norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims=True))
        normalized_embeddings = embeddings / norm
        valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings, valid_dataset)
         #计算验证单词的嵌入向量与词汇表中所有单词的相似性
        similarity = tf.matmul(valid_embeddings, normalized_embeddings, transpose_b=True)
        #定义参数的初始化
        init = tf.global_variables_initializer()
        
        # 保存参数
        saver = tf.train.Saver()
        

## 第五步：开始训练

In [59]:
num_steps = 100000 #迭代训练次数

### 创建一个会话

In [60]:
with tf.Session(graph=graph) as session:
    init.run()
    print("初始化完成")
    average_loss = 0 #计算误差
    for step in xrange(num_steps):
        batch_inputs, batch_labels = generate_batch(batch_size, num_skips, skip_window) #调用生成训练数据函数生成一组batch和label
        feed_dict = {train_inputs: batch_inputs, train_labels: batch_labels} #待填充的数据

        #启动回话，运行优化器optimizer和损失计算函数，并填充数据
        optimizer_trained, loss_val = session.run([optimizer, loss], feed_dict=feed_dict)
        
        #统计NCE损失
        average_loss += loss_val
        
        #为了方便查看训练过程，每2000次计算一下损失并显示出来
        if step % 2000 == 0:
            if step > 0:
                average_loss /= 2000
            # The average loss is an estimate of the loss over the last 2000 batches.
            print("第{}轮迭代后的损失为：{}".format(step,average_loss))
            average_loss = 0

        #每10000次迭代，计算一次验证单词与全部词的相似度，并将于验证单词最相似的前8个词
        if step % 10000 == 0:
            sim = similarity.eval() #计算向量
            for i in xrange(valid_size):
                valid_word = reverse_dictionary[valid_examples[i]]  #得到对应的验证词
                top_k = 8  # number of nearest neighbors
                nearest = (-sim[i, :]).argsort()[:top_k] #计算每一个验证单词相似度最接近的前8个词
                log_str = "与单词 {} 最相似的： ".format(str(valid_word))
                for k in xrange(top_k):
                    close_word = reverse_dictionary[nearest[k]]  #相似度高的词
                    log_str = "%s %s," % (log_str, close_word)
                print(log_str)
    final_embeddings = normalized_embeddings.eval()
    # 保存训练好的模型
    saver.save(session, "model/my-model")

初始化完成
第0轮迭代后的损失为：247.09677124023438
与单词 课程 最相似的：  课程, 套进去, 太短, 局外人, 赞赞, 脱离实际, 苏菲, 不减,
与单词 教学 最相似的：  教学, 资治通鉴, 艺术修养, 娃子, 重新整理, 口诀, theybecomeaburdentous, 3dmax,
第2000轮迭代后的损失为：105.8302780828476
第4000轮迭代后的损失为：44.89962465238571
第6000轮迭代后的损失为：29.547050262451172
第8000轮迭代后的损失为：19.13878569817543
第10000轮迭代后的损失为：13.26428614282608
与单词 课程 最相似的：  课程, 急急, 发发, 课, 发送到, ２, 学习, ★,
与单词 教学 最相似的：  教学, 急急, 发发, ★, 发送到, 亿, 课程, 资治通鉴,
第12000轮迭代后的损失为：11.292211020946503
第14000轮迭代后的损失为：8.032667596101762
第16000轮迭代后的损失为：7.427209845066071
第18000轮迭代后的损失为：6.662233720302582
第20000轮迭代后的损失为：8.250693349957466
与单词 课程 最相似的：  课程, 课, 小手, 急急, 学习, 很, 教学, 发发,
与单词 教学 最相似的：  教学, 急急, 课程, 学习, 小手, 发发, ★, 亿,
第22000轮迭代后的损失为：7.368925020650029
第24000轮迭代后的损失为：6.93391961979866
第26000轮迭代后的损失为：6.267407975196838
第28000轮迭代后的损失为：5.832287271380425
第30000轮迭代后的损失为：5.283919135928154
与单词 课程 最相似的：  课程, 课, 学习, 急急, 小手, 教学, 这门, 很,
与单词 教学 最相似的：  教学, 课程, 急急, 学习, 小手, 发发, ★, 教育,
第32000轮迭代后的损失为：5.136579441308975
第34000轮迭代后的损失为：5.131040546178817
第36000轮迭代后的损失为

### 第六步：词向量可视化

In [40]:
def plot_with_labels(low_dim_embs, labels, filename='images/tsne.png', fonts=None):
    assert low_dim_embs.shape[0] >= len(labels), "标签数超过了嵌入向量的个数！"
    plt.figure(figsize=(18, 18))  # in inches
    for i, label in enumerate(labels):
        x, y = low_dim_embs[i, :]
        plt.scatter(x, y)
        plt.annotate(label,
                     fontproperties=fonts,
                     xy=(x, y),
                     xytext=(5, 2),
                     textcoords='offset points',
                     ha='right',
                     va='bottom')

    plt.savefig(filename, dpi=800)

In [41]:
try:
    from sklearn.manifold import TSNE
    import matplotlib.pyplot as plt
    from matplotlib.font_manager import FontProperties

    # 为了在图片上能显示出中文
    font = FontProperties(fname=r"train_data/simsun/simsun.ttc", size=14)

    tsne = TSNE(perplexity=30, n_components=2, init='pca', n_iter=5000)
    plot_only = 500 # 取500个词打印
    low_dim_embs = tsne.fit_transform(final_embeddings[:plot_only, :])
    labels = [reverse_dictionary[i] for i in xrange(plot_only)]
    plot_with_labels(low_dim_embs, labels, fonts=font)

except ImportError:
    print("Please install sklearn, matplotlib, and scipy to visualize embeddings.")