In [12]:
%matplotlib inline
from collections import Counter
import jieba
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
print(tf.__version__)

1.0.1


### 定义参数

In [3]:
tf.reset_default_graph()

In [4]:
# 决定了 embedding 的维度 （隐层节点数）
word_embedding_dim = 30
# 决定了词表数量, 预留一个未登录词
vocab_size = 400 + 1
UNK_IDX = 0

### 定义变量

In [5]:
word_embedding = tf.Variable(tf.random_uniform([vocab_size, word_embedding_dim]))
input_data = tf.placeholder(tf.int32, shape=[None, 2], name='input_data')
input_embeds = tf.nn.embedding_lookup(word_embedding, input_data)

### 词向量相加

In [6]:
context_embeds = tf.reduce_sum(input_embeds, axis=1)

### 映射到 N 个词的概率分布

In [7]:
# raw_output 是一个 vocab_size 维的数据，对比 labels 计算 cost
# 假设输入一组（也就是 两个词），输出因为词向量相加过了，所以就是一个词的词向量：one-hot？
raw_output = tf.layers.dense(context_embeds, vocab_size)
# 如果输入一组，输出的 softmax 是预测的 one-hot 的概率分布？最可能的那个输出词概率最大？
output = tf.nn.softmax(raw_output)

### cost

In [8]:
# 样本的 labels 也需要用 placeholder 放置
labels = tf.placeholder(tf.int32, shape=[None], name='labels')

# 因为我们每个样本的 label 只有一个，使用稠密的 softmax 算 cost 及求导太浪费了。这里使用 sparse 版本即可。
# 如果你的 label 是完整的 N 个词上的概率分布，这时候可以使用 tf.nn.softmax_cross_entropy_with_logits
cost = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=raw_output, labels=labels)

In [43]:
# 记录器记录 cost
# scalar 标量，只能是一个值
# 实际 run 时才会记录
cost_summary = tf.summary.scalar('cost', cost[0])

# mearge 会自动收集 graph 上所有 summary 操作
merged = tf.summary.merge_all()

### 读取语料，生成训练数据

In [13]:
import jieba
import jieba.posseg as pseg
line_no = 0
words = []
with open('../AssisantEvaluate/xiyouji.txt', 'r') as f:
    for line in f.readlines():
        line_no += 1
        if line_no > 500:
            break
        word = pseg.cut(line.strip().decode('utf-8')) # 去掉末尾的 '\n'
        for w,f in word:
            if f == 'x':
                continue
            words.append(w)

In [14]:
# 统计词频
word_cnt = Counter(words)

In [16]:
# 高频截断
vocab = [i[0] for i in word_cnt.most_common(vocab_size - 1)]

In [17]:
# 插入未登录词
vocab.insert(UNK_IDX, 'UNK')

In [18]:
len(vocab)

401

In [19]:
# 映射 id
word_ids = [vocab.index(word) if (word in vocab) else 0
            for word in words]

In [21]:
# 生成训练数据
inputs_train = np.asarray(
                [[word_ids[i-1], word_ids[i+1]] for i in range(1, len(word_ids) - 1)])
labels_train = np.asarray(word_ids[1:-1])

In [22]:
inputs_train.shape

(6152, 2)

In [23]:
labels_train.shape

(6152,)

### 训练模型

In [46]:
train_step = tf.train.GradientDescentOptimizer(0.0002).minimize(cost)
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    dummy_feed_dict = {input_data: inputs_train,
                       labels: labels_train}
    for i in range(10):
        #sess.run(train_step, feed_dict=dummy_feed_dict)
        _, cost_summary_run = sess.run([train_step, cost_summary], feed_dict=dummy_feed_dict)
        writer.add_summary(cost_summary_run, i)
        if i % 2 == 0:
            print("Iteration %d" % i)
            
            # cost 情况
            cost_array = cost.eval(feed_dict=dummy_feed_dict)
            print("Cost 矩阵：")
            print(cost_array)
            print("Cost 矩阵 shape：")
            print(cost_array.shape)
            print('---')
            
            # Output 情况
            output_array = output.eval(feed_dict=dummy_feed_dict)
            print("Output 矩阵：")
            print(output_array)
            print("Output 矩阵 shape：")
            print(output_array.shape)
            print(output_array[0].shape)
            print('---')
            
            # 查看输出中 ID == 30 的概率            
            print("Probability: %f" % output_array[0, 30])
            print("------")
            # 词向量是 context_embeds 吗？
            allwords_embedding = context_embeds.eval(feed_dict=dummy_feed_dict)
            raw_outputs = raw_output.eval(feed_dict=dummy_feed_dict)

Iteration 0
Cost 矩阵：
[  2.38418306e-06   2.38418306e-06   2.38418306e-06 ...,   1.59696875e+01
   1.68130569e+01   4.89938175e-05]
Cost 矩阵 shape：
(6152,)
---
Output 矩阵：
[[  9.99997616e-01   8.77733797e-09   2.72109126e-08 ...,   3.30780847e-09
    9.76009318e-09   4.16823553e-09]
 [  9.99997616e-01   8.77733797e-09   2.72109126e-08 ...,   3.30780847e-09
    9.76009318e-09   4.16823553e-09]
 [  9.99997616e-01   8.77733797e-09   2.72109126e-08 ...,   3.30780847e-09
    9.76009318e-09   4.16823553e-09]
 ..., 
 [  9.99949932e-01   1.42101385e-07   3.94511545e-07 ...,   7.75119489e-08
    1.17301809e-07   8.61246789e-08]
 [  9.99992013e-01   3.64212589e-08   9.25997838e-08 ...,   1.29983695e-08
    3.77883467e-08   1.65706524e-08]
 [  9.99951005e-01   1.26544151e-07   3.05970786e-07 ...,   7.12542345e-08
    1.22577703e-07   7.54645910e-08]]
Output 矩阵 shape：
(6152, 401)
(401,)
---
Probability: 0.000000
------
Iteration 2
Cost 矩阵：
[ 2.01480889  2.01480889  2.01480889 ...,  7.64883137  6.3021

In [47]:
tf.summary.FileWriter("./tf_log", graph=tf.get_default_graph())

<tensorflow.python.summary.writer.writer.FileWriter at 0x7f89c45951d0>