## 作业4

请根据这个基本的框架程序进行扩展，使用你的语料库进行训练。并完成 3 个名词各自最相近的 Top 10 个词的检索

In [1]:
%matplotlib inline
from collections import Counter
import jieba
import jieba.posseg as pseg
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
print(tf.__version__)

1.0.1


### 定义参数

In [2]:
# 决定了 embedding 的维度 （隐层节点数）
word_embedding_dim = 50
# 决定了词表数量, 预留一个未登录词
vocab_size = 5000 + 1
UNK_IDX = 0

### 定义变量

In [3]:
word_embedding = tf.Variable(tf.random_uniform([vocab_size, word_embedding_dim]))
input_data = tf.placeholder(tf.int32, shape=[None, 2], name='input_data')
input_embeds = tf.nn.embedding_lookup(word_embedding, input_data)

In [34]:
input_data

<tf.Tensor 'input_data:0' shape=(?, 2) dtype=int32>

In [35]:
input_embeds

<tf.Tensor 'embedding_lookup:0' shape=(?, 2, 50) dtype=float32>

### 词向量相加

In [4]:
context_embeds = tf.reduce_sum(input_embeds, axis=1)

In [5]:
context_embeds

<tf.Tensor 'Sum:0' shape=(?, 50) dtype=float32>

### 映射到 N 个词的概率分布

In [6]:
# raw_output 是一个 vocab_size 维的数据，对比 labels 计算 cost
# 假设输入一组（也就是 两个词），输出因为词向量相加过了，所以就是一个词的词向量：one-hot？
raw_output = tf.layers.dense(context_embeds, vocab_size)
# 如果输入一组，输出的 softmax 是预测的 one-hot 的概率分布？最可能的那个输出词概率最大？
output = tf.nn.softmax(raw_output)

In [7]:
raw_output

<tf.Tensor 'dense/BiasAdd:0' shape=(?, 5001) dtype=float32>

In [8]:
output

<tf.Tensor 'Softmax:0' shape=(?, 5001) dtype=float32>

### cost

In [9]:
# 样本的 labels 也需要用 placeholder 放置
labels = tf.placeholder(tf.int32, shape=[None], name='labels')

# 因为我们每个样本的 label 只有一个，使用稠密的 softmax 算 cost 及求导太浪费了。这里使用 sparse 版本即可。
# 如果你的 label 是完整的 N 个词上的概率分布，这时候可以使用 tf.nn.softmax_cross_entropy_with_logits
cost = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=raw_output, labels=labels)

### 读取语料，生成训练数据

In [10]:
line_no = 0
words = []
with open('../AssisantEvaluate/xiyouji.txt', 'r') as f:
    for line in f.readlines():
        line_no += 1
        if line_no > 1000:
            break
        word = pseg.cut(line.strip().decode('utf-8')) # 去掉末尾的 '\n'
        for w,f in word:
            if f == 'x':
                continue
            words.append(w)

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 2.013 seconds.
Prefix dict has been built succesfully.


In [11]:
len(words)

12951

In [12]:
# 统计词频
word_cnt = Counter(words)

In [13]:
len(word_cnt)

4271

In [14]:
# 高频截断
vocab = [i[0] for i in word_cnt.most_common(vocab_size - 1)]

In [17]:
vocab2 = [i for i in word_cnt.most_common(vocab_size - 1)]

In [19]:
# 插入未登录词
vocab.insert(UNK_IDX, 'UNK')

In [20]:
len(vocab)

4272

In [21]:
# 映射 id
word_ids = [vocab.index(word) if (word in vocab) else 0 for word in words]

In [22]:
len(word_ids)

12951

In [23]:
# 生成训练数据
inputs_train = np.asarray([[word_ids[i-1], word_ids[i+1]] for i in range(1, len(word_ids) - 1)])
labels_train = np.asarray(word_ids[1:-1])

In [24]:
inputs_train.shape

(12949, 2)

In [25]:
labels_train.shape

(12949,)

### 训练模型

In [40]:
train_step = tf.train.GradientDescentOptimizer(0.0002).minimize(cost)
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    dummy_feed_dict = {input_data: inputs_train,
                       labels: labels_train}
    for i in range(10):
        sess.run(train_step, feed_dict=dummy_feed_dict)
        if i % 2 == 0:
            print("Iteration %d" % i)
            
            # cost 情况
            cost_array = cost.eval(feed_dict=dummy_feed_dict)
            print("Cost 矩阵：")
            print(cost_array)
            print("Cost 矩阵 shape：")
            print(cost_array.shape)
            print('---')
            
            # Output 情况
            output_array = output.eval(feed_dict=dummy_feed_dict)
            print("Output 矩阵：")
            print(output_array)
            print("Output 矩阵 shape：")
            print(output_array.shape)
            print(output_array[0].shape)
            print('---')
            
            # 查看输出中 ID == 30 的概率            
            print("Probability: %f" % output_array[0, 30])
            print("------")
            # 词向量是 context_embeds 吗？
            allwords_embedding = context_embeds.eval(feed_dict=dummy_feed_dict)
            raw_outputs = raw_output.eval(feed_dict=dummy_feed_dict)

Iteration 0
Cost 矩阵：
[ 8.46947861  8.70240974  8.51500702 ...,  8.52219391  8.53361893
  8.62042809]
Cost 矩阵 shape：
(12949,)
---
Output 矩阵：
[[ 0.00016214  0.00499354  0.00403204 ...,  0.00017288  0.00022578
   0.0001712 ]
 [ 0.00018793  0.00441139  0.00302746 ...,  0.0001844   0.0002285
   0.00017684]
 [ 0.0001844   0.00637549  0.00454337 ...,  0.00018741  0.00020938
   0.00016976]
 ..., 
 [ 0.0001875   0.00328416  0.00245423 ...,  0.000186    0.00021589
   0.00017929]
 [ 0.00019016  0.00389575  0.00285878 ...,  0.00019536  0.00018857
   0.0001966 ]
 [ 0.00020657  0.00282421  0.00207521 ...,  0.00017948  0.00023854
   0.00016293]]
Output 矩阵 shape：
(12949, 5001)
(5001,)
---
Probability: 0.000351
------
Iteration 2
Cost 矩阵：
[ 8.70068836  8.87510777  8.79085541 ...,  8.6526823   8.56001854
  8.56023788]
Cost 矩阵 shape：
(12949,)
---
Output 矩阵：
[[ 0.00012594  0.00333472  0.01460561 ...,  0.00013431  0.0001739
   0.00013341]
 [ 0.00015351  0.00301888  0.01059209 ...,  0.00015065  0.00018517
 

### 计算近义词

In [44]:
def sim_words(word, top_k=10):
    
    a = allwords_embedding
    id_ = vocab.index(word.decode('utf-8'))
    
    len_array = np.diag(a.dot(a.T)) ** 0.5
    cos_array = a.dot(a[id_]) / len_array
    cos_dict = dict(zip(cos_array, words[1:-1]))
    sort_cos_dict = sorted(cos_dict.items(), key=lambda x: x[0], reverse=True)
    
    
    return sort_cos_dict#[0:top_k]

In [46]:
len(result)

11250

In [45]:
result = sim_words('三藏')
for k,v in result[0:10]:
    print k,v

7.07938 大道
6.63646 人生
6.62324 至此
6.6072 苔藓
6.58557 独角
6.55789 再
6.55259 方法
6.53961 会
6.53853 怎么
6.53549 起伏


In [32]:
for w,c in vocab2[0:30]:
    print("%s %d" % (w, c))

道 299
了 273
我 265
他 215
的 213
你 207
那 160
是 146
三藏 139
行者 117
有 115
去 95
这 92
又 92
来 90
也 84
在 83
不 76
师父 70
见 65
得 65
就 53
与 53
着 51
个 50
一 49
菩萨 46
说 45
却 45
上 43
