# 自然语言建模
简单的说,语言模型的目的就是为了计算一个句子的出现概率.
在这里把句子看成是单词的序列,于是语言模型需要计算的就是**p(w1, w2, w3, ..., wm)**.
利用语言模型,可以确定那个单词序列出现的可能性大,或者给定若干个单词,预测下一个最可能出现的词语.

## 如何计算一个句子的概率?
* 首先一个句子可被看成一个单词序列
- S = (w1, w2, w3, ..., wm)
* 其中m为句子长度,那么它的概率可以表示为:
- P(S) = p(w1, w2, w3, ..., wm) = p(w1)p(w2|w1)p(w3|w1, w2)...p(wm|w1, w2, ..., w(m-1))

In [14]:
import tensorflow as tf
import reader
# 存放原始数据的路径
DATA_PATH = "../data/data_RNN_SimpleExample/"
train_data, valid_data, test_data, _ = reader.ptb_raw_data(DATA_PATH)
len(train_data)

929589

** 从github上下载了tensorflow的models模块,复制models下的reader.py到此文件的同级目录**

In [32]:
train_data[:10]

[9970, 9971, 9972, 9974, 9975, 9976, 9980, 9981, 9982, 9983]

* 从输出中可以看到训练数据中总共包含了929589个单词,而这些单词被组成了一个非常长的序列
* 这个序列通过特殊的标识符给出了每句话结束的位置,在这个数据集中,句子结束的标识符id为2

**虽然循环神经网络可以接受任意长度的序列,但是在训练时需要将序列按照某个固定的长度来截断.**

In [35]:
# 将训练数据组织成batch大小为4,截断长度为5的数据组
result = reader.ptb_producer(train_data, 4, 5)
with tf.Session() as sess:
    tf.global_variables_initializer().run()

    # 开启多线程
    coord = tf.train.Coordinator()
    threads = tf.train.start_queue_runners(coord=coord)

    # 读取前两个batch，其中包括每个时刻的输入和对应的答案，ptb_producer()会自动迭代
    for i in range(2):
        x, y = sess.run(batch)
        print('x:', x)
        print('y:', y)

    # 关闭多线程
    coord.request_stop()
    coord.join(threads)

x: [[9970 9971 9972 9974 9975]
 [ 332 7147  328 1452 8595]
 [1969    0   98   89 2254]
 [   3    3    2   14   24]]
y: [[9971 9972 9974 9975 9976]
 [7147  328 1452 8595   59]
 [   0   98   89 2254    0]
 [   3    2   14   24  198]]
x: [[9976 9980 9981 9982 9983]
 [  59 1569  105 2231    1]
 [   0  312 1641    4 1063]
 [ 198  150 2262   10    0]]
y: [[9980 9981 9982 9983 9984]
 [1569  105 2231    1  895]
 [ 312 1641    4 1063    8]
 [ 150 2262   10    0  507]]


In [37]:
import numpy as np 
import tensorflow as tf
import reader

In [40]:
DATA_PATH = "../data/data_RNN_SimpleExample/"
HIDDEN_SIZE = 200
NUM_LAYERS = 2         # 深层循环神经网络中LSTM结构的层数
VOCAB_SIZE = 10000     # 词典规模,加上语句结束标识符和稀有单词标识符总共10000单词.
LEARNING_RATE =  1.0
TRAIN_BATCH_SIZE = 20  # 训练数据batch的大小
TRAIN_NUM_STEP = 35    # 训练数据截断长度

# 在测试时不需要使用截断,所以可以将测试数据看成一个超长的序列
EVAL_BATCH_SIZE = 1
EVAL_NUM_STEP = 1
NUM_EPOCH = 2
KEEP_PROB = 0.5
MAX_GRAD_NORM = 5

In [None]:
# 通过一个PTBModel类来描述模型,这样方便维护循环神经网络中的状态
class PTBModel(object):
    def __init__(self, is_training, batch_size)