# **附录3：关于循环神经网络（Recurrent Neural Network, RNN）**

参考[这篇教程](http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/)（注：原教程代码是 python2，下面已替换为 3）

相比 NN， RNN 的关键点是对 **序列信息（sequential information)** 的使用（如 madmom 就是用 RNN 模型分析音频数据，而音乐简直就是时间的艺术）

也可以理解为 RNN 是有记忆（memory）的，即隐藏状态（hidden state），它记得前面已经完成的计算

在 NN 中，每一层激活函数的参数都是不同的，而在 RNN 中，每一层的参数都是相同的，不同的是输入在变，所以 RNN 是对序列输入重复执行相同的任务

最常用的 RNN 是 LSTM（long short-term memory），其他还有如双向循环神经网络（Bidirectional RNN）以及深度（双向）循环神经网络（Deep (Bidirectional) RNN）

&emsp;

## **使用 RNN 构建一个语言模型（Language Model）**

这个语言模型可以用来预测由数个单词构成的这个句子的概率，这样的模型可以应作评分机制，如机器翻译输出中哪一个备选句子更可能是一个合语法的真句子，或是语音识别中，哪一个句子更符合真实所说的话等。此外，这个模型其实还是一个生成性（generative）模型，也就是说可以根据前面序列中的单词预测下一个要出现的单词是什么（哪一个概率最高），可以参看[这篇博文](https://karpathy.github.io/2015/05/21/rnn-effectiveness/)。

### **训练数据与预处理**

作者选用的训练数据是美国 Reddit 网站上的 15000 条评论。

预处理过程：

1. 分词（Tokenize Text）：使用 [NLTK](https://github.com/nltk/nltk) python 库 

2. 剔除低频词

3. 预留句子开始和结束 token 

4. 创建训练数据矩阵：RNN 的输入是向量而不是字符

In [2]:
import csv
import itertools
import operator
import numpy as np
import nltk
import sys
from datetime import datetime
from utils import *

import matplotlib.pyplot as plt
%matplotlib inline

In [26]:
vocabulary_size = 8000   # 不在此列的单词都会作为低频词剔除，用 UNKNOWN_TOKEN 代替
unknown_token = "UNKNOWN_TOKEN"
sentence_start_token = "SENTENCE_START"
sentence_end_token = "SENTENCE_END"


# 读取数据，预留句子起始与结束 token
with open('data/reddit-comments-2015-08.csv','r') as f:
    reader = csv.reader(f, skipinitialspace=True)
    next(reader)
    # 将全部评论分割成句子
    sentences = itertools.chain(*[nltk.sent_tokenize(x[0].lower()) for x in reader])
    # 
    sentences = ["%s %s %s" % (sentence_start_token, x, sentence_end_token) for x in sentences]

print("切分 %d 个句子。" % (len(sentences)))


# 将句子分为词语
tokenized_sentences = [nltk.word_tokenize(sent) for sent in sentences]


# 记数词频
word_freq = nltk.FreqDist(itertools.chain(*tokenized_sentences))
print("找到 %d 个无重复词语" % word_freq.B())


# 选取最高频的词语，构建索引到词和词到索引的向量
vocab = word_freq.most_common(vocabulary_size - 1)
index_to_word = [x[0] for x in vocab]
index_to_word.append(unknown_token)
word_to_index = dict([(w,i) for i,w in enumerate(index_to_word)])

print("词汇量是 %d 个。" % vocabulary_size)
print("最低频的词语是 '%s'，出现了 %d 次。" % (vocab[-1][0], vocab[-1][-1]))


# 用 unknown_token 替换所有不在我们词汇表（8000 个）中的词语
for i, sent in enumerate(tokenized_sentences):
    tokenized_sentences[i] = [w if w in word_to_index else unknown_token for w in sent]
    
print("\n 示例句子：'%s'" % sentences[0])
print("\n 经预处理后的示例句子：'%s'" % tokenized_sentences[0])

切分 79170 个句子。
找到 63024 个无重复词语
词汇量是 8000 个。
最低频的词语是 'appointments'，出现了 10 次。

 示例句子：'SENTENCE_START i joined a new league this year and they have different scoring rules than i'm used to. SENTENCE_END'

 经预处理后的示例句子：'['SENTENCE_START', 'i', 'joined', 'a', 'new', 'league', 'this', 'year', 'and', 'they', 'have', 'different', 'scoring', 'rules', 'than', 'i', "'m", 'used', 'to', '.', 'SENTENCE_END']'


In [28]:
# 创建训练数据
X_train = np.asarray([[word_to_index[w] for w in sent[:-1]] for sent in tokenized_sentences])
y_train = np.asarray([[word_to_index[w] for w in sent[1:]] for sent in tokenized_sentences])

In [29]:
# 打印一组训练数据看看
x_example, y_example = X_train[17], y_train[17]
print("x:\n%s\n%s" % ("".join([index_to_word[x] for x in x_example]), x_example))
print("ny:\n%s\n%s" % ("".join([index_to_word[x] for x in y_example]), y_example))

x:
SENTENCE_STARTwhataren'tyouunderstandingaboutthis?!
[0, 52, 28, 17, 10, 858, 55, 26, 35, 70]
ny:
whataren'tyouunderstandingaboutthis?!SENTENCE_END
[52, 28, 17, 10, 858, 55, 26, 35, 70, 1]


&emsp;

### **构建 RNN**

**初始化**

首先定义一个 RNN 类来初始化模型参数。

不能将模型参数的初始值设为 0，应该是接近于 0 的随机值。因为初始值的设置会影响训练结果，所以这是一个值得研究的问题，不能大意，但这里也不多讲。


In [31]:
class RNNNumpy:
    
    def __init__(self, word_dim, hidden_dim=100, bptt_truncate=4):
        # word_dim 是词汇表的容量（8000），hidden_dim 是隐藏层的维度
        self.word_dim = word_dim
        self.hidden_dim = hidden_dim
        self.bptt_truncate = bptt_truncate
        
        # 参数初始化，np.random.uniform 函数内的参数分别对应最小值、最大值、矩阵形状/size
        self.U = np.random.uniform(-np.sqrt(1./word_dim), np.sqrt(1./word_dim), (hidden_dim, word_dim))
        self.V = np.random.uniform(-np.sqrt(1./hidden_dim), np.sqrt(1./hidden_dim), (word_dim, hidden_dim))
        self.W = np.random.uniform(-np.sqrt(1./hidden_dim), np.sqrt(1./hidden_dim), (hidden_dim, hidden_dim) )

&emsp;

**正向传播（Forward Propagation)**

In [35]:
def softmax(z):
    return np.exp(z)/((np.exp(z)).sum())

In [36]:
def forward_propagation(self, x):
    # 总的时间步数
    T = len(x)
    # 将正向传播过程中所有的隐藏状态保存在 s 中，并额外添加一个最开始的状态，设为 0 
    s = np.zeros((T+1, self.hidden_dim))
    s[-1] = np.zeros(self.hidden_dim)
    # 每一步的输出结果存在 o 中
    o = np.zeros((T, self.word_dim))
    for t in np.arange(T):
        s[t] = np.tanh(self.U[:,x[t]] + self.W.dot(s[t-1]))
        o[t] = softmax(self.V.dot(s[t]))
    return [o, s]

RNNNumpy.forward_propagation = forward_propagation

In [37]:
def predict(self, x):
    # 运行正向传播，返回概率值最大的输出结果
    o, s = self.forward_propagation(x)
    return np.argmax(o, axis=1)

RNNNumpy.predict = predict

In [38]:
# 拿一句话试试看，这句话共 45 个单词，针对每一个单词都有 8000 次概率预测这个位置会出现那个单词
# 不过当前概率值还是随机的

model = RNNNumpy(vocabulary_size)
o, s = model.forward_propagation(X_train[10])
print(o.shape)
print(o)

(45, 8000)
[[0.00012491 0.00012538 0.00012504 ... 0.00012525 0.00012517 0.00012563]
 [0.00012502 0.00012472 0.00012599 ... 0.00012518 0.00012481 0.0001244 ]
 [0.00012412 0.00012515 0.00012505 ... 0.00012376 0.00012535 0.00012589]
 ...
 [0.00012507 0.00012542 0.00012463 ... 0.00012505 0.00012638 0.00012574]
 [0.0001249  0.0001255  0.0001248  ... 0.00012524 0.00012543 0.00012465]
 [0.00012604 0.00012351 0.00012558 ... 0.00012528 0.00012486 0.00012469]]


In [39]:
# 返回每个位置概率值最大的单词索引值

predictions = model.predict(X_train[10])
print(predictions.shape)
print(predictions)

(45,)
[3316  997  712 5705 6713 2880 4673 1880 5305  865 3754 4258 1698 4335
 3342 7614 2216 3025  338  258 6946 2315  229 2438 2437 3262 6917 5371
 5314 5783 2536 6576  373 1109 4163 3165 4019 3115 1970  309 3669 3842
 6211  334 5626]


&emsp;

**损失函数**

In [42]:
def calculate_total_loss(self, x, y):
    L = 0
    # 针对每一句话
    for i in np.arange(len(y)):
        o, s = self.forward_propagation(x[i])
        #只关心“正确的”那个单词
        correct_word_predictions = o[np.arange(len(y[i])), y[i]]
        # 计算 loss
        L += -1*np.sum(np.log(correct_word_predictions))
    return L

def calculate_loss(self, x, y):
    # 将全部损失除以训练样本数
    N = sum((len(y_i) for y_i in y))
    return self.calculate_total_loss(x, y)/N

RNNNumpy.calculate_total_loss = calculate_total_loss
RNNNumpy.calculate_loss = calculate_loss

In [43]:
# 检查一下，根据随机预测值计算的损失值与理论预期基本吻合，所以模型可靠（样本量限制在1000，以便快速运算）
print("随机预测值的期待损失值：%f" % np.log(vocabulary_size))
print("实际损失：%f" % model.calculate_loss(X_train[:1000], y_train[:1000]))

随机预测值的期待损失值：8.987197
实际损失：8.987217
