CNN网络不能很好的处理可变长度的文本，若文本超过网络宽度，网络就无法处理文本超出的部分。  
前馈神经网络的主要优点是能够将数据样本作为整体与其关联标签之间的关系进行建模。  

# 循环网络的记忆功能
循环神经网络（Recurrent neural net，RNN）使神经网络能够记住句子中出现过的词。  
RNN的特性为在隐藏层中的单个循环神经元增加了一个循环回路使t时刻隐藏层的输出重新输入隐藏层中，t时刻的输出会作为t+1时刻的输入，以此类推。  
序列中的第一个输入没有“过去”，因此t=0时刻的隐藏状态从其t-1时刻接收输入为0。填充初始状态值的另一种方法是，首先将相关但分开的样本一个接一个的传递到网络中，然后每个样本最终输出用于下一个样本t=0时刻的输入。  

## 随时间反向传播算法
误差（error）：最后一个时刻网络的输出与标签之间的比较。  
在RNN中，使用链式法则反向传播误差到前一层，但RNN中是传播到过去的层。  
我们将反向传播在最后一个时刻获得的误差，对于每个较早的时刻，都要执行更新时刻的梯度。对于该样本，在计算了所有词条的梯度之后，我们将聚合这些校正值并将他们应用与整套权重的更新，直到回到时刻t=0。

## 回顾
1. 将每个数据样本切分成词条
2. 将每个词条输入前馈网络中
3. 将每个时刻的输出以及下一个时刻的输入作为同一层的输入
4. 获得最后一个时刻的输出并将其与标签进行比较
5. 在整个计算图中反向传播误差，一直回到第一个时刻t=0的输入

## 不同时刻的权重更新
其实虽然说更新不同时刻的权重，但各个时刻的更新权重本身是相同的，那我们应该计算各个时刻的权重校正值但不立即更新。  
在前馈网络中，一旦为输入样本计算了所有梯度，所有权重的校正值就会被计算，这对循环网络一样适用，但对于该输入样本，我们必须一直保留这些校正值，直到回到时刻t=0。

## 至关重要的前期输出
较早的更新权重会污染反向传播的梯度计算，梯度是根据特定的权重计算的，所以若要提前更新它，那后续权重的值就会发生变化。

## 难点
尽管一个循环神经网络需要学习的权重(参数)可能相对较少，但训练一个循环神经网络但代价高昂，尤其是对于较长的序列。  
当拥有的词条越多，每个时刻误差必须反向传播的时间就越长，而对于每一时刻都有更多的导数需要计算。  
梯度消失问题与梯度爆炸问题：误差信号会随着梯度的每一次计算而消散或增长。  


## 利用keras实现循环神经网络

In [1]:
import glob
import os
from random import shuffle
from nltk.tokenize import TreebankWordTokenizer
from nlpia.loaders import get_data
word_vectors = get_data('wv')

  [datetime.datetime, pd.datetime, pd.Timestamp])
  MIN_TIMESTAMP = pd.Timestamp(pd.datetime(1677, 9, 22, 0, 12, 44), tz='utc')
  np = pd.np
  np = pd.np
  np = pd.np
  np = pd.np
  1%|          | 3973/402111 [01:31<2:33:29, 43.23it/s]


ConnectionError: HTTPSConnectionPool(host='uc4c004e4e91e9e91b2df92afcef.dl.dropboxusercontent.com', port=443): Read timed out.

In [None]:
def pre_process_data(file_path):
    positive_path = os.path.join(file_path, 'pos')
    negative_path = os.path.join(file_path, 'neg')
    pos_label = 1
    neg_label = 0
    dataset = []
    for filename in glob.glob(os.path.join(positive_path, '*.txt')):
        with open(filename, 'r') as f:
            dataset.append((pos_label, f.read()))
    for filename in glob.glob(os.path.join(negative_path, '*.txt')):
        with open(filename, 'r') as f:
            dataset.append((neg_label, f.read()))
    shuffle(dataset)
    return dataset

In [None]:
# 数据分词和向量化
def tokenize_and_vectorize(dataset):
    tokenizer = TreebankWordTokenizer()
    vectorized_data = []
    for sample in dataset:
        tokens = tokenizer.tokenize(sample[1])
        sample_vecs = []
        for token in tokens:
            try:
                sample_vecs.append(word_vectors[token])
            except KeyError:
                pass
        vectorized_data.append(sample_vecs)
    return vectorized_data


In [None]:
# 目标变量解压缩
def collect_expected(dataset):
    expected = []
    for sample in dataset:
        expected.append(sample[0])
    return expected

In [None]:
# 加载和准备数据
dataset = pre_process_data('./aclimdb/train')
vectorized_data = tokenize_and_vectorize(dataset)
expected = collect_expected(dataset)
split_point = int(len(vectorized_data) * 0.8)

x_train = vectorized_data[:split_point]
y_train = expected[:split_point]
x_test = vectorized_data[split_point:]
y_test = expected[split_point:]


In [3]:
# 初始化网络参数
maxlen = 400
batch_size = 32
embedding_dims = 300
epochs = 2

我们需要再次填充或截断样本，虽然RNN通常不需要使用截断和填充，主要是为了与上一章的CNN例子做比较。  
我们可以使用不同长度的训练数据，并展开网络，直到输入结束，Keras会自动处理。但循环层的输出长度会随着输入时刻的变化而变化：4个词条的输入将输出4个元素长的序列，100个词条的输入将产生100个元素长的序列，若我们需要将它传递到另一个期望输入维度统一的层，那么上述不等长的结果就会出现问题。

In [None]:
# 加载测试数据和训练数据
import numpy as np

x_train = pad_trunc(x_train, maxlen)
x_test = pad_trunc(x_test, maxlen)

x_train = np.reshape(x_train, (len(x_train), maxlen, embedding_dims))
y_train = np.array(y_train)
x_test = np.reshape(x_test, (len(x_test), maxlen, embedding_dims))
y_test = np.array(y_test)

In [4]:
# 构建模型
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten, SimpleRNN
num_neurons = 50
model = Sequential()
model.add(SimpleRNN(num_neurons, return_sequences=True, input_shape=(maxlen, embedding_dims)))

序列有400个词条长，并且使用了50个隐藏层神经元，所以RNN的输出将会是一个400个元素的向量，其中每一个元素都是一个50个元素的向量。  
return_sequences=True:告诉网络每个时刻都要返回网络输出，因此有400个向量，每个向量为50维；若return_sequences=False，则只会返回最后一个时刻的50维向量。

In [5]:
# 添加一个Dropout层
model.add(Dropout(0.2))

model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

要求上述简单的RNN返回完整序列，但为了防止过拟合，我们添加了一个Dropout层，在每个输入样本上随机选择，使这些输入有20%概率为零，再添加一个分类器。  
前馈神经网络并不关心元素的顺序，只关系元素长的张量，所以需要使用Keras提供的Flatten()将输入从400*50的张量扁平化为一个长度为20000个元素的向量，再作为最后一层的输入来分类。  
实际上，Flatten层是一个映射，意味着误差将从最后一层反向传播回RNN层的输出，这些反向传播的误差之后会在输出的合适点随时间反向传播。

In [6]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
simple_rnn (SimpleRNN)       (None, 400, 50)           17550     
_________________________________________________________________
dropout (Dropout)            (None, 400, 50)           0         
_________________________________________________________________
flatten (Flatten)            (None, 20000)             0         
_________________________________________________________________
dense (Dense)                (None, 1)                 20001     
Total params: 37,551
Trainable params: 37,551
Non-trainable params: 0
_________________________________________________________________


在SimpleRNN层中，我们需要50个神经元，每个神经元都将接收输入，而输入词条中每个向量有300个元素长(300维)，每个神经元需要300个权重：  
50*300=15000  
每个神经元也有一个偏置项，它的输入值总是1，所以可以训练的权重为：  
15000 + 50(偏置权重) = 15050  
第一层第一个时刻的权重数量为15050，现在将这50个神经元中的每一个神经元输出输入网络的下一个时刻，每个神经元接收完整的输入向量和完整的输出向量。  
  
隐藏层中每个神经元现在都有每个词条嵌入维度的权重，即300个权重，每个神经元也有1个偏置。  
在前一个时刻中，输出结果有50个权重，这50个权重是循环神经网络反馈中给的：  
300 + 1 + 50 = 351  
351*50个神经元得到
351 * 50 = 17550  
17550个需要训练的参数在这个网络中展开400词，而这17550个参数在每次展开中都是相同的，并且在所有的反向传播计算完毕之前它们都是相同的。  
对权重的更新发生在前向传播和后续反向传播序列的末尾。  
  
  
最后一层有20001个参数要训练，因在Flatten()层之后输入是一个20000维的向量再加上一个偏置输入，因为在输出层中只有一个神经元，所以参数的总数是：  
(20000个输入元素 + 1个偏置单元) * 1个神经元 = 20001个参数  

In [None]:
# 训练并保存模型
model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, validation_data=(x_test,y_test))

model_structure = model.to_json()
with open("simplernn_model.json", "w") as json_file:
    json_file.write(model_structure)
model.save_weights("simplernn_weights1.h5")