# 一般的RNN
#### 对于最简单的 RNN，我们可以使用下面两种方式去调用，分别是torch.nn.RNNCell() 和 torch.nn.RNN()，这两种方式的区别在于 RNNCell() 只能接受序列中单步的输入，且必须传入隐藏状态，而 RNN() 可以接受一个序列的输入，默认会传入全 0 的隐藏状态，也可以自己申明隐藏状态传入。
#### RNN() 里面的参数有
#### input_size 表示输入  的特征维度
#### hidden_size 表示输出的特征维度
#### num_layers 表示网络的层数
#### nonlinearity 表示选用的非线性激活函数，默认是 'tanh'
#### bias 表示是否使用偏置，默认使用
#### batch_first 表示输入数据的形式，默认是 False，就是这样形式，(seq, batch, feature)，也就是将序列长度放在第一位，batch 放在第二位
#### dropout 表示是否在输出层应用 dropout
#### bidirectional 表示是否使用双向的 rnn，默认是 False

In [1]:
import torch
from torch.autograd import Variable
from torch import nn

In [18]:
rnn_seq = nn.RNN(3, 4, batch_first=True)

In [19]:
# 访问其中的参数
rnn_seq.weight_hh_l0

Parameter containing:
tensor([[-0.4813,  0.4002,  0.2367,  0.3454],
        [ 0.0715,  0.0394, -0.4011, -0.4656],
        [-0.3263, -0.4986, -0.3770, -0.2941],
        [ 0.3404,  0.0789, -0.1139,  0.3095]], requires_grad=True)

In [28]:
# 构造一个序列，长为 5，batch 是 2， 特征是 3
x = Variable(torch.randn(2, 5, 3)) # 这是 rnn 的输入格式
x

tensor([[[-1.6592, -0.7799,  0.1179],
         [-1.2910, -0.6141,  1.1418],
         [-0.2950,  0.6400, -0.9490],
         [-2.0126, -1.3535, -0.6626],
         [-1.5364, -1.1189, -0.4953]],

        [[-0.1962,  0.3424, -1.3494],
         [-0.3354,  0.6688,  0.8915],
         [ 2.4077,  1.9779,  1.8230],
         [ 0.2414,  2.3072, -1.8850],
         [ 1.0977,  1.4744, -0.6326]]])

In [25]:
out, h_t = rnn_seq(x)

In [26]:
h_t.shape

torch.Size([1, 2, 4])

In [27]:
out.shape

torch.Size([2, 5, 4])

In [29]:
h_t

tensor([[[ 0.0792,  0.0313,  0.9295,  0.4736],
         [ 0.4076, -0.4837,  0.8945, -0.1409]]], grad_fn=<StackBackward>)

In [30]:
# 自定义初始的隐藏层状态
h_0 = Variable(torch.randn(1, 2, 4))

In [31]:
out, h_t = rnn_seq(x, h_0)

In [32]:
h_t

tensor([[[-0.5052, -0.5851,  0.6181, -0.8267],
         [ 0.1055,  0.0586,  0.0845,  0.8396]]], grad_fn=<StackBackward>)

# LSTM

In [38]:
lstm_seq = nn.LSTM(50, 100, num_layers=2)

In [39]:
lstm_seq.weight_hh_l0.shape

torch.Size([400, 100])

In [40]:
lstm_input = Variable(torch.randn(10, 3, 50)) # 序列 10，batch 是 3，输入维度 50

In [41]:
out, (h, c) = lstm_seq(lstm_input) # 使用默认的全 0 隐藏状态

In [42]:
h.shape # 两层，Batch 是 3，特征是 100

torch.Size([2, 3, 100])

# GRU

In [43]:
gru_seq = nn.GRU(10, 20)
gru_input = Variable(torch.randn(3, 32, 10))

out, h = gru_seq(gru_input)

In [44]:
gru_seq.weight_hh_l0

Parameter containing:
tensor([[-0.1633, -0.2228,  0.0312,  ...,  0.1245,  0.0536,  0.2099],
        [-0.0494, -0.1370, -0.1771,  ..., -0.1318, -0.1763,  0.0293],
        [ 0.1552,  0.0914,  0.1725,  ...,  0.0891, -0.1064,  0.1573],
        ...,
        [-0.0970, -0.0577,  0.1596,  ...,  0.1984, -0.1270, -0.1221],
        [ 0.0426, -0.1719, -0.0314,  ..., -0.0980, -0.0100,  0.0425],
        [-0.0111,  0.0103,  0.1634,  ..., -0.1508, -0.0958, -0.2235]],
       requires_grad=True)

In [45]:
h.shape

torch.Size([1, 32, 20])