In [1]:
import torch
from torch.autograd import Variable
from torch import nn

![](https://ws1.sinaimg.cn/large/006tKfTcly1fmt9xz889xj30kb07nglo.jpg)

`class torch.nn.RNN(input_size, hidden_size, num_layers, nonlinearity, bias, batch_first, dropout, bidirectional)`

Parameters:	
* input_size – $x_{t}$的特征维度，也就是词向量的长度
* hidden_size – 隐含层也就是h的size
* num_layers – 使用几层RNN
* nonlinearity – 是否使用非线性函数，默认是‘tanh‘
* bias – 是否添加偏置
* batch_first – 是否input和output使用(batch, seq, feature)的形式
* dropout – dropout的比例，默认是0
* bidirectional – 是否使用双向RNN

初始化后的对象：

* Inputs: input, h_0
* Outputs: output, h_n


In [2]:
# 这里只使用RNN()，因为基本只用这个类，而不用RNNCell
rnn_seq = nn.RNN(100, 200)

In [3]:
print('输入到隐层的权值: ', rnn_seq.weight_ih_l0.shape)
print('上一个时刻状态到下一个时刻的权值: ', rnn_seq.weight_hh_l0.shape)

输入到隐层的权值:  torch.Size([200, 100])
上一个时刻状态到下一个时刻的权值:  torch.Size([200, 200])


<b>注意: </b> pytorch的RNN的输出是直接输出$h_{t}$而不是再经过一个神经网络得到$o_{t}$

In [4]:
# 构造一个序列，长为 6，batch 是 5， 特征是 100
x = Variable(torch.randn(6, 5, 100)) # 这是 rnn 的输入格式：
                                     # (num_step, batchsize, word)也就是(选取的序列长度，每次批量的大小，和词向量的大小)

In [5]:
output, state = rnn_seq(x)

In [6]:
print('output: ', output.shape,'\nstate: ', state.shape)

output:  torch.Size([6, 5, 200]) 
state:  torch.Size([1, 5, 200])


output其实就是所有的隐层输出，state就是最后一个神经元的输出

<b> 当RNN取多个时：

In [12]:
rnn_seq = nn.RNN(100, 200, num_layers=3)

In [8]:
print('输入到隐层的权值1: ', rnn_seq.weight_ih_l0.shape)
print('上一个时刻状态到下一个时刻的权值1: ', rnn_seq.weight_hh_l0.shape, '\n')
print('输入到隐层的权值2: ', rnn_seq.weight_ih_l1.shape)
print('上一个时刻状态到下一个时刻的权值2: ', rnn_seq.weight_hh_l1.shape, '\n')
print('输入到隐层的权值2: ', rnn_seq.weight_ih_l2.shape)
print('上一个时刻状态到下一个时刻的权值2: ', rnn_seq.weight_hh_l2.shape, '\n')

输入到隐层的权值1:  torch.Size([200, 100])
上一个时刻状态到下一个时刻的权值1:  torch.Size([200, 200]) 

输入到隐层的权值2:  torch.Size([200, 200])
上一个时刻状态到下一个时刻的权值2:  torch.Size([200, 200]) 

输入到隐层的权值2:  torch.Size([200, 200])
上一个时刻状态到下一个时刻的权值2:  torch.Size([200, 200]) 



In [13]:
x = Variable(torch.randn(6, 5, 100)) 
output, state = rnn_seq(x)

print('output: ', output.shape,'\nstate: ', state.shape)

output:  torch.Size([1, 1, 2]) 
state:  torch.Size([3, 1, 2])


这里的output输出每一个RNN最后一层的输出，state输出最后一个RNN的所有h