In [1]:
from torch import nn
import torch

### 普通RNN (Recurrent Neural Network)

创建 RNN 对应的 nn.Module

In [2]:
vocab_size = 10    # 词表大小
hiden_size = 20    # 隐藏状态大小
num_layer = 2      # 隐藏层个数
rnn = nn.RNN(vocab_size, hiden_size, num_layer)

构造输入数据

In [3]:
# 输入数据的形状必须是 (seq_len, batch_size, vocab_size)
batch_size = 5
seq_len = 30
x = torch.randn(seq_len, batch_size, vocab_size)
x.shape

torch.Size([30, 5, 10])

获取输出，注意此处的输出并不是预测结果，而是最后一层隐藏状态的输出

可以理解为离预测结果还差一个全连接层

In [4]:
'''
RNN 的输出有两个部分
output 是 RNN 中最后一个隐藏层中每一次更新得到的隐藏状态 (seq_len, batch_size, hiden_size)
state 是 RNN 中最后一次更新隐藏状态得到的各个隐藏层的隐藏状态 (num_layer, batch_size, hiden_size)
'''

output, state = rnn(x)
output.shape, state.shape

(torch.Size([30, 5, 20]), torch.Size([2, 5, 20]))

<br>

### GRU (Gated Recurrent Unit)

使用方法与上面类似

In [5]:
gru = nn.GRU(vocab_size, hiden_size, num_layer)
output, state = gru(x)
output.shape, state.shape

(torch.Size([30, 5, 20]), torch.Size([2, 5, 20]))

<br>

### LSTM (Long Short-Term Memory)

In [None]:
lstm = nn.LSTM(vocab_size, hiden_size, num_layer)
output, state = lstm(x)
output.shape, state[0].shape, state[1].shape
# state 中的第一个表示最后一个时间步，每一个样本的隐藏状态
# state 中的第二个表示最后一个时间步，每一个样本的记忆细胞

(torch.Size([30, 5, 20]), torch.Size([2, 5, 20]), torch.Size([2, 5, 20]))

<br>

### 总结

其实传统 RNN、GRU 以及 LSTM 之间的区别主要就是对隐藏状态的更新方式不一样

但输入输出都是一样的东西