In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [2]:
# create RNN network
# - embedding dimension: 10
# - hidden dimension: 2
# - num layers: 1
rnn = nn.RNN(10, 2, 1)

In [3]:
# test input
# - seq len: 2
# - batch size: 1
# - embedding dimension: 10
x = torch.zeros(2, 1, 10)

In [4]:
# パディングを考慮しない場合
# hidden state が二つ目の入力の出力と一致しており、
# PADDING を無視していないことがわかる
with torch.no_grad():
    y, hidden = rnn(x)
    print(hidden)
    print(y)

tensor([[[ 0.9779, -0.7238]]])
tensor([[[ 0.8633, -0.7960]],

        [[ 0.9779, -0.7238]]])


In [5]:
# パディングを考慮する場合
# PADDING (zero vector) は無視され RNN を通らない。
# それを確認するには、hidden state が一つ目の入力に対する出力と
# 一致していることを確認すればよい
lengths = torch.tensor([1])  # バッチサイズ
packed_x = nn.utils.rnn.pack_padded_sequence(x, lengths)
with torch.no_grad():
    packed_y, hidden = rnn(packed_x)
    out, _ = nn.utils.rnn.pad_packed_sequence(packed_y, total_length=x.shape[0])
    print(hidden)
    print(out)

tensor([[[ 0.8633, -0.7960]]])
tensor([[[ 0.8633, -0.7960]],

        [[ 0.0000,  0.0000]]])
