In [1]:
import numpy as np
import torch
from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence

In [2]:
print(torch.__version__)

0.4.1


In [3]:
V = 5 # 词典大小V=5
words = range(5)

4个训练样本分别是:

[1,2,3]

[0,0,1,2,4]


[1,0,0,4]

[4,4,2]

In [4]:
data = [[1,2,3], [0,0,1,2,4], [1,0,0,4], [4,4,2]]
data[0]

[1, 2, 3]

In [5]:
# 首先按照序列长度由大到小排序
data = sorted(data, key=len, reverse=True)

lengths = [len(ins) for ins in data] # 每条训练样本的序列长度
T = len(data[0]) # 最大的序列长度
B = len(data)  # batch_size
T

5

In [6]:
data

[[0, 0, 1, 2, 4], [1, 0, 0, 4], [1, 2, 3], [4, 4, 2]]

将每个单词转为one-hot形式

In [7]:
def convert_one_hot_encoding(input, T, V):
    data = np.zeros((T, V)) # (T, V)
    data[np.array(range(len(input))), np.array(input)] = 1
    
    return data

In [8]:
data = [convert_one_hot_encoding(seq, T, V) for seq in data]

In [9]:
data[0]

array([[1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.]])

In [10]:
# 将batch数据转为tensor
data = torch.from_numpy(np.array(data))

调用pack_padded_sequence()方法将数据封装为PackedSequence

**注意** data现在格式是batch_firs，即data[i]表示的是一条完整的样本数据

In [11]:
sequence = pack_padded_sequence(data, lengths, batch_first=True)

In [12]:
sequence

PackedSequence(data=tensor([[1., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0.],
        [0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1.],
        [1., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 1.],
        [0., 1., 0., 0., 0.],
        [1., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0.],
        [0., 0., 1., 0., 0.],
        [0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 1.]], dtype=torch.float64), batch_sizes=tensor([4, 4, 4, 2, 1]))

In [13]:
# 查看batch数据, 可以看到此时已经转为了seq_len first
sequence.data

tensor([[1., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0.],
        [0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1.],
        [1., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 1.],
        [0., 1., 0., 0., 0.],
        [1., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0.],
        [0., 0., 1., 0., 0.],
        [0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 1.]], dtype=torch.float64)

In [14]:
# batch first
data

tensor([[[1., 0., 0., 0., 0.],
         [1., 0., 0., 0., 0.],
         [0., 1., 0., 0., 0.],
         [0., 0., 1., 0., 0.],
         [0., 0., 0., 0., 1.]],

        [[0., 1., 0., 0., 0.],
         [1., 0., 0., 0., 0.],
         [1., 0., 0., 0., 0.],
         [0., 0., 0., 0., 1.],
         [0., 0., 0., 0., 0.]],

        [[0., 1., 0., 0., 0.],
         [0., 0., 1., 0., 0.],
         [0., 0., 0., 1., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]],

        [[0., 0., 0., 0., 1.],
         [0., 0., 0., 0., 1.],
         [0., 0., 1., 0., 0.],
         [0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]]], dtype=torch.float64)

In [15]:
# 每一步时间戳对应的batch_size
sequence.batch_sizes

tensor([4, 4, 4, 2, 1])

**总结**

如何将一个batch_size的数据封装为RNN可接受的PackedSequence?

* 将数据按照序列长度由大到小排序
* lengths=[每条样本的序列长度]，T=最大的序列长度，B=batch_size
* 将数据转为Tensor类型
* 调用pack_padded_sequence()方法，得到PackedSequence实例