In [1]:
import torch
import numpy as np
from torch.nn.utils.rnn import pad_sequence, pack_sequence, pack_padded_sequence, pad_packed_sequence

# 예제 데이터
- batch size = 5
- sequence 중 가장 긴 길이는 13


In [8]:
data = ['hello world',
        'midnight',
        'calculation',
        'path',
        'short circuit'
       ]

char_set = ['<pad>'] + list(set(char for seq in data for char in seq))
char2idx = {char: idx for idx, char in enumerate(char_set)}
print('char_set:', char_set)
print('char_set length : ', len(char_set))

char_set: ['<pad>', 'g', 'l', 'i', 'p', 's', 'n', 'a', 'h', 'r', 'd', 'c', 'e', 'w', ' ', 't', 'u', 'o', 'm']
char_set length :  19


In [19]:
X = [torch.LongTensor([char2idx[char] for char in seq]) for seq in data]

for sequence in X:
    print(sequence)
    
# 시퀀스 길이들이 제각각
lengths = [len(seq) for seq in X]
print('\n### lengths : ', lengths)

tensor([ 8, 12,  2,  2, 17, 14, 13, 17,  9,  2, 10])
tensor([18,  3, 10,  6,  3,  1,  8, 15])
tensor([11,  7,  2, 11, 16,  2,  7, 15,  3, 17,  6])
tensor([ 4,  7, 15,  8])
tensor([ 5,  8, 17,  9, 15, 14, 11,  3,  9, 11, 16,  3, 15])

### lengths :  [11, 8, 11, 4, 13]


## pad_sequence라는 PyTorch 기본 라이브러리 함수를 이용하여 쉽게 padding을 추가할 수 있다.
- input이 Tensor들의 list로 주어져야한다. ----> (Tensor가 아닌 Tensor들의 list)
- list 안에 있는 각각의 Tensor들의 shape가 (?, a, b, ...) 라고 할 때, ?는 각각 다른 sequnece length
- pad_sequence 함수를 쓰면 (T, batch_size, a, b, ...) shape를 가지는 Tensor가 리턴된다.
- 만약 pad_sequence에 명시적으로 batch_first=True 파라미터를 주면 (batch_size, T, a, b, ...)shape를 가지는 Tensor가 리턴됨
- 기본적으로 패딩 값은 0 으로 되어있지만 padding_value=42와 같이 파라미터를 지정해주면, apdding하는 값도정할 수있다.

In [20]:
padded_sequence = pad_sequence(X, batch_first=True)
print(padded_sequence)
print(padded_sequence.shape)

tensor([[ 8, 12,  2,  2, 17, 14, 13, 17,  9,  2, 10,  0,  0],
        [18,  3, 10,  6,  3,  1,  8, 15,  0,  0,  0,  0,  0],
        [11,  7,  2, 11, 16,  2,  7, 15,  3, 17,  6,  0,  0],
        [ 4,  7, 15,  8,  0,  0,  0,  0,  0,  0,  0,  0,  0],
        [ 5,  8, 17,  9, 15, 14, 11,  3,  9, 11, 16,  3, 15]])
torch.Size([5, 13])


## pack_sequence 함수를 이용하여 PackedSequence 만들기
- padding을 추가하지 않고 정확히 주어진 sequence 길이까지만 모델이 연산을 하게끔 만드는 PyTorch의 자료구조
- 주어지는 input은 길이에 따른 내림차순으로 정렬되어 있어야 한다.


In [26]:
sorted_idx = sorted(range(len(lengths)), key = lengths.__getitem__, reverse=True)
sorted_X = [X[idx] for idx in sorted_idx]

for sequence in sorted_X:
    print(sequence)

tensor([ 5,  8, 17,  9, 15, 14, 11,  3,  9, 11, 16,  3, 15])
tensor([ 8, 12,  2,  2, 17, 14, 13, 17,  9,  2, 10])
tensor([11,  7,  2, 11, 16,  2,  7, 15,  3, 17,  6])
tensor([18,  3, 10,  6,  3,  1,  8, 15])
tensor([ 4,  7, 15,  8])


In [28]:
packed_sequence = pack_sequence(sorted_X)
print(packed_sequence)

PackedSequence(data=tensor([ 5,  8, 11, 18,  4,  8, 12,  7,  3,  7, 17,  2,  2, 10, 15,  9,  2, 11,
         6,  8, 15, 17, 16,  3, 14, 14,  2,  1, 11, 13,  7,  8,  3, 17, 15, 15,
         9,  9,  3, 11,  2, 17, 16, 10,  6,  3, 15]), batch_sizes=tensor([5, 5, 5, 5, 4, 4, 4, 4, 3, 3, 3, 1, 1]), sorted_indices=None, unsorted_indices=None)


## Embedding 적용하기
- 패딩된 PaddedSequence를 RNN에 input으로 넣어 테스트
- 예제에서는 one-hot-character embedding

In [36]:
eye = torch.eye(len(char_set))
embedded_tensor = eye[padded_sequence]
print(embedded_tensor.shape)

torch.Size([5, 13, 19])


In [37]:
embedded_packed_seq = pack_sequence([eye[X[idx]] for idx in sorted_idx])
print(embedded_packed_seq.data.shape)

torch.Size([47, 19])


# RNN 모델 만들기

In [38]:
rnn =  torch.nn.RNN(input_size=len(char_set), hidden_size=30, batch_first=True)

In [42]:
rnn_output, hidden = rnn(embedded_tensor)
print(rnn_output.data.shape)
print(hidden.data.shape)

torch.Size([5, 13, 30])
torch.Size([1, 5, 30])


## pad_packed_sequence
- PackedSequence를 PaddedSequence로 바꾸어 주는 함수

In [43]:
unpacked_sequence, seq_lengths = pad_packed_sequence(embedded_packed_seq, batch_first=True)
print(unpacked_sequence.shape)
print(seq_lengths)

torch.Size([5, 13, 19])
tensor([13, 11, 11,  8,  4])


## pack_padded_sequence
- 반대로 padding된 Tensor인 PaddedSequence를 PackedSequence로 바꾸어주는 함수
- input인 PaddedSequence가 길이에 따른 내림차순으로 정렬되어야 한다는 조건이 성립되어야 PackedSequence로 올바르게 변환될 수 있다.


In [44]:
embedded_padded_sequence = eye[pad_sequence(sorted_X, batch_first=True)]
print(embedded_padded_sequence.shape)

torch.Size([5, 13, 19])


In [45]:
sorted_lengths = sorted(lengths, reverse=True)
new_packed_sequence = pack_padded_sequence(embedded_padded_sequence, sorted_lengths, batch_first=True)
print(new_packed_sequence.data.shape)
print(new_packed_sequence.batch_sizes)

torch.Size([47, 19])
tensor([5, 5, 5, 5, 4, 4, 4, 4, 3, 3, 3, 1, 1])
