## 1. 말뭉치(코퍼스) 준비

In [1]:
corpus = [
    "나는 밥을 먹었다.",
    "너는 빵을 많이 먹었다.",
    "우리는 함께 공부한다."
]

## 2. 토큰화(단어 or 형태소 or 자소 단위)
### 간단한 뛰어쓰기 기준(world-level):

In [2]:
tokens = set()
for line in corpus:
    tokens.update(line.strip().split())

In [3]:
tokens

{'공부한다.', '나는', '너는', '많이', '먹었다.', '밥을', '빵을', '우리는', '함께'}

## 3. 특수 토큰 추가 + 정렬된 vocab 만들기

In [4]:
special_tokens = ["<pad>", "<unk>", "<sos>", "<eos>"]

vocab = special_tokens + sorted(list(tokens))
token2idx = {token: idx for idx, token in enumerate(vocab)}
idx2token = {idx: token for token, idx in token2idx.items()}

In [5]:
idx2token

{0: '<pad>',
 1: '<unk>',
 2: '<sos>',
 3: '<eos>',
 4: '공부한다.',
 5: '나는',
 6: '너는',
 7: '많이',
 8: '먹었다.',
 9: '밥을',
 10: '빵을',
 11: '우리는',
 12: '함께'}

In [6]:
token2idx

{'<pad>': 0,
 '<unk>': 1,
 '<sos>': 2,
 '<eos>': 3,
 '공부한다.': 4,
 '나는': 5,
 '너는': 6,
 '많이': 7,
 '먹었다.': 8,
 '밥을': 9,
 '빵을': 10,
 '우리는': 11,
 '함께': 12}

### 4. 문장을 토큰 ID 시퀀스로 변환

In [13]:
#src : input of encoder
#tgt : input of decoder
#tgt_y : outout of decoder
def encode(sentence, token2idx):
    tokens = sentence.strip().split()
    tokens = tokens 
    ids = [token2idx.get(tok, token2idx["<unk>"]) for tok in tokens]
    out = None
    out = [token2idx["<sos>"]] + ids + [token2idx["<eos>"]]   
    return out
encoded = encode("나는 밥을 먹었다.", token2idx)

In [14]:
encoded 

[2, 5, 9, 8, 3]

\<sos\>와 \<eos\>는 문장 경계를 Transformer가 학습할 수 있도록 도와 줌.

5. Padding + Masking

Transformer는 동일한 길이의 입력이 필요하므로 패딩이 필요합니다.

In [15]:
from torch.nn.utils.rnn import pad_sequence
import torch

batch_sentences = corpus
encoded_batch = [torch.tensor(encode(s, token2idx)) for s in batch_sentences]

padded = pad_sequence(encoded_batch, batch_first=True, padding_value=token2idx["<pad>"])

In [16]:
padded

tensor([[ 2,  5,  9,  8,  3,  0],
        [ 2,  6, 10,  7,  8,  3],
        [ 2, 11, 12,  4,  3,  0]])