In [1]:
import torch
import torch.nn as nn
import torch.optim as optim

In [2]:
# 실험용 임의의 문장 작성 (Space bar 기준으로 쪼갠다.)
sentence = "Repeat is the best medicine for memory".split()
print(sentence)

['Repeat', 'is', 'the', 'best', 'medicine', 'for', 'memory']


In [3]:
vocab = list(set(sentence))
print(vocab)

['memory', 'best', 'medicine', 'the', 'is', 'for', 'Repeat']


In [5]:
# index 부여
word2index = {tkn: i for i, tkn in enumerate(vocab, 1)}
word2index['<unk>']=0
print(word2index)
print(word2index['memory'])

{'memory': 1, 'best': 2, 'medicine': 3, 'the': 4, 'is': 5, 'for': 6, 'Repeat': 7, '<unk>': 0}
1


In [6]:
index2word = {v: k for k , v in word2index.items()}
print(index2word)
print(index2word[2])

{1: 'memory', 2: 'best', 3: 'medicine', 4: 'the', 5: 'is', 6: 'for', 7: 'Repeat', 0: '<unk>'}
best


In [7]:
# 데이터의 각 단어를 정수로 인코딩 및 label date를 생성
def build_data(sentence, word2index):
    encoded = [word2index[token] for token in sentence] # 각 문자를 정수로 변환.
    input_seq, label_seq = encoded[:-1], encoded[1:] # 입력 시퀀스와 레이블 시퀀스 분리
    input_seq = torch.LongTensor(input_seq).unsqueeze(0) # 배치 차원 추가
    label_seq = torch.LongTensor(label_seq).unsqueeze(0) # 배치 차원 추가
    return input_seq, label_seq

In [9]:
X, Y = build_data(sentence, word2index)
print(X)
print(Y)

tensor([[7, 5, 4, 2, 3, 6]])
tensor([[5, 4, 2, 3, 6, 1]])


### Model 구현

In [10]:
class Net(nn.Module):
    def __init__(self, vocab_size, input_size, hidden_size, batch_first=True):
        super(Net, self).__init__()
        self.embedding_layer = nn.Embedding(num_embeddings=vocab_size, # 워드 임베딩
                                           embedding_dim=input_size)
        self.rnn_layer = nn.RNN(input_size, hidden_size,
                               batch_first=batch_first)
        # 출력은 원-핫 벡터의 크기를 가져야함. 또는 단어 집합의 크기만큼 가져야함.
        self.linear = nn.Linear(hidden_size, vocab_size) 
        
    def forward(self, x):
        # 1. 임베딩 층
        # 크기변화: (배치 크기, 시퀀스 길이) => (배치 크기, 시퀀스 길이, 임베딩 차원)
        output = self.embedding_layer(x)
        # 2. RNN 층
        # 크기변화: (배치 크기, 시퀀스 길이, 임베딩 차원)
        # => output (배치 크기, 시퀀스 길이, 은닉층 크기), hidden (1, 배치 크기, 은닉층 크기)
        output, hidden = self.rnn_layer(output)
        # 3. 최종 출력층
        # 크기변화: (배치 크기, 시퀀스 길이, 은닉층 크기) => (배치 크기, 시퀀스 길이, 단어장 크기)
        output = self.linear(output)
        # 4. view를 통해서 배치 차원 제거
        # 크기변화: (배치 크기, 시퀀스 길이, 단어장 크기) => (배치 크기*시퀀스 길이, 단어장 크기)
        return output.view(-1, output.size(2))
        

In [11]:
# Hyper parameter
vocab_size = len(word2index) # <unk> 토큰을 크기에 포함한다.
input_size = 5 # 임베딩 된 차원의 크기 및 RNN 층 입력 차원의 크기
hidden_size = 20 # RNN의 은닉층 크기

In [12]:
model = Net(vocab_size, input_size, hidden_size, batch_first=True)
loss_function = nn.CrossEntropyLoss()
optimizer = optim.Adam(params=model.parameters())

In [13]:
output = model(X)
print(output)

tensor([[ 0.6504,  0.0707,  0.0990,  0.0955, -0.1746, -0.0561, -0.1683,  0.1617],
        [ 0.6114, -0.0120,  0.3362,  0.1485,  0.0219, -0.1424, -0.0879,  0.2093],
        [ 0.0506,  0.5570,  0.2985, -0.3195, -0.1095, -0.3539,  0.0202,  0.3660],
        [ 0.0474,  0.2112,  0.0558,  0.1965,  0.0769, -0.2563, -0.0143,  0.2266],
        [ 0.3015,  0.5188, -0.0996,  0.0206, -0.0465, -0.2004,  0.0876,  0.2855],
        [ 0.3131,  0.4151,  0.1403, -0.0182, -0.2528, -0.3602, -0.2836,  0.2360]],
       grad_fn=<ViewBackward>)


In [14]:
print(output.shape)

torch.Size([6, 8])


In [17]:
decode = lambda y: [index2word.get(x) for x in y]

In [18]:
for step in range(201):
    # 경사 초기화
    optimizer.zero_grad()
    # 순방향 전파
    output = model(X)
    # 손실값 계산
    loss = loss_function(output, Y.view(-1))
    
    # 역방향 전파
    loss.backward()
    # 매개변수 업데이트
    optimizer.step()
    
    # 기록
    if step % 40 == 0:
        print("[{:02d}/201] {:.4f} ".format(step+1, loss))
        pred = output.softmax(-1).argmax(-1).tolist()
        print(" ".join(["Repeat"] + decode(pred)))
        print()

[01/201] 2.0156 
Repeat <unk> <unk> memory Repeat memory memory

[41/201] 1.4038 
Repeat is the best medicine for memory

[81/201] 0.7126 
Repeat is the best medicine for memory

[121/201] 0.3159 
Repeat is the best medicine for memory

[161/201] 0.1681 
Repeat is the best medicine for memory

[201/201] 0.1067 
Repeat is the best medicine for memory

