# 1 - Sequence to Sequence Learning with Neural Networks

PyTorch와 torchtext를 사용하여 한 시퀀스에서 다른 시퀀스로 이동하는 기계 학습 모델을 구축할 것입니다. 여기서는 독일어에서 영어로의 번역에서 수행되지만 요약과 같이 한 시퀀스에서 다른 시퀀스로 이동하는 것과 관련된 모든 문제에 모델을 적용할 수 있습니다.


## Preparing Data


In [1]:
import torch
import torch.nn as nn
import torch.optim as optim

from torchtext.legacy.datasets import Multi30k
from torchtext.legacy.data import Field, BucketIterator

import spacy
import numpy as np

import random
import math
import time

C:\Users\JangSeongHyun\anaconda3\lib\site-packages\numpy\.libs\libopenblas.EL2C6PLE4ZYW3ECEVIV3OXXGRN2NRFM2.gfortran-win_amd64.dll
C:\Users\JangSeongHyun\anaconda3\lib\site-packages\numpy\.libs\libopenblas.PYQHXLVVQ7VESDPUVUADXEVJOBGHJPAY.gfortran-win_amd64.dll


ModuleNotFoundError: No module named 'torchtext'

In [2]:
SEED = 1234

random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

tokenizer 생성

spaCy에는 각 모델의 토크나이저에 액세스할 수 있도록 로드해야 하는 각 언어(독일어의 경우 "de_core_news_sm", 영어의 경우 "en_core_web_sm")


In [3]:
spacy_de = spacy.load('de_core_news_sm')
spacy_en = spacy.load('en_core_web_sm')

토큰 목록으로 변환된 후 독일어 문장을 반대로 하여 이를 복사합니다.

In [4]:
def tokenize_de(text):
    """
    Tokenizes German text from a string into a list of strings (tokens) and reverses it
    """
    return [tok.text for tok in spacy_de.tokenizer(text)][::-1]

def tokenize_en(text):
    """
    Tokenizes English text from a string into a list of strings (tokens)
    """
    return [tok.text for tok in spacy_en.tokenizer(text)]

독일어는 SRC(소스) 필드이고 영어는 TRG(대상) 필드

In [5]:
SRC = Field(tokenize = tokenize_de, 
            init_token = '<sos>', 
            eos_token = '<eos>', 
            lower = True)

TRG = Field(tokenize = tokenize_en, 
            init_token = '<sos>', 
            eos_token = '<eos>', 
            lower = True)



우리가 사용할 데이터 세트는 Multi30k 데이터 세트입니다. 이것은 ~30,000개의 영어, 독일어 및 프랑스어 문장이 있는 데이터세트이며 각각 문장당 ~12개 단어가 있습니다.

In [6]:
train_data, valid_data, test_data = Multi30k.splits(exts = ('.de', '.en'), 
                                                    fields = (SRC, TRG))



In [7]:
print(f"Number of training examples: {len(train_data.examples)}")
print(f"Number of validation examples: {len(valid_data.examples)}")
print(f"Number of testing examples: {len(test_data.examples)}")

Number of training examples: 29000
Number of validation examples: 1014
Number of testing examples: 1000


In [8]:
print(vars(train_data.examples[0]))

{'src': ['.', 'büsche', 'vieler', 'nähe', 'der', 'in', 'freien', 'im', 'sind', 'männer', 'weiße', 'junge', 'zwei'], 'trg': ['two', 'young', ',', 'white', 'males', 'are', 'outside', 'near', 'many', 'bushes', '.']}


'min_freq' 인수를 사용하여 어휘에 2번 이상 나타나는 토큰만 허용합니다. 


In [9]:
SRC.build_vocab(train_data, min_freq = 2)
TRG.build_vocab(train_data, min_freq = 2)

In [10]:
print(f"Unique tokens in source (de) vocabulary: {len(SRC.vocab)}")
print(f"Unique tokens in target (en) vocabulary: {len(TRG.vocab)}")

Unique tokens in source (de) vocabulary: 7853
Unique tokens in target (en) vocabulary: 5893


In [11]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [12]:
BATCH_SIZE = 128

train_iterator, valid_iterator, test_iterator = BucketIterator.splits(
    (train_data, valid_data, test_data), 
    batch_size = BATCH_SIZE, 
    device = device)



## Building the Seq2Seq Model

우리는 모델을 세 부분으로 만들 것입니다. 인코더, 디코더, seq2seq 모델(인코더와 디코더를 캡슐화하고 각각과 인터페이스하는 방법을 제공)

### Encoder
논문은 4레이어 LSTM을 사용하지만 훈련 시간을 위해 이것을 2레이어로 줄였습니다. 

- `input_dim`은 인코더에 입력될 원-핫 벡터의 크기/차원입니다. 이것은 입력(소스) 어휘 크기와 같습니다.
- `emb_dim`은 임베딩 레이어의 차원입니다. 이 레이어는 원-핫 벡터를 'emb_dim' 차원의 밀집 벡터로 변환합니다.
- `hid_dim` - hidden state, cell state의 차원입니다.
- `n_layers`는 RNN의 레이어 수입니다.
- `dropout`

(컨텍스트 벡터를 만들기 위해) 최종 숨겨진 상태와 셀 상태만 필요하기 때문에 `forward`는 `hidden`과 `cell`만 반환합니다.

In [13]:
class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, hid_dim, n_layers, dropout):
        super().__init__()
        
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        
        self.embedding = nn.Embedding(input_dim, emb_dim)
        
        self.rnn = nn.LSTM(emb_dim, hid_dim, n_layers, dropout = dropout)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, src):
        
        #src = [src len, batch size]
        
        embedded = self.dropout(self.embedding(src))
        
        #embedded = [src len, batch size, emb dim]
        
        outputs, (hidden, cell) = self.rnn(embedded)
        
        #outputs = [src len, batch size, hid dim * n directions]
        #hidden = [n layers * n directions, batch size, hid dim]
        #cell = [n layers * n directions, batch size, hid dim]
        
        #outputs are always from the top hidden layer
        
        return hidden, cell

### Decoder


다음으로 2층(논문에서는 4개) LSTM이 될 디코더를 만들 것입니다.

인수와 초기화는 'Encoder' 클래스와 유사하지만, 이제 출력/대상에 대한 어휘 크기인 'output_dim'이 있다는 점만 다릅니다. 또한 최상위 레이어 숨겨진 상태에서 예측을 수행하는 데 사용되는 '선형' 레이어가 추가되었습니다.

In [1]:
class Decoder(nn.Module):
    def __init__(self, output_dim, emb_dim, hid_dim, n_layers, dropout):
        super().__init__()
        
        self.output_dim = output_dim
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        
        self.embedding = nn.Embedding(output_dim, emb_dim)
        
        self.rnn = nn.LSTM(emb_dim, hid_dim, n_layers, dropout = dropout)
        
        self.fc_out = nn.Linear(hid_dim, output_dim)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, input, hidden, cell):
        
        #input = [batch size]
        #hidden = [n layers * n directions, batch size, hid dim]
        #cell = [n layers * n directions, batch size, hid dim]
        
        input = input.unsqueeze(0)
        
        #input = [1, batch size]
        
        embedded = self.dropout(self.embedding(input))
        
        #embedded = [1, batch size, emb dim]
                
        output, (hidden, cell) = self.rnn(embedded, (hidden, cell))
        
        #output = [seq len, batch size, hid dim * n directions]
        #hidden = [n layers * n directions, batch size, hid dim]
        #cell = [n layers * n directions, batch size, hid dim]
    
        
        prediction = self.fc_out(output.squeeze(0))
        
        #prediction = [batch size, output dim]
        
        return prediction, hidden, cell

NameError: name 'nn' is not defined

### Seq2Seq


- 입력/출처 문장 수신
- 인코더를 사용하여 컨텍스트 벡터 생성
- 디코더를 사용하여 예측된 출력/목표 문장 생성


`forward` 메서드에서 가장 먼저 하는 일은 모든 예측 $\hat{Y}$을 저장할 `outputs` 텐서를 만드는 것입니다.
그런 다음 입력/소스 문장 `src`를 인코더에 입력하고 최종 숨김 및 셀 상태를 수신합니다.



$$\begin{align*}
\text{trg} = [<sos>, &y_1, y_2, y_3, <eos>]\\
\text{outputs} = [0, &\hat{y}_1, \hat{y}_2, \hat{y}_3, <eos>]
\end{align*}$$

나중에 손실을 계산할 때 각 텐서의 첫 번째 요소를 잘라 다음을 얻습니다.

$$\begin{align*}
\text{trg} = [&y_1, y_2, y_3, <eos>]\\
\text{outputs} = [&\hat{y}_1, \hat{y}_2, \hat{y}_3, <eos>]
\end{align*}$$

In [15]:
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device):
        super().__init__()
        
        self.encoder = encoder
        self.decoder = decoder
        self.device = device
        
        assert encoder.hid_dim == decoder.hid_dim, \
            "Hidden dimensions of encoder and decoder must be equal!"
        assert encoder.n_layers == decoder.n_layers, \
            "Encoder and decoder must have equal number of layers!"
        
    def forward(self, src, trg, teacher_forcing_ratio = 0.5):
        
        #src = [src len, batch size]
        #trg = [trg len, batch size]
        #teacher_forcing_ratio is probability to use teacher forcing
        #e.g. if teacher_forcing_ratio is 0.75 we use ground-truth inputs 75% of the time
        
        batch_size = trg.shape[1]
        trg_len = trg.shape[0]
        trg_vocab_size = self.decoder.output_dim
        
        # 디코더 출력을 저장하는 텐서
        outputs = torch.zeros(trg_len, batch_size, trg_vocab_size).to(self.device)
        
        # 인코더의 마지막 은닉 상태가 디코더의 초기 은닉 상태로 사용됩니다.
        hidden, cell = self.encoder(src)
        
        # 디코더에 대한 첫 번째 입력은 <sos> 토큰입니다.
        input = trg[0,:]
        
        for t in range(1, trg_len):
            
            #입력 토큰 임베딩, 이전 숨겨진 및 이전 셀 상태 삽입            
            #출력 텐서(예측) 및 새로운 은닉 및 셀 상태 받기
            output, hidden, cell = self.decoder(input, hidden, cell)
            
            outputs[t] = output
            
            #teacher forcing 를 사용할지 여부를 결정합니다.
            teacher_force = random.random() < teacher_forcing_ratio
            
            #예측에서 가장 높은 예측 토큰을 얻습니다.
            top1 = output.argmax(1) 
            
            #if teacher forcing,실제 다음 토큰을 다음 입력으로 사용
            #if not, 예측 토큰 사용
            input = trg[t] if teacher_force else top1
        
        return outputs

# Training the Seq2Seq Model

인코더와 디코더에 대한 임베딩 차원 및 드롭아웃은 다를 수 있지만 레이어 수와 숨겨진/셀 상태의 크기는 동일해야 합니다.

In [16]:
INPUT_DIM = len(SRC.vocab)
OUTPUT_DIM = len(TRG.vocab)
ENC_EMB_DIM = 256
DEC_EMB_DIM = 256
HID_DIM = 512
N_LAYERS = 2
ENC_DROPOUT = 0.5
DEC_DROPOUT = 0.5

enc = Encoder(INPUT_DIM, ENC_EMB_DIM, HID_DIM, N_LAYERS, ENC_DROPOUT)
dec = Decoder(OUTPUT_DIM, DEC_EMB_DIM, HID_DIM, N_LAYERS, DEC_DROPOUT)

model = Seq2Seq(enc, dec, device).to(device)

다음은 모델의 가중치를 초기화하는 것입니다. 논문에서 그들은 -0.08과 +0.08 사이의 균일 분포에서 모든 가중치를 초기화한다고 명시합니다(예: $\mathcal{U}(-0.08, 0.08)$).


In [17]:
def init_weights(m):
    for name, param in m.named_parameters():
        nn.init.uniform_(param.data, -0.08, 0.08)
        
model.apply(init_weights)

Seq2Seq(
  (encoder): Encoder(
    (embedding): Embedding(7853, 256)
    (rnn): LSTM(256, 512, num_layers=2, dropout=0.5)
    (dropout): Dropout(p=0.5, inplace=False)
  )
  (decoder): Decoder(
    (embedding): Embedding(5893, 256)
    (rnn): LSTM(256, 512, num_layers=2, dropout=0.5)
    (fc_out): Linear(in_features=512, out_features=5893, bias=True)
    (dropout): Dropout(p=0.5, inplace=False)
  )
)

In [18]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f'The model has {count_parameters(model):,} trainable parameters')

The model has 13,898,501 trainable parameters


In [19]:
optimizer = optim.Adam(model.parameters())

손실 함수는 토큰당 평균 손실을 계산하지만 `<pad>` 토큰의 인덱스를 `ignore_index` 인수로 전달하여 대상 토큰이 패딩 토큰일 때마다 손실을 무시합니다.

In [20]:
TRG_PAD_IDX = TRG.vocab.stoi[TRG.pad_token]

criterion = nn.CrossEntropyLoss(ignore_index = TRG_PAD_IDX)

`trg` 및 `outputs`는 다음과 같습니다.

$$\begin{align*}
\text{trg} = [<sos>, &y_1, y_2, y_3, <eos>]\\
\text{outputs} = [0, &\hat{y}_1, \hat{y}_2, \hat{y}_3, <eos>]
\end{align*}$$

여기에서 손실을 계산할 때 각 텐서의 첫 번째 요소를 잘라 다음을 얻습니다.
$$\begin{align*}
\text{trg} = [&y_1, y_2, y_3, <eos>]\\
\text{outputs} = [&\hat{y}_1, \hat{y}_2, \hat{y}_3, <eos>]
\end{align*}$$

At each iteration:
- $X$ 및 $Y$에서 소스 및 대상 문장 가져오기
- 소스와 대상을 모델에 공급하여 $\hat{Y}$ 출력을 얻습니다.
- 손실 함수는 1d 타겟이 있는 2d 입력에서만 작동하므로 `.view`로 각 입력을 평면화해야 합니다.
    - 위에서 언급한 대로 출력 및 대상 텐서의 첫 번째 열을 잘라냅니다.
- `loss.backward()`로 그라디언트 계산
-  the gradients가 exploding 하지 않도록 clip(RNN의 일반적인 문제) 
- update the parameters optimizer step
- sum the loss value to a running total

마지막으로 모든 배치에 대해 평균한 손실을 반환합니다.


In [21]:
def train(model, iterator, optimizer, criterion, clip):
    
    model.train()
    
    epoch_loss = 0
    
    for i, batch in enumerate(iterator):
        
        src = batch.src
        trg = batch.trg
        
        optimizer.zero_grad()
        
        output = model(src, trg)
        
        #trg = [trg len, batch size]
        #output = [trg len, batch size, output dim]
        
        output_dim = output.shape[-1]
        
        output = output[1:].view(-1, output_dim)
        trg = trg[1:].view(-1)
        
        #trg = [(trg len - 1) * batch size]
        #output = [(trg len - 1) * batch size, output dim]
        
        loss = criterion(output, trg)
        
        loss.backward()
        
        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
        
        optimizer.step()
        
        epoch_loss += loss.item()
        
    return epoch_loss / len(iterator)

매개변수를 업데이트하지 않기 때문에 최적화 프로그램이나 클립 값을 전달할 필요가 없습니다.

teacher forcing 를 해제해야 합니다. 이렇게 하면 모델이 자체 예측만 사용하여 문장 내에서 추가 예측을 하게 되며, 이는 배포에서 사용되는 방식을 반영합니다.

In [22]:
def evaluate(model, iterator, criterion):
    
    model.eval()
    
    epoch_loss = 0
    
    with torch.no_grad():
    
        for i, batch in enumerate(iterator):

            src = batch.src
            trg = batch.trg

            output = model(src, trg, 0) #turn off teacher forcing

            #trg = [trg len, batch size]
            #output = [trg len, batch size, output dim]

            output_dim = output.shape[-1]
            
            output = output[1:].view(-1, output_dim)
            trg = trg[1:].view(-1)

            #trg = [(trg len - 1) * batch size]
            #output = [(trg len - 1) * batch size, output dim]

            loss = criterion(output, trg)
            
            epoch_loss += loss.item()
        
    return epoch_loss / len(iterator)

In [23]:
def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

우리는 각 에포크에서 손실과 혼란을 모두 출력할 것입니다. 숫자가 훨씬 크기 때문에 손실의 변화보다 혼란의 변화를 보는 것이 더 쉽습니다.

In [24]:
N_EPOCHS = 10
CLIP = 1

best_valid_loss = float('inf')

for epoch in range(N_EPOCHS):
    
    start_time = time.time()
    
    train_loss = train(model, train_iterator, optimizer, criterion, CLIP)
    valid_loss = evaluate(model, valid_iterator, criterion)
    
    end_time = time.time()
    
    epoch_mins, epoch_secs = epoch_time(start_time, end_time)
    
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), 'tut1-model.pt')
    
    print(f'Epoch: {epoch+1:02} | Time: {epoch_mins}m {epoch_secs}s')
    print(f'\tTrain Loss: {train_loss:.3f} | Train PPL: {math.exp(train_loss):7.3f}')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. PPL: {math.exp(valid_loss):7.3f}')



Epoch: 01 | Time: 0m 26s
	Train Loss: 5.052 | Train PPL: 156.386
	 Val. Loss: 4.916 |  Val. PPL: 136.446
Epoch: 02 | Time: 0m 26s
	Train Loss: 4.483 | Train PPL:  88.521
	 Val. Loss: 4.789 |  Val. PPL: 120.154
Epoch: 03 | Time: 0m 25s
	Train Loss: 4.195 | Train PPL:  66.363
	 Val. Loss: 4.552 |  Val. PPL:  94.854
Epoch: 04 | Time: 0m 25s
	Train Loss: 3.963 | Train PPL:  52.625
	 Val. Loss: 4.485 |  Val. PPL:  88.672
Epoch: 05 | Time: 0m 25s
	Train Loss: 3.783 | Train PPL:  43.955
	 Val. Loss: 4.375 |  Val. PPL:  79.466
Epoch: 06 | Time: 0m 25s
	Train Loss: 3.636 | Train PPL:  37.957
	 Val. Loss: 4.234 |  Val. PPL:  69.011
Epoch: 07 | Time: 0m 26s
	Train Loss: 3.506 | Train PPL:  33.329
	 Val. Loss: 4.077 |  Val. PPL:  58.948
Epoch: 08 | Time: 0m 27s
	Train Loss: 3.370 | Train PPL:  29.090
	 Val. Loss: 4.018 |  Val. PPL:  55.581
Epoch: 09 | Time: 0m 26s
	Train Loss: 3.241 | Train PPL:  25.569
	 Val. Loss: 3.934 |  Val. PPL:  51.113
Epoch: 10 | Time: 0m 26s
	Train Loss: 3.157 | Train PPL

In [25]:
model.load_state_dict(torch.load('tut1-model.pt'))

test_loss = evaluate(model, test_iterator, criterion)

print(f'| Test Loss: {test_loss:.3f} | Test PPL: {math.exp(test_loss):7.3f} |')

| Test Loss: 3.951 | Test PPL:  52.001 |
