In [1]:
import torch
from torch.nn.utils.rnn import pad_sequence
from torch.utils.data import DataLoader
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch import Tensor

import torchtext
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import vocab, Vocab
from torchtext.utils import download_from_url, extract_archive

import io
from collections import Counter
from tqdm import tqdm
import random
from typing import Tuple
import math
import time
import copy

In [2]:
url_base = 'https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/'
train_urls = ('train.de.gz', 'train.en.gz')
val_urls = ('val.de.gz', 'val.en.gz')
test_urls = ('test_2016_flickr.de.gz', 'test_2016_flickr.en.gz')

train_filepaths = [extract_archive(download_from_url(url_base + url))[0] for url in train_urls]
val_filepaths = [extract_archive(download_from_url(url_base + url))[0] for url in val_urls]
test_filepaths = [extract_archive(download_from_url(url_base + url))[0] for url in test_urls]

In [3]:
de_tokenizer = get_tokenizer('spacy', language='de_core_news_sm')
en_tokenizer = get_tokenizer('spacy', language='en_core_web_sm')

In [4]:
def build_vocab(filepath, tokenizer):
    counter = Counter()
    with io.open(filepath, encoding="utf8") as f:
        for string_ in tqdm(f):
            counter.update(tokenizer(string_))
    base_vocab = vocab(
        ordered_dict = counter, 
        specials=['<unk>', '<pad>', '<bos>', '<eos>'],
        min_freq = 2, 
    )
    base_vocab.set_default_index(base_vocab['<unk>'])
    return Vocab(base_vocab)

de_vocab = build_vocab(train_filepaths[0], de_tokenizer)
en_vocab = build_vocab(train_filepaths[1], en_tokenizer)

29000it [00:01, 24210.07it/s]
29000it [00:00, 35350.05it/s]


In [5]:
print(f"de_vocab type: {type(de_vocab)}")
print(f"en_vocab type: {type(en_vocab)}")

print(f"de_vocab length: {len(de_vocab)}")
print(f"en_vocab length: {len(en_vocab)}")

de_vocab type: <class 'torchtext.vocab.vocab.Vocab'>
en_vocab type: <class 'torchtext.vocab.vocab.Vocab'>
de_vocab length: 8015
en_vocab length: 6192


In [6]:
def data_process(filepaths):
    raw_de_iter = iter(io.open(filepaths[0], encoding="utf8"))
    raw_en_iter = iter(io.open(filepaths[1], encoding="utf8"))
    data = []
    for (raw_de, raw_en) in tqdm(zip(raw_de_iter, raw_en_iter)):
        de_tensor_ = torch.tensor([de_vocab[token] for token in de_tokenizer(raw_de)], dtype=torch.long)
        en_tensor_ = torch.tensor([en_vocab[token] for token in en_tokenizer(raw_en)], dtype=torch.long)
        data.append((de_tensor_, en_tensor_))
    
    return data

train_data = data_process(train_filepaths)
val_data = data_process(val_filepaths)
test_data = data_process(test_filepaths)

29000it [00:02, 12932.02it/s]
1014it [00:00, 9664.14it/s]
1000it [00:00, 10276.78it/s]


In [7]:
print(f"Train Data Type: {type(train_data)}")
print(f"Val Data Type: {type(val_data)}")
print(f"Test Data Type: {type(test_data)}")

Train Data Type: <class 'list'>
Val Data Type: <class 'list'>
Test Data Type: <class 'list'>


In [8]:
print(f"#Training Samples: {len(train_data)}")
print(f"#Validation Samples: {len(val_data)}")
print(f"#Testing Samples: {len(test_data)}")

#Training Samples: 29000
#Validation Samples: 1014
#Testing Samples: 1000


In [9]:
BATCH_SIZE = 128
PAD_IDX = de_vocab['<pad>']
BOS_IDX = de_vocab['<bos>']
EOS_IDX = de_vocab['<eos>']

def generate_batch(data_batch):
    de_batch, en_batch = [], []
    for (de_item, en_item) in data_batch:
        de_batch.append(torch.cat([torch.tensor([BOS_IDX]), de_item, torch.tensor([EOS_IDX])], dim=0))
        en_batch.append(torch.cat([torch.tensor([BOS_IDX]), en_item, torch.tensor([EOS_IDX])], dim=0))
    de_batch = pad_sequence(de_batch, padding_value=PAD_IDX)
    en_batch = pad_sequence(en_batch, padding_value=PAD_IDX)
    return de_batch, en_batch

train_iter = DataLoader(train_data, batch_size=BATCH_SIZE, shuffle=True, collate_fn=generate_batch)
valid_iter = DataLoader(val_data, batch_size=BATCH_SIZE, shuffle=True, collate_fn=generate_batch)
test_iter = DataLoader(test_data, batch_size=BATCH_SIZE, shuffle=True, collate_fn=generate_batch)

In [10]:
print(f"#Training Batches: {len(train_iter)}")
print(f"#Validation Batches: {len(valid_iter)}")
print(f"#Testing Batches: {len(test_iter)}")

#Training Batches: 227
#Validation Batches: 8
#Testing Batches: 8


In [11]:
for sample_de, sample_en in train_iter:
    print(sample_de.shape)
    print(sample_en.shape)
    break

torch.Size([27, 128])
torch.Size([27, 128])


In [12]:
class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, hid_dim, n_layers, dropout):
        super().__init__()
        
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        
        self.embedding = nn.Embedding(input_dim, emb_dim)
        
        self.rnn = nn.LSTM(emb_dim, hid_dim, n_layers, dropout = dropout)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, src):
        
        embedded = self.dropout(self.embedding(src))
        
        outputs, (hidden, cell) = self.rnn(embedded)
        
        return hidden, cell

In [13]:
class Decoder(nn.Module):
    def __init__(self, output_dim, emb_dim, hid_dim, n_layers, dropout):
        super().__init__()
        
        self.output_dim = output_dim
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        
        self.embedding = nn.Embedding(output_dim, emb_dim)
        
        self.rnn = nn.LSTM(emb_dim, hid_dim, n_layers, dropout = dropout)
        
        self.fc_out = nn.Linear(hid_dim, output_dim)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, input, hidden, cell):
        input = input.unsqueeze(0)
        
        embedded = self.dropout(self.embedding(input))        
                
        output, (hidden, cell) = self.rnn(embedded, (hidden, cell))
        
        prediction = self.fc_out(output.squeeze(0))
        
        return prediction, hidden, cell

In [14]:
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device):
        super().__init__()
        
        self.encoder = encoder
        self.decoder = decoder
        self.device = device
        
        assert encoder.hid_dim == decoder.hid_dim, \
            "Hidden dimensions of encoder and decoder must be equal!"
        assert encoder.n_layers == decoder.n_layers, \
            "Encoder and decoder must have equal number of layers!"
        
    def forward(self, src, trg, teacher_forcing_ratio = 0.5):       
        
        batch_size = trg.shape[1]
        trg_len = trg.shape[0]
        trg_vocab_size = self.decoder.output_dim
        
        outputs = torch.zeros(trg_len, batch_size, trg_vocab_size).to(self.device)
        
        hidden, cell = self.encoder(src)
        
        input = trg[0,:]
        
        for t in range(1, trg_len):
            output, hidden, cell = self.decoder(input, hidden, cell)
            
            outputs[t] = output
            
            teacher_force = random.random() < teacher_forcing_ratio
                    
            top1 = output.argmax(1) 
            
            input = trg[t] if teacher_force else top1
        
        return outputs
    
    def single_predict(self, src, max_len = 100):
        if self.training:
            self.training = False

        print(src.shape)
        hidden, cell = self.encoder(src)

        input = copy.deepcopy(src[0, :])

        outputs = []

        while input.item() != EOS_IDX and len(outputs) < 100:
            output, hidden, cell = self.decoder(input, hidden, cell)

            input = output.argmax(1) 

            outputs.append(input.item())

        return outputs

In [15]:
INPUT_DIM = len(de_vocab)
OUTPUT_DIM = len(en_vocab)
ENC_EMB_DIM = 256
DEC_EMB_DIM = 256
HID_DIM = 512
N_LAYERS = 2
ENC_DROPOUT = 0.5
DEC_DROPOUT = 0.5
N_EPOCHS = 100

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu', index = 0)

enc = Encoder(INPUT_DIM, ENC_EMB_DIM, HID_DIM, N_LAYERS, ENC_DROPOUT)
dec = Decoder(OUTPUT_DIM, DEC_EMB_DIM, HID_DIM, N_LAYERS, DEC_DROPOUT)

model = Seq2Seq(enc, dec, device).to(device)

optimizer = optim.Adam(model.parameters())

PAD_IDX = en_vocab['<pad>']

criterion = nn.CrossEntropyLoss(ignore_index=PAD_IDX)

In [16]:
def init_weights(m):
    for name, param in m.named_parameters():
        nn.init.uniform_(param.data, -0.08, 0.08)
        
model.apply(init_weights)

Seq2Seq(
  (encoder): Encoder(
    (embedding): Embedding(8015, 256)
    (rnn): LSTM(256, 512, num_layers=2, dropout=0.5)
    (dropout): Dropout(p=0.5, inplace=False)
  )
  (decoder): Decoder(
    (embedding): Embedding(6192, 256)
    (rnn): LSTM(256, 512, num_layers=2, dropout=0.5)
    (fc_out): Linear(in_features=512, out_features=6192, bias=True)
    (dropout): Dropout(p=0.5, inplace=False)
  )
)

In [17]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f'The model has {count_parameters(model):,} trainable parameters')

The model has 14,169,904 trainable parameters


In [18]:
best_valid_loss = float('inf')

for epoch in range(N_EPOCHS):
    model.train()
    
    total_train_loss = 0
    for train_src, train_trg in tqdm(train_iter):
        train_src, train_trg = train_src.to(device), train_trg.to(device)
        
        train_output = model(train_src, train_trg)
        train_output_dim = train_output.shape[-1]
        train_output = train_output[1:].view(-1, train_output_dim)
        train_trg = train_trg[1:].view(-1)
        
        train_loss = criterion(train_output, train_trg)

        optimizer.zero_grad()
        
        train_loss.backward()
        
        optimizer.step()
        
        total_train_loss += train_loss.item()

    model.eval()

    total_valid_loss = 0
    with torch.no_grad():
        for valid_src, valid_trg in tqdm(valid_iter):
            valid_src, valid_trg = valid_src.to(device), valid_trg.to(device)

            valid_output = model(valid_src, valid_trg, 0)
            valid_output_dim = valid_output.shape[-1]
            valid_output = valid_output[1:].view(-1, valid_output_dim)
            valid_trg = valid_trg[1:].view(-1)

            valid_loss = criterion(valid_output, valid_trg)
            
            total_valid_loss += valid_loss.item()

    mean_train_loss = total_train_loss/len(train_iter)
    mean_valid_loss = total_valid_loss/len(valid_iter)
    

    print(f"Epoch: {epoch} - Mean Train Loss: {mean_train_loss} - Mean Valid Loss: {mean_valid_loss}")

100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.53it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.63it/s]


Epoch: 0 - Mean Train Loss: 4.913150900786143 - Mean Valid Loss: 4.89428174495697


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.66it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.58it/s]


Epoch: 1 - Mean Train Loss: 4.2851835977663555 - Mean Valid Loss: 4.597559452056885


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.64it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.22it/s]


Epoch: 2 - Mean Train Loss: 3.9325344404985203 - Mean Valid Loss: 4.441369473934174


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.61it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.86it/s]


Epoch: 3 - Mean Train Loss: 3.754130692208916 - Mean Valid Loss: 4.246088981628418


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.59it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.71it/s]


Epoch: 4 - Mean Train Loss: 3.5818571267148998 - Mean Valid Loss: 4.179526150226593


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.45it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.93it/s]


Epoch: 5 - Mean Train Loss: 3.4447159641114626 - Mean Valid Loss: 4.05039569735527


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.42it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 34.16it/s]


Epoch: 6 - Mean Train Loss: 3.331933914302204 - Mean Valid Loss: 4.0473567843437195


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.50it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.14it/s]


Epoch: 7 - Mean Train Loss: 3.212470124996706 - Mean Valid Loss: 3.9929239749908447


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.46it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.91it/s]


Epoch: 8 - Mean Train Loss: 3.0963029567365603 - Mean Valid Loss: 3.8764076828956604


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.23it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.18it/s]


Epoch: 9 - Mean Train Loss: 2.9854544711007946 - Mean Valid Loss: 3.841662436723709


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.62it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.25it/s]


Epoch: 10 - Mean Train Loss: 2.8889818223037382 - Mean Valid Loss: 3.8155685663223267


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.58it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.53it/s]


Epoch: 11 - Mean Train Loss: 2.782220235480086 - Mean Valid Loss: 3.870629161596298


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.28it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.69it/s]


Epoch: 12 - Mean Train Loss: 2.704104461333825 - Mean Valid Loss: 3.731717199087143


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.43it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.55it/s]


Epoch: 13 - Mean Train Loss: 2.60461786560025 - Mean Valid Loss: 3.729173421859741


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.50it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.71it/s]


Epoch: 14 - Mean Train Loss: 2.5450534326914647 - Mean Valid Loss: 3.712536245584488


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.59it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.92it/s]


Epoch: 15 - Mean Train Loss: 2.4470511354538838 - Mean Valid Loss: 3.7352353632450104


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.74it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.28it/s]


Epoch: 16 - Mean Train Loss: 2.3943967661668553 - Mean Valid Loss: 3.6583850979804993


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.45it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.96it/s]


Epoch: 17 - Mean Train Loss: 2.3401426560028007 - Mean Valid Loss: 3.607227861881256


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.21it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.87it/s]


Epoch: 18 - Mean Train Loss: 2.230250841195363 - Mean Valid Loss: 3.616761803627014


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.38it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.24it/s]


Epoch: 19 - Mean Train Loss: 2.2064762798174886 - Mean Valid Loss: 3.6757531464099884


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.70it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.85it/s]


Epoch: 20 - Mean Train Loss: 2.133227149820538 - Mean Valid Loss: 3.6990423798561096


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.54it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.95it/s]


Epoch: 21 - Mean Train Loss: 2.0678133906771956 - Mean Valid Loss: 3.6585184037685394


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.47it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.11it/s]


Epoch: 22 - Mean Train Loss: 2.015271686247267 - Mean Valid Loss: 3.718029111623764


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.81it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.53it/s]


Epoch: 23 - Mean Train Loss: 1.969142377639132 - Mean Valid Loss: 3.7700110971927643


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.89it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.52it/s]


Epoch: 24 - Mean Train Loss: 1.904567923314771 - Mean Valid Loss: 3.735703229904175


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.39it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.51it/s]


Epoch: 25 - Mean Train Loss: 1.8557771428566148 - Mean Valid Loss: 3.734908103942871


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.52it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.66it/s]


Epoch: 26 - Mean Train Loss: 1.8195312238474775 - Mean Valid Loss: 3.695535719394684


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.96it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.96it/s]


Epoch: 27 - Mean Train Loss: 1.7562556623887386 - Mean Valid Loss: 3.804613381624222


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.24it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.88it/s]


Epoch: 28 - Mean Train Loss: 1.7045644175113561 - Mean Valid Loss: 3.7980192601680756


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.87it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.08it/s]


Epoch: 29 - Mean Train Loss: 1.6794522071199796 - Mean Valid Loss: 3.7999314665794373


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.45it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.69it/s]


Epoch: 30 - Mean Train Loss: 1.6134008016880388 - Mean Valid Loss: 3.888736456632614


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.59it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.34it/s]


Epoch: 31 - Mean Train Loss: 1.5866785101953582 - Mean Valid Loss: 3.8688237369060516


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.69it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.82it/s]


Epoch: 32 - Mean Train Loss: 1.5586556374764127 - Mean Valid Loss: 3.8871260583400726


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:15<00:00, 15.03it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.34it/s]


Epoch: 33 - Mean Train Loss: 1.4951223045718827 - Mean Valid Loss: 3.925633192062378


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.22it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.38it/s]


Epoch: 34 - Mean Train Loss: 1.4642884295417349 - Mean Valid Loss: 3.9402641355991364


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.61it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.62it/s]


Epoch: 35 - Mean Train Loss: 1.431064713368857 - Mean Valid Loss: 3.924244463443756


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.52it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.96it/s]


Epoch: 36 - Mean Train Loss: 1.367917984592757 - Mean Valid Loss: 4.050365895032883


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.35it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 34.38it/s]


Epoch: 37 - Mean Train Loss: 1.354247155168508 - Mean Valid Loss: 4.035813391208649


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.29it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.22it/s]


Epoch: 38 - Mean Train Loss: 1.3151357221183273 - Mean Valid Loss: 4.017041862010956


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.35it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.56it/s]


Epoch: 39 - Mean Train Loss: 1.2763897616432627 - Mean Valid Loss: 3.9982775151729584


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.41it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.91it/s]


Epoch: 40 - Mean Train Loss: 1.2547201298932147 - Mean Valid Loss: 4.129198402166367


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.16it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 34.26it/s]


Epoch: 41 - Mean Train Loss: 1.2049208288675888 - Mean Valid Loss: 4.144761919975281


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.48it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.03it/s]


Epoch: 42 - Mean Train Loss: 1.1979374066323436 - Mean Valid Loss: 4.143351137638092


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.44it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.85it/s]


Epoch: 43 - Mean Train Loss: 1.1427607344635782 - Mean Valid Loss: 4.257627010345459


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.30it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.41it/s]


Epoch: 44 - Mean Train Loss: 1.133662690675206 - Mean Valid Loss: 4.268932372331619


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.35it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.55it/s]


Epoch: 45 - Mean Train Loss: 1.0873020782344667 - Mean Valid Loss: 4.310432434082031


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.73it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.72it/s]


Epoch: 46 - Mean Train Loss: 1.0803241414645695 - Mean Valid Loss: 4.315974235534668


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.55it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.54it/s]


Epoch: 47 - Mean Train Loss: 1.0654362413851701 - Mean Valid Loss: 4.293097138404846


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.35it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.15it/s]


Epoch: 48 - Mean Train Loss: 1.0256278627769537 - Mean Valid Loss: 4.419122576713562


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.29it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.28it/s]


Epoch: 49 - Mean Train Loss: 0.9983480890416889 - Mean Valid Loss: 4.424874722957611


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.21it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.75it/s]


Epoch: 50 - Mean Train Loss: 0.9757284887036562 - Mean Valid Loss: 4.3984291553497314


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.54it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.93it/s]


Epoch: 51 - Mean Train Loss: 0.9539434098462176 - Mean Valid Loss: 4.481708109378815


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.46it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.62it/s]


Epoch: 52 - Mean Train Loss: 0.9288496663917004 - Mean Valid Loss: 4.5289266705513


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.26it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.77it/s]


Epoch: 53 - Mean Train Loss: 0.9007367032214934 - Mean Valid Loss: 4.559778153896332


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.28it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.99it/s]


Epoch: 54 - Mean Train Loss: 0.876018804863161 - Mean Valid Loss: 4.611750900745392


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.51it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.43it/s]


Epoch: 55 - Mean Train Loss: 0.8570579778780496 - Mean Valid Loss: 4.623691201210022


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.53it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.03it/s]


Epoch: 56 - Mean Train Loss: 0.8282535606543924 - Mean Valid Loss: 4.690254747867584


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.21it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.46it/s]


Epoch: 57 - Mean Train Loss: 0.829848417364028 - Mean Valid Loss: 4.691332459449768


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.50it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.15it/s]


Epoch: 58 - Mean Train Loss: 0.8007655863194739 - Mean Valid Loss: 4.7385066747665405


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.51it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.08it/s]


Epoch: 59 - Mean Train Loss: 0.7812142036034673 - Mean Valid Loss: 4.751550853252411


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.31it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.46it/s]


Epoch: 60 - Mean Train Loss: 0.7588434723505365 - Mean Valid Loss: 4.800324320793152


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.52it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.91it/s]


Epoch: 61 - Mean Train Loss: 0.7456817998497497 - Mean Valid Loss: 4.750196099281311


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.40it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.28it/s]


Epoch: 62 - Mean Train Loss: 0.7324029942441092 - Mean Valid Loss: 4.770630300045013


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.63it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.78it/s]


Epoch: 63 - Mean Train Loss: 0.7104474025150753 - Mean Valid Loss: 4.86171293258667


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.71it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.30it/s]


Epoch: 64 - Mean Train Loss: 0.6885447494258965 - Mean Valid Loss: 4.866591513156891


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.52it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.34it/s]


Epoch: 65 - Mean Train Loss: 0.6958614762396539 - Mean Valid Loss: 4.93176543712616


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.38it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.14it/s]


Epoch: 66 - Mean Train Loss: 0.6633714635729264 - Mean Valid Loss: 4.989718675613403


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.84it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.47it/s]


Epoch: 67 - Mean Train Loss: 0.6551253389944589 - Mean Valid Loss: 5.037292122840881


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.99it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 34.71it/s]


Epoch: 68 - Mean Train Loss: 0.6332807076134871 - Mean Valid Loss: 5.0947540402412415


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.14it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.40it/s]


Epoch: 69 - Mean Train Loss: 0.6232667482634473 - Mean Valid Loss: 5.026317834854126


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.42it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.97it/s]


Epoch: 70 - Mean Train Loss: 0.6094702811755798 - Mean Valid Loss: 5.05405330657959


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:15<00:00, 15.13it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.86it/s]


Epoch: 71 - Mean Train Loss: 0.591106926685913 - Mean Valid Loss: 5.127446174621582


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.19it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.29it/s]


Epoch: 72 - Mean Train Loss: 0.5746329007957476 - Mean Valid Loss: 5.172759115695953


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.35it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.45it/s]


Epoch: 73 - Mean Train Loss: 0.5638530868790749 - Mean Valid Loss: 5.16600102186203


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.42it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.14it/s]


Epoch: 74 - Mean Train Loss: 0.5642604749108201 - Mean Valid Loss: 5.197135508060455


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.33it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.93it/s]


Epoch: 75 - Mean Train Loss: 0.5437561228936989 - Mean Valid Loss: 5.249274969100952


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.32it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.39it/s]


Epoch: 76 - Mean Train Loss: 0.5404885816941702 - Mean Valid Loss: 5.2473549246788025


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.38it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.18it/s]


Epoch: 77 - Mean Train Loss: 0.531544739585616 - Mean Valid Loss: 5.241768956184387


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.45it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.70it/s]


Epoch: 78 - Mean Train Loss: 0.5162036609282052 - Mean Valid Loss: 5.287991642951965


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.55it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.98it/s]


Epoch: 79 - Mean Train Loss: 0.5080322456517409 - Mean Valid Loss: 5.353097200393677


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.37it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.19it/s]


Epoch: 80 - Mean Train Loss: 0.49057452820471203 - Mean Valid Loss: 5.380710482597351


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.34it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 34.99it/s]


Epoch: 81 - Mean Train Loss: 0.48080046534013116 - Mean Valid Loss: 5.466189622879028


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.15it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 35.20it/s]


Epoch: 82 - Mean Train Loss: 0.4758974955733127 - Mean Valid Loss: 5.454509079456329


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.53it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.66it/s]


Epoch: 83 - Mean Train Loss: 0.4651600490057521 - Mean Valid Loss: 5.445854008197784


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.54it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.12it/s]


Epoch: 84 - Mean Train Loss: 0.45198586241789324 - Mean Valid Loss: 5.529317617416382


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.53it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.90it/s]


Epoch: 85 - Mean Train Loss: 0.4546845511980519 - Mean Valid Loss: 5.489774584770203


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.40it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 34.10it/s]


Epoch: 86 - Mean Train Loss: 0.44554161172081197 - Mean Valid Loss: 5.537730395793915


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.65it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.57it/s]


Epoch: 87 - Mean Train Loss: 0.42901004463565506 - Mean Valid Loss: 5.583018243312836


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.38it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.25it/s]


Epoch: 88 - Mean Train Loss: 0.4285476887803771 - Mean Valid Loss: 5.642302334308624


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.84it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.54it/s]


Epoch: 89 - Mean Train Loss: 0.4147499566036174 - Mean Valid Loss: 5.632393062114716


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.44it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.15it/s]


Epoch: 90 - Mean Train Loss: 0.40957059957382436 - Mean Valid Loss: 5.646507561206818


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.42it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 31.22it/s]


Epoch: 91 - Mean Train Loss: 0.4035152179816746 - Mean Valid Loss: 5.595771074295044


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.58it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.93it/s]


Epoch: 92 - Mean Train Loss: 0.39623169476240216 - Mean Valid Loss: 5.732118189334869


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.23it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.03it/s]


Epoch: 93 - Mean Train Loss: 0.38937686744765565 - Mean Valid Loss: 5.800301909446716


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.33it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.76it/s]


Epoch: 94 - Mean Train Loss: 0.38536963365676646 - Mean Valid Loss: 5.769947826862335


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.24it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.45it/s]


Epoch: 95 - Mean Train Loss: 0.3727066619280677 - Mean Valid Loss: 5.792653858661652


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.22it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.33it/s]


Epoch: 96 - Mean Train Loss: 0.3732162810501023 - Mean Valid Loss: 5.822566509246826


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.28it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.30it/s]


Epoch: 97 - Mean Train Loss: 0.3652272792245848 - Mean Valid Loss: 5.849691212177277


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.43it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 33.08it/s]


Epoch: 98 - Mean Train Loss: 0.3563655014211386 - Mean Valid Loss: 5.847384810447693


100%|██████████████████████████████████████████████████████████████████████| 227/227 [00:14<00:00, 15.25it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 30.95it/s]

Epoch: 99 - Mean Train Loss: 0.3569537969675358 - Mean Valid Loss: 5.841828465461731





In [19]:
model.eval()

total_test_loss = 0
with torch.no_grad():
    for test_src, test_trg in tqdm(test_iter):
        test_src, test_trg = test_src.to(device), test_trg.to(device)

        test_output = model(test_src, test_trg, 0)
        test_output_dim = test_output.shape[-1]
        test_output = test_output[1:].view(-1, test_output_dim)
        test_trg = test_trg[1:].view(-1)

        test_loss = criterion(test_output, test_trg)
        
        total_test_loss += test_loss.item()

mean_test_loss = total_test_loss/len(test_iter)

print(f"Test Loss: {mean_test_loss}")

100%|██████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 32.91it/s]

Test Loss: 5.794943273067474





In [27]:
for case, (idx_src, idx_trg) in enumerate(test_data[:10]):
    token_src = de_vocab.lookup_tokens(idx_src.numpy().tolist())
    token_trg = en_vocab.lookup_tokens(idx_trg.numpy().tolist())
    print(f"CASE: {case}")
    joined_token_src = " ".join(token_src)
    joined_token_trg = " ".join(token_trg)
    print(f"\tSOURCE: {joined_token_src}")
    print(f"\tTARGET: {joined_token_trg}")

    processed_idx_src = torch.cat([torch.tensor([BOS_IDX]), idx_src, torch.tensor([EOS_IDX])], dim=0)
    processed_idx_trg = torch.cat([torch.tensor([BOS_IDX]), idx_trg, torch.tensor([EOS_IDX])], dim=0)

    batch_idx_src = processed_idx_src.unsqueeze(1)
    batch_idx_trg = processed_idx_trg.unsqueeze(1)

    translated = model.single_predict(idx_src.to(device).unsqueeze(1))

    token_translated = en_vocab.lookup_tokens(translated)
    join_token_translated = " ".join(token_translated)
    print(f"\tPREDICT: {join_token_translated}")

CASE: 0
	SOURCE: Ein Mann mit einem orangefarbenen Hut , der etwas <unk> . 

	TARGET: A man in an orange hat starring at something . 

torch.Size([12, 1])
	PREDICT: A man wearing an orange hat - up . 
 <eos>
CASE: 1
	SOURCE: Ein Boston Terrier läuft über <unk> Gras vor einem weißen Zaun . 

	TARGET: A Boston Terrier is running on lush green grass in front of a white fence . 

torch.Size([13, 1])
	PREDICT: A brown dog runs across the grass of a fence . 
 <eos>
CASE: 2
	SOURCE: Ein Mädchen in einem Karateanzug bricht ein Brett mit einem Tritt . 

	TARGET: A girl in karate uniform breaking a stick with a front kick . 

torch.Size([13, 1])
	PREDICT: A girl in a karate costume does a silly face . 
 <eos>
CASE: 3
	SOURCE: Fünf Leute in Winterjacken und mit Helmen stehen im Schnee mit <unk> im Hintergrund . 

	TARGET: Five people wearing winter jackets and helmets stand in the snow , with <unk> in the background . 

torch.Size([16, 1])
	PREDICT: Five people wearing a sports suits and helmets 