# Семинар  
## Seq2Seq модели в машинном переводе

На лекции мы подробно познакомились с подходами к решению задачи машинного перевода.
Наиболее распространенными моделями последовательностей (seq2seq) являются модели кодер-декодер, которые (обычно) используют рекуррентную нейронную сеть (RNN) для кодирования исходного (входного) предложения в один вектор.  Вы можете думать о векторе контекста как об абстрактном представлении всего входного предложения. Этот вектор затем декодируется декодером, который учится выводить  предложение, генерируя его по одному слову за раз.


$h_t = \text{Encoder}(x_t, h_{t-1})$

У нас есть последовательность $X = \{x_1, x_2, ..., x_T\}$, где $x_1 = \text{<sos>;}, x_2 = \text{the}$, и так далее. Начальное состояние, $h_0$,  может быть инициализировано вектором из нулей или обучаемым.


Как только последнее слово, $x_T$, был подан на Encoder, мы  используем  информацию в  последнем скрытом состоянии, $h_T$, в зависимости от контекста вектор, т. е. $h_T $ это векторное представление всего исходного предложения.

После получения вектора всего предложения мы можем декодировать предложение уже на новом языке. На каждом шаге декодирования мы подаем правильное слово $y_t$,  дополняем это информацией о скрытом состоянии $s_{t-1}$, где  $s_t = \text{DecoderRNN}(y_t, s_{t-1})$


![alt text](https://i.stack.imgur.com/f6DQb.png)


Мы всегда используем $<sos>$ для первого входа в декодер, $y_1$, но для последующих входов, $y_{\text{from }t; 1}$, мы иногда будем использовать фактическое, основное истинное следующее слово в последовательности, $y_t$, а иногда использовать слово, предсказанное нашим декодером, $\hat{y}_{t-1}$. Использование настоящих токенов в декодере называется Teacher Forcing [можно тут посмотреть](https://machinelearningmastery.com/teacher-forcing-for-recurrent-neural-networks/)

## Датасет Multi30k

Загрузим датасет и посмотрим на него. Не забудем, что надо токенизировать текст перед отправкой в модель. Мы будем  использовать TorchText и spaCy( как токенизатор) , чтобы помочь вам выполнить всю необходимую предварительную обработку быстрее чем мы делали раньше. В данной работе вам предлагается написать модель Seq2Seq и обучить ее на Multi30k. В данном задание мы будем подавать на вход перевернутые предложения, так как авторы seq2seq считали, что это улучшает качество перевода.

In [None]:
!pip install spacy

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

import numpy as np

import spacy

import random
import math
import time

from torchtext.datasets import TranslationDataset, Multi30k
from torchtext.data import Field, BucketIterator

In [None]:
seed = 42

random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [None]:
! python3 -m spacy download en
! python3 -m spacy download de


spacy_de = spacy.load('de')
spacy_en = spacy.load('en')

In [None]:
def tokenize_de(text):
    """
    Tokenizes German text from a string into a list of strings (tokens) and reverses it
    """
    return [tok.text for tok in spacy_de.tokenizer(text)][::-1]

def tokenize_en(text):
    """
    Tokenizes English text from a string into a list of strings (tokens)
    """
    return [tok.text for tok in spacy_en.tokenizer(text)]

# немецкий язык является полем SRC, а английский в поле TRG
SRC = Field(tokenize = tokenize_de, 
            init_token = '<sos>', 
            eos_token = '<eos>', 
            lower = True)

TRG = Field(tokenize = tokenize_en, 
            init_token = '<sos>', 
            eos_token = '<eos>', 
            lower = True)

In [None]:
# В датасете содержится ~ 30к предложений средняя длина которых 11
train_data, valid_data, test_data = Multi30k.splits(exts = ('.de', '.en'),  fields = (SRC, TRG))

Давайте посмотрим что у нас с датасетом и сделаем словари для SRC и TGT

In [None]:
labels = ['train', 'validation', 'test']
dataloaders = [train_data, valid_data, test_data]
for d, l in zip(dataloaders, labels):
    print("Number of sentences in {} : {}".format(l, len(d.examples)))

In [None]:
SRC.build_vocab(train_data, min_freq = 2)
TRG.build_vocab(train_data, min_freq = 2)
print("Number of words in source vocabulary", len(SRC.vocab))
print("Number of words in source vocabulary", len(TRG.vocab))

In [None]:
SRC.process(["ein klein gespenster", ])

## BLEU

Чтобы сравнивать моделей, надо иметь численную метрику качества. Качество перевода можно оценить с помощью метрики **BLEU**. Как она работает:

Пусть у нас есть:

Предложенный перевод: `the cat mat`

Эталонный перевод: `the cat is on the mat`

In [None]:
pred = ["the", "cat", "mat"]
target = ["the", "cat", "is", "on", "the", "mat"]

Соберем н-граммы из предложенного переводы и посчитаем, сколько из них содержится в эталонном переводе.

In [None]:
# n-grams in pred
unigrams = [(i,) for i in pred]
bigrams = [(i, j) for i, j in zip(pred[:-1], pred[1:])]
trigrams = [tuple(pred)]

# n-grams in target
target_unigrams = ...
target_bigrams = ...
target_trigrams = ...

In [None]:
count_unigrams = sum(uni in target_unigrams for uni in unigrams)
count_bigrams = sum(bi in target_bigrams for bi in bigrams)
count_trigrams = sum(tri in target_trigrams for tri in trigrams)

Для BLEU нам надо поделить число посчитанных н-грамм на их количество. Если мы смотрели на разные н-граммы, то BLEU будет являться взвешенной суммой.

In [None]:
bleu_uni = ...
bleu_bi = ...
bleu_tri = ...
print(f"BLEU-uni: {bleu_uni}\nBLEU-bi: {bleu_bi}\nBLEU-tri: {bleu_tri}")

In [None]:
bleu = (bleu_uni + bleu_bi + bleu_tri) / 3
assert bleu == 0.5
print(f"BLEU: {bleu}")

Считать вручную эту метрику не требуется. Уже есть готовые реализации, например в библиотеке `nltk`. Эта реализация использует модифицированные подсчет н-грамм и усреднение bleu для каждой н-граммы, поэтому это число будет отличаться от простой реализации. 

Заметим, что для посчета могут использоваться несколько эталонных переводов. Поэтому эталонные переводы передаются списком.

In [None]:
from nltk.translate.bleu_score import sentence_bleu

print(f"BLEU: {sentence_bleu([target], pred, weights=(1/2, 1/2))}")

BLEU – не единственная метрика для перевода. Ещё есть ROGUE, METEOR, WER.

## Encoder

Напишем для начала простой Encoder, который реализует следующий функционал:

$ (h_t, c_t) = \text{LSTM}(x_t, (h_{t-1}, c_{t-1}))$

В  методе forward мы передаем исходное предложение $X$, которое преобразуется в embeddings, к которым применяется dropout . Эти вектора затем передаются в RNN. Когда мы передадим всю последовательность RNN, он автоматически выполнит для нас рекуррентный расчет скрытых состояний по всей последовательности! Вы можете заметить, что мы не передаем начальное скрытое или состояние ячейки в RNN. Это происходит потому, что, как отмечено в документации, если никакое скрытое состояние/ячейка не передается RNN, он автоматически создаст начальное скрытое состояние/ячейка как тензор всех нулей.

In [None]:
class Encoder(nn.Module):
    def __init__(self, input_size, emb_size, hidden_size, num_layers=2, dropout=0.1):
        super().__init__()
        
        self.input_size = input_size
        self.emb_size = emb_size
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.dropout = dropout

        self.embedding = ...
 
        self.rnn = ... #(lstm embd, hid, layers, dropout)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, src):
        """
        :param: src sentences (src_len x batch_size)
        """
        # embedded = <TODO> (src_len x batch_size x embd_dim)
        embedded = ...
        # dropout over embedding
        embedded = ...
        outputs, (hidden, cell) = ...
        # [Attention return is for lstm, but you can also use gru]
        return hidden, cell

## Decoder
Похожий на Encoder, но со слоем проекцией, который переводит из hidden_dim в output

In [None]:
class Decoder(nn.Module):
    def __init__(self, output_size, emb_size, hidden_size, num_layer=2, dropout=0.1):
        super().__init__()

        self.emb_size = emb_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.num_layers = num_layers
        self.dropout = dropout
        
        self.embedding = ...
        
        self.rnn = ... #(lstm embd, hid, layers, dropout)
        
        self.out = ... # Projection :hid_dim x output_dim
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, input_, hidden, cell):
        
        
        # (1x batch_size)
        input_ = input_.unsqueeze(0)
        
        # (1 x batch_size x emb_dim)
        embedded = ... # embd over input and dropout 
        embedded = ...
                
        output, (hidden, cell) = ...
        
        #sent len and n directions will always be 1 in the decoder
        
        # (batch_size x output_dim)
        
        prediction = ... #project out of the rnn on the output dim 
        
        return prediction, hidden, cell


## Seq2Seq module

In [None]:
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device):
        super().__init__()
        # Hidden dimensions of encoder and decoder must be equal
        self.encoder = encoder
        self.decoder = decoder
        self.device = device
        self._init_weights()  
    
    def forward(self, src, trg, teacher_forcing_ratio = 0.5):
        """
        :param: src (src_len x batch_size)
        :param: tgt
        :param: teacher_forcing_ration : if 0.5 then every second token is the ground truth input
        """
        
        batch_size = trg.shape[1]
        max_len = trg.shape[0]
        trg_vocab_size = self.decoder.output_size
        
        #tensor to store decoder outputs
        outputs = torch.zeros(max_len, batch_size, trg_vocab_size).to(self.device)
        
        #last hidden state of the encoder is used as the initial hidden state of the decoder
        hidden, cell = ... # TODO pass src throw encoder
        
        #first input to the decoder is the <sos> tokens
        input = ... # TODO trg[idxs]
        
        for t in range(1, max_len):
            
            output, hidden, cell = ... #TODO pass state and input throw decoder 
            outputs[t] = output
            teacher_force = random.random() < teacher_forcing_ratio
            top1 = output.max(1)[1]
            input = (trg[t] if teacher_force else top1)
        
        return outputs
    
    def _init_weights(self):
        p = 0.08
        for name, param in self.named_parameters():
            nn.init.uniform_(param.data, -p, p)

In [None]:
input_size = len(SRC.vocab)
output_size = len(TRG.vocab)
src_emb_size =  tgt_emb_size = 128
hidden_size = 1024
num_layers =  3
dropout = 0.2

batch_size = 128
PAD_IDX = TRG.vocab.stoi['<pad>']

iterators = BucketIterator.splits((train_data, valid_data, test_data),
                                  batch_size = batch_size, device = device)
train_iterator, valid_iterator, test_iterator = iterators

encoder = Encoder(input_size, src_emb_size, hidden_size, num_layers, dropout)
decoder = Decoder(output_size, tgt_emb_size, hidden_size, num_layers, dropout)
model = Seq2Seq(encoder, decoder, device).to(device)


In [None]:
from tqdm.notebook import tqdm


def training(model, iterator, optimizer, criterion, clip): 
    model.train()
    
    epoch_loss = 0
    for i, batch in tqdm(enumerate(iterator)):
        src = batch.src
        trg = batch.trg
        
        output = model(src, trg)
        output = output[1:].view(-1, output.shape[-1])
        trg = trg[1:].view(-1)
        loss = criterion(output, trg)
        
        optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
        optimizer.step()
        
        epoch_loss += loss.item()
        
    return epoch_loss / len(iterator)

In [None]:
def validating(model, iterator, criterion):
    model.eval()
    
    epoch_loss = 0
    with torch.no_grad():
        for i, batch in enumerate(iterator):
            src = batch.src
            trg = batch.trg

            output = model(src, trg, 0) #turn off teacher forcing !!

            output = output[1:].view(-1, output.shape[-1])
            trg = trg[1:].view(-1)
            loss = criterion(output, trg)
            
            epoch_loss += loss.item()
    return epoch_loss / len(iterator)

In [None]:
max_epochs = 10
CLIP = 1

# TODO
optimizer = ...
criterion = ...

best_valid_loss = float('inf')

for epoch in range(max_epochs):
    
    train_loss = round(training(model, train_iterator, optimizer, criterion, CLIP), 5)
    valid_loss = round(validating(model, valid_iterator, criterion),5)
    
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), 'model.pt')
    
    print('Epoch: {} \n Train Loss {}  Val loss {}:'.format(epoch, train_loss, valid_loss))
    print('Train Perplexity {}  Val Perplexity {}:'.format(np.exp(train_loss), np.exp(valid_loss)))

In [None]:
model.load_state_dict(torch.load("model.pt"))

In [None]:
test_loss = evaluate(model, test_iterator, criterion)

print('| Test Loss: {} Test PPL:{}|'.format(test_loss, np.exp(test_loss)))

In [None]:
def translate(sentence):
    sent_vec = SRC.process([sentence]).to(device)
    input = torch.zeros((10, 1)).type(torch.LongTensor).to(device)
    input += SRC.vocab.stoi['<sos>']
    output = ... # get model output
    for t in output:
        if t[0].max(0)[1] != SRC.vocab.stoi['<eos>']:
            # print next token
        else:
            break

In [None]:
translate("ein klein gespenster")

In [None]:
def bleu(sentence, target):
    sent_vec = SRC.process([sentence]).to(device)
    input = torch.zeros((10, 1)).type(torch.LongTensor).to(device)
    input += SRC.vocab.stoi['<sos>']
    output = model(sent_vec, input, 0)
    hyp = ""
    for t in output:
        if t[0].max(0)[1] != SRC.vocab.stoi['<eos>']:
            hyp += TRG.vocab.itos[t[0].max(0)[1]] + " "
    return sentence_bleu([target], hyp)

In [None]:
bleu("ein klein gespenster", "a little ghost")