In [1]:
import config
from model import Translator
from transformers import AutoTokenizer

src_tokenizer = AutoTokenizer.from_pretrained(config.SRC_MODEL_NAME)
tgt_tokenizer = AutoTokenizer.from_pretrained(config.TGT_MODEL_NAME)

translator = Translator.load_from_checkpoint(
    "../checkpoints/last.ckpt",
    src_tokenizer=src_tokenizer,
    tgt_tokenizer=tgt_tokenizer,
)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [2]:
import torch


def translate(text: str):
    self = translator

    src_token_ids, src_attention_mask = src_tokenizer(
        text, return_token_type_ids=False, return_tensors="pt"
    ).values()

    src_token_ids = src_token_ids.to(self.device)
    src_attention_mask = src_attention_mask.to(self.device)

    print(src_token_ids, src_attention_mask)

    tgt_token_ids = torch.tensor([[tgt_tokenizer.cls_token_id]], device=self.device)
    tgt_attention_mask = torch.tensor([[1]], device=self.device)

    for _ in range(config.MAX_SEQ_LEN):
        logits = translator(
            src_token_ids, tgt_token_ids, src_attention_mask, tgt_attention_mask
        )

        next_tgt_token_id = torch.argmax(logits[:, -1, :], keepdim=True, dim=-1)
        tgt_token_ids = torch.cat([tgt_token_ids, next_tgt_token_id], dim=-1)
        tgt_attention_mask = torch.cat(
            [
                tgt_attention_mask,
                torch.ones_like(next_tgt_token_id, dtype=torch.int64)
                if next_tgt_token_id != tgt_tokenizer.pad_token_id
                else torch.zeros_like(next_tgt_token_id, dtype=torch.int64),
            ],
            dim=-1,
        )

        if next_tgt_token_id == tgt_tokenizer.sep_token_id:
            break

    return tgt_tokenizer.decode(tgt_token_ids[0])


In [3]:
import heapq


class PriorityQueue:
    def __init__(self, key=lambda x: x, mode="min"):
        self.heap = []
        self.mode = mode

        if mode == "max":
            self.key = lambda x: -key(x)
        elif mode == "min":
            self.key = key

    def push(self, item):
        heapq.heappush(self.heap, (self.key(item), item))

    def pop(self):
        return heapq.heappop(self.heap)[1]

    def __len__(self):
        return len(self.heap)

    def clear(self):
        self.heap.clear()

    def empty(self):
        return len(self.heap) == 0

In [4]:
@torch.no_grad()
def beam_translate(text: str, max_translation_length: int = 50, beam_size: int = 3):
    self = translator

    src_token_ids, src_attention_mask = src_tokenizer(
        text, return_token_type_ids=False, return_tensors="pt"
    ).values()

    src_token_ids = src_token_ids.to(self.device)
    src_attention_mask = src_attention_mask.to(self.device)

    tgt_token_ids = torch.tensor([[tgt_tokenizer.cls_token_id]], device=self.device)
    tgt_attention_mask = torch.tensor([[1]], device=self.device)

    # =========================== #
    heap = PriorityQueue(key=lambda x: x[0], mode="min")
    heap.push((1.0, tgt_token_ids, tgt_attention_mask, False))

    ret = []
    for _ in range(max_translation_length):
        # Keep track of the top k candidates
        while len(heap) > beam_size:
            heap.pop()

        norm_prob = 0
        mem = []

        while not heap.empty():
            # P(T1:Tn-1)
            # tgt_token_ids.shape == (1, seq_len)
            tgt_seq_prob, tgt_token_ids, tgt_attention_mask, completed = heap.pop()

            if completed:
                ret.append(
                    (tgt_seq_prob.item(), tgt_tokenizer.decode(tgt_token_ids.squeeze_(), skip_special_tokens=True))
                )

                if len(ret) == beam_size:
                    return ret
                continue

            norm_prob += tgt_seq_prob

            logits = translator(
                src_token_ids, tgt_token_ids, src_attention_mask, tgt_attention_mask
            )

            # (vocab_size,)
            token_probs = torch.softmax(logits[:, -1, :], dim=-1).squeeze_()

            # P(Tn | T1:Tn-1)
            top_k_token_probs, top_k_token_ids = torch.topk(
                token_probs, beam_size, largest=True
            )

            for i in range(beam_size):
                next_token_id = top_k_token_ids[i]
                next_token_prob = top_k_token_probs[i]
                completed = next_token_id == tgt_tokenizer.sep_token_id

                mem.append(
                    (
                        tgt_seq_prob * next_token_prob,
                        torch.cat((tgt_token_ids, next_token_id.view(1, 1)), dim=-1),
                        torch.cat(
                            (
                                tgt_attention_mask,
                                torch.tensor([[1]], device=self.device),
                            ),
                            dim=-1,
                        ),
                        completed,
                    )
                )

        for tgt_seq_prob, tgt_token_ids, tgt_attention_mask, completed in mem:
            tgt_seq_prob /= norm_prob  # normalize
            heap.push((tgt_seq_prob, tgt_token_ids, tgt_attention_mask, completed))

    while len(ret) < beam_size and not heap.empty():
        tgt_seq_prob, tgt_token_ids, tgt_attention_mask, completed = heap.pop()

        decoded_seq = tgt_tokenizer.decode(tgt_token_ids[0], skip_special_tokens=True)
        ret.append((tgt_seq_prob.item(), decoded_seq))

    return ret


In [5]:
translator.greedy_translate("When i was little")

'Khi tôi nhỏ.'

In [6]:
beam_translate("When I was little, I thought my country was the best in the world.")

[(0.21303218603134155,
  'Tôi nhỏ, tôi nghĩ rằng đất nước mình là tốt nhất thế giới.'),
 (0.029819954186677933,
  ', tôi nhỏ, tôi nghĩ rằng đất nước của mình là tốt nhất thế giới'),
 (0.3129540979862213,
  ', tôi nhỏ, tôi nghĩ rằng đất nước mình là tốt nhất thế giới.')]

In [7]:
from datasets import load_dataset

iwslt = load_dataset("mt_eng_vietnamese", "iwslt2015-vi-en", split="test")

Found cached dataset mt_eng_vietnamese (/home/hoang/.cache/huggingface/datasets/mt_eng_vietnamese/iwslt2015-vi-en/1.0.0/53add551a01e9874588066f89d42925f9fad43db347199dad00f7e4b0c905a71)


In [8]:
iwslt[0]["translation"]

{'en': 'When I was little , I thought my country was the best on the planet , and I grew up singing a song called &quot; Nothing To Envy . &quot;',
 'vi': 'Khi tôi còn nhỏ , Tôi nghĩ rằng BắcTriều Tiên là đất nước tốt nhất trên thế giới và tôi thường hát bài &quot; Chúng ta chẳng có gì phải ghen tị . &quot;'}

In [11]:
beam_translate(iwslt[2]["translation"]["en"])

[(0.5021089911460876,
  'Chúng tôi rất nhiều thời gian nghiên cứu rất nhiều thời gian nghiên cứu về lịch sử của Kim, ngoại trừ nước ngoài, ngoại trừ nước Mỹ, Nhật Bản là kẻ thù.'),
 (0.5036974549293518,
  'Chúng tôi rất nhiều thời gian nghiên cứu rất nhiều thời gian nghiên cứu về lịch sử của Kim, ngoại trừ nước ngoài, ngoại trừ nước Mỹ, Nhật Bản là những kẻ thù.'),
 (0.03395974636077881,
  'Chúng tôi rất nhiều thời gian nghiên cứu rất nhiều thời gian nghiên cứu về lịch sử của Kim, ngoại trừ nước ngoài, ngoại trừ nước Mỹ, Nhật Bản, Nhật Bản là kẻ thù địch')]

In [12]:
iwslt[2]["translation"]["vi"]

'Ở trường , chúng tôi dành rất nhiều thời gian để học về cuộc đời của chủ tịch Kim II- Sung , nhưng lại không học nhiều về thế giới bên ngoài , ngoại trừ việc Hoa Kỳ , Hàn Quốc và Nhật Bản là kẻ thù của chúng tôi .'

In [14]:
translator.greedy_translate(iwslt[2]["translation"]["en"])

'Ở, chúng tôi đã dành rất nhiều thời gian nghiên cứu về lịch sử của Joel, ngoại trừ nước ngoài, ngoại trừ nước Mỹ, ngoại trừ nước Mỹ, Nhật Bản là kẻ thù địch.'