In [1]:
import os
REPO = os.path.dirname(os.path.realpath('.'))
os.chdir(REPO)

In [2]:
CHECKPOINT_ROOT = 'data/checkpoints/'
DATA_ROOT = 'data/annotations/flickr30k/'
SAVE_ROOT = 'translation_results'

In [3]:
import torch
from tqdm import tqdm
from zeronlg.utils import translate_eval, batch_to_device

generation_kwargs = {
    'num_beams': 3,
    'max_length': 128,
    'min_length': 5,
    'repetition_penalty': 1
}

def run(model, tag, mapping, folders=['en-zh', 'en-de', 'en-fr', 'zh-de', 'zh-fr', 'de-fr'], batch_size=32):
    device = torch.device("cuda:1" if torch.cuda.is_available() else "cpu")
    model.to(device)

    for folder in folders:
        lang1, lang2 = folder.split('-')

        for src_lang, trg_lang in zip([lang1, lang2], [lang2, lang1]):
            print(f'Running {src_lang} --> {trg_lang}')
            src_data = open(os.path.join(DATA_ROOT, folder, f'test.{src_lang}'), 'r', encoding='utf8').read().strip().split('\n')

            num_batches = len(src_data) // batch_size
            if batch_size * num_batches != src_data:
                num_batches += 1

            tokenizer.src_lang = mapping[src_lang]
            results = []
            for i in tqdm(range(num_batches)):
                text = src_data[i*batch_size:(i+1)*batch_size]
                encoded_text = tokenizer(text, return_tensors="pt", padding=True)
                encoded_text = batch_to_device(encoded_text, device)
                generated_tokens = model.generate(
                    **encoded_text,
                    forced_bos_token_id=tokenizer.lang_code_to_id[mapping[trg_lang]],
                    **generation_kwargs,
                )
                res = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
                results.extend(res)

            save_path = os.path.join(SAVE_ROOT, folder)
            os.makedirs(save_path, exist_ok=True)
            with open(os.path.join(save_path, f'test_{tag}_{src_lang}2{trg_lang}.txt'), 'w') as wf:
                wf.write('\n'.join(results))
            
            trg_data = open(os.path.join(DATA_ROOT, folder, f'test.{trg_lang}'), 'r', encoding='utf8').read().strip().split('\n')
            score = translate_eval(trg_data, results, trg_lang)['BLEU']
            print('BLEU:', score)

# mBART-50

In [4]:
!pip install protobuf==3.19.0



In [5]:
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

model_name = "facebook/mbart-large-50-many-to-many-mmt"
model_name = f"{CHECKPOINT_ROOT}/{model_name.replace('/', '_')}"
model = MBartForConditionalGeneration.from_pretrained(model_name)
tokenizer = MBart50TokenizerFast.from_pretrained(model_name)

print(f"Total Params: {sum(p.numel() for p in model.parameters())}")

Total Params: 610879488


In [6]:
tag = 'mBART'
mapping = {
    'en': 'en_XX',
    'zh': 'zh_CN',
    'de': 'de_DE',
    'fr': 'fr_XX',
}
run(model, tag, mapping, folders=['en-zh', 'en-de', 'en-fr', 'zh-de', 'zh-fr', 'de-fr'])

Running en --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [02:06<00:00,  1.24it/s]


BLEU: 18.93166225724159
Running zh --> en


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [02:09<00:00,  1.21it/s]


BLEU: 12.455019776062109
Running en --> de


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:26<00:00,  1.23it/s]


BLEU: 32.41109672697176
Running de --> en


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:23<00:00,  1.38it/s]


BLEU: 34.00489510137836
Running en --> fr


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:28<00:00,  1.14it/s]


BLEU: 30.397856351510708
Running fr --> en


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:23<00:00,  1.39it/s]


BLEU: 41.129413898028346
Running zh --> de


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.35it/s]


BLEU: 6.878554730316076
Running de --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.02it/s]


BLEU: 0.2555115861856091
Running zh --> fr


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.34it/s]


BLEU: 4.172111129589371
Running fr --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.97it/s]


BLEU: 1.7117586098746624
Running de --> fr


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:25<00:00,  1.27it/s]


BLEU: 7.6018134107032065
Running fr --> de


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:29<00:00,  1.08it/s]

BLEU: 17.87187722413398





# M2M-100

In [7]:
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

model_name = "facebook/m2m100_418M"
model_name = f"{CHECKPOINT_ROOT}/{model_name.replace('/', '_')}"
model = M2M100ForConditionalGeneration.from_pretrained(model_name, cache_dir=os.path.join(CHECKPOINT_ROOT, model_name))
tokenizer = M2M100Tokenizer.from_pretrained(model_name, cache_dir=os.path.join(CHECKPOINT_ROOT, model_name))

print(f"Total Params: {sum(p.numel() for p in model.parameters())}")

Total Params: 483905536


In [8]:
tag = 'M2M'
mapping = {
    'en': 'en',
    'zh': 'zh',
    'de': 'de',
    'fr': 'fr',
}
run(model, tag, mapping, folders=['en-zh', 'en-de', 'en-fr', 'zh-de', 'zh-fr', 'de-fr'])

Running en --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [02:17<00:00,  1.14it/s]


BLEU: 16.360305144230413
Running zh --> en


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [02:13<00:00,  1.17it/s]


BLEU: 10.50308258547299
Running en --> de


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:28<00:00,  1.10it/s]


BLEU: 24.515212466718005
Running de --> en


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:22<00:00,  1.44it/s]


BLEU: 30.156626549757917
Running en --> fr


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:30<00:00,  1.06it/s]


BLEU: 30.690488999723968
Running fr --> en


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:24<00:00,  1.30it/s]


BLEU: 36.38310886404972
Running zh --> de


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.02s/it]


BLEU: 8.512628459916103
Running de --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.85it/s]


BLEU: 13.283719141006964
Running zh --> fr


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.12it/s]


BLEU: 6.756616019283316
Running fr --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.06it/s]


BLEU: 14.87732371757134
Running de --> fr


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:29<00:00,  1.07it/s]


BLEU: 22.595825804515478
Running fr --> de


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:27<00:00,  1.17it/s]

BLEU: 23.48753354815412





# NLLB

In [None]:
# if your `transformers` version is low, e.g., 4.12.5
# then you should upgrade it to load the NLLB model
!pip install transformers==4.27.1

In [9]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "facebook/nllb-200-distilled-600M"
model_name = f"{CHECKPOINT_ROOT}/{model_name.replace('/', '_')}"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

print(f"Total Params: {sum(p.numel() for p in model.parameters())}")

Total Params: 615073792


In [10]:
tag = 'NLLB'
mapping = {
    'en': 'eng_Latn',
    'zh': 'zho_Hant',
    'de': 'deu_Latn',
    'fr': 'fra_Latn',
}
run(model, tag, mapping, folders=['en-zh', 'en-de', 'en-fr', 'zh-de', 'zh-fr', 'de-fr'])

Running en --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [02:34<00:00,  1.02it/s]


BLEU: 6.329950199239601
Running zh --> en


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [03:04<00:00,  1.18s/it]


BLEU: 12.780279435319835
Running en --> de


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:30<00:00,  1.04it/s]


BLEU: 37.45831539827305
Running de --> en


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:25<00:00,  1.26it/s]


BLEU: 39.77187624254019
Running en --> fr


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:31<00:00,  1.03it/s]


BLEU: 49.810105933572025
Running fr --> en


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:25<00:00,  1.24it/s]


BLEU: 46.77155646480461
Running zh --> de


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.09it/s]


BLEU: 10.659646122470866
Running de --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.60it/s]


BLEU: 4.0778635113143125
Running zh --> fr


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.73s/it]


BLEU: 5.735998578355137
Running fr --> zh


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.65it/s]


BLEU: 4.907097227581703
Running de --> fr


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:30<00:00,  1.05it/s]


BLEU: 34.18431776116203
Running fr --> de


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:33<00:00,  1.04s/it]

BLEU: 30.806844357138125



