In [None]:
# default_exp data.seq2seq.translation

In [None]:
#all_slow

In [None]:
#hide
%reload_ext autoreload
%autoreload 2
%matplotlib inline

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# data.seq2seq.translation

> This module contains the bits required to use the fastai DataBlock API and/or mid-level data processing pipelines to organize your data for translation tasks

In [None]:
#export
import ast
from functools import reduce

import torch
from datasets import list_datasets, load_dataset
from transformers import *
from fastai.text.all import *

from blurr.utils import *
from blurr.data.core import *
from blurr.data.seq2seq.core import *

logging.set_verbosity_error()

In [None]:
#hide
import pdb

from nbdev.showdoc import *
from fastcore.test import *

from fastai import __version__ as fa_version
from torch import __version__ as pt_version
from transformers import __version__ as hft_version

print(f'Using pytorch {pt_version}')
print(f'Using fastai {fa_version}')
print(f'Using transformers {hft_version}')

Using pytorch 1.7.1+cu110
Using fastai 2.2.5
Using transformers 4.2.1


In [None]:
#cuda
torch.cuda.set_device(1)
print(f'Using GPU #{torch.cuda.current_device()}: {torch.cuda.get_device_name()}')

Using GPU #1: GeForce GTX 1080 Ti


In [None]:
ds = load_dataset('wmt16', 'de-en', split='train[:1%]')

Reusing dataset wmt16 (/home/wgilliam/.cache/huggingface/datasets/wmt16/de-en/1.0.0/7b2c4443a7d34c2e13df267eaa8cab4c62dd82f6b62b0d9ecc2e3a673ce17308)


## Translation tokenization, batch transform, and DataBlock methods

Translation tasks attempt to convert text in one language into another

In [None]:
path = Path('./')
wmt_df = pd.DataFrame(ds['translation'], columns=['de', 'en']); len(wmt_df)

45489

In [None]:
wmt_df.head(2)

Unnamed: 0,de,en
0,Wiederaufnahme der Sitzungsperiode,Resumption of the session
1,"Ich erkläre die am Freitag, dem 17. Dezember unterbrochene Sitzungsperiode des Europäischen Parlaments für wiederaufgenommen, wünsche Ihnen nochmals alles Gute zum Jahreswechsel und hoffe, daß Sie schöne Ferien hatten.","I declare resumed the session of the European Parliament adjourned on Friday 17 December 1999, and I would like once again to wish you a happy new year in the hope that you enjoyed a pleasant festive period."


In [None]:
pretrained_model_name = "facebook/bart-large-cnn"
task = HF_TASKS_AUTO.Seq2SeqLM

hf_arch, hf_config, hf_tokenizer, hf_model = BLURR_MODEL_HELPER.get_hf_objects(pretrained_model_name, task=task)

hf_arch, type(hf_tokenizer), type(hf_config), type(hf_model)

('bart',
 transformers.models.bart.tokenization_bart_fast.BartTokenizerFast,
 transformers.models.bart.configuration_bart.BartConfig,
 transformers.models.bart.modeling_bart.BartForConditionalGeneration)

In [None]:
blocks = (HF_Seq2SeqBlock(hf_arch, hf_config, hf_tokenizer, hf_model), noop)
dblock = DataBlock(blocks=blocks, get_x=ColReader('de'), get_y=ColReader('en'), splitter=RandomSplitter())

Two lines!  Notice we pass in `noop` for our targets (e.g. our summaries) because the batch transform will take care of both out inputs and targets.

In [None]:
# dblock.summary(wmt_df)

In [None]:
dls = dblock.dataloaders(wmt_df, bs=4)

In [None]:
b = dls.one_batch()

In [None]:
len(b), b[0]['input_ids'].shape, b[1].shape

(2, torch.Size([4, 483]), torch.Size([4, 124]))

In [None]:
dls.show_batch(dataloaders=dls, max_n=2, input_trunc_at=250, target_trunc_at=250)

Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von S","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union"
1,"Herr Präsident, ich danke Herrn Sylla dafür, daß er die beiden genannten Änderungsanträge zurückgezogen hat, möchte ihn aber fragen, ob er nicht meint, daß in Änderungsantrag 54 der Teil des ersten Satzes, der nicht verändert wurde und der auf Engli","But I wanted to ask him whether he does not think the same problem could arise with the part of the first sentence of Amendment 54 that has not been changed and which, in the English version I have before me, reads: ""stresses that the EU must collec"


## Tests

The purpose of the following tests is to ensure as much as possible, that the core DataBlock code above works for the pretrained **translation models** below.  These tests are excluded from the CI workflow because of how long they would take to run and the amount of data that would be required to download.

**Note**: Feel free to modify the code below to test whatever pretrained translation models you are working with ... and if any of your pretrained summarization models fail, please submit a github issue *(or a PR if you'd like to fix it yourself)*

In [None]:
[ model_type for model_type in BLURR_MODEL_HELPER.get_models(task='ConditionalGeneration') 
 if (not model_type.__name__.startswith('TF')) ]

[transformers.models.bart.modeling_bart.BartForConditionalGeneration,
 transformers.models.blenderbot.modeling_blenderbot.BlenderbotForConditionalGeneration,
 transformers.models.blenderbot_small.modeling_blenderbot_small.BlenderbotSmallForConditionalGeneration,
 transformers.models.fsmt.modeling_fsmt.FSMTForConditionalGeneration,
 transformers.models.led.modeling_led.LEDForConditionalGeneration,
 transformers.models.mbart.modeling_mbart.MBartForConditionalGeneration,
 transformers.models.mt5.modeling_mt5.MT5ForConditionalGeneration,
 transformers.models.pegasus.modeling_pegasus.PegasusForConditionalGeneration,
 transformers.models.prophetnet.modeling_prophetnet.ProphetNetForConditionalGeneration,
 transformers.models.t5.modeling_t5.T5ForConditionalGeneration,
 transformers.models.xlm_prophetnet.modeling_xlm_prophetnet.XLMProphetNetForConditionalGeneration]

In [None]:
pretrained_model_names = [
    'facebook/bart-base',
    'facebook/wmt19-de-en',                      # FSMT
    'Helsinki-NLP/opus-mt-de-en',                # MarianMT
    'sshleifer/tiny-mbart',
    'google/mt5-small',
    't5-small'
]

In [None]:
path = Path('./')
wmt_df = pd.DataFrame(ds['translation'], columns=['de', 'en'])

In [None]:
#slow
#hide_output
task = HF_TASKS_AUTO.Seq2SeqLM
bsz = 2
seq_sz = 128
trg_seq_sz = 128

test_results = []
for model_name in pretrained_model_names:
    error=None
    
    print(f'=== {model_name} ===\n')
    
    hf_arch, hf_config, hf_tokenizer, hf_model = BLURR_MODEL_HELPER.get_hf_objects(model_name, task=task)
    print(f'architecture:\t{hf_arch}\ntokenizer:\t{type(hf_tokenizer).__name__}\n')
    
    # not all architectures include a native pad_token (e.g., gpt2, ctrl, etc...), so we add one here
    if (hf_tokenizer.pad_token is None): 
        hf_tokenizer.add_special_tokens({'pad_token': '<pad>'})  
        hf_config.pad_token_id = hf_tokenizer.get_vocab()['<pad>']
        hf_model.resize_token_embeddings(len(hf_tokenizer)) 
    
    before_batch_tfm = HF_Seq2SeqBeforeBatchTransform(hf_arch, hf_config, hf_tokenizer, hf_model,
                                                      padding='max_length', 
                                                      max_length=seq_sz,
                                                      max_target_length=trg_seq_sz)
    
    def add_t5_prefix(inp): return f'translate German to English: {inp}' if (hf_arch == 't5') else inp
    
    blocks = (HF_Seq2SeqBlock(before_batch_tfm=before_batch_tfm), noop)
    dblock = DataBlock(blocks=blocks, 
                   get_x=Pipeline([ColReader('de'), add_t5_prefix]), 
                   get_y=ColReader('en'), 
                   splitter=RandomSplitter())

    dls = dblock.dataloaders(wmt_df, bs=bsz) 
    b = dls.one_batch()
    
    try:
        print('*** TESTING DataLoaders ***\n')
        test_eq(len(b), 2)
        test_eq(len(b[0]['input_ids']), bsz)
        test_eq(b[0]['input_ids'].shape, torch.Size([bsz, seq_sz]))
        test_eq(len(b[1]), bsz)
        test_eq(b[1].shape, torch.Size([bsz, trg_seq_sz]))

        if (hasattr(hf_tokenizer, 'add_prefix_space')):
             test_eq(hf_tokenizer.add_prefix_space, True)
            
        test_results.append((hf_arch, type(hf_tokenizer).__name__, model_name, 'PASSED', ''))
        dls.show_batch(dataloaders=dls, max_n=2, input_trunc_at=1000)
        
    except Exception as err:
        test_results.append((hf_arch, type(hf_tokenizer).__name__, model_name, 'FAILED', err))

=== facebook/bart-base ===

architecture:	bart
tokenizer:	BartTokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maß","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"Wir kennen die sozialen Ursachen, die zusammen mit Arbeitslosigkeit und Unsicherheit dazu beitragen, in diese Richtung gehende Tendenzen zu schüren; wir kennen die kulturellen Nebenursachen wie Völkerhaß und Rassismus, doch kommen wir nicht umhin, darauf hinzuweisen, daß die Unfähigkeit und der mangelnde Wille","We know the social causes which contribute, along with unemployment and instability, to fuelling tendencies towards this; we know the accompanying cultural causes - xenophobia, racism - but with the inability and unwillingness of these extreme right-wing groups to settle accounts with nazism, we cannot fail to point out the possibility of an explosive mixture being created in Europe."


=== facebook/wmt19-de-en ===

architecture:	fsmt
tokenizer:	FSMTTokenizer

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie, die sich insbesondere wegen der Ursprungsregeln Sorgen macht -, ein Abkommen, das sowohl der Europäischen Union als auch Mexiko","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"In dieser Hinsicht überträgt der andere Beschluß von Helsinki, ich meine die Anerkennung des Beitrittsgesuchs der Türkei, den 15 Mitgliedstaaten eine neue Verantwortung, während er gleichzeitig auch neue Möglichkeiten eröffnet. Meines Erachtens kann und muß der Dialog der Union mit Ankara den festen Willen zum Ausdruck bringen, daß man von der Türkei hinsichtlich des Dialogs zwischen den beiden Volksgruppen auf Zypern eine konstruktive Haltung erwartet, die die internationalen Legalität respektiert und die Möglichkeit schafft, die Wiedervereinigung Zyperns und den Frieden im Mittelmeerraum herbeizuführen.","From this point of view, the other decision taken at Helsinki, namely to grant Turkey candidate status, gives the Fifteen new responsibilities as well as new possibilities and its dialogue with Ankara can and, in my view, should, include a determination to ensure that Turkey demonstrates a constructive attitude towards dialogue between the two Cypriot communities which respects international law and which will ultimately lead to a united Cyprus and peace in the eastern Mediterranean."


=== Helsinki-NLP/opus-mt-de-en ===



HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1132.0, style=ProgressStyle(description…


architecture:	marian
tokenizer:	MarianTokenizer

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"▁Hierzu▁haben wir▁einige Änderungsanträge▁eingereicht, die das▁Parlament▁hoffentlich▁übernehmen▁wird:▁Erstens▁sollte der▁ehemaligen▁jugoslawischen▁Republik▁Mazedonien eine▁völlige▁Zollbefreiung für▁ihre▁Ausfuhren in die▁Europäische Union▁sowie ein▁Ausgleich für die▁schrittweise▁Senkung der▁ihrerseits auf EU-Erzeugnisse▁erhobenen▁Zollgebühren▁angeboten▁werden,▁sofern eine▁gemeinsame▁Zollkontrolle an den▁Grenzen▁Mazedoniens▁akzeptiert▁wird;▁zweitens▁sollte die▁ehemalige▁jugoslawische▁Republik▁Mazedonien durch eine▁entsprechende▁finanzielle▁Unterstützung▁dazu▁angeregt▁werden,▁ihre▁Währung stufenweise an den Euro zu koppeln, was ein▁erster▁Schritt zur▁Anpassung der▁gesamten mazedonischen Wirtschaft an EU-Bedingungen▁wäre und▁darüber▁hinaus▁darauf▁abzielt,▁jede▁mögliche▁Korruption im Bank","First, the former Yugoslav Republic of Macedonia should be offered a customs tariff equal to zero for their exports to the European Union and compensation for the progressive reduction of customs duties applied by Macedonia to European products, on condition that the principle of joint customs control at the frontiers of Macedonia is accepted. Secondly, the former Yugoslav Republic of Macedonia should be encouraged, with adequate financial support, to gradually link its currency to the euro as the first step towards the Europeanisation of the whole Macedonian economy, with the additional aim of eliminating any possible corruption in the banking system."
1,"▁Zweite▁Anmerkung:▁ich▁denke, man▁muß▁gegenüber sich▁selbst▁genauso unnachsichtig▁sein▁wie▁gegenüber▁anderen, und▁daher▁frage▁ich▁mich, was es▁wohl für▁einen▁Eindruck▁macht -▁meines▁Erachtens▁einen▁verheerenden -,▁wenn wir▁einerseits die▁Entlastung der▁Kommission aufschieben,▁während sich▁andererseits das▁Parlament,▁ungeachtet der▁unbestrittenen▁Probleme▁bei der▁Haushaltsführung,▁selbst die▁Entlastung▁erteilt und sich die▁Fraktionen▁bezüglich▁ihrer▁eigenen▁Haushaltsführung die▁Hände in Unschuld▁waschen.","My second observation is that, in my opinion, it is essential to be as implacable in criticising oneself as in criticising others, and I therefore wonder about the effects, which I expect to be disastrous, of postponing discharge to the Commission on the one hand, even though Parliament is prepared to grant its own discharge, despite the administrative problems it acknowledges, and although the political groups gloss over their own administration."


=== sshleifer/tiny-mbart ===

architecture:	mbart
tokenizer:	MBartTokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie, die sich insbesondere wegen der Ursprungsregeln Sorgen macht -, ein Abkommen, das sowohl der Europäischen","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"Meines Erachtens wäre es sachdienlich, diese Gemeinsamkeit der Ziele und Anstrengungen hervorzuheben, auch weil ich ein spezielles Koordinierungsproblem sehe, und zwar genauer gesagt zwischen der Initiative der Kommission, die sich mit Sicherheit nicht nur an die nationalen Volksvertreter wendet, und dem Programm unseres Ausschusses, der sich nach dem Studientag vom 1. Februar, auf den sich Kommissar Barnier bezogen und zu dem auch die Kommission einen wertvollen Beitrag geleistet hat, auf all seinen Sitzungen einen genauen Überblick über den Fortgang der Regierungs","It would be helpful to stress this convergence of intentions and efforts because I can see a particular problem with coordination, specifically between the Commission initiative - which certainly does not only address members of national parliaments, but also members of national parliaments - and our committee' s programme. Following the working meeting of 1 February, which Commissioner Barnier referred to and which benefited from the weighty contribution of the Commission, the committee intends to take stock of developments at the Intergovernmental Conference at all of its meetings."


=== google/mt5-small ===

architecture:	mt5
tokenizer:	T5TokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie, die sich insbesonder","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"In diesem Zusammenhang begrüßt die Kommission die Initiative des Europäischen Rates, eine Charta der Grundrechte der Europäischen Union zu erarbeiten, durch die diesen Rechten eine größere Aufmerksamkeit und auch, wie ich hoffe, eine größere Rechtssicherheit zuteil wird, vor allem dann, wenn, wie es das Parlament und, ich sagte es bereits, die Kommission wünschen, diese Charta ein rechtlich bindendes Instrument wird, das der gerichtlichen Überprüfung unterliegt.","In this respect the Commission congratulates the European Council' s initiative to prepare an EU Charter of Fundamental Rights. This will give greater visibility to these rights and also, I hope, greater legal security if, as desired by both Parliament and the Commission, this Charter becomes a legally binding instrument under the supervision of the courts."


=== t5-small ===

architecture:	t5
tokenizer:	T5TokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"translate German to English: Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie,","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"translate German to English: Für die Fraktion für das Europa der Demokratien und der Unterschiede ist die Rückverfolgbarkeit der Produkte Unterpfand und Garantie sowohl für den gesundheitlichen Verbraucherschutz also auch für die Förderung von Qualitätsprodukten, zu deren Herstellung sämtliche Erzeuger, unabhängig davon, ob es sich um große oder kleine Betriebe handelt, in der Lage sind, wenn sie der Qualität den Vorrang gegenüber niedrigen kommerziellen und finanziellen Interessen geben, bei denen Fragen der menschlichen Gesundheit eine untergeordnete Rolle spielen.","As far as the EDD Group is concerned, product traceability provides a guarantee both for the protection of consumer health and for the promotion of quality products which all producers, large or small, are capable of producing if they favour quality over base commercial and financial interests which have little regard for human health."


In [None]:
#slow
#hide_input
test_results_df = pd.DataFrame(test_results, columns=['arch', 'tokenizer', 'model_name', 'result', 'error'])
display_df(test_results_df)

Unnamed: 0,arch,tokenizer,model_name,result,error
0,bart,BartTokenizerFast,facebook/bart-base,PASSED,
1,fsmt,FSMTTokenizer,facebook/wmt19-de-en,PASSED,
2,marian,MarianTokenizer,Helsinki-NLP/opus-mt-de-en,PASSED,
3,mbart,MBartTokenizerFast,sshleifer/tiny-mbart,PASSED,
4,mt5,T5TokenizerFast,google/mt5-small,PASSED,
5,t5,T5TokenizerFast,t5-small,PASSED,


## Cleanup

In [None]:
#hide
from nbdev.export import notebook2script
notebook2script()

Converted 00_utils.ipynb.
Converted 01_data-core.ipynb.
Converted 01a_data-token-classification.ipynb.
Converted 01b_data-question-answering.ipynb.
Converted 01za_data-seq2seq-core.ipynb.
Converted 01zb_data-seq2seq-language-modeling.ipynb.
Converted 01zc_data-seq2seq-summarization.ipynb.
Converted 01zd_data-seq2seq-translation.ipynb.
Converted 02_modeling-core.ipynb.
Converted 02a_modeling-token-classification.ipynb.
Converted 02b_modeling-question-answering.ipynb.
Converted 02za_modeling-seq2seq-core.ipynb.
Converted 02zb_modeling-seq2seq-language-modeling.ipynb.
Converted 02zc_modeling-seq2seq-summarization.ipynb.
Converted 02zc_modeling-seq2seq-translation.ipynb.
Converted 99a_examples-multilabel.ipynb.
Converted index.ipynb.
