In [None]:
# default_exp data.seq2seq.translation

In [None]:
#all_slow

In [None]:
#hide
%reload_ext autoreload
%autoreload 2
%matplotlib inline

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# data.seq2seq.translation

> This module contains the bits required to use the fastai DataBlock API and/or mid-level data processing pipelines to organize your data for translation tasks

In [None]:
#export
import ast
from functools import reduce

import torch
from datasets import list_datasets, load_dataset
from transformers import *
from fastai.text.all import *

from blurr.utils import *
from blurr.data.core import *
from blurr.data.seq2seq.core import *

logging.set_verbosity_error()

In [None]:
#hide
import pdb

from nbdev.showdoc import *
from fastcore.test import *

from fastai import __version__ as fa_version
from torch import __version__ as pt_version
from transformers import __version__ as hft_version

print(f'Using pytorch {pt_version}')
print(f'Using fastai {fa_version}')
print(f'Using transformers {hft_version}')

Using pytorch 1.7.1
Using fastai 2.1.8
Using transformers 4.1.1


In [None]:
#cuda
torch.cuda.set_device(1)
print(f'Using GPU #{torch.cuda.current_device()}: {torch.cuda.get_device_name()}')

Using GPU #1: GeForce GTX 1080 Ti


In [None]:
ds = load_dataset('wmt16', 'de-en', split='train[:1%]')

Reusing dataset wmt16 (/home/wgilliam/.cache/huggingface/datasets/wmt16/de-en/1.0.0/7b2c4443a7d34c2e13df267eaa8cab4c62dd82f6b62b0d9ecc2e3a673ce17308)


## Translation tokenization, batch transform, and DataBlock methods

Translation tasks attempt to convert text in one language into another

In [None]:
path = Path('./')
wmt_df = pd.DataFrame(ds['translation'], columns=['de', 'en']); len(wmt_df)

45489

In [None]:
wmt_df.head(2)

Unnamed: 0,de,en
0,Wiederaufnahme der Sitzungsperiode,Resumption of the session
1,"Ich erkläre die am Freitag, dem 17. Dezember unterbrochene Sitzungsperiode des Europäischen Parlaments für wiederaufgenommen, wünsche Ihnen nochmals alles Gute zum Jahreswechsel und hoffe, daß Sie schöne Ferien hatten.","I declare resumed the session of the European Parliament adjourned on Friday 17 December 1999, and I would like once again to wish you a happy new year in the hope that you enjoyed a pleasant festive period."


In [None]:
pretrained_model_name = "facebook/bart-large-cnn"
task = HF_TASKS_AUTO.Seq2SeqLM

hf_arch, hf_config, hf_tokenizer, hf_model = BLURR_MODEL_HELPER.get_hf_objects(pretrained_model_name, task=task)

hf_arch, type(hf_tokenizer), type(hf_config), type(hf_model)

('bart',
 transformers.models.bart.tokenization_bart_fast.BartTokenizerFast,
 transformers.models.bart.configuration_bart.BartConfig,
 transformers.models.bart.modeling_bart.BartForConditionalGeneration)

In [None]:
blocks = (HF_Seq2SeqBlock(hf_arch, hf_config, hf_tokenizer, hf_model), noop)
dblock = DataBlock(blocks=blocks, get_x=ColReader('de'), get_y=ColReader('en'), splitter=RandomSplitter())

Two lines!  Notice we pass in `noop` for our targets (e.g. our summaries) because the batch transform will take care of both out inputs and targets.

In [None]:
# dblock.summary(wmt_df)

In [None]:
dls = dblock.dataloaders(wmt_df, bs=4)

In [None]:
b = dls.one_batch()

In [None]:
len(b), b[0]['input_ids'].shape, b[1].shape

(2, torch.Size([4, 483]), torch.Size([4, 132]))

In [None]:
dls.show_batch(dataloaders=dls, max_n=2, input_trunc_at=250, target_trunc_at=250)

Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von S","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union"
1,"Dienlich sind in diesem Zusammenhang die heute und hier diskutierte Mitteilung der Kommission und natürlich der Bericht von Herrn Viceconte - zu dem ich ihn beglückwünsche -, der 34 Schlußfolgerungen enthält, von denen ich die 15 Anträge an die Komm","This report contains 34 conclusions, including 15 calls to the Commission to adopt specific measures and actions without forgetting the environmental dimension and cultural protection, particularly in outermost and island regions. It also contains f"


## Tests

The purpose of the following tests is to ensure as much as possible, that the core DataBlock code above works for the pretrained **translation models** below.  These tests are excluded from the CI workflow because of how long they would take to run and the amount of data that would be required to download.

**Note**: Feel free to modify the code below to test whatever pretrained translation models you are working with ... and if any of your pretrained summarization models fail, please submit a github issue *(or a PR if you'd like to fix it yourself)*

In [None]:
BLURR_MODEL_HELPER.get_models(task='ConditionalGeneration')

[transformers.models.bart.modeling_bart.BartForConditionalGeneration,
 transformers.models.blenderbot.modeling_blenderbot.BlenderbotForConditionalGeneration,
 transformers.models.fsmt.modeling_fsmt.FSMTForConditionalGeneration,
 transformers.models.mbart.modeling_mbart.MBartForConditionalGeneration,
 transformers.models.mt5.modeling_mt5.MT5ForConditionalGeneration,
 transformers.models.pegasus.modeling_pegasus.PegasusForConditionalGeneration,
 transformers.models.prophetnet.modeling_prophetnet.ProphetNetForConditionalGeneration,
 transformers.models.t5.modeling_t5.T5ForConditionalGeneration,
 transformers.models.bart.modeling_tf_bart.TFBartForConditionalGeneration,
 transformers.models.blenderbot.modeling_tf_blenderbot.TFBlenderbotForConditionalGeneration,
 transformers.models.mbart.modeling_tf_mbart.TFMBartForConditionalGeneration,
 transformers.models.mt5.modeling_tf_mt5.TFMT5ForConditionalGeneration,
 transformers.models.pegasus.modeling_tf_pegasus.TFPegasusForConditionalGeneration,

In [None]:
pretrained_model_names = [
    'facebook/bart-base',
    'facebook/wmt19-de-en',                      # FSMT
    'Helsinki-NLP/opus-mt-de-en',                # MarianMT
    'sshleifer/tiny-mbart',
    'google/mt5-small',
    't5-small'
]

In [None]:
path = Path('./')
wmt_df = pd.DataFrame(ds['translation'], columns=['de', 'en'])

In [None]:
#slow
#hide_output
task = HF_TASKS_AUTO.Seq2SeqLM
bsz = 2
seq_sz = 128
trg_seq_sz = 128

test_results = []
for model_name in pretrained_model_names:
    error=None
    
    print(f'=== {model_name} ===\n')
    
    hf_arch, hf_config, hf_tokenizer, hf_model = BLURR_MODEL_HELPER.get_hf_objects(model_name, task=task)
    print(f'architecture:\t{hf_arch}\ntokenizer:\t{type(hf_tokenizer).__name__}\n')
    
    
    before_batch_tfm = HF_Seq2SeqBeforeBatchTransform(hf_arch, hf_config, hf_tokenizer, hf_model,
                                                      padding='max_length', 
                                                      max_length=seq_sz,
                                                      max_target_length=trg_seq_sz)
    
    def add_t5_prefix(inp): return f'translate German to English: {inp}' if (hf_arch == 't5') else inp
    
    blocks = (HF_Seq2SeqBlock(before_batch_tfm=before_batch_tfm), noop)
    dblock = DataBlock(blocks=blocks, 
                   get_x=Pipeline([ColReader('de'), add_t5_prefix]), 
                   get_y=ColReader('en'), 
                   splitter=RandomSplitter())

    dls = dblock.dataloaders(wmt_df, bs=bsz) 
    b = dls.one_batch()
    
    try:
        print('*** TESTING DataLoaders ***\n')
        test_eq(len(b), 2)
        test_eq(len(b[0]['input_ids']), bsz)
        test_eq(b[0]['input_ids'].shape, torch.Size([bsz, seq_sz]))
        test_eq(len(b[1]), bsz)
        test_eq(b[1].shape, torch.Size([bsz, trg_seq_sz]))

        if (hasattr(hf_tokenizer, 'add_prefix_space')):
             test_eq(hf_tokenizer.add_prefix_space, True)
            
        test_results.append((hf_arch, type(hf_tokenizer).__name__, model_name, 'PASSED', ''))
        dls.show_batch(dataloaders=dls, max_n=2, input_trunc_at=1000)
        
    except Exception as err:
        test_results.append((hf_arch, type(hf_tokenizer).__name__, model_name, 'FAILED', err))

=== facebook/bart-base ===

architecture:	bart
tokenizer:	BartTokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maß","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"Herr Präsident, auch ich möchte Herrn Blokland zu seinem Bericht beglückwünschen, der europaweite Normen für die Verbrennung und dabei erstmals Emissionsgrenzwerte für Dioxine und Furane festlegen wird. Dies dürfte den Wettbewerb zwischen verschiedenen Methoden der Abfallentsorgung ankurbeln und dazu beitragen, daß der Transport gef","Mr President, I would also like to congratulate Mr Blokland on this report which will set Europe-wide standards for incineration, including for the first time emission standards for dioxins and furanes; this should lead to more competition between different methods of waste disposal, and as a result help bring to an end the transport of hazardous waste across Europe in search of the cheapest waste operators."


=== facebook/wmt19-de-en ===

architecture:	fsmt
tokenizer:	FSMTTokenizer

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie, die sich insbesondere wegen der Ursprungsregeln Sorgen macht -, ein Abkommen, das sowohl der Europäischen Union als auch Mexiko","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"Einige Länder wie Frankreich und Spanien vermochten der Herausforderung durch die Gründung großer Nationalstaaten zu begegnen, während andere Länder wie Italien nicht dazu imstande waren und ihre in der ersten Hälfte des Jahrtausends errungenen Vormachtstellungen aufgeben mußten: in der Wissenschaft und in der Technologie, in der wirtschaftlichen Entwicklung, im Bereich der Verteidigungsstrukturen und der militärischen Organisation, in der Lehre und in der Literatur.","Some countries - such as France and Spain - managed to meet the challenge, giving rise to great nation States; other countries - such as Italy - did not meet this challenge and lost all the headway that they had accumulated during the first part of that millennium: headway in science, technology, economic progress, defence structures and military organisation, philosophy and literature."


=== Helsinki-NLP/opus-mt-de-en ===

architecture:	marian
tokenizer:	MarianTokenizer

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die▁Ergebnisse der▁Verhandlungen über die▁Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens▁bezüglich▁Warenhandel,▁öffentlicher▁Aufträge,▁Wettbewerb,▁Konsultationsmechanismen▁bei▁Fragen des▁geistigen▁Eigentums und▁Beilegung von▁Streitigkeiten▁betrifft, so▁gilt▁festzuhalten,▁daß wir das▁vorgesehene▁Maßnahmenpaket für ein▁gutes▁Abkommen▁halten,▁auch▁wenn es für▁bestimmte▁Sektoren mit▁Nachteilen▁verbunden▁ist -▁ich▁denke im▁einzelnen an die▁Textilindustrie, die sich▁insbesondere▁wegen der▁Ursprungsregeln▁Sorgen▁macht -, ein▁Abkommen, das▁sowohl der▁Europäischen Union▁als▁auch▁Mexiko▁Vorteile▁bringen▁wird: Für die▁Europäische Union,▁weil die▁Schaffung▁einer▁Freihandelszone es den▁Mitgliedstaaten▁ermöglichen▁wird, auf","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"▁Vielmehr▁handelt es sich um die ironische Situation,▁daß ein▁Volk, das nach der▁Unabhängigkeit und dem▁Krieg die▁Fähigkeit und▁Einsicht aufbrachte, sich für▁Frieden und▁Demokratie zu▁entscheiden, nun, da es▁begonnen hat,▁seine▁Strukturen▁wieder▁aufzubauen und▁seine▁Entwicklung▁fortzusetzen, von▁einer Naturkatastrophe▁solchen▁Ausmaßes▁heimgesucht▁wird,▁daß▁viele▁Gebiete▁gezwungen▁sind,▁wieder▁ganz von vorn▁anzufangen.","It is the irony of a people who, after securing their independence and surviving a war, had the ability and intelligence to choose peace and democracy, and began to rebuild their infrastructure and pursue development, only to be met with a natural tragedy of these proportions, forcing it to start all over again in many areas."


=== sshleifer/tiny-mbart ===

architecture:	mbart
tokenizer:	MBartTokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Bericht (A5-0089/2000) von Frau Rühle im Namen des Ausschusses für Haushaltskontrolle über den Aufschub des Beschlusses zur Entlastung der Kommission für die Haushaltsführung des sechsten, siebten und achten Europäischen Entwicklungsfonds für das Haushaltsjahr 1998 (KOM(1999) 227 - C5-0003/1999 - 1999/2004(DEC)), über die Entlastung der Europäischen Stiftung zur Verbesserung der Lebens- und Arbeitsbedingungen (Dublin) für das Haushaltsjahr 1998 (C5-0150/2000 - 2000/2094(DEC)","Report (A5-0089/2000) by Mr Rühle, on behalf of the Committee on Budgetary Control, on postponement of the decision concerning discharge to the Commission in respect of the financial management of the sixth, seventh and eighth European Development Funds for the 1998 financial year (COM(1999) 227 - C5­0003/1999 - 1999/2004(DEC)); on granting discharge to the European Foundation for the Improvement of Living and Working Conditions, Dublin, for the 1998 financial year (C5-0150/2000 - 2000/2094(DEC)"
1,"Nun könnten aber die in diesem Bericht vorgesehenen Hilfsmaßnahmen Schritt für Schritt zu einer verhängnisvollen Ausweitung führen. Asylbewerber, selbstverständlich, dazu noch Asylbewerber im laufenden Verfahren unter vorübergehendem Schutz und schließlich Asylbewerber, deren Antrag abgewiesen wurde und die von der Rückführung bedroht sind, sie alle dürften laut diesem Bericht von diesem Maßnahmenkatalog profitieren, obwohl sie doch von ihrer Situation her - was ist ein Asylbewerber, dem der Flüchtlingsstatus verweigert wurde und der von der Rückführung bedro","There is a risk that the so-called aid measures provided for in the report will spread insidiously and with disastrous results: asylum seekers, of course, plus asylum seekers under temporary protection while their applications are being processed and asylum seekers whose applications have been rejected and who are threatened with expulsion should all, according to the report, be able to benefit from this set of measures, whereas their very status - after all, what is an asylum seeker who has been refused refugee status and who is threatened with"


=== google/mt5-small ===

architecture:	mt5
tokenizer:	T5TokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie, die sich insbesonder","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"Wenn es nicht gelingt, einen gemeinschaftlichen Regelungsrahmen zu verabschieden, der hinreichend klar, strikt und konsequent ist, sollten die Mitgliedstaaten, die einen eigenen Rahmen dieser Art schaffen wollen, hierzu berechtigt sein, um ihre Bevölkerung und ihr Territorium zu schützen, ebenso wie es die USA verstanden haben, die Lehren aus der Katastrophe der Exxon Valdez zu ziehen, indem sie die doppelte Außenhaut verlangt haben und alle Schiffe, die älter als 20 Jahre sind,","If we do not obtain a framework of Community regulations which is sufficiently clear, strict and trenchant, then those Member States that wish to do so must be allowed to take the necessary steps to protect their people and their territory, in the same way that the United States succeeded in learning the lessons of the Exxon Valdez disaster by making double hulls compulsory and banning all vessels more than 20 years old from their waters."


=== t5-small ===

architecture:	t5
tokenizer:	T5TokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"translate German to English: Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie,","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"translate German to English: Der vom Rat formulierte und anschließend von der Kommission geänderte Vorschlag sieht also ein aus drei Titeln bestehendes Übereinkommen vor: Titel I enthält Bestimmungen zur Vereinheitlichung der Verfahren und Formalitäten der Rechtshilfeersuchen; in Titel II wird eine Reihe von spezifischen Rechtshilfeersuchen aufgelistet, und es werden die dafür geltenden Formen und Verfahren festgelegt; in Titel III werden die Modalitäten behandelt und kodifiziert, nach denen die Überwachung des Fernsprechverkehrs von Personen im Hoheits","The proposal, as formulated by the Council and subsequently amended by the Commission, provides for a convention based on three titles: the first lays down guidelines for ensuring the consistency of procedures and formalities for letters rogatory; the second lists a whole series of specific requests for mutual assistance and defines the formalities and procedures which must be followed in relation to these specific types of mutual assistance; the third and last provides for and codifies the procedures via which telephone conversations conducted by citizens in a State other than the one instigating proceedings can and must be intercepted."


In [None]:
#slow
#hide_input
test_results_df = pd.DataFrame(test_results, columns=['arch', 'tokenizer', 'model_name', 'result', 'error'])
display_df(test_results_df)

Unnamed: 0,arch,tokenizer,model_name,result,error
0,bart,BartTokenizerFast,facebook/bart-base,PASSED,
1,fsmt,FSMTTokenizer,facebook/wmt19-de-en,PASSED,
2,marian,MarianTokenizer,Helsinki-NLP/opus-mt-de-en,PASSED,
3,mbart,MBartTokenizerFast,sshleifer/tiny-mbart,PASSED,
4,mt5,T5TokenizerFast,google/mt5-small,PASSED,
5,t5,T5TokenizerFast,t5-small,PASSED,


## Cleanup

In [None]:
#hide
from nbdev.export import notebook2script
notebook2script()

Converted 00_utils.ipynb.
Converted 01_data-core.ipynb.
Converted 01a_data-token-classification.ipynb.
Converted 01b_data-question-answering.ipynb.
Converted 01za_data-seq2seq-core.ipynb.
Converted 01zb_data-seq2seq-language-modeling.ipynb.
Converted 01zc_data-seq2seq-summarization.ipynb.
Converted 01zd_data-seq2seq-translation.ipynb.
Converted 02_modeling-core.ipynb.
Converted 02a_modeling-token-classification.ipynb.
Converted 02b_modeling-question-answering.ipynb.
Converted 02za_modeling-seq2seq-core.ipynb.
Converted 02zb_modeling-seq2seq-language-modeling.ipynb.
Converted 02zc_modeling-seq2seq-summarization.ipynb.
Converted 02zc_modeling-seq2seq-translation.ipynb.
Converted 99a_examples-multilabel.ipynb.
Converted index.ipynb.
