In [None]:
#default_exp data.seq2seq.translation

In [None]:
#all_slow

In [None]:
#hide
%reload_ext autoreload
%autoreload 2
%matplotlib inline

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# data.seq2seq.translation

> This module contains the bits required to use the fastai DataBlock API and/or mid-level data processing pipelines to organize your data for translation tasks

In [None]:
#export
import ast
from functools import reduce

import torch
from datasets import list_datasets, load_dataset
from transformers import *
from fastai.text.all import *

from blurr.utils import *
from blurr.data.core import *
from blurr.data.seq2seq.core import *

logging.set_verbosity_error()

In [None]:
#hide
import pdb

from nbdev.showdoc import *
from fastcore.test import *

from fastai import __version__ as fa_version
from torch import __version__ as pt_version
from transformers import __version__ as hft_version

print(f'Using pytorch {pt_version}')
print(f'Using fastai {fa_version}')
print(f'Using transformers {hft_version}')

Using pytorch 1.7.1
Using fastai 2.4
Using transformers 4.8.1


In [None]:
#cuda
torch.cuda.set_device(1)
print(f'Using GPU #{torch.cuda.current_device()}: {torch.cuda.get_device_name()}')

Using GPU #1: GeForce GTX 1080 Ti


In [None]:
ds = load_dataset('wmt16', 'de-en', split='train[:1%]')

Reusing dataset wmt16 (/home/wgilliam/.cache/huggingface/datasets/wmt16/de-en/1.0.0/0d9fb3e814712c785176ad8cdb9f465fbe6479000ee6546725db30ad8a8b5f8a)


## Translation tokenization, batch transform, and DataBlock methods

Translation tasks attempt to convert text in one language into another

In [None]:
path = Path('./')
wmt_df = pd.DataFrame(ds['translation'], columns=['de', 'en']); len(wmt_df)

45489

In [None]:
wmt_df.head(2)

Unnamed: 0,de,en
0,Wiederaufnahme der Sitzungsperiode,Resumption of the session
1,"Ich erkläre die am Freitag, dem 17. Dezember unterbrochene Sitzungsperiode des Europäischen Parlaments für wiederaufgenommen, wünsche Ihnen nochmals alles Gute zum Jahreswechsel und hoffe, daß Sie schöne Ferien hatten.","I declare resumed the session of the European Parliament adjourned on Friday 17 December 1999, and I would like once again to wish you a happy new year in the hope that you enjoyed a pleasant festive period."


In [None]:
pretrained_model_name = "facebook/bart-large-cnn"
model_cls = AutoModelForSeq2SeqLM

hf_arch, hf_config, hf_tokenizer, hf_model = BLURR.get_hf_objects(pretrained_model_name, model_cls=model_cls)
hf_arch, type(hf_tokenizer), type(hf_config), type(hf_model)

('bart',
 transformers.models.bart.tokenization_bart_fast.BartTokenizerFast,
 transformers.models.bart.configuration_bart.BartConfig,
 transformers.models.bart.modeling_bart.BartForConditionalGeneration)

In [None]:
blocks = (HF_Seq2SeqBlock(hf_arch, hf_config, hf_tokenizer, hf_model), noop)
dblock = DataBlock(blocks=blocks, get_x=ColReader('de'), get_y=ColReader('en'), splitter=RandomSplitter())

Two lines!  Notice we pass in `noop` for our targets (e.g. our summaries) because the batch transform will take care of both out inputs and targets.

In [None]:
# dblock.summary(wmt_df)

In [None]:
dls = dblock.dataloaders(wmt_df, bs=4)

In [None]:
b = dls.one_batch()

In [None]:
len(b), b[0]['input_ids'].shape, b[1].shape

(2, torch.Size([4, 458]), torch.Size([4, 287]))

In [None]:
dls.show_batch(dataloaders=dls, max_n=2, input_trunc_at=250, target_trunc_at=250)

Unnamed: 0,text,target
0,"<s> Bericht (A5-0089/2000) von Frau Rühle im Namen des Ausschusses für Haushaltskontrolle über den Aufschub des Beschlusses zur Entlastung der Kommission für die Haushaltsführung des sechsten, siebten und achten Europäischen Entwicklungsfonds für das","Report (A5-0089/2000) by Mr Rühle, on behalf of the Committee on Budgetary Control, on postponement of the decision concerning discharge to the Commission in respect of the financial management of the sixth, seventh and eighth European Development F"
1,"<s> Aufgrund meinen Vorstellungen vom Aufbau Europas und von regionaler Entwicklungspolitik im besonderen halte ich das für eine Situation, die ich nicht akzeptieren kann. Ich habe die Absicht, im Rahmen meiner Möglichkeiten und mit Ihrer Unterstützu","As far as I am concerned - taking into account my own concept of the construction of Europe and regional development policy in particular - this is a situation which I find unacceptable and I have every intention, as far as possible, with your suppo"


## Tests

The purpose of the following tests is to ensure as much as possible, that the core DataBlock code above works for the pretrained **translation models** below.  These tests are excluded from the CI workflow because of how long they would take to run and the amount of data that would be required to download.

**Note**: Feel free to modify the code below to test whatever pretrained translation models you are working with ... and if any of your pretrained summarization models fail, please submit a github issue *(or a PR if you'd like to fix it yourself)*

In [None]:
[ model_type for model_type in BLURR.get_models(task='ConditionalGeneration') 
 if (not model_type.__name__.startswith('TF')) ]

[transformers.models.bart.modeling_bart.BartForConditionalGeneration,
 transformers.models.bigbird_pegasus.modeling_bigbird_pegasus.BigBirdPegasusForConditionalGeneration,
 transformers.models.blenderbot.modeling_blenderbot.BlenderbotForConditionalGeneration,
 transformers.models.blenderbot_small.modeling_blenderbot_small.BlenderbotSmallForConditionalGeneration,
 transformers.models.fsmt.modeling_fsmt.FSMTForConditionalGeneration,
 transformers.models.led.modeling_led.LEDForConditionalGeneration,
 transformers.models.m2m_100.modeling_m2m_100.M2M100ForConditionalGeneration,
 transformers.models.mbart.modeling_mbart.MBartForConditionalGeneration,
 transformers.models.mt5.modeling_mt5.MT5ForConditionalGeneration,
 transformers.models.pegasus.modeling_pegasus.PegasusForConditionalGeneration,
 transformers.models.prophetnet.modeling_prophetnet.ProphetNetForConditionalGeneration,
 transformers.models.speech_to_text.modeling_speech_to_text.Speech2TextForConditionalGeneration,
 transformers.mo

In [None]:
pretrained_model_names = [
    'facebook/bart-base',
    'facebook/wmt19-de-en',                      # FSMT
    'Helsinki-NLP/opus-mt-de-en',                # MarianMT
    'sshleifer/tiny-mbart',
    'google/mt5-small',
    't5-small'
]

In [None]:
path = Path('./')
wmt_df = pd.DataFrame(ds['translation'], columns=['de', 'en'])

In [None]:
#slow
#hide_output
model_cls = AutoModelForSeq2SeqLM
bsz = 2
seq_sz = 128
trg_seq_sz = 128

test_results = []
for model_name in pretrained_model_names:
    error=None
    
    print(f'=== {model_name} ===\n')
    
    hf_tok_kwargs = {}
    if (model_name == 'sshleifer/tiny-mbart'):
        hf_tok_kwargs['src_lang'], hf_tok_kwargs['tgt_lang'] = "de_DE", "en_XX"
            
    hf_arch, hf_config, hf_tokenizer, hf_model = BLURR.get_hf_objects(model_name, 
                                                                      model_cls=model_cls, 
                                                                      tokenizer_kwargs=hf_tok_kwargs)
    
    print(f'architecture:\t{hf_arch}\ntokenizer:\t{type(hf_tokenizer).__name__}\n')
    
    # not all architectures include a native pad_token (e.g., gpt2, ctrl, etc...), so we add one here
    if (hf_tokenizer.pad_token is None): 
        hf_tokenizer.add_special_tokens({'pad_token': '<pad>'})  
        hf_config.pad_token_id = hf_tokenizer.get_vocab()['<pad>']
        hf_model.resize_token_embeddings(len(hf_tokenizer)) 
    
    before_batch_tfm = HF_Seq2SeqBeforeBatchTransform(hf_arch, hf_config, hf_tokenizer, hf_model,
                                                      padding='max_length', 
                                                      max_length=seq_sz,
                                                      max_target_length=trg_seq_sz)
    
    def add_t5_prefix(inp): return f'translate German to English: {inp}' if (hf_arch == 't5') else inp
    
    blocks = (HF_Seq2SeqBlock(before_batch_tfm=before_batch_tfm), noop)
    dblock = DataBlock(blocks=blocks, 
                   get_x=Pipeline([ColReader('de'), add_t5_prefix]), 
                   get_y=ColReader('en'), 
                   splitter=RandomSplitter())

    dls = dblock.dataloaders(wmt_df, bs=bsz) 
    b = dls.one_batch()
    
    try:
        print('*** TESTING DataLoaders ***\n')
        test_eq(len(b), 2)
        test_eq(len(b[0]['input_ids']), bsz)
        test_eq(b[0]['input_ids'].shape, torch.Size([bsz, seq_sz]))
        test_eq(len(b[1]), bsz)
        test_eq(b[1].shape, torch.Size([bsz, trg_seq_sz]))

        if (hasattr(hf_tokenizer, 'add_prefix_space')):
             test_eq(hf_tokenizer.add_prefix_space, True)
            
        test_results.append((hf_arch, type(hf_tokenizer).__name__, model_name, 'PASSED', ''))
        dls.show_batch(dataloaders=dls, max_n=2, input_trunc_at=1000)
        
    except Exception as err:
        test_results.append((hf_arch, type(hf_tokenizer).__name__, model_name, 'FAILED', err))

=== facebook/bart-base ===

architecture:	bart
tokenizer:	BartTokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"<s> Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maß</s>","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"<s> Denn ich möchte Ihre Aufmerksamkeit auf folgenden Punkt lenken: Wenn wir auf europäischer Ebene Systeme schaffen, die in unmittelbare Grundfreiheiten von Menschen eingreifen können - und eine anthropometrische Behandlung eines Menschen, die zwangsweise Behandlung eines Menschen ist ein Eingriff in seine individuellen Rechte - wenn wir</s>","Because I should like to draw your attention to the following point: if we create systems at European level which can directly violate people' s basic freedoms - and the anthropometric treatment of a person, compulsory treatment of a person is a violation of his individual rights - if we create institutions at European level which have these rights then the Executive must be subject to parliamentary scrutiny and the people affected by the measures must have legal recourse, both of which are lacking in almost every system which we have created within the framework of internal security in the European Union."


=== facebook/wmt19-de-en ===

architecture:	fsmt
tokenizer:	FSMTTokenizer

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Bericht (A5-0089 / 2000) von Frau Rühle im Namen des Ausschusses für Haushaltskontrolle über den Aufschub des Beschlusses zur Entlastung der Kommission für die Haushaltsführung des sechsten, siebten und achten Europäischen Entwicklungsfonds für das Haushaltsjahr 1998 (KOM (1999) 227 - C5-0003 / 1999 - 1999 / 2004 (DEC)), über die Entlastung der Europäischen Stiftung zur Verbesserung der Lebens- und Arbeitsbedingungen (Dublin) für das Haushaltsjahr 1998 (C5-0150 / 2000 - 2000 / 2094 (DEC)), über die Entlastung des Europäischen Z</s>","Report (A5-0089 / 2000) by Mr Rühle, on behalf of the Committee on Budgetary Control, on postponement of the decision concerning discharge to the Commission in respect of the financial management of the sixth, seventh and eighth European Development Funds for the 1998 financial year (COM (1999) 227 - C50003 / 1999 - 1999 / 2004 (DEC)); on granting discharge to the European Foundation for the Improvement of Living and Working Conditions, Dublin, for the 1998 financial year (C5-0150 / 2000"
1,"Heute weilt eine kleine Delegation von Arbeitnehmern hier bei uns, auf der Tribüne, und sie brennen darauf zu erfahren, wie es um ihre Zukunft bestellt ist und welche Solidarität ihnen die Europäische Union entgegenbringt, welche Politik sie verfolgen wird, um zu verhindern, daß die multinationalen Unternehmen einzig und allein ihre Markt- und Profitinteressen im Auge haben. Goodyear hat ähnlich wie andere multinationale Unternehmen über 166 Milliarden erhalten. </s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad>","Today, a small delegation of workers is here with us in the gallery, anxious to find out what their future will be, what solidarity the European Union will offer them and what policy it will adopt to prevent the multinationals acting solely and exclusively in the interest of their own market and profits."


=== Helsinki-NLP/opus-mt-de-en ===

architecture:	marian
tokenizer:	MarianTokenizer

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die▁Ergebnisse der▁Verhandlungen über die▁Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens▁bezüglich▁Warenhandel,▁öffentlicher▁Aufträge,▁Wettbewerb,▁Konsultationsmechanismen▁bei▁Fragen des▁geistigen▁Eigentums und▁Beilegung von▁Streitigkeiten▁betrifft, so▁gilt▁festzuhalten,▁daß wir das▁vorgesehene▁Maßnahmenpaket für ein▁gutes▁Abkommen▁halten,▁auch▁wenn es für▁bestimmte▁Sektoren mit▁Nachteilen▁verbunden▁ist -▁ich▁denke im▁einzelnen an die▁Textilindustrie, die sich▁insbesondere▁wegen der▁Ursprungsregeln▁Sorgen▁macht -, ein▁Abkommen, das▁sowohl der▁Europäischen Union▁als▁auch▁Mexiko▁Vorteile▁bringen▁wird: Für die▁Europäische Union,▁weil die▁Schaffung▁einer▁Freihandelszone es den▁Mitgliedstaaten▁ermöglichen▁wird, auf","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"▁Ich▁denke, die▁Kommission▁widmet▁diesem▁Bereich▁ganz▁besondere▁Aufmerksamkeit, und der▁Umstand,▁daß▁während der▁portugiesischen▁Präsidentschaft mit den▁Bewerberländern der▁sogenannten Luxemburger Phase▁mehrere▁Kapitel aufgeschlagen▁werden, die▁diesen▁Bereich,▁insbesondere den der▁Justiz und▁innere▁Angelegenheiten und den der▁Freizügigkeit von▁Personen▁betreffen,▁bereits▁jetzt▁helfen▁können, eine▁gemeinsame Kultur, d. h. die Kultur zu▁entwickeln, der sich die▁Bewerberländer im▁Grunde▁genommen▁später im▁Sinne der▁Achtung des▁gemeinschaftlichen▁Besitzstandes▁werden▁anschließen▁müssen.<pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad>","The Commission is paying particular attention to this subject, and I believe that the fact that during the Portuguese presidency various negotiating chapters linked with this - particularly in the field of justice and home affairs and freedom of movement - are to be opened with the Luxembourg phase candidate countries may help to create a common culture, a common culture that the candidate countries will later on have to share in terms of respecting the acquis communautaire."


=== sshleifer/tiny-mbart ===

architecture:	mbart
tokenizer:	MBartTokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie, die sich insbesondere wegen der Ursprungsregeln Sorgen macht -, ein Abkommen, das sowohl der Europäischen</s>de_DE","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"Schließlich erfordern sie die Verantwortung der Europäischen Union bei der Überwachung der Anwendung ihrer Grundsätze, indem jegliche Manifestation rassistischen oder fremdenfeindlichen Charakters von ihrem Territorium ferngehalten wird, erfordern sie ferner ihre Unterstützung und Zusammenarbeit mit den nationalen, regionalen und lokalen Behörden sowie mit den Verbänden und Nichtregierungsorganisationen bei der Anwendung dieser Grundsätze und im Rahmen einer ständigen Aktion des Kampfes gegen den Rassismus und die Fremdenfeindlichkeit und für die Integration der auf dem Territorium der Union ansässigen Ein</s>de_DE","It must prevent any racist or xenophobic demonstrations in its territory and support and collaborate with national, regional and local authorities and non-governmental organisations and associations in the application of these principles. This must occur within a framework of constant action to combat racism and xenophobia and to encourage the integration of all immigrants resident in the EU."


=== google/mt5-small ===

architecture:	mt5
tokenizer:	T5TokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie, die sich insbesonder</s>","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"Ich möchte sagen, daß sich die Kommission der Sorge des Parlaments bewußt ist, daß dieser Vorschlag zu Diskriminierungen von privaten Transportunternehmern oder von Nutzfahrzeugen aus bestimmten Ländern oder sogar von bestimmten Fahrzeugmarken führen kann und daß sein Berichterstatter mit der Hauptempfehlung beabsichtigt, daß die von den Mitgliedstaaten über die Halter verhängten Strafen als Voraussetzung für die Anwendung dieser Richtlinie harmonisiert werden.</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad>","I would like to say that the Commission is aware that Parliament is concerned that this proposal might lead to discrimination against certain transport contractors, or lorries from certain countries or even certain makes of vehicle, and that the intention of the principal recommendation of the rapporteur is for the fines imposed on operators by the Member States to be harmonised as a condition of application of the directive."


=== t5-small ===

architecture:	t5
tokenizer:	T5TokenizerFast

*** TESTING DataLoaders ***



Unnamed: 0,text,target
0,"translate German to English: Was nun die Ergebnisse der Verhandlungen über die Anwendung der Artikel 3, 4, 5, 6 und 12 des Interimsabkommens bezüglich Warenhandel, öffentlicher Aufträge, Wettbewerb, Konsultationsmechanismen bei Fragen des geistigen Eigentums und Beilegung von Streitigkeiten betrifft, so gilt festzuhalten, daß wir das vorgesehene Maßnahmenpaket für ein gutes Abkommen halten, auch wenn es für bestimmte Sektoren mit Nachteilen verbunden ist - ich denke im einzelnen an die Textilindustrie,</s>","Although for certain sectors there may be flaws - I am thinking specifically of the textiles sector, where the rules of origin issue causes great concern - the effects will be beneficial for both the European Union and Mexico. For the European Union, because the establishment of a free trade area will enable it to rebuild the presence Member States had in Mexican markets before the NAFTA agreement came into force, involving new expansion opportunities for European companies."
1,"translate German to English: Ebenfalls muß der Straftatbestand der Kinderpornographie genauer definiert werden, und die Definition des Ausschusses erscheint mir angemessen: ""die Herstellung, der Verkauf und die Verbreitung oder sonstige Formen des Handels mit kinderpornographischem Material und der Besitz solchen Materials ist mit Strafen bedroht "". Dennoch, ""der für die Strafbarkeit erforderliche Unrechtsgehalt kann nur dort bestehen, wo der Besitz wissentlich oder gar absichtlich erlangt wird "".</s><pad><pad><pad><pad>","The definition of offences of child pornography must also be stricter, and I find the definition given by the parliamentary committee perfectly appropriate, 'the production, sale and distribution or other forms of trafficking in child pornography material and the possession of such material is punishable' with the proviso that 'possession shall be punishable only where it is the result of an intentional or deliberate act'."


In [None]:
#slow
#hide_input
test_results_df = pd.DataFrame(test_results, columns=['arch', 'tokenizer', 'model_name', 'result', 'error'])
display_df(test_results_df)

Unnamed: 0,arch,tokenizer,model_name,result,error
0,bart,BartTokenizerFast,facebook/bart-base,PASSED,
1,fsmt,FSMTTokenizer,facebook/wmt19-de-en,PASSED,
2,marian,MarianTokenizer,Helsinki-NLP/opus-mt-de-en,PASSED,
3,mbart,MBartTokenizerFast,sshleifer/tiny-mbart,PASSED,
4,mt5,T5TokenizerFast,google/mt5-small,PASSED,
5,t5,T5TokenizerFast,t5-small,PASSED,


## Summary

This module includes the fundamental data preprocessing bits to use Blurr for translation.

In [None]:
#hide
from nbdev.export import notebook2script
notebook2script()

Converted 00_utils.ipynb.
Converted 01_data-core.ipynb.
Converted 01_modeling-core.ipynb.
Converted 02_data-language-modeling.ipynb.
Converted 02_modeling-language-modeling.ipynb.
Converted 03_data-token-classification.ipynb.
Converted 03_modeling-token-classification.ipynb.
Converted 04_data-question-answering.ipynb.
Converted 04_modeling-question-answering.ipynb.
Converted 10_data-seq2seq-core.ipynb.
Converted 10_modeling-seq2seq-core.ipynb.
Converted 11_data-seq2seq-summarization.ipynb.
Converted 11_modeling-seq2seq-summarization.ipynb.
Converted 12_data-seq2seq-translation.ipynb.
Converted 12_modeling-seq2seq-translation.ipynb.
Converted 99a_examples-high-level-api.ipynb.
Converted 99b_examples-glue.ipynb.
Converted 99c_examples-glue-plain-pytorch.ipynb.
Converted 99d_examples-multilabel.ipynb.
Converted index.ipynb.
