In [1]:
# Imports
!pip install --upgrade tensorflow
!pip install tensorflow-gpu
!pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 torchaudio===0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
!pip install datasets
!pip install tokenizers
!pip install transformers
!pip install git-python==1.0.3
!pip install rouge_score
!pip install sacrebleu
!pip install wget

# !python -m wget https://raw.githubusercontent.com/huggingface/transformers/master/examples/seq2seq/seq2seq_trainer.py
# !python -m wget https://raw.githubusercontent.com/huggingface/transformers/master/examples/seq2seq/seq2seq_training_args.py

Requirement already up-to-date: tensorflow in /usr/local/lib/python3.7/dist-packages (2.4.1)
Collecting tensorflow-gpu
[?25l  Downloading https://files.pythonhosted.org/packages/85/cc/a27e73cf8b23f2ce4bdd2b7089a42a7819ce6dd7366dceba406ddc5daa9c/tensorflow_gpu-2.4.1-cp37-cp37m-manylinux2010_x86_64.whl (394.3MB)
[K     |████████████████████████████████| 394.3MB 41kB/s 
Installing collected packages: tensorflow-gpu
Successfully installed tensorflow-gpu-2.4.1
Looking in links: https://download.pytorch.org/whl/torch_stable.html
Collecting torchaudio===0.7.2
[?25l  Downloading https://files.pythonhosted.org/packages/37/16/ecdb9eb09ec6b8133d6c9536ea9e49cd13c9b5873c8488b8b765a39028da/torchaudio-0.7.2-cp37-cp37m-manylinux1_x86_64.whl (7.6MB)
[K     |████████████████████████████████| 7.6MB 19.2MB/s 
Installing collected packages: torchaudio
Successfully installed torchaudio-0.7.2
Collecting datasets
[?25l  Downloading https://files.pythonhosted.org/packages/a2/12/5fd53adc5ba8a8d562b19f2c1c8

In [2]:
# Imports
import datasets
import pandas as pd
import csv

from IPython.display import display, HTML
from datasets import ClassLabel
from transformers import EncoderDecoderModel, BertTokenizer, BertTokenizerFast, DistilBertTokenizer, DistilBertTokenizerFast

In [3]:
# Test CUDA
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
torch.cuda.empty_cache()
print("Device:", device)

Device: cuda


In [56]:
# Load swiss data
from google.colab import drive

path_drive = "/content/drive"
drive.mount(path_drive)
path_corpus = path_drive + "/My Drive/Temp/Corpus/data_train.csv"

data_txt = []
data_ref = []

with open(path_corpus, "r", encoding="utf-8") as f:
    reader = csv.reader(f, delimiter=",", quoting=csv.QUOTE_ALL)
    next(reader, None)

    for row in reader:
        data_txt.append(row[0])
        data_ref.append(row[1])

tuples = list(zip(data_txt, data_ref))
dataframe = pd.DataFrame(tuples, columns=["article", "highlights"])

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [57]:
# Load german data
from google.colab import drive

path_drive = "/content/drive"
drive.mount(path_drive)
path_corpus = path_drive + "/My Drive/Temp/Corpus/data_train_test.xlsx"

tuples = pd.read_excel(path_corpus)
del tuples["Unnamed: 0"]
dataframe = pd.concat([dataframe, tuples])
dataframe = dataframe.dropna()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
                                                 article                                         highlights
0      Minghella war der Sohn italienisch-schottische...  Anthony Minghella, CBE war ein britischer Film...
1      Ende der 1940er Jahre wurde eine erste Auteur-...  Die Auteur-Theorie ist eine Filmtheorie und di...
2      Al Pacino, geboren in Manhattan, ist der Sohn ...  Alfredo James "Al" Pacino ist ein US-amerikani...
3      Der Name der Alkalimetalle leitet sich von dem...  Als Alkalimetalle werden die chemischen Elemen...
4      Die Arbeit ist bereits seit dem Altertum Gegen...  Das deutsche Arbeitsrecht ist ein Rechtsgebiet...
...                                                  ...                                                ...
12533  Das in der Kritik stehende Kommando Spezialkrä...  KSK-Soldaten konnten laut Medienrecherchen unt...
12534  

In [58]:
# Concat swiss and german data
german_data = datasets.arrow_dataset.Dataset.from_pandas(dataframe[["article", "highlights"]])
german_data = german_data.shuffle()
print(dataframe)

                                                 article                                         highlights
0      Minghella war der Sohn italienisch-schottische...  Anthony Minghella, CBE war ein britischer Film...
1      Ende der 1940er Jahre wurde eine erste Auteur-...  Die Auteur-Theorie ist eine Filmtheorie und di...
2      Al Pacino, geboren in Manhattan, ist der Sohn ...  Alfredo James "Al" Pacino ist ein US-amerikani...
3      Der Name der Alkalimetalle leitet sich von dem...  Als Alkalimetalle werden die chemischen Elemen...
4      Die Arbeit ist bereits seit dem Altertum Gegen...  Das deutsche Arbeitsrecht ist ein Rechtsgebiet...
...                                                  ...                                                ...
12533  Das in der Kritik stehende Kommando Spezialkrä...  KSK-Soldaten konnten laut Medienrecherchen unt...
12534  Franka Lu ist eine chinesische Journalistin un...  China hat die Pandemie erfolgreich unterdrückt...
12535  Nach drei Angriffen m

In [59]:
# Split data
train_data = german_data.select(range(0, 85000))
val_data = german_data.select(range(85000, 95000))
test_data = german_data.select(range(95000, 100000))

In [49]:
# Load english data
'''
train_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="train")
val_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="validation[:10%]")
test_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="test[:5%]")
'''

'\ntrain_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="train")\nval_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="validation[:10%]")\ntest_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="test[:5%]")\n'

In [61]:
# Explore corpus
df = pd.DataFrame(train_data)

text_list = []
summary_list = []

for index, row in df.iterrows():
    text = row["article"]
    summary = row["highlights"]
    text_list.append(len(text))
    summary_list.append(len(summary))
    
print(sum(text_list) / len(text_list))
print(sum(summary_list) / len(summary_list))

3912.2599529411764
234.85629411764705


In [62]:
# Explore corpus
train_data.info.description
df = pd.DataFrame(train_data[:1])

# del df["id"]

for column, typ in train_data.features.items():
    if isinstance(typ, ClassLabel):
        df[column] = df[column].transform(lambda i: typ.names[i])

display(HTML(df.to_html()))

Unnamed: 0,article,highlights,__index_level_0__
0,"Seine ersten Spiele in Seniorenmannschaften absolvierte Vojdan Stojanovski zusammen mit seinem Bruder Damjan in seiner Heimatstadt ab 2005 beim KK Vardar. Bereits im Dezember 2006 verliess Vojdan den Verein, bevor dieser den mazedonischen Pokalwettbewerb 2007 gewann, und ging zum Ligakonkurrenten KK AMAK SP aus Ohrid, wo er gemeinsam mit Damjan 2009 schliesslich auch den Pokalwettbewerb gewinnen konnte. Anschliessend waren beide gemeinsam im Endrundenkader der Herren-Nationalmannschaft bei der Europameisterschaft 2009 vertreten, für die sich die mazedonische Auswahl erstmals nach zehn Jahren wieder qualifizierte und nach Erreichen der Zwischenrunde und einem Sieg über Deutschland einen guten neunten Platz belegte. 2009 trennten sich die Wege der Zwillingsbrüder und Vojdan Stojanovski ging ins serbische Nachbarland zu KK Napredak aus Kruševac in die Košarkaška liga Srbije. Gegenüber dem Vorjahr, als die Mannschaft nur knapp die Finalrunde der serbischen Meisterschaft verpasst hatte, verschlechterte sich man jedoch deutlich und erreichte nach der Vorrunde mit negativer Saisonbilanz den neunten Platz. Vojdan kehrte anschliessend zunächst nach Mazedonien zurück und spielte für den nationalen Double-Gewinner KK Feni Industries aus Kavadarci, wo bereits sein älterer Bruder Ognen spielte. Gemeinsam verteidigte man den nationalen Meisterschaftstitel und konnte als erste mazedonische Mannschaft die Balkan International Basketball League bei ihrer dritten Austragung gewinnen. Nach zwei Halbfinalniederlagen in den Austragungen zuvor gewann man das Finalspiel beim Final Four-Turnier in eigener Halle gegen den Premierensieger Rilski Sportist Samokow. Gekrönt wurde die erfolgreiche Saison, als Vojdan zusammen mit Damjan Stojanovski bei der EM-Endrunde 2011 mit der mazedonischen Nationalmannschaft den bislang grössten Erfolg für die mazedonische Auswahl feiern konnte. Angeführt vom naturalisierten Bo McCalebb und dem späteren NBA-Profi Pero Antić erreichte die Auswahl beinahe sensationell das Halbfinale und schlug dabei im Viertelfinale den Gastgeber und Medaillenkandidaten Litauen, wobei Vojdan Stojanovski in diesem Spiel mit fünf erfolgreichen Würfen von jenseits der Dreipunktelinie und makelloser Quote einen wesentlichen Anteil am Favoritensturz hatte. Nach zwei Niederlagen gegen Titelverteidiger Spanien und Russland verpasste man auf dem vierten Platz jedoch die erhoffte Medaille. In der Saison 2011/12 spielte Vojdan Stojanovski zunächst für BK Mawpy aus Tscherkassy in der Basketball Superliga Ukraine. Zum Jahreswechsel wechselte er zum Ligakonkurrenten BK Donezk, mit dem er unter dem serbischen Trainer Saša Obradović die ukrainische Meisterschaft gewann und im Eurocup 2011/12 bis in die K.-o.-Spiele im Viertelfinale einzog. Nachdem unter anderem Trainer Obradović den Verein verlassen hatte, konnte man in der Saison 2012/13 an diese Erfolge nicht mehr anschliessen und schied im Eurocup 2012/13 bereits nach der Vorrunde aus und auch in der ukrainischen Meisterschaft schied man als Titelverteidiger bereits in der ersten Play-off-Runde aus. Auch mit der mazedonischen Nationalmannschaft war Vojdan Stojanovski diesmal nicht erfolgreicher und so schied man bei der EM-Endrunde 2013 bereits nach der Turnier-Vorrunde aus. Für die Saison 2013/14 holte sein früherer Trainer Obradović Stojanovski zum deutschen Erstligisten Alba Berlin in die Basketball-Bundesliga. Im erweiterten Eurocup 2013/14 erreichte man erneut das Viertelfinale, das gegen den Valencia Basket Club verloren ging. Im nationalen Beko BBL-Pokal 2014 konnten die Berliner dagegen in einer Neuauflage des Vorjahresfinales den Gastgeber ratiopharm Ulm bezwingen und ihren Titelerfolg aus dem Vorjahr verteidigen. Nach der Vizemeisterschaft mit Alba 2014 bekam Stojanovski kurz vor Saisonbeginn noch einmal eine Vertragsverlängerung, doch Ende Januar 2015 beschoss man die Auflösung des Vertrages und er wechselte zum BC River MoraBanc nach Andorra, der als Aufsteiger in der höchsten spanischen Spielklasse Liga ACB spielt.",Vojdan Stojanovski ist ein mazedonischer Basketballspieler. Stojanovski gewann mit seinen Vereinen bislang die Pokalwettbewerbe 2009 in Mazedonien sowie den Beko BBL-Pokal 2014 in Deutschland. Zudem gewann er 2011 die mazedonische Meisterschaft und 2012 die ukrainische Meisterschaft sowie mit KK Feni Industries 2011 die supranationale Balkan International Basketball League. Zusammen mit unter anderem seinem Zwillingsbruder Damjan Stojanovski verpasste er mit der mazedonischen Nationalmannschaft bei der EM-Endrunde 2011 auf dem vierten Platz nur knappe eine Medaille. Nach anderthalb Saisons beim deutschen Erstligisten Alba Berlin in der Basketball-Bundesliga spielt Vojdan seit 2015 in der spanischen Liga ACB beim Aufsteiger BC Andorra.,96648


In [63]:
# Load tokenizer
tokenizer = BertTokenizerFast.from_pretrained("bert-base-multilingual-cased")

In [66]:
# Prepare data
encoder_max_length = 512
decoder_max_length = 128
batch_size = 4 # 16

def process_data_to_model_inputs(batch):
    inputs = tokenizer(batch["article"], padding="max_length", truncation=True, max_length=encoder_max_length)
    outputs = tokenizer(batch["highlights"], padding="max_length", truncation=True, max_length=decoder_max_length)

    batch["input_ids"] = inputs.input_ids
    batch["attention_mask"] = inputs.attention_mask
    batch["decoder_input_ids"] = outputs.input_ids
    batch["decoder_attention_mask"] = outputs.attention_mask
    batch["labels"] = outputs.input_ids.copy()
    batch["labels"] = [[-100 if token == tokenizer.pad_token_id else token for token in labels] for labels in batch["labels"]]

    return batch

In [67]:
# Training data
train_data = train_data.shuffle()

train_data = train_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    batch_size=batch_size, 
    remove_columns=["article", "highlights"] # "id"
)

train_data.set_format(
    type="torch",
    columns=["input_ids",
             "attention_mask",
             "decoder_input_ids",
             "decoder_attention_mask",
             "labels"]
)

HBox(children=(FloatProgress(value=0.0, max=21250.0), HTML(value='')))




In [68]:
# Validation data
val_data = val_data.shuffle()

val_data = val_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    remove_columns=["article", "highlights"] # id
)

val_data.set_format(
    type="torch",
    columns=["input_ids",
             "attention_mask",
             "decoder_input_ids",
             "decoder_attention_mask",
             "labels"]
)

val_data = val_data.select(range(2000))

HBox(children=(FloatProgress(value=0.0, max=10.0), HTML(value='')))




In [69]:
# Load models
tf2tf = EncoderDecoderModel.from_encoder_decoder_pretrained("bert-base-multilingual-cased", "bert-base-multilingual-cased", tie_encoder_decoder=False)
tf2tf.save_pretrained("bert2bert_multilingual")
tf2tf = EncoderDecoderModel.from_pretrained("bert2bert_multilingual")

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=625.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=714314041.0, style=ProgressStyle(descri…




Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertLMHeadModel: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertLMHeadModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertLMHeadModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertLMHeadModel were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['bert.encoder.layer.0.crossattention.self.query.weight', 'bert.encoder.layer.0.crossattention.self.query.bias', 'bert.encoder.layer.0.crossattention.self.key.weight', 'bert.encoder.layer.0.crossattention.self.key.bias

In [70]:
# Configure models
tf2tf.config.decoder_start_token_id = tokenizer.cls_token_id
tf2tf.config.eos_token_id = tokenizer.sep_token_id
tf2tf.config.pad_token_id = tokenizer.pad_token_id
tf2tf.config.vocab_size = tf2tf.config.encoder.vocab_size

In [71]:
# Configure beam search
tf2tf.config.max_length = 142
tf2tf.config.min_length = 56
tf2tf.config.no_repeat_ngram_size = 3
tf2tf.config.early_stopping = True
tf2tf.config.length_penalty = 2.0
tf2tf.config.num_beams = 4

In [72]:
# Prepare metric
rouge = datasets.load_metric("rouge")

def compute_metrics(pred):
    labels_ids = pred.label_ids
    pred_ids = pred.predictions

    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    labels_ids[labels_ids == -100] = tokenizer.pad_token_id
    label_str = tokenizer.batch_decode(labels_ids, skip_special_tokens=True)

    rouge_output = rouge.compute(predictions=pred_str, references=label_str, rouge_types=["rouge2"])["rouge2"].mid

    return {
        "rouge2_precision": round(rouge_output.precision, 4),
        "rouge2_recall": round(rouge_output.recall, 4),
        "rouge2_fmeasure": round(rouge_output.fmeasure, 4),
    }

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=2170.0, style=ProgressStyle(description…




In [73]:
# Load checkpoint
from google.colab import drive

path_drive = "/content/drive"
drive.mount(path_drive)

path_output = path_drive + "/My Drive/Temp/Models"
path_checkpoint = path_output + "/checkpoint-16000"

tf2tf = EncoderDecoderModel.from_pretrained(path_checkpoint)
tf2tf.to("cuda")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


EncoderDecoderModel(
  (encoder): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_a

In [75]:
# Setup arguments
from seq2seq_training_args import Seq2SeqTrainingArguments

training_args = Seq2SeqTrainingArguments(
    predict_with_generate=True,
    evaluation_strategy="steps",
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    output_dir=path_output, # "./"
    warmup_steps=1000,
    save_steps=2000,
    logging_steps=100,
    eval_steps=2000,
    save_total_limit=1,
    fp16=True
)

In [None]:
# Start training
from seq2seq_trainer import Seq2SeqTrainer

trainer = Seq2SeqTrainer(
    model=tf2tf,
    args=training_args,
    compute_metrics=compute_metrics,
    train_dataset=train_data,
    eval_dataset=val_data,
)

trainer.train()

Step,Training Loss,Validation Loss,Rouge2 Precision,Rouge2 Recall,Rouge2 Fmeasure,Runtime,Samples Per Second
2000,2.311,2.252462,0.1306,0.2586,0.1615,1543.5492,1.296
4000,2.3568,2.248657,0.1357,0.2543,0.1649,1474.6902,1.356
6000,2.3169,2.225974,0.1351,0.2544,0.1644,1479.1171,1.352
8000,2.283,2.200927,0.137,0.2561,0.1665,1502.6738,1.331


In [None]:
# Evaluate training
def generate_summary(batch):
    inputs = tokenizer(batch["article"], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
    input_ids = inputs.input_ids.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")
    
    outputs = tf2tf.generate(input_ids, attention_mask=attention_mask)
    output_str = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    batch["pred_summary"] = output_str

    return batch

results = test_data.map(
    generate_summary,
    batched=True,
    batch_size=batch_size,
    remove_columns=["article"]
)

print(results[0]["pred_summary"])
print(results[0]["highlights"])
print("====================")

rouge.compute(predictions=results["pred_summary"], references=results["highlights"], rouge_types=["rouge2"])["rouge2"].mid

# tf2tf = EncoderDecoderModel.from_pretrained("patrickvonplaten/bert2bert_cnn_daily_mail").to("cuda")
# tokenizer = BertTokenizer.from_pretrained("patrickvonplaten/bert2bert_cnn_daily_mail")

HBox(children=(FloatProgress(value=0.0, max=1250.0), HTML(value='')))


Das Museum Relandersgrund ist ein Museumsschiff der finnischen Marine. Es wurde 1888 und ist heute eines der Museumsschiffe der Welt. Das Museum ist eines von drei Museumsschiffen der Welt, die von der " Relander Grund AG " betrieben werden.
Das Feuerschiff Relandersgrund war ein finnisches Feuerschiff, das von 1888 bis 1914 im Schärenmeer bei Rauma positioniert war. Heute dient es als Restaurantschiff in Helsinki.


Score(precision=0.13773718758838316, recall=0.2310497425786467, fmeasure=0.1599690596019353)