In [1]:
# Imports
import pandas as pd
import datasets
import transformers
import csv

from IPython.display import display, HTML
from datasets import ClassLabel

In [2]:
# Test CUDA
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
torch.cuda.empty_cache()

print("Device:", device)
print("Version:", torch.__version__)

Device: cuda
Version: 1.8.1


In [3]:
# Load swiss data
path_corpus = "data_train.csv"

data_txt = []
data_ref = []

with open("data_train.csv", "r", encoding="utf-8") as f:
    reader = csv.reader(f, delimiter=",", quoting=csv.QUOTE_ALL)
    next(reader, None)

    for row in reader:
        data_txt.append(row[0])
        data_ref.append(row[1])

tuples = list(zip(data_txt, data_ref))
dataframe = pd.DataFrame(tuples, columns=["article", "highlights"])

In [4]:
# Load german data
tuples = pd.read_excel("data_train_test.xlsx", engine="openpyxl")
del tuples["Unnamed: 0"]
dataframe = pd.concat([dataframe, tuples])
dataframe = dataframe.dropna()

In [5]:
# Clean redactional data
print(len(dataframe))
dataframe = dataframe[~dataframe["highlights"].str.contains("ZEIT")]
print(len(dataframe))

112491
112405


In [6]:
# Concat swiss and german data
german_data = datasets.arrow_dataset.Dataset.from_pandas(dataframe[["article", "highlights"]])
german_data = german_data.shuffle()
print(dataframe)

                                                 article  \
0      Minghella war der Sohn italienisch-schottische...   
1      Ende der 1940er Jahre wurde eine erste Auteur-...   
2      Al Pacino, geboren in Manhattan, ist der Sohn ...   
3      Der Name der Alkalimetalle leitet sich von dem...   
4      Die Arbeit ist bereits seit dem Altertum Gegen...   
...                                                  ...   
12533  Das in der Kritik stehende Kommando Spezialkrä...   
12534  Franka Lu ist eine chinesische Journalistin un...   
12535  Nach drei Angriffen mit explosiven Postsendung...   
12536  Russische Behörden haben nach eigenen Angaben ...   
12537  DIE ZEIT: Herr Heisterhagen, Ralf Stegner kand...   

                                              highlights  
0      Anthony Minghella, CBE war ein britischer Film...  
1      Die Auteur-Theorie ist eine Filmtheorie und di...  
2      Alfredo James "Al" Pacino ist ein US-amerikani...  
3      Als Alkalimetalle werden die chemisc

In [7]:
# Split data
reduction_rate = 0.7

train_size = int(len(dataframe) * 0.8 * reduction_rate)
valid_size = int(len(dataframe) * 0.15 * reduction_rate)
test_size = int(len(dataframe) * 0.05 * reduction_rate)

train_data = german_data.select(range(0, train_size))
val_data = german_data.select(range(train_size, train_size + valid_size))
test_data = german_data.select(range(train_size + valid_size, len(dataframe)))

In [None]:
# Load english data
train_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="train")
val_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="validation[:5%]")
test_data = datasets.load_dataset("cnn_dailymail", "3.0.0", split="test[:2%]")

In [8]:
# Explore corpus
df = pd.DataFrame(train_data)

text_list = []
summary_list = []

for index, row in df.iterrows():
    text = row["article"]
    summary = row["highlights"]
    text_list.append(len(text))
    summary_list.append(len(summary))
    
print(sum(text_list) / len(text_list))
print(sum(summary_list) / len(summary_list))

3920.3393543672355
234.86315254344993


In [9]:
# Explore corpus
train_data.info.description
df = pd.DataFrame(train_data[:1])

for column, typ in train_data.features.items():
    if isinstance(typ, ClassLabel):
        df[column] = df[column].transform(lambda i: typ.names[i])

display(HTML(df.to_html()))

Unnamed: 0,article,highlights,__index_level_0__
0,"Bei der Tournee wurde nach einem neuen Modus verfahren. Zum zweiten Durchgang durften nur noch die ersten 50 Springer des ersten Durchganges antreten und zudem schieden die Nichtplatzierten auch aus der Gesamtwertung der Tournee aus. Da der Probedurchgang nach 22 Springern durch Neuschnee abgebrochen und nicht wiederholt wurde, wählte die Jury einen zu langen Anlauf für den ersten Durchgang. So kam es, dass der Schanzenrekord einmal eingestellt und fünfmal überboten wurde. Die neue Rekordmarke von 113 m stellte der Österreicher Alfred Groyer auf, mit der er nach dem ersten Durchgang hinter seinen Landsmann Hubert Neuper auf den zweiten Platz lag. Zum zweiten Durchgang wurde dann der Anlauf bis zur untersten Luke verkürzt. Jochen Danneberg der nach dem ersten Durchgang auf den sechsten Platz lag, sicherte sich mit der zweitgrössten Weite von 107 m im zweiten Durchgang den Sieg des Auftaktspringen dieser Tournee. Nach seinem zweiten Platz beim Auftaktspringen in Oberstdorf, sicherte sich der 19-jährige Österreicher Hubert Neuper bei besten Bedingungen das Neujahrsspringen in Garmisch-Partenkirchen. Im ersten Durchgang stand zwar der Finne Jari Puikkonen den weitesten Sprung, lag aber Aufgrund der schlechteren Haltungsnoten hinter Neuper auf dem zweiten Platz. Bei längerem Anlauf kamen dann beide im zweiten Durchgang auf die gleiche Weite, dass Neuper den Sieg bescherte. Den weitesten und zugleich einzigen 100 m Sprung gelang dem Japener Hirokazu Yagi, der ihn noch den vierten Platz einbrachte. Auftaktsieger Jochen Danneberg verpasste zweimal den Absprung und landete auf den 28. Platz. Nach dem ersten Durchgang lag der in der Gesamtwertung führende Hubert Neuper nach einem neuen Schanzenrekord von 107 m vor dem Schweizer Hansjörg Sumi und Klaus Ostwald auf dem ersten Platz. Der zweite Durchgang wurde erst einmal nach zehn Springern abgebrochen, um den Anlauf zu verkürzen. Neuper der seine Spitzenposition aus dem ersten Durchgang vor Sumi verteidigen konnte, gewann sein zweites Springen bei dieser Tournee und baute seinen Vorsprung in der Gesamtwertung aus. Ostwald wurde noch Aufgrund schlechterer Haltungsnoten von Henry Glass und Jari Puikkonen auf den fünften Platz verwiesen. Martin Weber führte das Feld nach dem weitesten Sprung im ersten Durchgang vor Henry Glass und Hubert Neuper an. Wie schon in Innsbruck musste auch in Bischofshofen der zweite Durchgang erst einmal abgebrochen werden, um den Anlauf zu verkürzen. Danach genügte Weber mit 97 m ein solider Sprung um sein erstes Weltcupspringen zu gewinnen. Auf den Plätzen folgten ihm Glass und der Pole Piotr Fijas, der im zweiten Durchgang mit 101,5 m den weitesten Sprung stand. Hubert Neuper reichte ein zehnter Platz um sich den Gesamtsieg der Vierschanzentournee zu sichern. Nach einem zweiten Platz beim Auftaktspringen in Oberstdorf und zwei folgende Tagessiege in Garmisch-Partenkirchen sowie Innsbruck, reichte dem 19-jährigen Hubert Neuper ein zehnter Platz in Bischofshofen, um die 28. Vierschanzentournee mit klaren Vorsprung vor Henry Glass, Martin Weber, Klaus Ostwald allesamt aus der DDR und seinem Landsmann Alfred Groyer zu gewinnen.","Die 28. Vierschanzentournee 1979/80 war eine Station des Skisprung-Weltcups 1979/1980, die in Deutschland und Österreich zur Austragung kam. Die Tournee fand vom 30. Dezember 1979 bis zum 6. Januar 1980 auf den Schanzen in Oberstdorf und Garmisch-Partenkirchen sowie in Innsbruck und Bischofshofen statt. Die Vierschanzentournee wurde von dem Österreicher Hubert Neuper vor drei Springern aus der DDR gewonnen.",48666


In [10]:
# Load tokenizer
tokenizer = transformers.BertTokenizer.from_pretrained("bert-base-multilingual-cased")
print(type(tokenizer))

<class 'transformers.models.bert.tokenization_bert.BertTokenizer'>


In [11]:
# Prepare data
encoder_max_length = 512
decoder_max_length = 128
batch_size = 2 # 16

def process_data_to_model_inputs(batch):
    inputs = tokenizer(batch["article"], padding="max_length", truncation=True, max_length=encoder_max_length)
    outputs = tokenizer(batch["highlights"], padding="max_length", truncation=True, max_length=decoder_max_length)

    batch["input_ids"] = inputs.input_ids
    batch["attention_mask"] = inputs.attention_mask
    batch["decoder_input_ids"] = outputs.input_ids
    batch["decoder_attention_mask"] = outputs.attention_mask
    batch["labels"] = outputs.input_ids.copy()
    batch["labels"] = [[-100 if token == tokenizer.pad_token_id else token for token in labels] for labels in batch["labels"]]

    return batch

In [12]:
# Training data
train_data = train_data.shuffle()

train_data = train_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    batch_size=batch_size, 
    remove_columns=["article", "highlights"] # id
)

train_data.set_format(
    type="torch",
    columns=["input_ids",
             "attention_mask",
             "decoder_input_ids",
             "decoder_attention_mask",
             "labels"]
)

HBox(children=(FloatProgress(value=0.0, max=31473.0), HTML(value='')))




In [13]:
# Validation data
val_data = val_data.shuffle()

val_data = val_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    remove_columns=["article", "highlights"] # id
)

val_data.set_format(
    type="torch",
    columns=["input_ids",
             "attention_mask",
             "decoder_input_ids",
             "decoder_attention_mask",
             "labels"]
)

HBox(children=(FloatProgress(value=0.0, max=12.0), HTML(value='')))




In [14]:
# Load models
tf2tf = transformers.EncoderDecoderModel.from_encoder_decoder_pretrained("bert-base-multilingual-cased", "bert-base-multilingual-cased", tie_encoder_decoder=False)
tf2tf.save_pretrained("bert2bert_multilingual")
tf2tf = transformers.EncoderDecoderModel.from_pretrained("bert2bert_multilingual")

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertLMHeadModel: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertLMHeadModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertLMHeadModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertLMHeadModel were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['bert.encoder.layer.0.crossattention.self.query.weight', 'bert.encoder.layer.0.crossattention.self.query.bias', 'bert.encoder.layer.0.crossattention.self.key.weight', 'bert.encoder.layer.0.crossattention.self.key.bias

In [15]:
# Configure models
tf2tf.config.decoder_start_token_id = tokenizer.cls_token_id
tf2tf.config.eos_token_id = tokenizer.sep_token_id
tf2tf.config.pad_token_id = tokenizer.pad_token_id
tf2tf.config.vocab_size = tf2tf.config.encoder.vocab_size

In [16]:
# Configure beam search
tf2tf.config.max_length = 142
tf2tf.config.min_length = 56
tf2tf.config.no_repeat_ngram_size = 3
tf2tf.config.early_stopping = True
tf2tf.config.length_penalty = 2.0
tf2tf.config.num_beams = 4

In [17]:
# Prepare metric
rouge = datasets.load_metric("rouge")

def compute_metrics(pred):
    labels_ids = pred.label_ids
    pred_ids = pred.predictions

    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    labels_ids[labels_ids == -100] = tokenizer.pad_token_id
    label_str = tokenizer.batch_decode(labels_ids, skip_special_tokens=True)

    rouge_output = rouge.compute(predictions=pred_str, references=label_str, rouge_types=["rouge2"])["rouge2"].mid

    return {
        "rouge2_precision": round(rouge_output.precision, 4),
        "rouge2_recall": round(rouge_output.recall, 4),
        "rouge2_fmeasure": round(rouge_output.fmeasure, 4),
    }

In [18]:
# Load checkpoint
path_output = "./"
path_checkpoint = path_output + "/bert2bert_multilingual"

tf2tf = transformers.EncoderDecoderModel.from_pretrained(path_checkpoint)
tf2tf.to("cuda")

EncoderDecoderModel(
  (encoder): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_a

In [19]:
# Empty cache
import gc
import psutil

gc.collect()
torch.cuda.empty_cache()
psutil.virtual_memory()

svmem(total=67275264000, available=31733280768, percent=52.8, used=34856411136, free=25548660736, active=33866285056, inactive=2394914816, buffers=35966976, cached=6834225152, shared=412921856, slab=3492663296)

In [20]:
# Setup arguments
training_args = transformers.Seq2SeqTrainingArguments(
    evaluation_strategy="steps",
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    output_dir=path_output,
    warmup_steps=1000,
    save_steps=2000,
    logging_steps=100,
    eval_steps=2000,
    save_total_limit=1,
    fp16=True,
    # predict_with_generate=True
)

In [None]:
# Start training
trainer = transformers.Seq2SeqTrainer(
    model=tf2tf,
    args=training_args,
    compute_metrics=compute_metrics,
    train_dataset=train_data,
    eval_dataset=val_data
    # tokenizer=tokenizer
)

trainer.train()



Step,Training Loss,Validation Loss


In [None]:
# Load checkpoint
path_output = "./"
path_checkpoint = path_output + "/bert2bert_multilingual"

tf2tf = EncoderDecoderModel.from_pretrained(path_checkpoint)
tf2tf.to("cuda")

In [None]:
# Evaluate training
def generate_summary(batch):
    inputs = tokenizer(batch["article"], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
    input_ids = inputs.input_ids.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")
    
    outputs = tf2tf.generate(input_ids, attention_mask=attention_mask)
    output_str = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    batch["pred_summary"] = output_str

    return batch

results = test_data.map(
    generate_summary,
    batched=True,
    batch_size=batch_size,
    remove_columns=["article"]
)

print(results[0]["pred_summary"])
print(results[0]["highlights"])
print("====================")

rouge.compute(predictions=results["pred_summary"], references=results["highlights"], rouge_types=["rouge2"])["rouge2"].mid