In [1]:
#!pip install transformers
#!pip install datasets


In [2]:
#!pip install seqeval

# Skript2: Model Finetuning mit Hyperparametersuche für Text-Klassifizierung mit germaneval2019 Task2 -Subtask2

Dieses Notebook beschreibt das Training eines Text-Klassifizierungsmodells für den Datensatz GermEval 2019 Task2 -Subtask2.
Es wird ein BERT - Modell mit der nativen Hugging Face Transformer Bibliothek trainiert. Dafür wird vor dem Training mithilfe automatischer Hyperparametersuche versucht, bessere Trainingsparameter zu finden, um die Modellleistung zu verbessern. Das Training erfolgt nach dem gleichen Split wie es der Shared Task 2019 vorgab.

In [3]:
# Importieren der Hugging Face Datesets Bibliothek
import datasets

In [4]:
# Parameter für die Scriptsteuerung:
# die Task für die das Modell trainiert werden soll
task = "task2"
# das zu verwendende pretrained Transformer Modell
model_checkpoint = "deepset/gbert-base"
# die Trainingsbatchsize
batch_size = 4

## Preprocessing des Datasets
Zunächst müssen die Daten aus dem GermEval2019 Datensatz vorverarbeitet werden. Dazu werden diese in einen `Pandas DataFrames` umgewandelt.

In [5]:
import pandas as pd

Als ersten werden mit Hilfe der `read_csv()` Methode die Daten für das Trainings- und das Valiederungsset zu einem `DataFrame` zusammengefügt. Dabei werden die Werte in den Labelspalten in numerische Kategorienencodings umgewandelt.

In [6]:
data1=pd.read_csv("../datasets/germeval2019/train_valid/germeval2018.test_.txt",delimiter="\t", header=None,quoting=3)
data2=pd.read_csv("../datasets/germeval2019/train_valid/germeval2018.training.txt",delimiter="\t", header=None,quoting=3)
data3=pd.read_csv("../datasets/germeval2019/train_valid/germeval2019.training_subtask1_2_korrigiert.txt",delimiter="\t", header=None,quoting=3)
data_all = data1.append([data2,data3])
data_all.columns = ["text","task1_label","task2_label"]
# Umwandlung der Label in die jeweiligen numerischen Encodings
data_all.task1_label = data_all.task1_label.astype('category').cat.codes
data_all.task2_label = data_all.task2_label.astype('category').cat.codes
data_all

Unnamed: 0,text,task1_label,task2_label
0,"Meine Mutter hat mir erzählt, dass mein Vater ...",1,2
1,@Tom174_ @davidbest95 Meine Reaktion; |LBR| Ni...,1,2
2,"#Merkel rollt dem Emir von #Katar, der islamis...",1,2
3,„Merle ist kein junges unschuldiges Mädchen“ K...,1,2
4,@umweltundaktiv Asylantenflut bringt eben nur ...,0,0
...,...,...,...
3990,250 Menschen auf der Demonstration gegen das D...,1,2
3991,Erneut Massaker an Kurdische ZivilistInnen dur...,1,2
3992,Hunderte Refugees haben die Grenze zur spanisc...,1,2
3993,Heute ab 17:00 Uhr an der Alten Oper FFM: Kund...,1,2


Für das Testdataset wird ebenfalls ein `DataFrame` erzeugt und die Label encodiert.

In [7]:
data_test = pd.read_csv("../datasets/germeval2019/test/germeval2019GoldLabelsSubtask1_2.txt",delimiter="\t", header=None, quoting=3)
data_test.columns = ["text","task1_label","task2_label"]
data_test.task1_label = data_test.task1_label.astype('category').cat.codes
data_test.task2_label = data_test.task2_label.astype('category').cat.codes
data_test

Unnamed: 0,text,task1_label,task2_label
0,@JanZimmHHB @mopo Komisch das die Realitätsver...,0,1
1,@faznet @Gruene_Europa @SPDEuropa @CDU CDU ste...,0,0
2,"@DLFNachrichten Die Gesichter, Namen, Religion...",1,2
3,@welt Wie verwirrt muss man sein um sich zu we...,0,0
4,@hacker_1991 @torben_braga Weil die AfD den Fe...,0,0
...,...,...,...
3026,Es fand aber nie eine Emanzipierungs-Phase der...,1,2
3027,Um es klar zu stellen: Ich will hier kein Whit...,1,2
3028,Und dann habe ich da noch die McArthur-Briefe ...,1,2
3029,al sehen wer der Ersatzmann wird. Hier könnte ...,1,2


Anschließend kann aus den `Pandas DataFrames` ein `Hugging Face Dataset` generiert werden. Hierfür wird zunächst ein `Feature` Dictionary erzeugt. Dieses enthält Typisierungen für die Features des Datasets. So werden die Features `task1_label` und `task2_label` jeweils als `ClassLabel` typisiert und das `text` Feature wird als String-Value deklariert.

In [8]:
# Erzeugen eines DataSet Objektes mit allen Daten
features = datasets.Features({
  #'__index_level_0__': datasets.Value(dtype='int32', id=None),
  'task1_label': datasets.ClassLabel(num_classes=2, names=['OFFENSE', 'OTHER'], names_file=None, id=None),
  'task2_label': datasets.ClassLabel(num_classes=4, names=['ABUSE', 'INSULT', 'OTHER', 'PROFANITY'], names_file=None, id=None),
  'text': datasets.Value(dtype='string', id=None)
})
dataset = datasets.Dataset.from_pandas(data_all,features=features)
dataset_test = datasets.Dataset.from_pandas(data_test,features=features)

Beispielausgabe der Dataset Objekte:

In [9]:
dataset_test, dataset

(Dataset({
     features: ['task1_label', 'task2_label', 'text'],
     num_rows: 3031
 }),
 Dataset({
     features: ['task1_label', 'task2_label', 'text'],
     num_rows: 12536
 }))

#### Split des Datasets
Mithilfe der der Dataset Objekte wird anschließend der Trainings- und Validierungssplit durchgeführt. Die gewählte größe des Validierungsset beträgt 20% des Datasets:

In [10]:
# Aufsplitten des Trainingssets in 80/20 (Training/Validation)Split
dataset_train_valid = dataset.train_test_split(test_size=0.2, seed=42)

Die `train_test_split()` Methode gibt ein `DatasetDict` Objekt zurück. Dies ist ein Dictionary mit einem Trainings- und einem Testdataset. Das Testdataset stellt in diesem Fall das Validierungsdataset dar.

In [11]:
dataset_train_valid

DatasetDict({
    train: Dataset({
        features: ['task1_label', 'task2_label', 'text'],
        num_rows: 10028
    })
    test: Dataset({
        features: ['task1_label', 'task2_label', 'text'],
        num_rows: 2508
    })
})

Um ein gemeinsames Dataset Objekt zu erhalten, werden die Datasets anschließend zusammengefügt und entsprechend des Splits benannt:

In [12]:
# Zusammenfügen aller DataSet-Objekte zu einem gemeinsamen DataSet mit benannten Splits
dataset_train_valid_test = datasets.DatasetDict({"train": dataset_train_valid["train"],
                                                 "valid": dataset_train_valid["test"],
                                                 "test": dataset_test})

Aufbau des gesamten Dataset Dictionary:

In [13]:
dataset_train_valid_test

DatasetDict({
    train: Dataset({
        features: ['task1_label', 'task2_label', 'text'],
        num_rows: 10028
    })
    valid: Dataset({
        features: ['task1_label', 'task2_label', 'text'],
        num_rows: 2508
    })
    test: Dataset({
        features: ['task1_label', 'task2_label', 'text'],
        num_rows: 3031
    })
})

Funktion für die Ausgabe von Beispieldaten aus dem Dataset:

In [14]:
# Quelle in Anlehnung an: https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/text_classification.ipynb#scrollTo=X6HrpprwIrIz
import random
import pandas as pd
from IPython.display import display, HTML


def show_random_elements(dataset, num_examples=10,seed=None):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    random.seed(seed)
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            random.seed(seed)
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, datasets.ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
    display(HTML(df.to_html()))

Ausgabe von Beispieldaten aus dem Trainingsdataset:

In [15]:
show_random_elements(dataset_train_valid_test["train"],seed=42)

Unnamed: 0,task1_label,task2_label,text
0,OTHER,OTHER,@AfDimBundestag @Heinrich_Krug Gehört den zu einer Integration nicht auch die Bräuche des jeweiligen zu akzeptieren..? |LBR| Und wer das nicht tut welchen Sinn gibt es noch denjenigen unter uns zu wissen..? |LBR| Ich bin für Weihnachtsbäume statt Moscheen
1,OTHER,OTHER,immerhin entstehen auch neue räume für die StArTuP sZEnE *-*
2,OFFENSE,INSULT,@FOJ45360104 @Papier451 Bei einigen Promis zeigt sich das sie entweder zu viele Schnaps Pralinen gefuttert haben oder was wahrscheinlicher ist eine Gehirn Prothese tragen.
3,OFFENSE,ABUSE,"Das lustige am Feminismus ist ja, dass dieser alle negativen Klischees über Frauen bestätigt ☺"
4,OTHER,OTHER,@mountainman1977 @StapelChipsYT Au ja. Ich stell Dir Dein Zeugnis aus :)
5,OFFENSE,INSULT,Diese Göring ist die schlimmste Lügen-Erzählerin Deutschlands. Schlimm das DIE in die Regierung kommt. #illner
6,OTHER,OTHER,Martin Schulz ist Kanzlerkandidat der SPD ohne Schulabschluss. Er ist |LBR| 2 x sitzen geblieben. Ist das Ihre Führungsspitze?
7,OFFENSE,ABUSE,@prussian_pride Er ist nur noch ein Mettwoch vom Herzkasper entfernt
8,OFFENSE,ABUSE,"Freiheit und Vielfalt sind immer dann gewährleistet, wenn alle Frau_innen Kopftuch tragen und jeder dieselbe linke Meinung hat."
9,OTHER,OTHER,@SPDJevenstedt @WilmsVal @Ralf_Stegner 10 Minuten spricht jemand #ProGoKo. 10 Minuten spricht jemand #NoGroKo. Reihefolge wird ausgelost. Und dann dürfen sich alle zu Wort melden. @Ralf_Stegner oder die Redner.innen antworten dann auf Fragen nach 4-5 Wortmeldungen.


# Preprocessing der Daten

Beschaffen des zugehörigen Tokenizers zum ausgewählten Modell:

In [16]:
from transformers import AutoTokenizer
    
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)

Der Tokenizer kann direkt genutzt werden, um eine Inputsequenz zu tokenisieren. Dabei erhält man ein Dictionary mit Mappings zu den input_ids, token_type_ids und eine attention_mask. Die input_id ist die Identifikation des jeweiligen Tokens im Vokabluar des Modells. Token_type_ids markieren Tokens in Seq2Seq Tasks und geben dem Modell Informationen darüber, zu welchem Teil einer zweiteiligen Eingabesequenz ein Token gehört. Die attention_mask teilt dem Modell mit, für welche Token die Attention berechnet werden soll. Ist eine Eingabesequenz z. B. sehr kurz im Gegensatz zu den anderen, dann wird diese per Padding auf die gleiche Länge gebracht. Die attention_mask verhindert anschließend, dass die Attention für diese Padding Token berechnet wird.

In [17]:
tokenizer("Es ist natürlich viel einfacher auch weiterhin jeden Widerstand zu skandalisieren als den Konzernen die Stirn zu bieten. Ist einfach gemütlicher, als die eigenen Fehler zu reflektieren.")

{'input_ids': [102, 479, 215, 3392, 827, 12822, 313, 3750, 2809, 8550, 205, 11473, 11545, 7232, 276, 190, 8448, 106, 128, 21429, 205, 3915, 566, 2302, 1523, 28283, 105, 818, 276, 128, 2233, 5099, 205, 21713, 11044, 566, 103], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Um die Daten der Datasets vorzuverarbeiten wird die folgende Methode definiert\
In der Methode werden zunächst die Werte des `text` Features mit dem Tokenizer des Modells tokeniesiert und anschließend ein Label Attribut mit dem Wert der aktuellen Task eingefügt. Die Methode gibt Ausgabe des Tokenizers anschließend zurück.

In [18]:
def preprocess_data(data):
  tokenized_inputs = tokenizer(data['text'], truncation=True)
  if task.endswith("1"):
    label = data["task1_label"]
  else:
    label = data["task2_label"]
  tokenized_inputs["label"] = label
  return tokenized_inputs

Die Funktion kann beliebig viele Datensätze verarbeiten. Werden mehrere übergeben dann gibt der Tokenizer eine Liste zurück:

In [19]:
preprocess_data(dataset_train_valid_test["train"][:1])

{'input_ids': [[102, 17329, 3505, 2354, 17338, 105, 5561, 17329, 2812, 1662, 3225, 2641, 700, 262, 1743, 319, 1571, 335, 840, 5421, 1110, 778, 1421, 2361, 255, 268, 4604, 7971, 2856, 128, 10037, 153, 125, 23699, 450, 8433, 341, 128, 816, 22398, 3460, 103]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], 'label': [1]}

Anwendung der `preprocess_data` Funktion auf alle Teildatensätze im DataSet-Objekt `dataset_train_valid_test` mithilfe von `map`
 - `batched=True` beschleunigt die Verarbeitung des FastTokenizers

In [20]:
dataset_preprocessed = dataset_train_valid_test.map(preprocess_data,batched=True)

HBox(children=(FloatProgress(value=0.0, max=11.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=3.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=4.0), HTML(value='')))




Durch das Preprocessing werden die Ausgaben des Tokenizers als Features des DataSets ergänzt.\
In der folgenden Ausgaben sieht man, dass nun die attention_mask, die input_ids, die label und die token_type_ids als Features ergänzt wurden.

In [21]:
dataset_preprocessed["train"]

Dataset({
    features: ['attention_mask', 'input_ids', 'label', 'task1_label', 'task2_label', 'text', 'token_type_ids'],
    num_rows: 10028
})

In [22]:
show_random_elements(dataset_preprocessed["train"],seed=42,num_examples=2)

Unnamed: 0,attention_mask,input_ids,label,task1_label,task2_label,text,token_type_ids
0,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]","[102, 17329, 7561, 328, 28742, 246, 17329, 4669, 2032, 20611, 30894, 22098, 30885, 190, 205, 369, 7106, 255, 313, 128, 24546, 2041, 222, 5288, 205, 14499, 566, 566, 1992, 18406, 183, 14822, 18406, 700, 309, 199, 255, 4273, 9817, 6112, 800, 288, 447, 23374, 389, 734, 205, 1770, 566, 566, 1992, 18406, 183, 14822, 18406, 395, 1089, 231, 5834, 21712, 1477, 25534, 30882, 103]",2,OTHER,OTHER,@AfDimBundestag @Heinrich_Krug Gehört den zu einer Integration nicht auch die Bräuche des jeweiligen zu akzeptieren..? |LBR| Und wer das nicht tut welchen Sinn gibt es noch denjenigen unter uns zu wissen..? |LBR| Ich bin für Weihnachtsbäume statt Moscheen,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
1,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]","[102, 13795, 5677, 313, 1133, 10201, 30881, 231, 128, 234, 3120, 30923, 30890, 30920, 117, 24626, 30882, 30913, 1178, 232, 1178, 103]",2,OTHER,OTHER,immerhin entstehen auch neue räume für die StArTuP sZEnE *-*,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"


# Finetuning des Modells mit Hyperparametersearch

Für die Konstruktion des Modells wird ein Label-ID Mapping erzeugt. Dieses Mapping wird anschließend in der Configuration des Modells hinterlegt. Es ermöglicht dem Modell die vorhergesagten Label als Texte auszugeben anstatt ihrer numerischen Kodierung.

In [23]:
if task.endswith("1"):
  id2label = {"0":"OFFENSE", "1":"OTHER"}
  label2id = {"OFFENSE": "0", "OTHER":"1"}
else:
  id2label = {"0":"ABUSE", "1":"INSULT","2": "OTHER", "3": "PROFANITY"}
  label2id = {"ABUSE": "0", "INSULT":"1", "OTHER": "2", "PROFANITY": "3"}
  

Erzeugen und Konfiguration des Modells mit Label-ID Mapping:
 - `AutoModelForSequenceClassification.from_pretrained` lädt automatisch das entsprechende Modell herunter und initialisiert einen Klassifizierungskopf am Ende des Modells.
 - Die auftretenden Warnungen geben nur Auskunft darüber, dass der Kopf des Modells ausgetauscht wurde und demzufolge keine trainierten Weights hat

Mit der Annahme, dass bessere gewählte Hyperparameter leistungsstärkeren Modellen führen, wird im folgenden Abschnitt mithilfe von automatischer Hyperparametersuche versucht, die Modellperformance weiter zu steigern. \
Hierfür wird das Modul optuna genutzt:

In [24]:
#!pip install optuna

Es muss eine Funktion erstellt werden, die das zu trainierende Modell nach jedem Versuch wieder initalisiert:

In [25]:
from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer
num_labels = 2 if task.endswith("1") else 4

In [26]:
# Initialisiert ein neues Modell auf Basis des gewählten Modell Checkpoints
def model_init():
    return AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels, id2label=id2label, label2id=label2id)

#### Vorbereitung für die Erzeugung des `Trainers`:
- Es müssen zunächst die `TrainingArguments` konfiguriert werden, dabei handelt es sich um die Hyperparameter des Trainings:
 - Dazu zählen z.B. die Anzahl der Epoch, die Learning Rate, die Batchsize und der weight_decay
 - `load_best_model_at_end` und `metric_for_best_model` sorgen dafür, dass am Ende des Trainings das Model mit der höchsten `F1_Score` geladen wird

In [27]:
metric_name = 'eval_f1'

args = TrainingArguments( 
    output_dir= f"{task}_transformer_hyperparametersearch",
    evaluation_strategy = "epoch",
    # empfohlener Standardwert für das Finetuning
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=5,
    # empfohlener Standardwert für das Finetuning
    weight_decay=0.01,
    load_best_model_at_end=True,
    # fp16 transformiert das Modell nach float16 um Memory zu sparen und die Trainingszeit zu verringern
    fp16=True,
    metric_for_best_model=metric_name,
)

Damit das Modell während des Trainings die gewünschten Metriken berechnen kann, muss eine Funktion definiert werden die diese Metriken berechnet. Das übernimmt die `compute_metric` Funktion:
- Die Datasets Bibliothek ermöglicht es, Funktionen zur Berechnung von Metriken herunterzuladen.

In [28]:
metric_acc = datasets.load_metric("accuracy")
metric_f1 = datasets.load_metric("f1")
metric_prec = datasets.load_metric("precision")
metric_rec = datasets.load_metric("recall")

Diese Metriken werden nun wie folgt in der `compute_metrics` Funktion berechnet. Die Funktion liefert anschließend ein Dictionary mit den vier Metriken `accuracy, precision, recall, f1` zurück.

In [29]:
import numpy as np
def compute_metrics(p):
  predictions, labels = p
  predictions = np.argmax(predictions, axis=1)
  accurracy = metric_acc.compute(predictions=predictions, references=labels)
  f1 = metric_f1.compute(predictions=predictions, references=labels, average="macro" )
  prec = metric_prec.compute(predictions=predictions, references=labels,average="macro")
  recall = metric_rec.compute(predictions=predictions, references=labels,average="macro")
 
  return {
      "accurracy" : accurracy["accuracy"],
      "precision" : prec["precision"],
      "recall": recall["recall"],
      "f1": f1["f1"]
  }

Anschließend muss ein Trainer initialisiert werden, welcher für die Hyperparametersuche genutzt wird.

In [30]:
trainer_hyper = Trainer(
    model_init=model_init,
    args=args,
    train_dataset=dataset_preprocessed["train"].shard(index=1, num_shards=10),
    eval_dataset=dataset_preprocessed["valid"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint a

Festlegen der Hyperparameter die getestet werden sollen:
- In diesem Beispiel werden Werte für die Learning Rate und die Anzahl der Epochs ermittelt. 
- Die Batchsize wurde auf 4 gesetzt um Out of Memoryprobleme zu vermeiden

In [31]:
def my_hp_space(trial):
    return {
        "learning_rate": trial.suggest_float("learning_rate", 1e-6, 1e-2, log=True),
        "num_train_epochs": trial.suggest_int("num_train_epochs", 1, 5),
        #Festlegen er maximalen Batchsize um Cuda out of Memory zu vermeiden
        "per_device_train_batch_size": trial.suggest_int("per_device_train_batch_size", 4,4),
        "per_device_eval_batch_size": trial.suggest_int("per_device_eval_batch_size",4,4),
    }

Für die Hyperparametersuche muss festgelegt werden, wie ein Durchlauf bewertetet werden soll.
Hierfür werden mit der folgenden Funktion alle vom Modell berechneten Metriken aufsummiert. Die Summe ist der Score für die Epoch des jeweiligen Versuchs:

In [32]:
import copy
def my_objective(metrics) -> float:
    metrics = copy.deepcopy(metrics)
    loss = metrics.pop("eval_loss", None)
    _ = metrics.pop("epoch", None)
    _ = metrics.pop("eval_runtime",None)
    _ = metrics.pop("eval_samples_per_second",None)
    return loss if len(metrics) == 0 else sum(metrics.values())

Starten der Hyperparametersuche:
- es werden 10 Versuche durchgeführt
- `direction="maximize"` sorgt dafür, dass das beste Modell anhand der Maximalen Punktzahl der Evaluationsmetriken ausgewählt wird
- die Methode returned als Ergebnis die verwendeten Hyperparameter des besten Versuchs

In [33]:
best_run = trainer_hyper.hyperparameter_search(n_trials=10, direction="maximize", hp_space= my_hp_space, compute_objective = my_objective)

[32m[I 2021-03-09 16:56:27,050][0m A new study created in memory with name: no-name-0f5b947d-f933-4c2d-b5f8-ef99795f317f[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertF

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,0.733132,0.728868,0.50111,0.338112,0.347869,9.8831,253.768
2,0.775200,0.78096,0.741228,0.452531,0.409569,0.421774,9.8688,254.135
3,0.775200,0.893374,0.734051,0.519091,0.392522,0.399886,9.9936,250.96


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 16:58:27,787][0m Trial 0 finished with value: 2.045549773586954 and parameters: {'learning_rate': 1.5262149309394706e-05, 'num_train_epochs': 3, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4}. Best is trial 0 with value: 2.045549773586954.[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequence

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,0.91675,0.679825,0.169956,0.25,0.20235,9.9795,251.315
2,0.989400,0.895082,0.679825,0.169956,0.25,0.20235,9.9784,251.344
3,0.989400,0.879602,0.679825,0.169956,0.25,0.20235,10.2298,245.165
4,0.875100,0.87585,0.679825,0.169956,0.25,0.20235,10.1743,246.504


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:01:08,016][0m Trial 1 finished with value: 1.302130571206083 and parameters: {'learning_rate': 1.239083022990944e-06, 'num_train_epochs': 4, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4}. Best is trial 0 with value: 2.045549773586954.[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the ch

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,1.05523,0.679825,0.169956,0.25,0.20235,9.9072,253.149
2,1.105500,1.014285,0.679825,0.169956,0.25,0.20235,9.5879,261.579
3,1.105500,0.943207,0.679825,0.169956,0.25,0.20235,9.7805,256.428
4,1.008700,0.918096,0.679825,0.169956,0.25,0.20235,9.6354,260.291


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:03:46,178][0m Trial 2 finished with value: 1.302130571206083 and parameters: {'learning_rate': 0.0014515802394745243, 'num_train_epochs': 4, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4}. Best is trial 0 with value: 2.045549773586954.[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the ch

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,0.857929,0.679825,0.169956,0.25,0.20235,9.3564,268.052


  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:04:30,425][0m Trial 3 finished with value: 1.302130571206083 and parameters: {'learning_rate': 6.195537552560774e-06, 'num_train_epochs': 1, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4}. Best is trial 0 with value: 2.045549773586954.[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
-

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,0.952854,0.679825,0.169956,0.25,0.20235,9.3556,268.074
2,1.117700,0.921374,0.679825,0.169956,0.25,0.20235,9.4352,265.812


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:05:50,910][0m Trial 4 finished with value: 1.302130571206083 and parameters: {'learning_rate': 0.0017627591413978847, 'num_train_epochs': 2, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4}. Best is trial 0 with value: 2.045549773586954.[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceC

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,1.425356,0.173445,0.043361,0.25,0.073904,9.5459,262.731


  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:06:29,164][0m Trial 5 pruned. [0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClas

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,0.928929,0.679825,0.169956,0.25,0.20235,9.5133,263.632
2,1.072600,0.916405,0.679825,0.169956,0.25,0.20235,9.5222,263.384


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:07:48,953][0m Trial 6 finished with value: 1.302130571206083 and parameters: {'learning_rate': 0.0014361599229760504, 'num_train_epochs': 2, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4}. Best is trial 0 with value: 2.045549773586954.[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceC

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,0.713065,0.733652,0.483658,0.355283,0.362371,9.5182,263.496
2,0.760100,0.787298,0.738836,0.469824,0.380445,0.388171,9.4826,264.484


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:09:09,575][0m Trial 7 finished with value: 1.977275286576051 and parameters: {'learning_rate': 1.7537894576662728e-05, 'num_train_epochs': 2, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4}. Best is trial 0 with value: 2.045549773586954.[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequence

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,0.943501,0.679825,0.169956,0.25,0.20235,9.5635,262.248
2,0.991900,0.911684,0.679825,0.169956,0.25,0.20235,9.3972,266.887
3,0.991900,0.935285,0.681021,0.42016,0.251724,0.205919,9.4682,264.886
4,0.921300,0.906955,0.687002,0.286885,0.267194,0.237417,9.3734,267.564
5,0.921300,1.067467,0.661483,0.271586,0.321167,0.294119,9.3777,267.443


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:12:20,945][0m Trial 8 finished with value: 1.548355378103917 and parameters: {'learning_rate': 9.614249383324187e-05, 'num_train_epochs': 5, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4}. Best is trial 0 with value: 2.045549773586954.[0m
Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,No log,1.327528,0.173445,0.043361,0.25,0.073904,9.5321,263.112


  _warn_prf(average, modifier, msg_start, len(result))
[32m[I 2021-03-09 17:12:58,714][0m Trial 9 pruned. [0m


Ausgabe des besten Versuchs:

In [34]:
best_run

BestRun(run_id='0', objective=2.045549773586954, hyperparameters={'learning_rate': 1.5262149309394706e-05, 'num_train_epochs': 3, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4})

Anschließend kann ein neuer Trainer erzeugt werden, welcher die ermittelten Hyperparameter des `best_run` nutzt.

In [35]:
#del trainer_hyper

In [36]:
#import torch

In [37]:
#torch.cuda.empty_cache()

Nachdem der `best_run` ermittelt wurde, kann nun ein neuer `Trainer` erzeugt werden:

In [38]:
trainer_hyper = Trainer(
    model_init=model_init,
    args=args,
    #Nutzt das gesamte Trainingsset
    train_dataset=dataset_preprocessed["train"],
    eval_dataset=dataset_preprocessed["valid"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint a

Die Hyperparamter des `best_run` werden mit folgendem Loop übertragen:

In [39]:
for n, v in best_run.hyperparameters.items():
    setattr(trainer_hyper.args, n, v)

Ausgabe der `TrainingArguments` zur Kontrolle:

In [40]:
trainer_hyper.args

TrainingArguments(output_dir=task2_transformer_hyperparametersearch, overwrite_output_dir=False, do_train=False, do_eval=None, do_predict=False, evaluation_strategy=EvaluationStrategy.EPOCH, prediction_loss_only=False, per_device_train_batch_size=4, per_device_eval_batch_size=4, gradient_accumulation_steps=1, eval_accumulation_steps=None, learning_rate=1.5262149309394706e-05, weight_decay=0.01, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=3, max_steps=-1, lr_scheduler_type=SchedulerType.LINEAR, warmup_steps=0, logging_dir=runs/Mar09_16-56-07_fastai2, logging_first_step=False, logging_steps=500, save_steps=500, save_total_limit=None, no_cuda=False, seed=42, fp16=True, fp16_opt_level=O1, fp16_backend=auto, local_rank=-1, tpu_num_cores=None, tpu_metrics_debug=False, debug=False, dataloader_drop_last=False, eval_steps=500, dataloader_num_workers=0, past_index=-1, run_name=task2_transformer_hyperparametersearch, disable_tqdm=False, remove_unused_

Anschließend kann das Modell mit den durch Optuna gefundenen Hyperparametern trainiert werden:

In [41]:
trainer_hyper.train()

Some weights of the model checkpoint at deepset/gbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint a

Epoch,Training Loss,Validation Loss,Accurracy,Precision,Recall,F1,Runtime,Samples Per Second
1,0.7008,0.659878,0.785486,0.685201,0.526643,0.565863,9.1963,272.719
2,0.5448,0.846645,0.795853,0.669712,0.567675,0.60535,9.2948,269.828
3,0.3724,1.050228,0.796252,0.643264,0.597003,0.616984,9.4112,266.492


TrainOutput(global_step=7521, training_loss=0.5487483626524037, metrics={'train_runtime': 734.5044, 'train_samples_per_second': 10.24, 'total_flos': 1283910321043584, 'epoch': 3.0})

Evaluierung des Modells mit ungesehenen Testdaten:

In [42]:
trainer_hyper.evaluate(dataset_preprocessed["test"])

{'eval_loss': 1.2841224670410156,
 'eval_accurracy': 0.7548663807324315,
 'eval_precision': 0.6088060857083276,
 'eval_recall': 0.5185129282249112,
 'eval_f1': 0.545834327689768,
 'eval_runtime': 11.6654,
 'eval_samples_per_second': 259.828,
 'epoch': 3.0}

Speichern des Models

In [43]:
trainer_hyper.save_model(f'./deepset_finetuned/offensive_language_deepset_{task}_hyperparametersearch_finetune_gem_germeval2019_split_makrof1')

In [44]:
tokenizer.save_pretrained(f'./deepset_finetuned/offensive_language_deepset_{task}_hyperparametersearch_finetune_gem_germeval2019_split_makrof1')

('./deepset_finetuned/offensive_language_deepset_task2_hyperparametersearch_finetune_gem_germeval2019_split_makrof1/tokenizer_config.json',
 './deepset_finetuned/offensive_language_deepset_task2_hyperparametersearch_finetune_gem_germeval2019_split_makrof1/special_tokens_map.json',
 './deepset_finetuned/offensive_language_deepset_task2_hyperparametersearch_finetune_gem_germeval2019_split_makrof1/vocab.txt',
 './deepset_finetuned/offensive_language_deepset_task2_hyperparametersearch_finetune_gem_germeval2019_split_makrof1/added_tokens.json')

#### Beispielhafte Anwendung des Modells
Um ein Transformers Modell einfach anzuwenden, nutzt man die Methode `pipeline`. Diese baut automatisch in Abhängigkeit vom übergebenen Task und Modell eine Pipeline. Die Pipeline kümmert sich um die nötigen Schritte um aus einer Stringeingabe eine Modellvorhersage zu erzeugen:

In [45]:
from transformers import pipeline
# der Task für SequenceClassification ist immer "sentiment-analysis"
classifier = pipeline("sentiment-analysis",model=f'./deepset_finetuned/offensive_language_deepset_{task}_hyperparametersearch_finetune_gem_germeval2019_split_makrof1')

In [46]:
classifier("Man bist du ein Assi @BertholdBrecht")

[{'label': 'INSULT', 'score': 0.991036057472229}]

In [47]:
classifier('''“Der Sozialismus ist eine Religion der Lüge. Ihre Glaubenssätze sind:
            Neid und Missgunst, Hass und Verachtung, Faulheit und Mittelmäßigkeit, 
            Raub und Diebstahl.” ― Roland Baader"''')

[{'label': 'OTHER', 'score': 0.9984234571456909}]

In [48]:
classifier('So was unfreundliches kann ja nur von einem Türken kommen @Ügütz')

[{'label': 'ABUSE', 'score': 0.9981496334075928}]

In [49]:
classifier('@Robinhood Dieser Scheiss der da gestern passiert ist, geht ja mal gar nicht ')

[{'label': 'PROFANITY', 'score': 0.9860075116157532}]