# Multiple Choice: Sequential Transfer Learning mit BERT

In diesem Notebook möchten wir uns mit dem Shooting-Star in NLP schlechthin beschäftigen: **[BERT](https://arxiv.org/abs/1810.04805)**. Die Entwicklungen mit und um BERT haben seit 2019 großen Einfluss auf alle Bereiche von NLP und sorgen maßgeblich für den Hype der letzten Jahren. 

> **Hintergrund zu Transformern:** BERT basiert auf einem [Transformer-Modell](https://arxiv.org/abs/1706.03762), dass initial für Sequence-to-Sequence Tasks (maschinelles Übersetzen) entwickelt wurde. Durch dessen Erfolg wurden Transformer adaptiert und weiterentwickelt. Seither ersetzen sie in vielen Bereichen die gängigen rekurrenten Netze. 

In diesem Notebook wollen wir uns allerdings nicht auf Transformer fokussieren, sondern die darauf basierende Modelle nutzen, um darauf ein Multiple Choice Task zu lernen (Sequential Transfer Learning). Hierfür verwenden wir die Bibliothek [transformers](https://github.com/huggingface/transformers) von Hugging Face, die sowohl für Tensorflow als auch PyTorch verfügbar ist. Wie über das ganze Labor hinweg, wird unser Modell auf TF bzw. Keras basieren.



## 0. Vorbereitung


In [None]:
import tensorflow as tf
print(tf.__version__)

In [None]:
!pip install transformers

In [None]:
import transformers
import numpy as np

Die Trainings in diesem Notebook benötigen eine GPU/TPU Runtime können einige Stunden dauern. Hierfür kann dieser Tipp helfen: https://medium.com/@daianan/update-24-feb-2020-178a836dfbc7. 

Öffnet eure Entwicklertools im Browser und führt folgendes Skript aus, damit sich die Runtime nicht nach 30min disconnected:

```javascript
setInterval(_ => {
  console.log("Working");
  document.querySelector("colab-connect-button").shadowRoot.getElementById("connect").click()
}, 60000)
```

Denkt jedoch daran, das Browser-Fenster dann zu schließen, damit die Runtime nicht für immer läuft.

## 1. Warm-Up mit BERT und RoBERTa

Vor der eigentlichen Implementierung der Aufgabe dieses Notebooks, möchten wir uns zunächst anschauen, wie die Modelle aufgebaut und Hugginface integriert sind.

Hugging Face Transformers bietet eine Reihe an eigenen sowie Community-Modellen mit vortrainierten Gewichten. Mehr darüber findet ihr in der [Modellreferenzseite](https://huggingface.co/transformers/pretrained_models.html). Ebenfalls bietet Huggingface eine gute [Dokumentation](https://huggingface.co/transformers/), die euch bei den folgenden Aufgaben helfen wird.

In den Warm-Up Aufgaben möchten wir uns neben [BERT](https://arxiv.org/abs/1810.04805) mit [ROBERTa](https://arxiv.org/abs/1907.11692) auch ein weiteres Modell anschauen.

___

Jedes in Huggingface integerierte Modell ist über eine ID identifizierbar. Wir möchten die folgenden beiden IDs verwenden:



In [None]:
BERT_ID = 'bert-base-cased'
ROBERTA_ID = 'roberta-base'

### 1.1 Tokenisierung

In den bisherigen Modellen haben wir oftmals eine einfachen Word-Tokenisierung (= jedes Wort entspricht einem Token) vorgenommen. Dieses einfache Verfahren reicht bei großen BERT-Modellen nicht mehr aus.

Auch wenn BERT and RoBERTa eine relative ähnliche Architektur haben, unterscheiden sie sich in Tokenisierung. Schauen wir uns mal genauer an, was dies konkret bedeutet.

___


Instantiiert die spezifischen Tokenizer für BERT und ROBERTa:

In [None]:
bert_tokenizer = # TODO
roberta_tokenizer = #TODO

Tokenisiert den folgenden Satz für BERT und RoBERTa: 

In [None]:
sequence = "The AI Lab is cool but the notebooks are too easy 😂."

In [None]:
bert_tokenized_sequence = # TODO
roberta_tokenized_sequence = # TODO

print("BERT:", bert_tokenized_sequence)
print("RoBERTa:", roberta_tokenized_sequence)

Beantwortet die folgenden Fragen:
* Mit welchem Verfahren tokenisiert BERT? Wie RoBERTa?
* Wofür steht das `[UNK]` Token bei BERT?
* Warum gibt es bei RoBERTa `Ġ` und andere kryptische Zeichen?
* Warum kann RoBERTa Emojis encoden, BERT aber nicht?


### 1.2. Token-Encoding
Die Tokensierung ist ein Teilprozess des Enkodierens, um Eingabesequenzen für die Modelle verarbeitbar zu machen. Deshalb bietet jeder Tokenizer von Huggingface die Funktion `encode()` an.

Nutzt die `encode`-Methode, um obige `sequence` sowohl für BERT als auch für ROBERTa zu encoden.

In [None]:
encoded_bert_sequence = # TODO
encoded_roberta_sequence = # TODO

print("Encoded BERT Sequence: ", encoded_bert_sequence)
print("Encoded RoBERTa Sequence: ", encoded_roberta_sequence)

Auf den ersten Blick sieht die enkodierte Sequenz so aus, als würde jeder Token einem Index im Vokabular zugeordnet. Dies ist prinzipiell auch richtig, jedoch fügen die Modelle noch _Spezialtokens_ hinzu. 

  Hierfür hat jeder Hugginface Tokenizer zwei Attribute `sep_token_id` und `cls_token_id`. Führt nachfolgende Zellen aus:




In [None]:
bert_special_tokens = [bert_tokenizer.sep_token_id, bert_tokenizer.cls_token_id]
roberta_special_tokens = [roberta_tokenizer.sep_token_id, roberta_tokenizer.cls_token_id] 

In [None]:
def print_in_red(string, end=' '):
    print(f"\033[91m{str(string)}\033[0m", end=end)

print("\nBERT tokenized sequence")
[print_in_red(tok) if tok in bert_special_tokens else print(tok, end=' ') for tok in encoded_bert_sequence]

print("\n\nRoBERTa tokenized sequence")
output = [print_in_red(tok) if tok in roberta_special_tokens else print(tok, end=' ') for tok in encoded_roberta_sequence]

Welche Bedeutung haben die rot markierten Tokens?

### 1.3 Encoding mehrerer Sätze

Im nächsten Schritt nehmen  wir an, dass wir die folgenden beiden Sätze für ein fiktives Modell encoden möchten, dass für uns klassifiziert, ob der erste Satz den zweiten Satz paraphrasiert. 

In [None]:
sequence_1 = "Her impoliteness, gossiping, and general lack of respect at dinner infuriated me."
sequence_2 = "She made me angry when she was rude at dinner."

Enkodiert beide Sätze. Achtet darauf, dass das BERT bzw. RoBERTA Modell die Relation zwischen den beiden Sätzen lernen kann.

In [None]:
encoded_bert_sequence = # TODO
encoded_roberta_sequence = # TODO

In [None]:
print("\nBERT tokenized sequence")
output = [print_in_red(tok) if tok in bert_special_tokens else print(tok, end=' ') for tok in encoded_bert_sequence]

print("\n\nRoBERTa tokenized sequence")
output = [print_in_red(tok) if tok in roberta_special_tokens else print(tok, end=' ') for tok in encoded_roberta_sequence]

Welche/s zusätzliche Spezialtoken wurde hinzugefügt?

### 1.3. Encoding mit Metadaten

Neben `encode()` besitzt jeder Huggingface Tokenizer eine weitere Methode `encode_plus()`, um weitere Metadaten zu erheben. Diese Methode werden wir im weiteren Verlauf auch für unser Modell verwenden. 

Neben den `input_ids` (die Token aus `encode()`) erhebt `encode_plus()` weitere Informationen wie die `attention_mask` und `token_type_ids`. 

Enkodiert die vorherigen beiden Sätze (`sequence_1` und `sequence_2`) erneut mit `encode_plus`. 



In [None]:
encoded_bert_sequence = # TODO
encoded_roberta_sequence = # TODO

In [None]:
print('BERT full encoding:')
for key in encoded_bert_sequence.keys():
    print(f'{key}: {encoded_bert_sequence[key]}')

print('\nRoBERTa full encoding:')
for key in encoded_roberta_sequence.keys():
    print(f'{key}: {encoded_roberta_sequence[key]}')

Welche Bedeutung haben die `attention_mask` und `token_type_ids` für die Modelle?

## 2. Fine-Tuning von BERT für Multiple Choice
In diesem Schritt wird das zum Tokenizer passende Sprachmodell für BERT "verfeinert", um es für die Beantwortung von Multiple-Choice Fragen zu verwenden. Es handelt sich also um eine spezielle Form von Transfer Learning (**Sequential Transfer Learning**), bei der ein vortrainiertes Modell auf einen speziellen Downstream Task (in unserem Fall Multiple Choice) angepasst wird. 

___

Als vortrainierten Sprachmodell wird BERT verwendet und für den [SWAG Datensatz](https://rowanzellers.com/swag/) angepasst. Dieser besteht aus 113.000 Multiple Choice Fragen. Verschafft euch ein erstes Bild vom Datensatz, da es sich nicht um das klassisches Multiple Choice handelt.

Im Detail, werden wir die folgenden Schritte durchführen:
1. SWAG Daten von Github laden.
2. Daten verarbeiten in interpretierbare Samples
3. Samples in Features konvertieren, die für BERT Modelle verarbeitbar sind.
4. Generator für das Keras Modell erzeugen.
5. Modell aufbauen und Trainieren
6. Modell evaluieren

### 2.1 Datensatz von GitHub laden

Der SWAG Datensatz ist verfügbar auf Github und kann wie folgt geladen werden:

In [None]:
DATA_DIR = './swag/data'
! git clone https://github.com/rowanz/swagaf/ './swag'
! ls -la {DATA_DIR}

Cloning into './swag'...
remote: Enumerating objects: 188, done.[K
remote: Total 188 (delta 0), reused 0 (delta 0), pack-reused 188[K
Receiving objects: 100% (188/188), 14.82 MiB | 6.53 MiB/s, done.
Resolving deltas: 100% (88/88), done.
total 82532
drwxr-xr-x 2 root root     4096 May 14 06:17 .
drwxr-xr-x 7 root root     4096 May 14 06:17 ..
-rw-r--r-- 1 root root     2502 May 14 06:17 README.md
-rw-r--r-- 1 root root  7817885 May 14 06:17 test.csv
-rw-r--r-- 1 root root 28243333 May 14 06:17 train.csv
-rw-r--r-- 1 root root 31608559 May 14 06:17 train_full.csv
-rw-r--r-- 1 root root  7893588 May 14 06:17 val.csv
-rw-r--r-- 1 root root  8929065 May 14 06:17 val_full.csv


### 2.2 Datensatz verarbeiten

Im ersten Schritt lesen wir jedes Sample des Train-, Validation- und Test-Datensatzes in eine Klasse `InputExample` ein.

In [None]:
from typing import List

class InputExample(object):
    """A single example for multiple choice"""

    def __init__(self, example_id, question, contexts, endings, label=None):
        self.example_id = example_id
        self.question = question
        self.contexts = contexts
        self.endings = endings
        self.label = label

def create_examples(lines: List[List[str]]):
    """
      Creates examples for the training and dev sets.
    
    """
    return [
        InputExample(
            example_id=line[2],
            question=line[5],  # In the swag dataset, the answers have a common beginning (a "QUESTION").
            contexts=[line[4], line[4], line[4], line[4]], # Each ending has the same context
            endings=[line[7], line[8], line[9], line[10]], # 4 different endings (answers)
            label=line[11],
        )
        for line in lines[1:]  # we skip the line with the column names
    ]

Jede Frage (`question`) besteht aus vier möglichen Antworten (`endings`), die jeweils den selben Kontext haben (`contexts`).

Erzeugt eine Liste von `InputExample`-Instanzen für das Training.

In [None]:
train_examples = # TODO
print(f'{len(train_examples)} total training samples')

Gebt euch einige Beispiel aus, um ein Gefühl für die Daten zu bekommen.

In [None]:
random_idx = np.random.randint(0, len(train_examples)-1)
print('Context:\t', train_examples[random_idx].contexts[0])
print('Beginning:\t', train_examples[random_idx].question)
for i, ending in enumerate(train_examples[random_idx].endings):
  msg = f'Ending {i}:\t {ending}'
  print_in_red(msg, end='\n') if i == int(train_examples[random_idx].label) else print(msg)

Erstellt analog einen Validation- und Test-Datensatz. 

> Da SWAG keinen expliziten Test-Datensatz besitzt, nutzen wir 30% des Validation Sets für den Test-Datensatz.

In [None]:
test_examples, valid_examples = # TODO

print(f'{len(valid_examples)} total validation samples')
print(f'{len(test_examples)} total test samples')

14004 total validation samples
6001 total test samples


Darüber hinaus benötigen wir eine Liste aller Labels (als strings)

In [None]:
label_list = ["0", "1", "2", "3"]
num_labels = len(label_list)

Damit haben wir nun drei Datensätze `train_examples`, `valid_examples` und `test_examples`, die jeweils Samples der Klasse `InputExample` beinhalten.

### 2.3 Datensatz encodieren und in Feature konvertieren

Im nächsten Schritt nutzen wir unser Wissen aus den Warmup-Aufgaben, um die `InputExample`-Liste zu enkodieren. Hierfür wird jedes `InputExample` in eine korrespondierende `InputFeature`-Klasse konvertiert.

> Aus Komplexitätsgrunden haben wir uns dafür entschieden, dass ihr das SWAG Modell später nicht selbst modellieren, sondern auf `TFBertForMultipleChoice` von HuggingFace Transformers zurückgreifen könnt. Ihr müsst also "nur" die Daten in das richtige Format bringen, das vom implementierten Modell unterstützt wird. 

Jetzt wäre ein guter Zeitpunkt, sich den Quellcode des Modells [hier](https://github.com/huggingface/transformers/blob/64070cbb8875f727b96cde285052fa037545a814/src/transformers/modeling_tf_bert.py#L938) genau anzuschauen, um zu verstehen, auf welche Form ihr die Daten bringt müsst.

____

Definiert als erstes eine sinnvolle maximale Sequenzlänge

In [None]:
MAX_SEQ_LENGTH = # TODO

In [None]:
class InputFeature(object):
    def __init__(self, example_id, choices_features, label):
        self.example_id = example_id
        # We cannot store the choices_features as it is, since the BERT model
        # requires another  format
        self.input_ids, self.attention_mask, self.token_type_ids = zip(*choices_features)
        self.label = label

In [None]:
from transformers import BertTokenizer 
import tqdm

def convert_examples_to_features(
    examples: List[InputExample],
    label_list: List[str],
    max_length: int,
    tokenizer: BertTokenizer,
) -> List[InputFeature]:
    """
    Loads a set of examples into a list of `InputFeature`s
    """

    label_map = {label: i for i, label in enumerate(label_list)}

    features = []
    for (ex_idx, example) in tqdm.tqdm(enumerate(examples), desc="Convert examples to features"):
        
        choices_features = []
        for ending_idx, (context, ending) in enumerate(zip(example.contexts, example.endings)):
            text_a = # TODO
            text_b = f'{example.question} {ending}'

            input_ids, token_type_ids, attention_mask = # TODO

            # We have to pad the above to max sequence length
            input_ids = # TODO
            attention_mask = # TODO
            token_type_ids = # TODO

            assert len(input_ids) == max_length
            assert len(attention_mask) == max_length
            assert len(token_type_ids) == max_length

            choices_features.append((input_ids, attention_mask, token_type_ids))

        label = label_map[example.label]
        features.append(InputFeature(example.example_id, choices_features, label))

        if ex_idx == 0:
          print("*** Example ***")
          print("race_id: {}".format(example.example_id))
          for choice_idx, (input_ids, attention_mask, token_type_ids) in enumerate(choices_features):
              print("choice: {}".format(choice_idx))
              print("input_ids: {}".format(" ".join(map(str, input_ids))))
              print("attention_mask: {}".format(" ".join(map(str, attention_mask))))
              print("token_type_ids: {}".format(" ".join(map(str, token_type_ids))))
              print("label: {}".format(label))

    return features

Konvertiert als erstes die `train_examples` und anschließend die `valid_examples` in Features.

In [None]:
train_features = # TODO
valid_features = # TODO

### 2.4. Datensatz-Generator  

Zum Abschluss müssen die Features noch in für Tensorflow verständliche Form gebracht werden. Hierfür verwenden wir wieder einen DataGenerator, der die `InputFeature`s einliest und ein Datensatz generiert. Dieser Generator wird anschließend an `tf.data.Dataset.from_generator` zum Tensorflow Dataset.

(Spätestens jetzt müsst ihr wissen, in welchem Eingabeformat das Modell die Daten benötigt)

In [None]:
def create_dataset(features: List[InputFeature]) -> tf.data.Dataset:

    def gen():
        """ The actual generator for multiple choice features"""
        # TODO

    return tf.data.Dataset.from_generator(
        gen,
        (
            {"input_ids": tf.int32, "attention_mask": tf.int32, "token_type_ids": tf.int32},
            tf.int64
        ),
        (
            {
                "input_ids": tf.TensorShape([num_labels, MAX_SEQ_LENGTH]),
                "attention_mask": tf.TensorShape([num_labels, MAX_SEQ_LENGTH]),
                "token_type_ids": tf.TensorShape([num_labels, MAX_SEQ_LENGTH]),
            },
            tf.TensorShape([]),
        )
    )

In [None]:
train_dataset = # TODO
valid_dataset = # TODO

### 2.5 Klassifikation

Voilá, der komplizierteste Teil ist geschafft. Wir haben den Datensatz in ein Format gebracht, das das vortrainierte BERT-Modell verarbeiten kann. In diesem Schritt möchten wir nun das entsprechende Modell verarbeiten.

> Die Batch Size ist stark abhängig von der Sequenzlänge (`MAX_SEQ_LENGTH`) beim Encoding. Falls ihr also Memory-Probleme bekommt, verringert entweder die maximale Sequenzlänge oder die Batchgröße. Achtet aber auch darauf, die GPU/TPU immer komplett auszulasten (sonst dauert das Training sehr lange).

In [None]:
BATCH_SIZE = # TODO
EVAL_BATCH_SIZE = BATCH_SIZE*2
EPOCHS = 3

Teilt nun die beiden Datensätze `train_dataset` und `valid_dataset` auf Batches der Größe `batch_size` auf.

In [None]:
train_dataset = # TODO
valid_dataset = # TODO

Nun muss das `TFBertForMultipleChoice` Modell geladen werden, welches die Architektur für ein Multiple Choice Modell bietet.

In [None]:
model = # TODO

Schaut euch das Modell an und beantworte folgende Verständnisfragen: 

1. Wie integriert `TFBertForMultipleChoice` das vortrainierte BERT-Modell?
2. Wie wird die Eingabe der Shape `(batch_size, num_choices, seq_length)` so angepasst, dass BERT sie verarbeiten kann?
3. Kann das BERT Modell Beziehungen zwischen den Antwortmöglichkeiten einer Frage lernen?

___

Überlegt euch nun, welche `loss` und `metric` für diesen Problem Sinn machen. Als Optimizer könnt ihr `Adam` nutzen. Achtet darauf, dass eure Lernrate relativ klein ist (z.B. `3e-5`). 

Worin besteht Gefahr, wenn die Lernrate zu groß ist? (Tipp: Schaut euch hierfür die Anzahl an Parametern der einzelnen Schichten an).

In [None]:
loss = # TODO
metric = # TODO
opt = # TODO

In [None]:
model.compile() # TODO
model.summary()

Training: Nutzt die bekannte `model.fit()` Methode um das Modell zu trainieren und zu validieren. Vergesst nicht, dass wir hierfür eine GPU benötigen.

In [None]:
model.fit() # TODO

Wie interpretiert ihr den Trainingsverlauf? Welche Annahmen lassen sich heraus für die Verwendung von BERT für in anderen Klassifikations-Tasks treffen?

### 2.6 Evaluation auf Test-Set
Da wir nun ein Modell entwickelt haben, dass auf den Standard-Keras Methoden basiert, können wir das Modell evaluieren. 

Ladet hierfür die oben vorbereiteten `text_examples` (30% Split der Validierungsdaten) und evaluiert den Classifier.

In [None]:
test_dataset = # TODO

In [None]:
metrics = model.evaluate() # TODO
print(f"Accuracy on the test dataset {}") # TODO

Wie gut generalisiert das Modell auf die Testdaten? Vergleicht eure Resultate mit den Ergebnisse (auf dem nicht ganz repräsentativen Test-Set) mit dem [Leaderboard](https://leaderboard.allenai.org/swag/submissions/public). 

* Wie schneidet ihr ab?
* Verglichen mit dem BERT-Large Modell im Leaderboard, warum ist eure Performance schwächer?