In [1]:
# Logging und Decorators
import logging as log

# Tensorflow Module
import tensorflow as tf
import tensorflow_text as tf_text
from tensorflow.keras import layers

# Visualisierung und Eingabe
import ipywidgets as widgets
from ipywidgets import interact_manual, interactive, interact, VBox, HTML
from IPython.display import display, clear_output

# Backend Module
from interactive_inference_backend import ModelLoader, StoryTokenizer, WordComplete, VisualWrapper, positional_encoding
from interactive_inference_backend import reserved_tokens, vocab_path

ModuleNotFoundError: No module named 'tensorflow_text'

In [None]:
model = ModelLoader(StoryTokenizer(reserved_tokens, vocab_path),
                            d_model=512,
                            n_stacks=2,
                            h_att=4,
                            load_model=True,
                            model_load_path="model_N2_h4_d512_t20230831-134344")

# Interaktive Erklärung der Transformerarchitektur

## Inhaltsverzeichnis
- [Einleitung](#einleitung)
    - [Disclaimer](#disclaimer)
    - [Ziel des Artikels](#ziel-dieses-interaktiven-artikels)
    - [Transformer: Motivation & Kernkomponenten](#kurzübersicht-transformer)
    - [Architekturübersicht](#architekturübersicht)
        - [Encoder-Decoder](#encoder-decoder)
        - [Architekturvarianten](#architekturvarianten)
        - [Architekturblöcke](#architekturblöcke)
- [Input](#input)
    - [Tokenization](#Tokenization)
    - [Byte-Pair Encoding](#byte-pair-encoding)
    - [Embedding](#embedding)
    - [Positional Encoding](#positional-encoding)
- [Trainingsmethoden](#trainingsmethoden)
    - [Dropout](#dropout)
    - [Normalisierung](#normalization)
    - [Residual Connection](#residual-connection)
- [Layers](#layers)
    - [Attention](#attention)
        - [Vorteile von Transformern](#vorteile-von-transformern)
        - [Attention als Funktion](#attention-function)
        - [Skalierung mit $\sqrt{d_{model}}$](#skalierung-mit-sqrd_k)
        - [Multi-Headed Attention](#multi-headed-attention)
    - [Masking](#masking)
        - [Padding Masking](#padding-masking)
        - [Subsequent Masking](#subsequent-masking)
    - [Attention-Mechanismen](#attention-mechanismen)
        - [Self-Attention](#self-attention)
        - [Cross-Attention](#cross-attention)
        - [Masked Attention](#masked-attention)
- [Simulation](#simulation)
- [Bibliographie](#bibliographie)

## <a id="einleitung"></a>Einleitung

### <a id="disclaimer"></a>Disclaimer

Wir haben diesen Artikel für eine deutschsprachige Leserschaft verfasst. Da viele Begriffe aus dem Bereich des Machine Learning kein präzises deutsches Pendant besitzen, haben wir uns bewusst dafür entschieden, die Fachterminologie möglichst konsistent in englischer Sprache zu verwenden.

Jeder Abschnitt beginnt mit einer kompakten, verständlich formulierten Einführung in einer grau hinterlegten Box, die sich an Leser:innen mit Abiturniveau richtet. Im Anschluss daran tauchen wir jeweils tiefer in die zugrunde liegenden Konzepte und Funktionsweisen ein.


### <a id="ziel-dieses-interaktiven-artikels"></a>Ziel des Artikels 

Das Ziel dieses Artikels besteht darin, die Transformerarchitektur aus Vaswani et al. [1] durch die Simulation ihrer Verarbeitungsschritte und Komponenten zu erläutern. Diese Simulation erlaubt es, interaktiv die Auswirkungen verschiedener Eingaben auf die Verarbeitungsschritte zu untersuchen und so ein schrittweises Verständnis der Gesamtverarbeitung zu entwickeln. Während sich wissenschaftliche Literatur wie der ursprüngliche Artikel [1] und darauf aufbauende wissenschaftliche Arbeiten [7, 8], Erklärartikel oder -videos [9, 10] sich oft auf einzelne Komponenten wie z.B. Attention-Blöcke konzentrieren, werden andere Elemente, die technischen Feinheiten der Architektur, wie z.B. "<a href="#dropout">Dropout</a>" [11], "<a href="#residual-connection">Residual Connections</a>" [12], "<a href="#byte-pair-encoding">Byte-Pair Encoding</a>" [13], Embedding oder des "Log-Softmax Algorithmus" [5] oft nicht oder nur rudimentär erklärt. Genau diese Begriffe möchten wir erklären und darüber hinaus durch unsere Simulation erfahrbar machen. Sollten sie als Manager oder als Entwickler in Betracht sein eine Transformerarchitektur für eine Machine Learning Anwendung in Betracht zu ziehen, dann möchten wir, dass sie am Ende des Artikels verstehen, wie die Technologie funktioniert und wie sie sie implementieren könnten oder jemand anderes sie implementiert hat.
Zudem soll über die Simulation das Zusammenspiel der Elemente der Transformer Architektur verdeutlicht werden, was wesentlich ist für ihr Verständnis. Wir wünschen viel Spaß beim Lesen und Simulieren.

#### Voraussetzungen

Trotz unseres Ziels die Transformer möglichst umfänglich zu erklären setzen wir einige Informationen ihrerseits voraus. Sie müssen keinerlei Vorwissen über die Funktionsweise von Transformern mitbringen, allerdings sollten sie dazu in der Lage sein die mathematische Theorie, sowie die Logik, die hinter der Entwicklung von Machine Learning Algorithmen zu verstehen. Spezifisch setzen wir die Begriffe und Ideen der lineare Algebra und der Wahrscheinlichkeitstheorie, die dem Machine Learning zugrundeliegen voraus. Alternativ empfehlen wir sich die Grundlagen beider Theorien im Standardwerk des Deep Learning anzueignen [5]. 


### <a id="kurzübersicht-transformer"></a>Transformer: Motivation & Kernkomponenten
<div style="background-color: #e0e0e0; padding: 1em; border-radius: 8px;">
Stellen wir uns eine einfache Aussage vor: "Die Hauptstadt von Deutschland ist ..."  Ein Mensch liest diese Aussage, erkennt, dass es sich um eine geografische Wissensaussage handelt, und antwortet sofort mit „Berlin“. Dabei wird intuitiv auf relevante Informationen zurückgegriffen, während irrelevante ignoriert werden. Transformer-Modelle funktionieren ähnlich: Sie verarbeiten Texte, erkennen dabei Muster und Zusammenhänge und geben eine Antwort auf Basis der ihnen zur Verfügung stehenden Informationen. Ihre besondere Stärke liegt darin, „Aufmerksamkeit“ gezielt auf wichtige Stellen im Text zu richten genau wie ein Mensch, der beim Lesen erkennt, welche Wörter für die Beantwortung der Frage besonders wichtig sind.
</div>
Transformer-Modelle sind eine von Vaswani et al. [1] vorgeschlagene Architektur zur Verarbeitung sequenzieller Daten, also solcher, die eine bestimmte Reihenfolge aufweisen etwa Zeitreihen, Texte oder Bildfolgen. Im Gegensatz zu früher weit verbreiteten Architekturen wie Recurrent Neural Networks (RNN) [2, 3] oder Convolutional Neural Networks (CNN) [4] ermöglichen Transformer das parallele Verarbeiten dieser Daten. Dies führt bei entsprechender Hardware wie etwa GPUs (Grafikkarten mit typischerweise tausenden parallelen Recheneinheiten) oft zu einer deutlich kürzeren Trainingszeit [1, 6].

Transformer-Modelle werden typischerweise für Aufgaben eingesetzt, bei denen das nächste Element in einer Sequenz vorhergesagt werden soll sei es der nächste Datenpunkt einer Zeitreihe, das nächste Wort in einem Text, der nächste Datenpunkt in einer Zeitreihe oder das nächste Bild in einem Video. Im Folgenden konzentrieren wir uns zur Veranschaulichung auf die Verarbeitung von Textdaten.

Das zentrale Element von Transformern ist der sogenannte „Attention“-Block. Er bestimmt, welchen Teilen der Eingabe das Modell beim Verarbeiten besondere Aufmerksamkeit schenkt. Denn nicht jedes Wort in einem Satz trägt gleich viel Bedeutung für die Vorhersage des nächsten Worts. Anstelle ganzer Wörter arbeitet das Modell mit sogenannten Token – häufig auftretenden Buchstabenkombinationen, die Wörter, Wortteile oder ganze Ausdrücke darstellen können. Die Attention-Blöcke bestehen mathematisch gesehen aus trainierbaren Matrizen, welche die Eingabe (etwa einen Vektor, der eine Frage an einen Chatbot kodiert) in eine Ausgabe überführen – also einen Vektor, der die passende Antwort repräsentiert. Ziel ist es, durch diese Projektion möglichst präzise Antworten zu erzeugen. Das Vorgehen ähnelt dabei dem menschlichen Lesen: Auch hier werden gezielt relevante Informationen herausgefiltert, um eine konkrete Frage zu beantworten.

Beim Training mit Texten nutzen Transformer eine sogenannte Maske, die verhindert, dass das Modell bereits beim Lesen eines Wortes Informationen über zukünftige Wörter erhält, die es eigentlich vorhersagen soll. Dadurch wird ein natürlicher Lesefluss simuliert. So sieht das Modell bei dem Satz „Der Himmel ist klar und blau“ zunächst nur „Der Himmel ist“ und soll daraus das nächste Wort „klar“ vorhersagen. Die folgenden Wörter „und blau“ werden dabei maskiert, da sie zu diesem Zeitpunkt im Lesefluss noch nicht bekannt sind. Schrittweise verschiebt sich die Maske über den Text, sodass das Modell lernt, jede Vorhersage nur auf bereits gelesene Informationen zu stützen.

In der sogenannten Inferenzphase – also während das Modell zur Beantwortung von Fragen oder Generierung von Text verwendet wird – funktioniert der Prozess ähnlich: Zunächst wird das erste Token der Antwort erzeugt, das dann zur Eingabe hinzugefügt wird, um das nächste Token zu generieren. Sobald das sogenannte Context-Window, also die maximale Anzahl an Tokens in der Eingabe, erreicht ist, wird das jeweils älteste Token entfernt. Dieses Context-Window bildet gewissermaßen das Gedächtnis des Modells.

Im Transformer werden sowohl Eingaben als auch Ausgaben intern als Vektoren dargestellt. Wie diese Vektoren aus Text erzeugt werden, welche Rolle Attention-Blöcke, Feedforward-Netze und weitere Komponenten spielen, und wie daraus wieder lesbare Antworten entstehen, wird in den folgenden Kapiteln erläutert. Dort werden auch zentrale Konzepte wie „Embedding“, „Positional Encoding“ und „Normalisierung“ näher erklärt. Ein interaktives Transformermodell im weiteren Verlauf des Artikels ermöglicht darüber hinaus eine schrittweise Simulation dieser Prozesse.

### <a id="architekturübersicht"></a>Architekturübersicht

#### <a id="encoder-decoder"></a>Encoder-Decoder
<div style="background-color: #e0e0e0; padding: 1em; border-radius: 8px;">
Wenn man ein Sprachmodell fragt: „Die Hauptstadt von Deutschland ist “, muss es nicht nur die Wörter erkennen, sondern auch deren Bedeutung erfassen und die passende Antwort – „Berlin“ – generieren. Genau hier setzt die Encoder-Decoder-Architektur an: Sie trennt das Verstehen und das Antworten in zwei spezialisierte Teilmodelle. Der Encoder übernimmt das Verstehen, der Decoder das Generieren einer sinnvollen Antwort. Diese Struktur ist der Kern vieler moderner Sprachmodelle und bildet die Grundlage für das in diesem Abschnitt beschriebene Architekturkonzept.
</div>
Die Encoder-Decoder-Struktur wurde von Cho et al. [14] eingeführt und ist insbesondere in der maschinellen Übersetzung weit verbreitet. Sie besteht aus den zwei vorher erwähnten trainierten Modulen: dem <a href="#encoder-decoder">Encoder</a>, der die Eingabe analysiert und abstrahiert, und dem <a href="#encoder-decoder">Decoder</a>, der auf Basis dieser abstrahierten Information eine Ausgabe erzeugt. Der Vorteil dieser Struktur liegt in ihrer Flexibilität: Verschiedene Encoder und Decoder lassen sich für unterschiedliche Sprachen kombinieren, um so Übersetzungen zwischen beliebigen Sprachpaaren zu ermöglichen.

<figure id="fig:fig2" style="text-align: center;">
  <div style="text-align: center;">
    <img src="./img/tf_model_architecture.jpg" style="width: auto; height: 1000px;" alt="Transformer als Encoder-Decoder"/>
    <figcaption>Abbildung 1: Transformer als Encoder-Decoder</figcaption>
  </div>
</figure>

In unserer konkreten Architektur wird die Eingabe – beispielsweise ein Satz zunächst vom <a href="#encoder-decoder">Encoder</a> verarbeitet. Dabei wird sie durch mehrere Transformer-Layer geleitet, die jeweils auf <a href="#attention">Self-Attention</a> basieren. Das Ergebnis ist eine Vektor-Repräsentation im sogenannten Latent Space, die den semantischen Gehalt der Eingabe zusammenfasst. Diese Repräsentation ist die einzige Information, die dem <a href="#encoder-decoder">Decoder</a> übergeben wird. Der Decoder erhält nicht direkt Zugriff auf den ursprünglichen Text oder die Token der Eingabe, sondern nutzt ausschließlich diese verdichtete Darstellung. 
<!--
<i><b style="color:red;">Der Decoder nutzt nicht direkt die Eingaben des Encoders, sondern nur den Latent Space des Encoders. Die weitere Eingabe in den Decoder ist der selbst von Decoder generierte Kontext. Bitte einmal in Text und Grafik differenzieren.</b></i>
-->
Der <a href="#encoder-decoder">Decoder</a> generiert seine Ausgabe sequenziell. 
Dabei greift er zum einen auf den vom Encoder erzeugten Latent Space zurück über sogenannte <a href="#attention">Cross-Attention</a>-Mechanismen –, zum anderen aber auch auf den bereits erzeugten Text, den er selbst in vorherigen Schritten produziert hat. Dieser eigene Kontext wird intern mithilfe von <a href="#attention">Self-Attention</a> verarbeitet. Der entscheidende Punkt ist: Der Decoder kombiniert seine eigenen bisherigen Outputs mit der kodierten Repräsentation des Encoders, ohne direkten Zugriff auf den ursprünglichen Input.

Wie diese Prozesse ablaufen, zeigt <a href="#fig:fig1">Abbildung 1</a>: Die hellblau markierten Bereiche umfassen den <a href="#encoder-decoder">Encoder</a>, bestehend aus mehreren identischen Schichten, die alle auf <a href="#attention">Self-Attention</a> basieren. Die dunkelblauen Bereiche zeigen den <a href="#encoder-decoder">Decoder</a>, der pro Schicht zwei zentrale Komponenten enthält – <a href="#attention">Self-Attention</a> und <a href="#attention">Cross-Attention</a>. Die Cross-Attention-Module kombinieren jeweils den Latent Space aus dem Encoder (Source Input) mit der internen Repräsentation des Decoders (Target Input), also mit dem bereits generierten Text. Dadurch entsteht eine gezielte Informationsverschmelzung zwischen semantischem Kontext und sprachlicher Ausgabe.

Die Nutzereingabe wird in der sogenannten Input-Pipeline vorbereitet. Diese besteht zunächst aus einem Tokenizer, der die Eingabe in einzelne Tokens zerlegt. Anschließend erfolgt ein trainierbares Input Embedding, welches die Tokens in Vektoren übersetzt. Diese werden durch das <a href="#positional-encoding">Positional Encoding</a> um Positionsinformationen ergänzt, damit das Modell Wortreihenfolgen erfassen kann. Erst danach gelangen sie in die Transformer-Layer des Encoders oder Decoders. 

Alle Elemente dieser Architektur sind in <a href="#fig:fig1">Abbildung 1</a> übersichtlich dargestellt. Die grauen Bereiche kennzeichnen Eingabe- und Ausgabekomponenten sowie Komponenten mit fixierten Hyperparametern, etwa den fest eingestellten <a href="#dropout">Dropout</a>. Schwarze Elemente wie das <a href="#positional-encoding">Positional Encoding</a> oder der logaritmische Softmax sind deterministisch und enthalten keine lernbaren Parameter. Gelb hinterlegte Module wie die Embedding Weights oder die Transformer-Layer enthalten trainierbare Parameter und werden im Training angepasst. Eine genauere Darstellung der Transformer-Layer findet sich in <a href="#fig:fig4">Abbildung 4</a>. Die blauen Elemente repräsentieren Datenzustände innerhalb des Modells, die durch verschiedene Operationen transformiert werden. Sind zwei blaue Elemente durch eine Linie verbunden, handelt es sich um dieselben Daten in verschiedenen Verarbeitungsschritten.

Ein weiterer zentraler Punkt ist die Wiederholung der Transformer-Layer. Diese Schichtenstruktur wird nicht nur einmal durchlaufen, sondern n-mal, wobei n ein Hyperparameter des Modells ist. In der Architektur-Grafik ist dies exemplarisch durch die Verkettung zweier Layer dargestellt – tatsächlich wiederholt sich dieses Prinzip mehrfach, um eine tiefere semantische Verarbeitung zu ermöglichen. Informationen fließen dabei stets in Pfeilrichtung durch das Modell – rückwärts gerichtete Pfade sind nicht vorgesehen.

Durch diese klare funktionale Trennung und die Kombination von <a href="#attention">Self-Attention</a> und <a href="#attention">Cross-Attention</a> gelingt es dem Modell, komplexe Eingaben zu analysieren und passende Ausgaben zu generieren – selbst bei Aufgaben, die ein tiefes Verständnis sprachlicher Zusammenhänge erfordern.

<!--
<figure id="fig:fig2" style="text-align: center;">
  <div style="text-align: center;">
    <img src="./img/tf_model_architecture.jpg" style="width: 300px; height: 150px; height: auto;" alt="Transformer als Encoder-Decoder"/>
    <figcaption>Abbildung 1: Transformer als Encoder-Decoder</figcaption>
  </div>
</figure>
-->


#### <a id="architekturvarianten"></a> Architekturvarianten und verwirklichte Modelle

Transformer können auch als reine Encoder oder reine Decoder-Architektur verwendet werden. Encoder verdichten Informationen (z.B. zur Klassifikation, Sentiment-Analyse, oder Clustering), während Decoder generativ (z.B. zur Textfortsetzung oder Bildgenerierung) eingesetzt werden, um aus einer verdichteten Repräsentation wieder Informationen zu generieren. Wie beschrieben war die Encoder-Decoder Architektur vor allem für Aufgaben des maschinellen Übersetzens gedacht. In der aktuellen Umsetzung sieht man jedoch häufig reine Encoder oder Decoder Architekturen. Dies liegt daran, dass die Architekturkomplexität dabei geringer ist und die spezifische Encoder-Decoder Architektur in anderen Aufgabenfeldern bzgl. Anforderungen und Trainingseffizienz gleichauf liegt. In der folgenden Tabelle [23] findet sich eine Auflistung der bekanntesten Modelle nach Architekturtyp.

| Encoder           | Encoder-Decoder | Decoder        |
|-------------------|-----------------|----------------|
| BERT, DistillBERT | T5              | GPT            |
| RoBERTa           | BART            | GPT-2          |
| XLM, XLM-R        | M2M-100         | GPT-3          |
| ALBERT            | BugBird         | GPT-4          |
| ELECTRA           |                 | GPT-Neo, GPT-J |
| DeBERTa           |                 |                | 

Hier können Sie nun einen Beispielsatz zuerst vom Encoder kodieren lassen, um ihn dann im nächsten Schritt vom Decoder dekodieren zu lassen und damit eine Ausgabe zu erhalten.

In [None]:
tokenizer = StoryTokenizer(reserved_tokens, vocab_path)
transformer = model.model

input_widget_enc_dec = widgets.Text(
    value='Was ist die Hauptstadt von Deutschland?',
    description='Ihre Eingabe:',
    continuous_update=False,  # updates value only when you finish typing or hit "Enter"
    layout = widgets.Layout(width='auto', margin='0px 0px 10px 0px')
)

button_widget_enc = widgets.Button(description='Wende den Encoder auf die Eingabe an.',
                               layout = widgets.Layout(width='auto'))
button_widget_dec = widgets.Button(description='Wende den Decoder auf die Eingabe an.',
                               layout = widgets.Layout(width='auto'))

output_widget_enc = widgets.Output(layout = widgets.Layout(width='auto'))
output_widget_dec = widgets.Output(layout = widgets.Layout(width='auto'))


def encode():
    tensor_input = tf.convert_to_tensor(input_widget_enc_dec.value)            # Umwandelung des Textinputs in ein TensorFlow-Tensor 
    if len(tensor_input.shape) == 0:                                           # Überprüft, ob der Eingabetensor im korrekten Format ist
      tensor_input = tensor_input[tf.newaxis]                                  # Falls nicht, wird eine Dimension hinzufügt 
    
    tokenized_input = tokenizer.tokenize(tensor_input).to_tensor()             # Umwandlung des Textinputs in Tokens und anschließend in einen Tensor
    input_without_eos = tokenized_input[:, :-1]
    token_input = tokenizer.detokenize(input_without_eos)
    lookup = tokenizer.lookup(input_without_eos)
    lookup = [item.decode('utf-8') for sublist in lookup.numpy() for item in sublist]

    string_value = token_input.numpy()[0].decode('utf-8')
    
    context = transformer.encode(input_without_eos, None)                      # Kodierung des Inputsatzes von (Transformer-Modell)
    return context, string_value, lookup


def decode(): 
    tensor_input = tf.convert_to_tensor(input_widget_enc_dec.value)            # Umwandelung des Textinputs in ein TensorFlow-Tensor 
    output_array = tf.TensorArray(dtype=tf.int64, size=0, dynamic_size=True)   # Erstellung eines leeren TensorArrays für die spätere Ausgabe
    if len(tensor_input.shape) == 0:                                           # wie bei der Encodierung
      tensor_input = tensor_input[tf.newaxis]                                  # wie bei der Encodierung

    tokenized_input = tokenizer.tokenize(tensor_input).to_tensor()             # wie bei der Encodierung
    input_without_eos = tokenized_input[:, :-1]
    
    token_input = tokenizer.detokenize(input_without_eos)
    string_value = token_input.numpy()[0].decode('utf-8')                      
    context = transformer.encode(input_without_eos, None)                     
    lookup = tokenizer.lookup(input_without_eos)
    lookup = [item.decode('utf-8') for sublist in lookup.numpy() for item in sublist]

                              
    for i, value in enumerate(tokenized_input[0][:-1]):                        # Schleife durch jedes Token des Satzes
      output_array = output_array.write(i, value)                              # Speichern des Tokens im Output array

    dec_input = output_array.concat()[tf.newaxis]                              # Output Array wird zu einem einzigen Tensor konkateniert 
                                                                               # und anschließend um eine zusätzliche Dimension erweitert

    dec_out = transformer.decode(context, None, dec_input, None)               # Decoder des Transformer-Modells wird verwendet, um den dec_input-Tensor 
                                                                               # unter Verwendung des zuvor berechneten Kontexts zu decodieren.

    return dec_out, string_value, lookup

def on_button_click_enc(b):
  with output_widget_enc:
    output_widget_enc.clear_output()  # clear the previous output
    context, tokens, lookup = encode()
    print('Wörter: ', tokens)
    print('Tokens: ', lookup)
    print('\n')
    #VisualWrapper.display_text('Beispieltext')
    VisualWrapper.color_bar(context)


def on_button_click_dec(b):
  with output_widget_dec:
    output_widget_dec.clear_output()
    dec_out, tokens, lookup = decode()
    print('Wörter: ', tokens)
    print('Tokens: ', lookup)
    print('\n')
    #VisualWrapper.display_text('Beispieltext')
    VisualWrapper.color_bar(dec_out)

button_widget_enc.on_click(on_button_click_enc)
button_widget_dec.on_click(on_button_click_dec)

ui = widgets.VBox([
  input_widget_enc_dec, 
  widgets.HBox([
    widgets.VBox([
      button_widget_enc, 
      output_widget_enc],
      layout=widgets.Layout(width='50%')),
    widgets.VBox([
      button_widget_dec, 
      output_widget_dec],
      layout=widgets.Layout(width='50%'))
    ])
  ])
display(ui)


#print('tok_out', tokenized_input)
#print('enc_out', context)
#print("dec_out", dec_out)

#### Erklärung des Beispiels
Über der Grafik sind die verarbeiteten Tokens dargestellt. Die Positionierung der Tokens entlang der y-Achse der Grafik zeigt die Reihenfolge der Tokens im Beispielsatz an, wobei Leerzeichen nicht berücksichtigt werden. Das Model erkennt unterschiedliche Wörter mit Hilfe der "##" Zeichen. Durch diese Zeichen sieht das Modell, dass ein Token mit "##" Zeichenkette zu dem vorherigen Token gehört wie im Beispiel bei dem Wort "Encoder", welches aus den Tokens 'e', '##n', '##co', '##der' besteht. Weitere Informationen in Abschnitt [Byte-Pair Encoding](#byte-pair-encoding).

Schaut man sich die Wörter vor der Tokenisierung an, sieht man das alle Wörter nun kleingeschrieben werden. Durch derartige Zusammenfassungen wird die Größe des Vokabulars reduziert. Linguistische und grammatische Informationen, die aufgrund der Zusammenführung verloren zu gehen scheinen, bleiben i.d.R. durch die Position und den Kontext des Wortes im Satz erhalten, wie zum Beispiel Substantivierungen. Dies führt dazu, dass das Modell stärker auf die Position des Wortes im Satz achtet. Der Tokenizer fügt zudem ein Start- und Endtoken hinzu. Das Endtoken wird im Modell nicht weiterverwendet, während das Starttoken die Position 0 in der weiteren Verarbeitung und Visualisierung einnimmt.

Die x-Achse repräsentiert die Tiefe der Token bzw. die Anzahl der Dimensionen des Vektors, der jedes Token darstellt. In diesem Fall beträgt die Tiefe 512, was bedeutet, dass jedes Token durch 512 verschiedene Werte charakterisiert wird. Diese Vektoren werden so gebildet, dass Tokens, die eine ähnliche Bedeutung haben oder aus einem Themenfeld stammen, ähnlichere Vektoren haben. Im Gegensatz dazu haben unähnliche Token eher unähnliche Vektoren. Eine hohe Dimensionalität der Vektoren kann allerdings dazu führen, dass Ähnlichkeiten primär in individuellen Vektorwerten erkennbar sind, wodurch die allgemeine Übersichtlichkeit eines Vektors im Vergleich zu einem ansonsten ähnlichen Vektor beeinträchtigt werden kann. Trotzdem tendieren ähnliche Vektoren dazu, auch in ihrer Gesamtorientierung Übereinstimmungen aufzuweisen. <b style='color:red;'><i>Die vorherigen beiden Sätze erschließen sich mir nicht. - So besser?</b></i> Zusätzlich ist in den Vektoren die Reihenfolge der Wörter im Satz kodiert, was als sogenanntes [Positional Encoding](#positional-encoding) bezeichnet wird.  



#### <a id="architekturbloecke"></a>Architekturblöcke

Prinzipiell lassen sich Transformer in mehrere Module einteilen: die Umwandlung der Eingabe in eine Vektorrepräsentation, die Abbildung der Eingaberepräsentation durch die Attention-Layers in einen Ausgabevektor, die Umwandlung des Ausgabevektor in eine menschenlesbare Datenform als Ausgabe.
In <a href="#fig:fig1">Abbildung 1</a> können wir die Ausgabe leicht von den anderen Elementen unterscheiden, sie besteht aus all denen Teilen die außerhalb der Umrandungen für Encoder und Decoder zu finden sind. Die Eingabe wiederum besteht aus dem sich für Encoder und Decoder gleichenden Teil der die Nutzer Input Daten in den Source und Target Input für die Transformer Layer umwandelt.

1. [Eingabe](#input)

Die Eingabe wandelt die Eingabedaten in eine Form, die für die Matrixtransformation genutzt werden kann. Wie diese Umwandlung aussieht unterscheidet sich für jeden Eingabedatentypen. In unserem Beispiel nutzen wir Textdaten, die wir durch <a href="#Tokenization">Tokenization</a> [17] und <a href="#embedding">Embedding</a> [18] in Tensoren verwandeln. 

- Ein Tensor ist eine mathematische Entität um multidimensionale Daten darzustellen. 
- Ein Skalar (eine einzelne Zahl) ist ein Tensor der 0. Ordnung, ein Vektor (eine eindimensionale Liste von Werten) ein Tensor der 1. Ordnung, eine Matrix ein Tensor der 2. Ordnung (eine zweidimensionale Tabelle von Zahlen) und multidimensionale Arrays von Zahlen ein Tensor höherer Ordnung. 

2. [Attention](#attention)

Die Attention-Layers verarbeiten Daten in Tensorform und liefern eine Abbildung von den Eingabetensoren auf die Ausgabetensoren, die jeweils von den Eingabe- und Ausgabemodulen interpretiert wird.
Man kann verschiedene Varianten von Attention-Layers dahingehend unterscheiden wie sich ihre Eingabedaten zusammensetzen. Jede Attention-Layer erhält als Eingabedaten dabei immer drei Tensoren. Diese werden Query, Key und Value genannt. Aus diesen berechnet eine Attention-Layer eine Ausgabe. Die Query fragt nach dem relevanten Kontext und repräsentiert das aktuelle Token für das das Modell Kontextinformationen sucht. Key stellt den Zusammenhang zwischen der Query und allen anderen Token her. Die Query wird mit allen Keys multipliziert und wenn der sich ergebende Wert groß ist, dann ist der Zusammenhang der zwei Token ebenfalls groß. Der Value gewichtet diesen Zusammenhang zur Bestimmung der Aufmerksamkeitswerte zwischen zwei Token (Attention Scores).

Typischerweise werden Attention-Module dadurch unterschieden aus welcher Quelle Query, Key und Value stammen. Es wird unterschieden zwischen:

- "Self-Attention" hierbei stammen Query, Key und Value aus einer Quelle. Jedes Token wird mit allen anderen Token der Sequenz verglichen, um kontextuelle Beziehungen in der Sequenz selbst zu extrahieren (z.B. in dem Satz "Die Katze jagt die Maus um das Haus." könnte für das Wort "Katze" das Wort "jagt" eine hohe Relevanz haben, weil es die Aktion der Katze beschreibt). 
- "Source-Attention" oder "Cross-Attention" hierbei stammt Query aus einer anderen Quelle als Key und Value, z.B. der Decoder verarbeitet seine Ausgabe als Query, um das nächste Token zu berechnen. Dieses Queries werden mit den Keys und Values der Eingabe des Encoders abgeglichen. Die Keys dienen dazu, die Relevanz der Encoder Information für den aktuellen Query zu bestimmen.

Desweiteren wird nach Art des Maskings unterschieden. Masking verdeckt immer einen Teil der Daten. In Transformern gibt es folgende Arten von Masking:

- "Subsequent Masking", verdeckt alle Token nach dem zu prognostizierenden Token im Decoder-Attention-Block, z.B. "Diese Eingabe ist [...]" eine maskierte Version von "Diese Eingabe ist ab hier maskiert."
- "Padding Masking", verdeckt sog. "Padding Tokens", das sind Platzhalter Tokens mit der eine Sequenz auf die Länge des Context Windows aufgefüllt wird, um eine einheitliche Länge von Token als Eingabe zu erzeugen. Wenn wir z.B. nur Sätze mit fünf Wörtern erlauben, dann ist "Ein kurzer Satz. <i>pad</i> <i>pad</i>" eine erlaubte Version des Satzes "Ein kurzer Satz." und "Ein kurzer Satz. [...]" wiederum eine maskierte Variante des erlaubten Satzes.

3. Ausgabe

Die Ausgabe interpretiert die Daten die das Attention-Modul erzeugt und formt sie in eine für menschlichen Gebrauch nützliche Form um, wie z.B. Textdaten oder Bilddaten. Dafür wird in Transformern oft eine Log-Softmax-Funktion verwendet, die auf die Tensorausgabe des letzten Attention-Blockes angewandt wird, um Wahrscheinlichkeitsverteilungen über mögliche Ausgabewerte, z.B. alle im Transformer kodierten Token bei Texten oder über alle sog. Bildpatches, d.h. Sammlungen von Pixeln, bei Bilddaten zu erzeugen.



## <a id="input"></a>Input

Der erste Teil eines Transformermodells besteht aus der Eingabepipeline. Diese verarbeitet die Eingabe, z.B. die Texteingabe eines Nutzers, und bereitet sie auf die Verarbeitung in den Attention-Modulen vor. Die Attention-Module arbeiten über eine Attention-Matrix, die aus der jeweiligen Eingabe eine Ausgabe berechnet. Wir müssen also aus einer Eingabe in Textform eine Vektorrepräsentation erzeugen, die alle notwendigen Informationen für das Modell enthalten, um mithilfe von Matrixmanipulationen nützliche Vorhersagen zu machen.

In <a href="#fig:fig2">Abbildung 2</a> sehen sie nochmal den Ausschnitt aus der obigen Grafik, der die Eingabepipeline darstellt. 
Wie zu erkennen ist, werden in der Eingabepipeline während des Training eines Transformermodells ausschließlich die Weights für das Embedding verändert, alle anderen Funktionen sind rein deterministisch und bleiben damit vom Trainingsprozess unbeeinflusst.


<figure id="fig:fig2" style="text-align: center;">
  <div style="text-align: center;">
    <img src="./img/tf_input_pipeline.jpg" style="height: auto; width: 300px; height: 450px; " alt="Eingabepipeline mit Tokenizer, Embedding und Positional Encoding."/>
    <figcaption>Abbildung 2: Eingabepipeline eines Transformer-Netzwerks</figcaption>
  </div>
</figure>

Prinzipiell besteht die Eingabepipeline aus drei Modulen, die in den folgenden drei Abschnitten genauer erläutert werden:

1. Die [Tokenization](#Tokenization), die den Text mithilfe eines Symbolalphabets in eine Zahlenkodierung umwandelt. So wird z.B. "Transformer" in die Zahlenfolge "2 61 4334 93 6622 202 3" umgewandelt.
2. Das [Embedding](#embedding), das diese Kodierung mithilfe eines trainierbaren Algorithmus in eine Vektordarstellung umwandelt. Das Embedding lernt die komplexe Struktur eines Textes so darzustellen, dass sie informativ für die nachfolgenden Module ist. Wie genau diese Umwandlung aussieht ist dabei aufgrund der stochastischen Natur von Deep Learning Modellen nur schlecht logisch nachzuvollziehen. Eine Kodierung könnte z.B. die obige Zahlenfolge "2 61 4334 93 6622 202 3" in eine zweidimensinalen Vektor der Form (7, 512) mit Einträgen zwischen -1 und 1 verwandeln.
3. Das [Positional Encoding](#positional-encoding) ein mit der Transformer-Architektur eingeführter Mechanismus. Im Gegensatz zu RNNs, die die Eingabedaten sequenziell präsentiert bekommen [19], enthalten bei Transformermodellen die Eingaben keine Information zur relativen Position der Tokens. Diese fehlenden Informationen werden in diesem Schritt manuell hinzugefügt indem <a href="#pos-enc-formula">Sinuskurven</a> mit verschiedener Frequenz und Phase über die Eingabedaten gelegt werden.

### <a id="Tokenization"></a>Tokenization
<div style="background-color: #e0e0e0; padding: 1em; border-radius: 8px;">
Um ein Sprachmodell mit Texten zu füttern, muss Sprache zuerst in eine maschinenlesbare Form überführt werden. Dabei geht es nicht darum, Wörter einfach zu erkennen, sondern sie so zu zerlegen, dass sie vom Modell als Zahlenfolge verarbeitet werden können. Diese Umwandlung wird als <a href="#Tokenization">Tokenization</a> bezeichnet. Nehmen wir den Beispielsatz „Die Hauptstadt von Deutschland ist “ – dieser wird nicht als Ganzes, sondern schrittweise in sogenannte Tokens aufgeteilt und anschließend in Zahlen übersetzt. Die Wahl der Methode, mit der das geschieht, beeinflusst Effizienz und Genauigkeit des Modells erheblich.
</div>
Eine der grundlegendsten Methoden ist die Zeichencodierung, bei der jedem Buchstaben eine eindeutige Zahl zugeordnet wird. Dieses Verfahren ist vollständig – es lassen sich damit beliebige Zeichenkombinationen darstellen – und das Vokabular bleibt klein, da nur Buchstaben und Sonderzeichen erfasst werden müssen. Der Nachteil: Die entstehenden Sequenzen sind sehr lang, da jeder Buchstabe einzeln kodiert wird. Das macht die Verarbeitung ineffizient.

Wählt man hingegen ein Vokabular auf Wortebene, werden die Sequenzen deutlich kürzer, da ganze Wörter in einem Schritt kodiert werden. Damit sinkt die Länge der Eingabesequenz, aber ein neues Problem entsteht: Die Methode ist potenziell unvollständig. Es ist nahezu unmöglich, ein Vokabular zu definieren, das alle möglichen Wörter einer Sprache abdeckt. Um das Risiko zu minimieren, müsste das Vokabular enorm groß sein – was wiederum die Modellgröße und den Speicherbedarf stark erhöht.

Um beide Probleme – lange Sequenzen und unvollständige Wortabdeckung – auszugleichen, haben sich gemischte Verfahren etabliert, die auf großen Korpora trainiert werden. Diese Ansätze kombinieren Zeichen- und Wortebene und lassen sich in zwei Richtungen unterteilen: Top-Down- und Bottom-Up-Verfahren. Top-Down-Methoden starten mit einem umfangreichen Wort-Vokabular, das aus einem Korpus extrahiert wurde, und erweitern es um sinnvolle Teilworte, wenn unbekannte Wörter auftreten. Bottom-Up-Verfahren hingegen beginnen mit einem kleinen Zeichenvorrat und fügen häufig auftretende Zeichenfolgen als neue Einheiten hinzu.

Die <a href="#encoder-decoder">Transformer</a>-Architektur nach [1] setzt auf ein solches Bottom-Up-Verfahren, genauer gesagt auf Byte-Pair Encoding [13]. Dieses Verfahren hat sich als effizient erwiesen: Es erlaubt eine kompakte Repräsentation mit begrenztem Vokabular und gleichzeitig eine relativ kurze Sequenzlänge. So lassen sich Eingaben wie „Das ist ein Testsatz.“ präzise, vollständig und effizient kodieren – ein entscheidender Schritt für jede weitere Verarbeitung im Modell.



### <a id="byte-pair-encoding"></a>Byte-Pair Encoding
<div style="background-color: #e0e0e0; padding: 1em; border-radius: 8px;">
Stell dir vor, du willst ein großes Buch so speichern, dass es möglichst wenig Platz braucht – aber du willst trotzdem jeden Satz später genau wieder zusammensetzen können. Das Byte-Pair Encoding (kurz: BPE) hilft genau dabei. Nehmen wir als einfaches Beispiel den Satz: „Was ist die Hauptstadt von Deutschland?“ Dieser Satz wird zunächst in einzelne Buchstaben oder kleine Zeichenfolgen zerlegt. Dann schaut sich das System an, welche Zeichen besonders oft zusammen vorkommen – zum Beispiel vielleicht „st“ oder „de“. Diese Paare werden dann durch neue Symbole ersetzt, um Speicherplatz zu sparen. So entsteht Stück für Stück ein Vokabular aus oft genutzten Teilen. Am Ende können sowohl ganze Wörter als auch häufige Wortbestandteile wie „##land“ oder „##en“ im Vokabular vorkommen. Das System „lernt“ also, welche Kombinationen besonders nützlich sind, um Sprache kompakt und effizient darzustellen.
</div>
Das Byte-Pair Encoding Verfahren nutzt ein Vokabular mit einer festgelegten Länge. In unserer Implementation des Tokenizer nutzten wir ein Vokabular von der Länge 8000. Das Vokabular wird dabei folgendermaßen erstellt:

  1. Ein Text, der für die Erstellung des Vokabulars verwendet wird, wird in eine Sequenz von Buchstaben zerlegt. Wortenden werden mit einem zusätzlichen Symbol kodiert. Z.B. wird "Ein Satz" in "[start]", "e", "i", "n", "s", "a", "t", "z", "[ende]" zerlegt.
  2. Alle vorhandenen Symbole werden automatisch in das Vokabular aufgenommen.
  3. Nun wird das häufigste 2-Gramm, also zwei aufeinander folgende Symbole, gesucht, das im Text zu finden ist.
  4. Dieses wird ins Vokabular aufgenommen und im Text durch ein einzelnes Symbol ersetzt.
  5. Dieser Prozess wird nun wiederholt bei Schritt 3 (d.h. 2-Gramme aus dem ersten Durchlauf werden zu 4-Grammen im zweiten Durchlauf u.s.w.) bis die vorgegebene Länge des Vokabulars erreicht ist.

Dabei können sowohl ganze Wörter ins Vokabular aufgenommen werden, wenn sie denn oft genug auftauchen (bespielweise werden die Worte "a", "the", "and" bei englischen Texte sicherlich mitaufgenommen werden), aber auch einzelne Wortteile wie z.B. "en##", "##ment" oder "##ed" werden in diesem Vokabular sicherlich vorkommen, um seltene Kombinationen wie "enablement" in die Wortteile "en##", "able" und "##ment" zerlegen zu können oder grammatikalische Formen wie "wanted" zu bilden. Die Zeichenfolge "##" beschreibt dabei, dass hier ein anderer Wortteil anschließen muss.

In unserem Testbeispiel ist zu sehen, wie Ihre Eingabe in Tokens getrennt und dann in eine Kodierung umgewandelt wird, je nachdem, welche Position das Token in unserem Vokabular hat.
Wie Sie sehen, enthält das Byte-Pair Encoding Vokabular auch ein [START]- und [END]-Token für Satzanfang und Satzende, sowie Elemente vom Typ 'abc##' oder '##abc'. Die Elemente mit Doppel-'#' stellen eine Sequenz am Anfang bzw. Ende eines Wortes dar.

In [None]:
tokenizer = StoryTokenizer(reserved_tokens, vocab_path)

input_widget_tok = widgets.Text(
    value='Die Hauptstadt von Deutschland ist ',
    description='Ihre Eingabe:',
    continuous_update=False,  # updates value only when you finish typing or hit "Enter"
    layout = widgets.Layout(width='auto', margin='0px 0px 10px 0px')
)

button_widget_tok = widgets.Button(description='Tokenizer auf Input anwenden',
                               layout = widgets.Layout(width='auto'))

output_widget_tok = widgets.Output(layout = widgets.Layout(width='auto'))


def tokenize(input_widget_tok):
    tokens = tokenizer.tokenize(input_widget_tok.value)                    # Erstellung der Tokens als Index für Vokabular
    lookup = tokenizer.lookup(tokens)                                      # Abrufen der Zeichenkette des Index im Vokabular                    
    
    return tokens, lookup
    
def on_button_click(b):
    with output_widget_tok:
        output_widget_tok.clear_output()                                                        
        tokens, lookup = tokenize(input_widget_tok)

        VisualWrapper.display_text('Tokens die aus der Eingabe mit Byte-Pair Encoding extrahiert werden:'.rjust(100) + ', '.join([token.decode('utf-8').rjust(10) for token in lookup.numpy()[0]])
                                   .replace(' ', '&nbsp;'))
        VisualWrapper.display_text('Ihre Positionsnummer im Alphabet des Byte-Pair Encoding Algorithmus:'.rjust(100) + ', '.join([str(token).rjust(10) for token in tokens.numpy()[0]])
                                   .replace(' ', '&nbsp;'))

button_widget_tok.on_click(on_button_click)

display(input_widget_tok, button_widget_tok, output_widget_tok)

### <a id="embedding"></a>Embedding
<div style="background-color: #e0e0e0; padding: 1em; border-radius: 8px;">
Nach der <a href="#Tokenization">Tokenization</a> des Satzes „Was ist die Hauptstadt von Deutschland?“ liegt dieser als Sequenz von Zahlen vor, deren Länge von der ursprünglichen Texteingabe sowie vom verwendeten Byte-Pair-Encoding abhängt. Da gleichlange Sätze je nach Tokenisierung unterschiedlich viele Tokens erzeugen können, variiert auch die Sequenzlänge. Für das Training von <a href="#encoder-decoder">Transformer</a>-Modellen ist jedoch eine einheitliche Eingabelänge erforderlich, um parallele Verarbeitung zu ermöglichen.
</div>
Um das zu gewährleisten, werden sogenannte Padding Tokens eingeführt. Diese enthalten keine semantische Information, sondern dienen lediglich dazu, die Sequenz künstlich auf eine vordefinierte Länge zu bringen. Erst anschließend wird die tokenisierte Eingabe in das notwendige Vektorformat überführt: Jedes numerisch kodierte Token wird durch eine trainierbare Gewichtsmatrix in einen Vektor der festen Länge $d_{model}$ eingebettet.

Dieser Schritt wird als <a href="#embedding">Embedding</a> bezeichnet. Dabei handelt es sich um eine lernbare Abbildung, die sicherstellt, dass jedes Token unabhängig von seiner ursprünglichen numerischen Form in denselben hochdimensionalen Raum projiziert wird. Der dabei entstehende Vektor bestehend aus $d_{model}$ Elementen enthält keine direkt ablesbare Struktur: Es ist nicht ersichtlich, welche Informationen in welchem Teil des Vektors gespeichert sind. Dennoch lassen sich die einzelnen Dimensionen grob als Träger unterschiedlicher Merkmale interpretieren: etwa semantische Bedeutung, grammatikalische Rolle oder Position im Satz.

Das <a href="#embedding">Embedding</a> ist ein zentraler Bestandteil der Modellparameter und wird während des Trainings kontinuierlich angepasst. Es gehört damit zu den nicht-deterministischen Komponenten des Modells. In <a href="#fig:embedding">Abbildung 3</a> ist dargestellt, wie die Zahlenfolge aus der Tokenization durch das trainierbare Embedding in Vektoren umgewandelt wird – ein essenzieller Schritt, um die Eingabe für die nachfolgenden Schichten des Modells nutzbar zu machen.

<figure id="fig:embedding" style="text-align: center;">
  <div style="text-align: center;">
    <img src="./img/tf_embedding.jpg" style="max-width: 25%; max-height: 150vh; height: auto;" alt="Eingabepipeline mit Tokenizer, Embedding und Positional Encoding."/>
    <figcaption>Abbildung 3: Gewichte der Eingabepipeline</figcaption>
  </div>
</figure>

Wie ein solches Embedding aussieht und wie es sich verändert, wenn man beispielsweise neue Teile an den Satz anfügt können Sie in der nachfolgenden Simulation ausprobieren. Der Eingabetext wird erst vom Tokenizer in Tokens umgewandelt und dann durch das Embedding in einen Tensor.

An jeder Position (vertikal dargestellt) ist dann das Embedding des Tokens an dieser Stelle zu sehen (horizontal dargestellt). Die farbliche Kodierung stellt dabei das Zahlenspektrum dar, indem sich die Vektoreinträge bewegen.

In [None]:
class EmbeddingExample():

    def __init__(self) -> None:
        self.tokenizer = StoryTokenizer(reserved_tokens, vocab_path)

        self.input_widget = widgets.Text(
            value = 'Die Hauptstadt von Deutschland ist ',
            description = 'Ihre Eingabe:',
            continuous_update=False,  # updates value only when you finish typing or hit "Enter"
            layout = widgets.Layout(width='auto', margin='0px 0px 10px 0px')
        )

        self.button_widget = widgets.Button(description='Einbettung erstellen',
                                    layout = widgets.Layout(width='auto'))

        self.output_widget = widgets.Output(layout = widgets.Layout(width='auto'))
        self.old_context = None

    def create_tokenized_embeddings(self):
        tokens = self.tokenizer.tokenize(self.input_widget.value)                                 # Tokenisierung der Eingabe
        tokens_all = tokens[tf.newaxis, :, :]                                                     # Hinzufügen einer weiteren Dimension
        input_without_eos = tokens[tf.newaxis, :, :-1]                                            # Auswahl der Tokens bis zum [END] Token
        token_input = self.tokenizer.detokenize(tokens_all)                                       # Nur zur Ausgabe Zwecken
        string_value = token_input.numpy()[0][0].decode('utf-8')                                  # Nur zur Ausgabe Zwecken
        lookup = tokenizer.lookup(input_without_eos)                                              # Nur zur Ausgabe Zwecken
        lookup = [item.decode('utf-8') for sublist in lookup.numpy()[0] for item in sublist]      # Nur zur Ausgabe Zwecken
        print("Wörter: ", string_value)
        print("Tokens: ", lookup)
        context = model.model.enc_embed(input_without_eos)                                        # Erstellung des Kontext Embedding 
        VisualWrapper.display_text('So sieht die Einbettung der Eingabe aus.')
        VisualWrapper.color_bar(context.to_tensor())
        if self.old_context is not None:
             padded_context, padded_old_context = self.pad_tensors(context, self.old_context)     # Erstellung des Padding Vektors der Eingaben
             VisualWrapper.display_text('So unterscheiden sich die alte und die neue Einbettung voneinander.')
             context_diff = padded_context - padded_old_context                                   # Berechnung der Unterschiede beider Vektoren
             VisualWrapper.color_bar(context_diff)

        self.old_context = context

    
    def on_button_click(self, b):
        with self.output_widget:
            self.output_widget.clear_output()  # clear the previous output
            VisualWrapper.reset_visualiser()
            self.create_tokenized_embeddings()
    
    def pad_tensors(self, ragged_tensor1, ragged_tensor2):
        """Funktion um die Tensoren der Eingabe auf die gleiche Länge zu transformieren"""
        tensor1 = ragged_tensor1.to_tensor()                                                     # Umwandlung in normalen Tensor
        tensor2 = ragged_tensor2.to_tensor()                                                     # Umwandlung in normalen Tensor

        shape1 = tf.shape(tensor1)
        shape2 = tf.shape(tensor2)

        target_shape = []

        for i in range(shape1.shape[0]):                                                         # Iterieren über die Dimensionen der Tensoren
            target_shape.append(tf.maximum(shape1[i], shape2[i]))                                # Die maximale Größe der Dimension wird an die Zielform angehängt.

        target_shape = tf.stack(target_shape)                                                    # Umwandlung der Zielform in einen Tensor


        paddings1 = []
        paddings2 = []

        for i in range(shape1.shape[0]):                                                         # Iterieren über die Dimensionen der Tensoren
            paddings1.append([0, target_shape[i] - shape1[i]])                                   # Auffüllung der Tensor auf maximale Länge 
            paddings2.append([0, target_shape[i] - shape2[i]])                                   # Auffüllung der Tensor auf maximale Länge 

        paddings1 = tf.stack(paddings1)                                                          # Konvertieren der Paddings in Tensoren
        paddings2 = tf.stack(paddings2)                                                          # Konvertieren der Paddings in Tensoren

        tensor1_padded = tf.pad(tensor1, paddings1)                                              # Tensoren an die Zielform anpassen
        tensor2_padded = tf.pad(tensor2, paddings2)                                              # Tensoren an die Zielform anpassen

        return tensor1_padded, tensor2_padded

emb_ex = EmbeddingExample()

VisualWrapper.display_text('Hier können Sie einen Text einbetten lassen. Wenn du die Eingabe veränderst wird außerdem gezeigt, wie sich die Einbettung geändert hat.')

emb_ex.button_widget.on_click(emb_ex.on_button_click)
display(emb_ex.input_widget, emb_ex.button_widget, emb_ex.output_widget)


#### Erklärung des Beispiels
In diesen Beispiel ist zu sehen, wie die Werteverteilung eines Embeddings grafisch dargestellt werden kann.

*Codeerläuterung:* Das Embedding wird in dem von uns implementierten [Code](https://github.com/LangLoffelLako/TF_simulator_tensorflow/blob/main/interactive_inference.ipynb) der Funktion *create_tokenized_embeddings()* erstellt. Dazu wird zu erst der Eingabetext vom Tokenizer in Tokens unterteilt (Zeile 20). Die Tokens können Sie über der Grafik sehen. In Zeile 29 werden diese dann vom Transformer Modell in die Embeddings umgewandelt. \n"

<p>Im Vergleich der Sätze „Die Hauptstadt von Deutschland ist“ und „Die Hauptstadt von Frankreich ist“ wird deutlich, dass im französischen Satz drei zusätzliche Token erscheinen.</p>
<p>Die Tokenisierung von „Die Hauptstadt von Deutschland ist“ ergibt 15 Tokens: <code>[START] die ha ##up ##ts ##ta ##d ##t von de ##uts ##ch ##land is ##t</code>.</p>
<p>Im französischen Satz kommen zusätzlich die Token <span style="background-color: yellow;">#n</span>, <span style="background-color: yellow;">##e</span> und <span style="background-color: yellow;">##u</span> hinzu, wodurch sich das Token-Layout und das Positional Encoding verändern.</p>
<p>Ebenso kann man ein Muster im Wertebereich erkennen: Der Bereich der Tiefe zwischen 0 bis 256 bewegt sich hauptsächlich im Wertebereich –1 bis 2, während der Bereich von 257 bis 512 im Wertebereich 0 bis –3 liegt. Dies geht auf die Sinus-Funktion des Positional Encodings zurück, welche auf das Embedding angewendet wird und in diesen Bereichen stark unterschiedliche Werte erzeugt.</p>
<p>Die Werte in den ersten 256 Positionen können bestimmte Merkmale oder Eigenschaften der Wörter repräsentieren, während der Bereich der Positionen von 266 bis 512 andere Merkmale oder Eigenschaften widerspiegelt. Diese getrennte Darstellung ermöglicht dem Modell, komplexe Beziehungen und Muster in den Daten zu erfassen.</p>



### Positional Encoding <a id="positional-encoding"></a>
<div style="background-color: #e0e0e0; padding: 1em; border-radius: 8px;">
Ein Satz wie „Die Hauptstadt von Deutschland ist Berlin“ enthält nicht nur Informationen über die Wörter selbst, sondern auch über deren Reihenfolge. Der Satz „Berlin ist die Hauptstadt von Deutschland“ hat dieselben Wörter, bedeutet aber etwas leicht anderes, weil die Positionen der Wörter vertauscht wurden. Für ein Sprachmodell ist es daher wichtig zu wissen, an welcher Stelle ein Wort steht. Die eingebetteten Wortvektoren (Embeddings), die ein Transformer-Modell verarbeitet, enthalten jedoch von sich aus keine Angaben zur Wortposition. Um diese Information zu ergänzen, wird das sogenannte Positional Encoding eingesetzt – eine Methode, mit der die Position jedes einzelnen Wortes im Satz mathematisch kodiert wird.
</div>
Da im Embedding keine Informationen über die relative Position der verschiedenen Worte kodiert werden, muss diese manuell hinzugefügt werden. Hierfür verwendet die Transformerarchitektur für jede Position des Embeddings (also jedes enkodierte Token) eine veränderte Sinuskurve. Es ändern sich die Frequenz, also die Abstände der Nulldurchgänge, sowie die Phase, also die x-Werte der Nulldurchgänge. [1] Der sich ergebende Wert wird dem Embedding an der jeweiligen Stelle hinzugefügt.

Dadurch lassen sich die verschiedenen Worte sehr gut voneinander trennen. Die Idee dahinter ist, dass:

die grobe Position eines Wortes anhand der langfrequenten Sinuskurven bestimmt werden kann, da sie sich über die gesamte Länge der Eingabe nur allmählich verändern und die Werte des Embeddings insgesamt in eine bestimmte Richtung verschieben. Beispielsweise besitzen die Worte im hinteren Teil der Eingabe größere Werte als die im vorderen Teil der Eingabe. Dies ist in der untenstehenden Simulation an großflächigen Rot- und Grünverschiebungen zu erkennen.
die genaue Position durch die hochfrequenten Sinuskurven bestimmt werden kann, da diese sich bereits für benachbarte Vektoren klar unterscheiden. Dadurch wird deutlich, welches Wort an welcher Stelle im Embedding kodiert wurde. Dies entspricht den sehr chaotisch wirkenden Bereichen in der untenstehenden Simulation.
Die für diese Verschiebungen verwendeten Formeln sind deterministisch für Position und Tiefe des Embeddings festgelegt und lauten:

<a id="pos-enc-formula"></a>

$$ PE(\text{pos}, i) = \begin{cases} \sin\left(\frac{\text{pos}}{10000^{\frac{2i}{d_{\text{model}}}}}\right), & \text{falls } i \text{ gerade ist} \\ \cos\left(\frac{\text{pos}}{10000^{\frac{2i}{d_{\text{model}}}}}\right), & \text{falls } i \text{ ungerade ist}, \end{cases} $$

wobei

$\text{pos}$ die Position des Tokens in der Sequenz ist,
$i$ der Index der Dimension in der Positionsverschlüsselung ist,
$d_{\text{model}}$ die Dimensionalität des Modells ist.

In der untenstehenden Simulation ist zu sehen, wie das Positional Encoding beispielhaft für ein 1024 x 257 langes und tiefes Embedding aussieht.

In [None]:
@interact(length=(2,2048,1), depth=(2,512,1))
def print_pos_enc(length, depth):
    VisualWrapper.color_bar(positional_encoding(length, depth))

#### Erklärung des Beispiels
An diesem Beispiel sieht man den Effekt des Positional Encodings auf verschiedene lange bzw. tiefe Einbettungen. Wenn man mit den zwei Reglern spielt, sieht man, verschieden große Zooms auf den Effekt. Erhöht man den "length"-Regler sieht man die Auswirkungen, welche die Länge des Satzes betreffen. Die Werte die durch das Positional Encoding zu dem Vektor hinzugefügt werden sind dabei jedoch immer dieselben. Zum Bespiel wird an Stelle 100 immer derselbe Wert hinzugefügt, egal ob die maximale Länge des Satzes ("length") sich verändert. Dasselbe gilt auch für die Tiefe jedes einzelnen Vektors.


## <a id="trainingsmethoden"></a>Trainingsmethoden

### <a id="dropout"></a>Dropout

Dropout [11] ist eine Methode, die während des Trainingsprozesses eines neuronalen Netzes genutzt wird, um zu verhindern, dass die gelernte Ausgabe eines Modells sich zu sehr auf einen einzelnen Prädikator stützt.
Dafür wird zwischen zwei Schritten desselben Modells, eine Dropout-Layer eingefügt. Diese setzt zufällig einige der vom ersten Modellteil generierten Ausgabe auf einen vordefinierten Wert (meistens -inf), um den nachfolgenden Schichten diese Information vorzuenthalten. Da diese Operation zufällig erfolgt, müssen die nachfolgenden Teile des Modells lernen ihre Ausgabe auch ohne diese Information zu erstellen. Somit lernt das Model seine Vorhersage auf eine möglichst breite Kombination an Merkmalen aufzubauen und man verhindert, dass Vorhersagen nur aufgrund eines einzigen Merkmals der vorherigen Ausgabe gemacht werden.

Ein gutes Beispiel ist das Ende eines Satzes vorherzusagen. In europäischen Sprachen wird ein Satz fast immer mit einem Punkt beendet, also ist es eine gute Strategie zu lernen, dass ein Satz durch einen Punkt beendet wird. Doch ein Modell, dass einen Punkt als einziges Merkmal eines Satzendes nutzt ist wenig robust. Wenn man an falscher Stelle einen Punkt setzt oder ihn an einem Satzende durch ein anderes Zeichen ersetzt werden die Vorhersagen des Models schlecht sein. Dabei gibt es auch andere Hinweise auf ein Satzende, z.B. das Vorkommen eines Verbs in der deutschen Sprache oder von Ort und Zeitangaben im Englischen.

Um dem Modell keine Informationen vorzuenthalten, wenn es tatsächlich eingesetzt wird, ist das Dropout immer nur während des Trainings aktiv und wird danach abgeschalten, sodass während der Inferenzphase keine Informationen gelöscht werden.

In [None]:
tokenizer_drop = StoryTokenizer(reserved_tokens, vocab_path)

input_widget_drop = widgets.Text(value = 'Was ist die Hauptstadt von Deutschland?',
                                 description = 'Ihre Eingabe:',
                                 continuous_update=False,  # updates value only when you finish typing or hit "Enter"
                                 layout = widgets.Layout(width='auto', margin='0px 0px 10px 0px')
                                 )

length_widget_drop = widgets.IntSlider(value=30,
                           min=2,
                           max=2048,
                           description='Länge des Tensors:',
                           continuous_update=False,  # updates value only when you finish typing or hit "Enter"
                           )
depth_widget_drop = widgets.IntSlider(value=512,
                          min=2,
                          max=512,
                          description='Tiefe des Tensors:',
                          continuous_update=False,  # updates value only when you finish typing or hit "Enter"
                          )
dropout_widget = widgets.FloatSlider(value=0.1,
                              min=0,
                              max=0.9,
                              step=0.1,
                              description='Dropoutrate:',
                              continuous_update=False,  # updates value only when you finish typing or hit "Enter"
                              )



def dropout_function(length, depth, dropout, input):

    # Erstellung der Dropout Layer
    dropout_layer = layers.Dropout(dropout)                                                         # Anwendung des Dropout auf die Layer
    one_tensor = tf.ones([length, depth])                                                           # Erstellung eines Arrays aus 1-en
    dropout_tensor = dropout_layer(one_tensor, training=True)                                       # Anwendung des Dropout auf die Layer

    # Erstellung der Kontext Layer
    tokens = tokenizer_drop.tokenize(input)                                                         # Tokenisierung des Inputs
    input_without_eos = tokens[tf.newaxis, :, 1:-1]                                                 # Auswahl der Tokens bis zum [END] Token
    context = model.model.enc_embed(input_without_eos)                                              # Erstellung des Embedding durch das Modell
    context_drop = dropout_layer(context, training=True)                                            # Anwendung des Dropout auf das Embedding

    return dropout_tensor, context_drop, context

def out(length, depth, dropout, input):
    VisualWrapper.reset_visualiser()                                                   
    dropout_tensor, context_drop, context = dropout_function(length, depth, dropout, input)
    VisualWrapper.color_bar(dropout_tensor)
                               
    VisualWrapper.color_bar(context.to_tensor())                     
    VisualWrapper.color_bar(context_drop.to_tensor())
    

output_widget_dropout = widgets.interactive_output(out,
                                                   {'length': length_widget_drop, 'depth': depth_widget_drop, 'dropout': dropout_widget, 'input': input_widget_drop}, 
                                                   )

display(length_widget_drop, depth_widget_drop, dropout_widget, input_widget_drop, output_widget_dropout)


#### Erklärung des Beispiels
In diesem Beispiel wird der Effekt von Dropout auf die Layer und das Embedding dargestellt.

*Codeerläuterung:* Dafür werden im von uns implementierten [Code](https://github.com/LangLoffelLako/TF_simulator_tensorflow/blob/main/interactive_inference.ipynb) in der Funktion *dropout_function()* jeweils Dropout auf die Layer und auf das Embedding angewendet. Dafür wird in Zeile 36 und 42 jeweils die jeweilige Transformation auf den beiden Objekten angewendet.

Damit wird also ein gewisser Teil, welche mit dem Parameter "Dropoutrate" bestimmt wird, der Werte Layer bzw. des Embeddings den weiteren Verarbeitungsschritten vorenthalten. Dieser Parameter ist ein prozentualer Wert, d.h. bei einem Wert von 0.2 werden 20% der Werte vorenthalten. 
Für das Beispiel können dieses Mal die Länge des Tensors (Eingabe) und die Tiefe des Tensors bestimmt werden. Ebenso kann die Dropoutrate verändert werden.

In der ersten Grafik sieht man welche Werte in einem uniformen Vektor vom Dropout verändert werden. In den beiden darauffolgenden Grafiken wird das Dropout auf den im Textfeld eingegebenen Beispieltext angewandt, nachdem er durch den Tokenizer und ein Embedding in Vektorform gebracht wurde. Die erste Grafik zeigt den vollständigen Vektor und die zweite Grafik den Vektor, der vom Dropout verändert wurde.
Hier sieht man die ausgelassenen Positionen sehr gut. Mit dem Erhöhen der Dropout Rate, werden diese mehr. Außerdem kann man erkennen, dass sich, wenn man den Dropout erhöht, der Wertebereich ebenfalls ausweitet. Dies geschieht, da in der Tensorflow-Implementation die durch das Dropout unveränderten Werte mit $1 / (1-\text{Dropoutrate})$ skaliert werden, um die Summe aller Werte konstant zu halten.
 

### <a id="normalization"></a>Normalisierung
<div style="background-color: #e0e0e0; padding: 1em; border-radius: 8px;">
Fragt man nach der Hauptstadt von Deutschland, erwartet man immer dieselbe Antwort: Berlin. Würde sich diese Antwort ständig ändern, wäre kein zuverlässiges Lernen möglich. Genauso ist es in neuronalen Netzen: Wenn sich die Verteilung der Eingabewerte in jeder Schicht ständig verändert, wird das Training instabil. Genau das verhindert Normalisierung – sie sorgt dafür, dass jede Schicht konsistente Eingaben erhält und damit besser lernen kann.
</div>

Normalisierung ist eine Technik, die von [20] eingeführt wurde. In Deep Neural Networks, die mit nicht-linearen Aktivierungsfunktionen wie der Sigmoid-Funktion

$$g(x) = \frac{1}{1 + \exp(-x)}$$

trainiert werden gilt, dass $g'(x) \rightarrow 0$ für $|x| \rightarrow \infty$. 

Das führt dazu, dass diese Modelle in einen Bereich geraten können, in dem $g'(x)$ sehr klein wird. Dadurch wird auch das Training durch Stochastic Gradient Descent (SGD) minimal, sodass das Training des Modells stagniert. Man spricht vom Vanishing Gradient Problem.

In neuronalen Netzen ist hierbei das Problem, dass die tieferen Layer des Modells, z.B. eine Layer $z = g(Wx + b)$ mit der Sigmoid-Funktion g versucht mithilfe seiner trainierbaren Werte $W$ und $b$ den Output des gesamten vorherigen Netzes zu gewichten. Dabei werden sowohl $W$ und $b$ abhängig von vorherigen Werten $x$ trainiert und hängen somit selbst auch von $x$ ab. Da sich während des Trainings alle Layers des Netzes fortwährend aktualisieren, ändert sich auch der Input $x$ fortwährend, sodass ein Training späterer Schichten erst möglich ist, wenn die vorhergehenden sich weitgehend stabilisiert haben. 
Dieser Effekt wird von [20] Internal Covariate Shift genannt. 

Je tiefer das neuronale Netz, umso größer sind diese Veränderungen, da es mehr Schichten gibt, die sich verändern können. Die Tiefe einer neuronalen Netzes erhöht also die Wahrscheinlichkeit das ein Vanishing Gradient Problem auftritt und ein effektives Training frühzeitig aufhört.

Transformer wie sie in [1] beschrieben sind nutzen um diesem Problem entgegenzuwirken Layer Normalization, einen Normalisierungsalgorithmus den [21] entwickelt hat. Eine Normalisierung führt dazu, dass zumindest der Wertebereich indem sich der Input $x$ aufhält während des gesamten Trainings stabil bleibt.


In [None]:
VisualWrapper.reset_visualiser()
tokenizer_norm = StoryTokenizer(reserved_tokens, vocab_path)

input="Die Hauptstadt von Deutschland ist "

tensor_input = tf.convert_to_tensor(input)
if len(tensor_input.shape) == 0:
    tensor_input = tensor_input[tf.newaxis]

tokenized_input = tokenizer_norm.tokenize(tensor_input).to_tensor()                             # Anwendung eines Tokenizers mit Normalisierung
input_without_eos = tokenized_input[:, :-1]
context = model.model.encode(input_without_eos, None)

VisualWrapper.visualize_data(id='layer')


### <a id="residual-connection"></a> Residual Connection

Die Idee für das Nutzen von Residual Connections kommt von [22]. Die Autoren stellten fest, dass bei neuronalen Netzen sowohl die Genauigkeit während des Trainings als auch die Genauigkeit auf dem Testdatensatz mit zunehmender Tiefe schlechter wird.

Da durch Normalization bereits sichergestellt ist, dass das Vanishing Gradient Problem nicht auftritt, scheitert die Optimierung der neuronalen Netze aus anderen Gründen.
Einer der Gründe hierfür liegt vermutlich darin, dass die tieferen Schichten eines Modells zu Beginn des Trainings sehr viel stärker zur Ausgabe beitragen, als die vorhergehenden Schichten. Sie werden somit zuerst trainiert. Die weniger tiefen Schichten werden erst ausreichend trainiert, wenn in den tiefen Schichten keine Optimierung mehr möglich ist. 

Um dafür zu sorgen, dass direkt mit Beginn des Trainings alle Teile des Modells gleichmäßig trainiert werden bieten sich Residual Connections an.
Sie ersetzen eine Schicht F(x) durch

$$H(x) = F(x) + x.$$

In das Ergebnis von H(x) geht also sowohl der Output, als auch der Input von F direkt mit ein. Wendet man dieses Prinzip auf die Schichten tiefer neuronaler Netze an, sorgt das dafür, dass gleich zu Beginn der Output der wenig tiefen Schichten relevant in den Output des gesamten Netzes einfließt, denn es gilt für das gesamte Netz $N$:

$$N(x) = H_n(H_{n-1}(x)) + H_{n-1}(x) = H_n(H_{n-1}(x)) + H_{n-1}(H_{n-2}(x)) + … + H_2(H_1(x)) + H_1(x)$$

Wie man in <a href="#fig:fig4">Abbildung 4</a> sehen kann, haben alle Attention-Module sowie alle Feed Forward Layer in einem Transformermodell eine residuale Verbindung.


In [None]:

# TODO:
# Hier fehlt noch die Implementierung der Residual Connection als Simulation.
# In der nachfolgenden Simulation können Sie sehen, wie sich die Ausgabe einer neuronalen Schicht verändert, wenn man ihr eine Residual Connection beifügt. Der Effekt auf den gesamten Trainingsprozess lässt sich dabei natürlich nur schwer darstellen.


## <a id="layers"></a> Layers

Der größte Teil der Verarbeitung findet in den Transformer Layer statt. Diese werden in <a href="fig:fig4">Abbildung 4</a> detailliert dargestellt. Innerhalb der Transformer kann man die Attention Layer, einige dazwischen liegende Schritte und zuletzt eine Feed Forward Layer unterscheiden.

#### Erklärung der Grafik

In unserer Grafik werden alle Elemente in Datenelemente (blau) z.B. der Source und Target Input, deterministische Prozesse (schwarz) z.B. die Matrix Multiplikation verschiedener Matrizen, Prozesse mit trainierbaren Parametern (gelb) z.B. die Normailsierung des Output und Prozesse mit Hyperpararmetern (grau), z.B. Dropout unterschieden.
Generell durchlaufen die Daten dabei unsere Grafik entlang der Pfeile von den beiden Input-Optionen am unteren Ende, die übrigens auch äquivalent sein können (siehe gestrichelter Pfeil mit Gleichheitszeichen), zum Output am oberen Ende der Grafik.
Gestrichelte Pfeile sind dabei nur in manchen der <a href="attention-mechanismen">verschiedenen Attention-Mechanismen</a> vorhanden, wie weiter unten erläutert wird (siehe Link). So ist zum Beispiel das Masking optional.
Zu sehen ist in der Grafik, wie der Source und Target Input parallel verarbeitet als Query, Key und Value verarbeitet wird. Query und Key gemeinsam werden dann gegebenenfalls mit einer Mask versehen, bevor sie wieder mit dem Value zusammengeführt werden. Die Ergebnisse der n verschiedenen Attention-Köpfen (n ist dabei ein Hyperparameter des Modells) werden verkettet und zu einem Vektorembedding zusammengeführt. Dieses wird mit dem residualen Target Embedding addiert und so als Eingabe in die Feed Forward Layer gegeben. Diese berechnet den Ouput der Transformer Layer und als Kombination aus Output und residualem Input wird diese ausgegeben.

Wie diese Mechanismen im Detail funktionieren wird im folgenden Kapitel geklärt.

<figure id="fig:fig4" style="text-align: center;">
  <div style="text-align: center;">
    <img src="./img/tf_layer_architecture.jpg" style="width: 400px; height: 375px; height: auto; margin: auto;" alt="Eingabepipeline mit Tokenizer, Embedding und Positional Encoding."/>
    <figcaption>
      Abbildung 4: Transformerarchitektur <br>
      In dieser Abbildung wird der Aufbau einer Attention Layer gezeigt. Dabei werden die verschiedenen Varianten (Self-, Cross-, Masked-Attention) parallel dargestellt (siehe gpunktierte Linien als Alternativen). Die beiden Input Embeddings werden von mehreren Attention-Köpfen parallel verarbeitet, um dann gemeinsam mit dem Target Embedding addiert von einer Feed Forward Layer zum Output Embedding der Attention Layer transformiert zu werden.
    </figcaption>
  </div>
</figure>



### <a id="attention"></a> Attention
<div style="background-color: #e0e0e0; padding: 1em; border-radius: 8px;">
Stell dir vor, du bekommst die Aussage: "Die Hauptstadt von Deutschland ist " Damit du die richtige Antwort – Berlin – geben kannst, musst du in deinem Gedächtnis nach der passenden Information suchen. Du konzentrierst dich also auf genau den Teil deines Wissens, der zur Frage passt. In ähnlicher Weise funktioniert der sogenannte Attention-Mechanismus in modernen Sprachmodellen wie dem Transformer. Er sorgt dafür, dass das Modell sich beim Verarbeiten eines Textes gezielt auf die wichtigen Wörter konzentriert – je nachdem, welche Information gerade gebraucht wird. So wie du dich bei einer Frage auf das relevante Wissen fokussierst, fokussiert sich der Transformer auf relevante Textstellen, um eine gute Übersetzung oder Antwort zu erzeugen. Dieser Mechanismus ersetzt bei den Transformern die bisher genutzten rekursiven Netzwerke vollständig.
</div>
Die Neuerung von Transformern im Vergleich zu vorangegangenen Lösungen für Neural Machine Translation (NMT) ist es, allein auf Attention als Mechanismus für das Verarbeiten von Sprache zu setzen. Attention wurde auch vorher schon von [15] zur Verbesserung von RNNs zur Übersetzung von Texten verwendet.

Der Attention-Mechanismus, wie ihn [1] beschreiben, orientiert sich dabei an der Idee einer Suchanfrage des Ausgabetextes and sich selbst, bzw. den Eingabetext. Die Attention-Layer bekommt dabei zwei oder eigentlich drei Eingaben: 

1. den Query ($Q$), 
2. den Key ($K$),
3. den Value ($V$).

In der Praxis erhalten aber Key und Value in Transformern immer dieselbe Eingabe und häufig sind Query, Key und Value sogar alle identisch. Aus welcher Quelle Query, Key und Value kommen unterscheidet verschiedene Formen von Attention. So nennen wir Self-Attention denjenigen Fall indem $Q=K=V$ gilt und Cross-Attention denjenigen Fall indem der Query aus der Ausgabe des Encoder besteht und Key und Value beide aus der Ausgabe eines Decoder-Blocks stammen (siehe <a href="fig:fig4">Abbildung 4</a>).

Um zu erklären, wie Attention funktioniert, sollten wir aber zunächst davon ausgehen, dass Query-, Key- und Value-Eingabe verschieden sind. Ich schreibe bewusst von der Eingabe, da in jeder Attention-Layer zunächst eine Eingabe $Q'$, $K'$, $V'$ mit Hilfe von gewichteten Matrix $W^Q$, $W^K$ und $W^V$ in Query, Key und Value 

$$Q=Q′ \times W^Q$$
$$K=K′ \times W^K$$
$$V=V′ \times W^V$$ 

umgewandelt werden. Die gewichteten Matrizen $W^Q$, $W^K$, $W^V$ sind die trainierbaren Weights der Attention-Layer. Alle nachfolgenden Prozesse sind deterministischer Natur. Das bedeutet, dass diese Matrizen festlegen, welches Ergebnis die Attention-Layer liefert.
Eine gute grafisch aufbereitete Erklärung dessen, was hier beschrieben wird findet sich übrigens bei [9].

Attention unterscheidet sich deutlich von vorherigen Verfahren. Am ehsten ist es vergleichbar mit der oftmals bei der Programmierung verwendeten Datenstruktur "Dictionary". Ein Dictionary ist eine unsortierte Liste mit "Key-Value" Paaren. Hierbei lässt sich ein Wert, Objekt, Variable (Value) in der Liste speichern, welcher wiederum über den Key abgefragt werden kann. Folgende Grafik zeigt die Gemeinsamkeiten und Unterschiede zu dem Attention-Mechanismus.    

<figure id="fig:fig_attention" style="text-align: center;">
  <div style="text-align: center;">
    <img src="./img/tf_attention.png" style="max-width: 100%; max-height: 150vh; height: auto;" alt="Abbildung 4: Vergleich von Attention mit Datenstruktur 'Dictionary'."/>
    <figcaption>Abbildung 5: Vergleich von Attention mit einem klassischen Dictionary</figcaption>
  </div>
</figure>

#### Erklärung der Grafik


In beiden dargestellten Szenarien, "Dictionary" und "Attention", wird das Konzept von Key-Value-Paaren genutzt, wobei die Keys als Referenzindizes fungieren und die Values die eigentlichen zu verarbeitenden Informationen enthalten. Queries dienen in beiden Fällen dazu, relevante Daten aus diesen Paaren zu selektieren, und am Ende wird jeweils ein Output generiert, der aus den Informationen der Value-Komponenten resultiert.

Jedoch gibt es markante Unterschiede zwischen den beiden Ansätzen. Im Dictionary findet eine direkte Zuordnung statt, bei der ein Query-Element einem Key zugeordnet und das zugehörige Value direkt als Output übernommen wird. Bei "Attention" wird hingegen eine gewichtete Kombination der Values vorgenommen, die von der Relevanz der Keys, bestimmt durch die Queries, abhängt. Dies spiegelt sich auch in der Art der Beziehungen wider: Während im "Dictionary" eine eindeutige 1:1-Beziehung herrscht, besteht im "Attention"-Mechanismus eine 1:n-Beziehung, bei der ein Query mehrere Keys beeinflusst. Dementsprechend ist die Ausgabe im "Dictionary" statisch und hängt ausschließlich von der direkten Übereinstimmung ab, während sie im "Attention"-Modell dynamisch ist und durch die berechneten Gewichtungen eine nuanciertere Informationszusammenstellung ermöglicht.

#### <a id="vorteile"></a>Vorteile von Transformern

Die Einführung des Attention-Mechanismus in Transformer-Architekturen hat zu bedeutenden Verbesserungen in der Verarbeitung natürlicher Sprache geführt, insbesondere im Vergleich zu traditionellen rekurrenten neuronalen Netzwerken (RNNs). Einer der herausragenden Vorteile des Attention-Mechanismus ist seine Fähigkeit zur parallelen Verarbeitung von Daten. Im Gegensatz zu den sequenziellen Verarbeitungsgrenzen von RNNs ermöglicht diese Eigenschaft eine wesentlich effizientere Datenverarbeitung. Während für eine sequenzielle Verarbeitung die Komplexität von der Textlänge $n$ exponentiell abhängt $\exp(n)$ gilt für die parallele Verarbeitung wie in Transformern nur eine lineare Abhängigkeit $a \times n$. Das ist eine dramtische Verbesserung.

Ein weiterer entscheidender Fortschritt, den der Attention-Mechanismus mit sich bringt, ist dass er bei der Verarbeitung der Daten an Position $n$ uneingeschränkt auf alle vorherige $n-1$ Daten zugreifen kann. Im Unterschied zu dem festen, oft begrenzten Gedächtnis der RNNs, das sich Daten von Position $1$ bis zur verarbeitung an Position $n$ bereits $n-1 \text{-mal}$ merken musste, erlaubt der dynamische und kontextabhängige Speicher des Attention-Mechanismus eine umfassendere und flexiblere Berücksichtigung von Informationen. Dies ist besonders nützlich für das Verständnis und die Verarbeitung komplexer Sprachstrukturen.

Besonders bemerkenswert ist auch, wie der Attention-Mechanismus die Handhabung von Langzeitabhängigkeiten verbessert. Durch die Fähigkeit, direkte Verbindungen zwischen weit auseinanderliegenden Elementen einer Sequenz herzustellen, können Transformer-Modelle effektiver mit Langzeitabhängigkeiten umgehen, was bei RNNs oft eine Herausforderung darstellt. Diese Fähigkeit verbessert das Verständnis und die Generierung von Sprache über längere Textabschnitte hinweg erheblich.

Schließlich ermöglicht der Attention-Mechanismus eine verbesserte Kontextverarbeitung. Die Fähigkeit, die Bedeutung von Wörtern und Phrasen im Kontext ihres Auftretens zu erfassen, führt zu einem präziseren und tieferen Verständnis der Sprache. Diese kontextuelle Bewusstheit, die über die Fähigkeiten traditioneller RNNs hinausgeht, ist entscheidend für anspruchsvolle sprachverarbeitende Aufgaben wie z.B. Übersetzung oder Zusammenfassungen.

#### <a id="attention-function"></a> Attention als Funktion

Die Funktion, die die Attention für uns berechnet, bekommt die Eingaben $Q$, $K$, $V$, also Query, Key und Value, die aus der Multiplikation der Eingabe mit den Gewichtsmatrizen entstanden sind. Sie lautet:

$$Attention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_{\text{model}}}}\right)V$$

Es wird also zuerst das Kreuzprodukt aus $Q$ und $K$ gebildet. Dieses Produkt wird mit $\sqrt{d_{\text{model}}}$ skaliert (den Grund dafür findest du im folgenden [Kapitel](#skalierung-mit-sqrd_k)), und auf dieses Ergebnis wird dann die Softmax-Funktion $\sigma(x)$ angewandt.
Diese Funktion lässt sich am besten positionsweise beschreiben:

$$\sigma(x)_i = \frac{\exp(x_i)}{\sum_{j=1}^n \exp(x_j)} \text{ für } i=1, \dots, n.$$

Nennen wir also

$$\text{softmax}\left(\frac{QK^T}{\sqrt{d_{model}}}\right) = \text{Score}(Q,K),$$

dann ist

$$\text{Attention}(Q, K, V) = \text{Score}(Q,K) \times V$$

eine Funktion, die $V$ mit einem Vektor multipliziert, wobei für den Vektor gilt $|\text{Score}(Q,K)| = 1$.

$\text{Score}(Q,K)$ ist also ein Vektor exakt der Länge von $V$, der angibt, mit welchem Anteil jeder Eintrag von $V$ in den Ausgabevektor $\text{Attention}(Q,K,V)$ eingehen soll. Dabei summiert sich $\text{Score}(Q,K)$ zu $1$, es handelt sich also tatsächlich um eine Gewichtung der Einträge von $V$.

Da mit $\text{Score}(Q,K)$ nun also eine Gewichtung besteht, wie stark die Ausgabe $\text{Attention}(Q,K,V)_i$ von $V_j$ abhängt, kann man dieses Verhältnis als Matrix grafisch darstellen. Dies geschieht in der Simulation unten, bei der für den vorgegebenen Satz eine Gewichtung aus einer der Attention-Layer dargestellt wird. Der Eintrag in der $i$-ten Zeile und $j$-ten Spalte gibt dabei den Einfluss von $V_j$ auf $\text{Attention}(Q,K,V)_i$ an.


##### <a id="skalierung-mit-sqrd_k"></a> Skalierung mit $\sqrt{d_{model}}$

Zuletzt sollte noch kurz erklärt werden, weshalb innerhalb der Funktion $\text{Attention}$ mit $\sqrt{d_{model}}$ skaliert wird. Das Problem des Vanishing Gradients kann auch innerhalb der $\text{Attention}$-Funktion auftreten, da hier $\text{softmax}(QK^T)V$ berechnet wird und das Skalarprodukt $QK^T$ mit $d_{model}$ skaliert. Somit gilt, dass die Softmax-Funktion, definiert durch
    
$$\sigma(z)_i = \frac{\exp(z_i)}{\sum_{j=1}^N \exp(z_j)} \text{ für } j = 1, \dots, N$$

leicht in einen saturierten Bereich mit extrem kleinen Gradienten gerät. Deshalb wird in der Umsetzung der Architektur $QK^T$ mit $sqr(d_{model})$ skaliert: 

$$\text{softmax}\left(\frac{QK^T}{\sqrt{d_{model}}}\right),$$

und so die Skalierung der Attention mit $d_{model}$ minimiert.

In [None]:
tokenizer_attn = StoryTokenizer(reserved_tokens, vocab_path)
attn_model = WordComplete(StoryTokenizer(reserved_tokens, vocab_path), model.model, max_length=32)

input_widget_attn = widgets.Text(
    value='Die Hauptstadt von Deutschland ist ',
    description='Ihre Eingabe:',
    continuous_update=False,  # updates value only when you finish typing or hit "Enter"
    layout = widgets.Layout(width='auto', margin='0px 0px 10px 0px')
)

button_widget_attn = widgets.Button(description='Embedding berechnen',
                               layout = widgets.Layout(width='auto'))

output_widget_attn = widgets.Output(layout = widgets.Layout(width='auto'))

def create_tokenized_embeddings():
        tensor_input = tf.convert_to_tensor(input_widget_attn.value)                # Umwandelung des Textinputs in ein TensorFlow-Tensor 
        output_array = tf.TensorArray(dtype=tf.int64, size=0, dynamic_size=True)    # Erstellung eines leeren TensorArrays für die spätere Ausgabe
        if len(tensor_input.shape) == 0:                                            # Überprüft, ob der Eingabetensor im korrekten Format ist                                     
            tensor_input = tensor_input[tf.newaxis]                                 # Falls nicht, wird eine Dimension hinzufügt 

    
        tokenized_input = tokenizer.tokenize(tensor_input).to_tensor()              # Umwandlung des Textinputs in Tokens und anschließend in einen Tensor
        input_without_eos = tokenized_input[:, :-1]
        context = transformer.encode(input_without_eos, None)                       # Erstellung der Kontext-Vektoren vom Transformer-Modell

        # Write the input tokens (excluding the last one) to the output array
        for i, value in enumerate(tokenized_input[0][:-1]):
            output_array = output_array.write(i, value)

        dec_input = output_array.concat()[tf.newaxis]

        dec_out = transformer.decode(context, None, dec_input, None)

def on_button_click(b):
    with output_widget_attn:
        #VisualWrapper.n_vis_layers_per_class['MultiHeadedAttention'] = 6
        #output_widget_attn.clear_output()  # clear the previous output
        create_tokenized_embeddings()
        VisualWrapper.visualize_data(id='attention')
        #VisualWrapper.n_vis_layers_per_class['MultiHeadedAttention'] = 1
            

button_widget_attn.on_click(on_button_click)

display(input_widget_attn, button_widget_attn, output_widget_attn)

# TODO: In diesem Codeblock müssen noch einige Anpassungen am Text geschehen.
# TODO: Die Aufmerksamkeitsmatrizen sind momentan 2x2 Matrizen. Hier gibt es einen Bug.

#### <a id="multi-headed-attention"></a> Multi-headed Attention

Multi-headed Attention ist eine Erweiterung des Attention-Mechanismus, die darauf abzielt, die komplexen Strukturen von Texten besser zu erfassen. In herkömmlichen Modellen konkurrieren zahlreiche Beziehungen und Verbindungen innerhalb eines Textes um die Aufmerksamkeit eines einzigen Mechanismus, was zu einer Überlastung führen kann. Durch die Einführung von Multi-headed Attention wird diese Einschränkung überwunden, indem mehrere, parallel arbeitende Attention-Ströme geschaffen werden, von denen sich jeder auf unterschiedliche Aspekte des Textes konzentriert.

Diese spezialisierten "Köpfe" können verschiedene Typen von Zusammenhängen innerhalb der Eingabedaten verarbeiten. Ein Kopf könnte sich auf die Beziehung zwischen Subjekten und Prädikaten konzentrieren, ein anderer auf die Kohärenz thematischer Elemente, und ein dritter könnte die Verbindung zwischen Haupt- und Nebensätzen analysieren. Ob das so passiert kann natürlich nicht nachgewiesen werden. Analysiert man allerdings die Aktivierungsmatrix der verschiedenen Köpfe, so kann man klare Unterschiede feststellen, sodass eine Spezialisierung anzunehmen ist. Durch diese Aufteilung wird vermieden, dass die Köpfe in Konkurrenz zueinander treten; stattdessen ergänzen sie sich, was zu einer umfassenderen Analyse führt.

Die resultierenden, von jedem Kopf generierten Outputs werden anschließend zu einer einzigen, zusammenhängenden Darstellung kombiniert. Diese Synthese bietet eine reichhaltige, vielschichtige Perspektive auf die Eingabedaten, die weit über das hinausgeht, was mit einem einzigen Attention-Mechanismus möglich wäre. Multi-headed Attention ist somit ein Schlüsselelement, das die Fähigkeit von Modellen verbessert, subtile und komplexe Muster in Daten zu erkennen und darauf zu reagieren.\

Mathematisch betrachtet werden dazu zu Beginn $h$ gewichtete Matrizen 

$$W_i^Q, W_i^K, W_i^V \quad i = 1, \ldots, h$$ 

eingeführt. Diese erzeugen also $h$ verschiedene Matrixtripel 

$$Q_i = Q W_i^Q, \quad K_i = K W_i^K, \quad V_i = V W_i^V \quad i = 1, \ldots, h$$

und somit ergeben sich $h$ verschiedene Ausgaben 

$$H_i = \text{Attention}(Q_i, K_i, V_i) \quad i = 1, \ldots, h.$$

Diese werden nun zu einer einzigen Ausgabe zusammengeführt, indem wir 

$$\text{MultiHeadAttention}(Q,K,V) = \text{Concat}(H_1, \ldots, H_h) W^O$$

berechnen. Dabei ist $\text{Concat}(A_1, \ldots, A_n)$ das Hintereinanderschreiben mehrerer Matrizen und $W^O$ eine weitere trainierbare Matrix, die die verschiedenen Ausgaben $H_1, \ldots, H_h$ gewichtet. Deshalb sehen wir in der obigen Ausgabe auch mehrere Matrizen, die $\text{Score}(Q_i, K_i)$ darstellen.


<figure id="fig:fig_mhattention" style="text-align: center;">
  <div style="text-align: center;">
    <img src="./img/tf_mhattention.png" style="max-width: 100%; max-height: 150vh; height: auto;" alt="Abbildung x: Beispiel Multi-headed Attention."/>
    <figcaption>Abbildung 6: Beispiel Multi-headed Attention</figcaption>
  </div>
</figure>

### Erklärung der Grafik

Die Abbildung zeigt zwei Beispiele für die Visualisierung von Multi-headed Attention in einem Transformer-Modell. Jedes Diagramm repräsentiert die Aufmerksamkeitsverteilung eines eigenen "Kopfes" innerhalb des Attention-Mechanismus, und zwar für einen gegebenen Satz "Ich besuchte den Kurs Digital Leadership und lernte".
In beiden Diagrammen sind die vertikalen Balken proportional zur Stärke der Aufmerksamkeit, die jedes Wort vom jeweiligen Kopf erhält. Ein höherer Balken bedeutet, dass das entsprechende Wort eine stärkere Aufmerksamkeit erhält, wenn das Modell versucht, die Bedeutung des Satzes zu interpretieren oder eine Aufgabe wie die Übersetzung durchzuführen.

Die Wörter am unteren Rand jedes Diagramms sind die Eingabewörter, und die kleinen "v" und "k" Symbole repräsentieren die Values und Keys im Attention-Mechanismus. Das "q" steht für den Query-Vektor, der in diesem Fall auf das Wort "lernte" zeigt, was bedeutet, dass die Visualisierung die Aufmerksamkeit aus der Perspektive dieses spezifischen Wortes darstellt.

Attention-Kopf 1 fokussiert sich auf die Entitäten. Hier sehen wir, dass dieser Kopf vor allem auf die Wörter "Kurs", "Digital", und "Leadership" Aufmerksamkeit legt. Diese Wörter sind als Entitäten (Namen von Personen, Orten oder spezifischen Objekten) identifiziert worden, was darauf hindeutet, dass dieser Kopf darauf trainiert ist, solche Entitäten im Text zu erkennen und hervorzuheben.
Rechts: Attention-Kopf 2 fokussiert sich auf die syntaktisch relevanten Wörter

Der zweite Kopf scheint die Aufmerksamkeit auf die Wörter "Ich", "besuchte" aber auch das query Wort "lernte" selbst zu richten. Die beiden letzten Wörter sind Verben und "Ich" ist das zugehörige Pronomen. Dieser Kopf ist somit auf die Identifizierung syntaktischer Strukturen ausgerichtet.



### <a id="masking"></a> Masking

Das Maskieren des Inputs ist eine wichtige  Komponente der Transformerarchitektur. Beim Masking handelt es sich in Wirklichkeit um zwei Mechanismen, die zwar dieselbe Funktionsweise besitzen, aber sehr unterschiedliche Aufgaben in der Architektur übernehmen. Einerseits das Subsequent Masking, andererseits das Padding Masking. Das Padding Masking stellt jediglich sicher, dass nur Positionen mit Inhalt vom Transformer verarbeitet werden, während das Subsequent Masking dafür sorgt, dass der Decoder des Transformers autoregressiv ist. Das bedeutet, bei einer Vorhersage für eine Ausgabe an der Position $i$, soll das Modell nur Informationen aus den Eingabepositionen $1,\ldots,i-1$ nutzen. Das Zusammenspiel der Beiden sehen Sie in der folgenden Abbildung (<a href="#fig:fig_masking">Abbildung 7</a>)

#### <a id="padding-masking"></a> Padding Masking

Das Padding Masking ist notwendig, da Transformer sequenzielle Daten so verarbeiten, als ob sie eine fixe Länge $d_{model}$ hätten. Das geschieht deshalb, weil Transformer so lernen können jede Position der Ausgabelänge $d_{model}$ parallel vorherzusagen. 

Um während des Trainings auch Daten mit einer Länge größer oder kleiner $d_{model}$ zu nutzen, werden längere Sequenzen abgeschnitten und kürzere mit Nullen aufgefüllt. Diese Nullen müssen dann mit Hilfe von Padding Masking für das Training irrelevant gemacht werden. Das geschieht indem man alle Positionen die eine Null enthalten für das Modell auf $-\infty$ setzt, sodass sie beim Gradient Descent nicht berücksichtigt werden.

#### <a id="subsequent-masking"></a> Subsequent Masking

Das Subsequent Masking benutzt die gleich Technik des Werte auf $-\infty$ setzen. Dabei wird aber nicht das mit irrelevanten Informationen angefüllte Ende des Eingabevektors auf $-\infty$ gesetzt, sondern es werden diejenige Werte von $Score(Q, V)$ auf $-\infty$ gesetzt, die einen Wert $V_j$, für die Ausgabe $i$ $Attention(Q,K,V)_i$ gewichten würden, obwohl $j>i$ gilt. Also es wird beschränkt, dass $Score(Q, V)$ nur diejenigen Werte von $V$ einbeziehen darf, die bei der Vorhersage für den $i$-ten Wert schon bekannt sind.

Dass das relevant ist liegt daran, dass beim Training von Transformern der komplette Input gleichzeitig verwertet wird. Ein Satz wird als Ganzes vom Transformer verarbeitet und er erzeugt eine Vorhersage, welches Token an einer bestimmten Position in diesem Satz vorkommt. Dabei erhält er in der Eingabe aber schon die Information, welches Token an dieser Position tatsächlich steht, da er den kompletten Satz als Eingabe bekommen hat. Dies muss nun also innerhalb des Modells mit einer Maskierung wieder rückgängig gemacht werden.

In [1]:
# TODO: Wir sollten überlegen in einer zukünftigen Version eine Simulation zur Darstellung des Masking einzufügen.

<figure id="fig:fig_masking" style="text-align: center;">
  <div style="text-align: center;">
    <img src="./img/tf_masking.jpg" style="width: 400px; height: 350px;" alt="Abbildung 7: Zwei Varianten des Maskings im Transformer Modell."/>
    <figcaption>Abbildung 7: Die zwei Varianten des Maskings im Transformer Modell</figcaption>
  </div>
</figure>



### <a id="attention-mechanismen"></a> Verschiedene Attention-Mechanismen

In der Architektur werden verschiedene Attentionstypen unterschieden. Es gibt dabei zwei Variablen die beeinflussen, welche Art von Attention wir verwenden. Die erste Variable ist, woher die Eingaben $Q', K'$ und $V'$ kommen. Die zweite Variable ist die Maskierung, die wir auf $\text{Score}(Q,K)$ anwenden.


#### <a id="self-attention"></a> Self-Attention
Wir sprechen von Self-Attention, wenn gilt 

$$Q'=K'=V'.$$ 

Wenn sich $\text{Score}(Q,K)$ also bildlich gesprochen daraus ergibt, welche Attention jede Position der Eingabe auf eine andere Position derselben Eingabe legt und diese Attention auf die Eingabe selbst angewandt wird.

#### <a id="cross-attention"></a> Cross-Attention

Wie sprechen von Cross-Attention, wenn gilt 

$$K' = V'$$

aber $Q'$ von diesen beiden Werten verschieden ist.
Wenn sich $\text{Score}(Q,K)$ also daraus ergibt, welche Attention jede Position einer Eingabe $Q'$ auf die Positionen einer zweiten Eingabe $K'$ gibt und dieser Attentionsscore auf die zweite Eingabe angewandt wird.

Dies ist zum Beispiel in Transformern der Fall, wenn $Q'$ sich aus der Ausgabe des Encoder ergibt und $K' = V'$ ein Zwischenergebnis des Decoders ist.

#### <a id="masked-attention"></a> Masked Attention

Ein Fall von Masked-Attention liegt dann vor, wenn bestimmte Werte von $\text{Score}(Q,K)$ maskiert werden. Das ist zum Beispiel beim Subsequent Masking der Fall, hier wird $\text{Score}(Q,K)_{i,j} = -\infty$ gesetzt für alle Einträge $j>i$. Dadurch wird verhindert, dass die Ausgabe $\text{Attention}(Q,K,V)_i$ sich auf die Werte $V_j, j>i $ stützt. Zum Beispiel wird während des Trainings im Decoder dadurch verhindert, dass das Model lernt Informationen aus den zukünftigen Einträgen $V_j, j>i$ zu benutzen, um $V_i$ vorherzusagen. Man sieht das gut in der Darstellung von $\text{Score}(Q,K)$ in unserer <a href="#simulation_attention">Simulation der Attention-Matrizen</a>. Dort liegen die Werte für $j>i$ meistens nahe bei $0$.


## <a id="simulation"></a> Vollständige Simulation

Zuletzt findet sich hier nun noch eine Simulation des kompletten Inferenzvorgangs innerhalb eines Transformermodells. Diese Simulation zeigt alle der vorher genannten Schritte in einem Prozess und liefert eine tatsächliche Vorhersage für den hier eingegebene Text.
Da unser Modell im Vergleich zu großen in der Wirtschaft eingesetzen Modellen nur mit sehr wenig Traninigsdaten und -zeit trainiert wurde, ist seine Vorhersageleistung sehr beschränkt und es wird keinen vernünftigen Text liefern. Die Mechanismen die dabei implementiert wurdens, sind allerdings identisch zu denen sehr großer Modelle.

In [None]:
inference_model = WordComplete(StoryTokenizer(reserved_tokens, vocab_path), model.model, max_length=32)

input_widget_inf = widgets.Text(
    value='Was ist die Hauptstadt von Deutschland?',
    description='Your input:',
    continuous_update=False,  
    layout = widgets.Layout(width='auto', margin='0px 0px 10px 0px')
)

button_widget_inf = widgets.Button(description='Run interactive inference',
                               layout = widgets.Layout(width='auto'))

output_widget_inf = widgets.Output(layout = widgets.Layout(width='auto'))

def on_button_click(b):
    with output_widget_inf:
        output_widget_inf.clear_output()  
        inference_model(input_widget_inf.value, interactive=True) 
        inference_model.print_results(visualisation=True)

button_widget_inf.on_click(on_button_click)

display(input_widget_inf, button_widget_inf, output_widget_inf)


# <a id="bibliographie"></a> Bibliographie
[1] Vaswani, A. et al. Attention Is All You Need. Preprint at http://arxiv.org/abs/1706.03762 (2017).

[2] Hochreiter, S. & Schmidhuber, J. Long Short-Term Memory. Neural Computation 9, 1735–1780 (1997).

[3] Bengio, Y., Simard, P. & Frasconi, P. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks 5, 157–166 (1994).

[4] Cho, K., van Merrienboer, B., Bahdanau, D. & Bengio, Y. On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. in Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation 103–111 (Association for Computational Linguistics, 2014). doi:10.3115/v1/W14-4012.

[6] Kaplan, J. et al. Scaling Laws for Neural Language Models. Preprint at http://arxiv.org/abs/2001.08361 (2020).

[5] Goodfellow, I., Bengio, Y. & Courville, A. Deep learning. (The MIT Press, 2016).

[7] Radford, A. et al. Language Models are Unsupervised Multitask Learners. (2019).

[8] Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Preprint at http://arxiv.org/abs/1810.04805 (2019).

[9] Alammar, J. The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time. https://jalammar.github.io/illustrated-transformer/ (2018).

[10] Encoder-Decoder. Understanding The Model Architecture | by Naoki | Medium. https://naokishibuya.medium.com/transformers-encoder-decoder-434603d19e1.

[11] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R. Dropout: A Simple Way to Prevent Neural Networks from Overﬁtting. (2014).

[12] He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning for Image Recognition. Preprint at http://arxiv.org/abs/1512.03385 (2015).

[13] Gage, P. A New Algorithm for Data Compression. (1994).

[14] Cho, K. et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. Preprint at http://arxiv.org/abs/1406.1078 (2014).

[15] Bahdanau, D., Cho, K. & Bengio, Y. Neural Machine Translation by Jointly Learning to Align and Translate. Preprint at http://arxiv.org/abs/1409.0473 (2016).

[16] OpenAI. GPT-4 Technical Report. Preprint at http://arxiv.org/abs/2303.08774 (2023).

[17] Grefenstette, G. & Tapanainen, P. What is a word, What is a sentence? Problems of Tokenization.

[18] Lin, Z. et al. A Structured Self-attentive Sentence Embedding. Preprint at http://arxiv.org/abs/1703.03130 (2017).

[19] Schmidt, R. M. Recurrent Neural Networks (RNNs): A gentle Introduction and Overview. Preprint at http://arxiv.org/abs/1912.05911 (2019).

[20] Ioffe, S. & Szegedy, C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. Preprint at http://arxiv.org/abs/1502.03167 (2015).

[21] Ba, J. L., Kiros, J. R. & Hinton, G. E. Layer Normalization. Preprint at http://arxiv.org/abs/1607.06450 (2016).

[22] He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning for Image Recognition. Preprint at http://arxiv.org/abs/1512.03385 (2015).

[23] Tunstall, L., von Werra, L., Wolf, T. Natural Language Processing Mit Transformern. https://www.oreilly.com/library/view/natural-language-processing/9781098157081/.
