# LSTM Networks

Für den Themenkomplex Deep Learning in R ist folgendes Buch zu empfehlen:

> Chollet, F., Kalinowski, T. & Allaire, J. J.  (2022). Deep Learning with R, (2nd Edition). Manning.

Bevor wir beginnen sei nochmal kurz gesagt, dass das hier das letzte Notebook ist. Es enthält einige neue Aspekte des Deep Learnings und könnte an einigen Stellen etwas kompliziert sein. Daher versucht immer im Kopf zu behalten, dass ihr nicht alle Schritte komplett verstehen müsst. Es gibt ganze Studiengänge, die sich nur mit dem Thema Deep Learning beschäftigen, daher können wir in zwei Sitzungen nur einen ganz groben Überblick für das Thema geben. Für reale Anwendungen würden wir vermutlich auch ohnehin vortrainierte und wesentlich komplexere Modelle verwenden. Es ist aber bestimmt trotzdem hilfreich, 1-2 weitere Anwendungen von neuronalen Netzwerken kennenzulernen.

## LSTM Classification

**Long short-term memory** (LSTM) networks bezeichnet eine bestimmte Art von neuronalen Netzwerken. Diese sind analog zu einer Art Kurzzeitgedächtnis in der Lage, Informationen über einen kurzen Zeitraum zu speichern. Die Idee der LSTM-Netze stammt aus den späten 1990er Jahren und ermöglicht besonders seit 2016 in Kombination mit der verbesserten Performance von Microchips und den dadurch deutlich größeren möglichen Trainingsdatenmengen große Erfolge im Bereich des maschinellen Lernens.

In ihrer einfachsten Form verfügt jede LSTM-Unit über 4 interne Parameter (im Gegensatz zu 1 Parameter in der einfachen Art der neuronalen Netze, welche wir letzte Woche kennengelernt haben).
* Das *Input-Gate* bestimmt, in welchem Maß ein neuer Wert in die Zelle fließt.
* Das *Forget-Gate* bestimmt, in welchem Maß (wie schnell) die Zelle den Wert wieder vergisst.
* Das *Output-Gate* bestimmt, in welchem Maß der Wert der Zelle an den nächsten Layer übergeben wird.

Leider können wir hier aufgrund des zeitlichen Umfangs dieser Übung nicht besonders detailliert auf die Funktionsweise von LSTM-Netzen eingehen. Wichtig ist, dass sie durch ihre Fähigkeit, **Informationen kurzfristig zu speichern**, ein breites Feld an Anwendungen ermöglicht haben und ihre Verwendung in den letzten zehn Jahren stark zugenommen hat.

In dieser Übung werden wir zunächst ein einfaches LSTM-Netzwerk selber trainieren, um zu klassifizieren wie Tweets über Fluggesellschaften sich je nach der Stimmung, die darin geäußert wird unterschieden. Diese Aufgabe ähnelt stark den **Klassifizierungsproblemen**, die wir bereits kennengelernt haben. Diesmal benutzen wir statt eines "klassischen" ML-Algorithmus eben ein neuronales Netzwerk.

Im zweiten Teil der Übung werden wir nochmal kurz auf die **Textgenerierung** mithilfe von LSTM-Netzwerken eingehen und auf der Datengrundlage von Büchern von Jane Austen und Songtexten von Taylor Swift einige zusammenhängende englische Phrasen generieren.

Als erstes laden wir die notwendigen Pakete:

In [None]:
pacman::p_load(
    httr,
    keras,
    tensorflow,
    tokenizers,
    textclean,
    tidymodels,
    tidyverse
    )

set.seed(321)

## Datengrundlage

Als Datengrundlage dienen uns [Twitter-Daten](https://www.kaggle.com/datasets/crowdflower/twitter-airline-sentiment), die sich auf US-amerikanische Airlines beziehen. Sie stammen ursprünglich aus der [Crowdflower's Data for Everyone library](http://www.crowdflower.com/data-for-everyone).

Der Datensatz enthält knapp 15.000 Tweets. Jeder Tweet ist durch eine bestimmte Stimmung `airline_sentiment` charakterisiert. Die Stimmung kann entweder `negative`, `neutral` oder `positive` sein. Wir erzeugen später ein LSTM-Netzwerk, welches auf Basis der Tweets lernt, neue Tweets in einer der drei Stimmungen zu charakterisieren.

Wir können den Datensatz mithilfe von `read_csv()` direkt von Github herunterladen:

In [None]:
url <- "https://raw.githubusercontent.com/ahmadhusain/lstm_text/master/data_input/tweets.csv"

data_original <- read_csv(url, show_col_types = FALSE) %>%
    glimpse()

Wie wir sehen, enthält der Datensatz noch viele andere Informationen. Uns interessieren aber nur der Textinhalt in der Spalte `text` sowie die Stimmung `airline_sentiment`.

In einer der Übungen im ersten Block hatten wir bereits mit Textbereinigungstools gearbeitet. Auch hier müssen wir wieder den Text bereinigen. Dafür nutzen wir die beiden Pakete `textclean` und `stringr`.

* Mit `textclean` können wir URLs, Emojis und HTML-Tags entfernen: `replace_url()`, `replace_emoji()`, `replace_emoticon()`, `replace_html()`
* `str_remove_all(pattern = pattern)` von `stringr` entfernt bestimmte Patterns. Als Patterns können wir sogenannte **Regular Expressions** angeben. Das sind allgemeingültige Formeln für bestimmte Zeichen. Der Pattern `"@\\w+"` entfernt z.B. alle Hashtags.
* `replace_contraction()` und `replace_word_elongation()` aus `textclean` ersetzt Wortkürzungen oder -streckungen, wie z.B. "c u" (für "see you") oder "heeeeey" (für "hey").
* Außerdem wollen wir alle Wörter kleinschreiben mithilfe von `str_to_lower()` und die Leerzeichen zwischen Wörtern und Tweets vereinheitlichen mithilfe von`str_squish()`.

Das ganze schreiben wir wieder in einer eigenen Funktion `string_cleaner()` (so wie bereits in Übung 09).

In [None]:
string_cleaner <- function(text_vector) {
    text_vector %>%
      replace_url() %>% # from textclean
      replace_emoji() %>% # from textclean
      replace_emoticon() %>% # from textclean
      replace_html() %>% # from textclean
      str_remove_all(pattern = "@\\w+") %>% # remove mentions (@), from stringr
      str_remove_all(pattern = "#\\w+") %>% # remove hastags, from stringr
      replace_contraction() %>% # from textclean
      replace_word_elongation() %>% # from textclean
      str_replace_all(pattern = "\\?+", replacement = " questionmark ") %>% # from stringr
      str_replace_all(pattern = "\\!+", replacement = " exclamationmark ") %>% # from stringr
      str_remove_all(pattern = "[[:punct:]]") %>% # from stringr
      str_remove_all(pattern = "\\d") %>% # remove numbers, from stringr
      str_remove_all(pattern = "\\$") %>% # remove dollar signs, from stringr
      str_to_lower() %>% # from stringr
      str_squish() # from stringr
}

Anschließend müssen wir die Funktion auf jede Zeile der Spalte `text` anwenden. Das sollte maximal eine Minute dauern.

In [None]:
data <- data_original %>%
    mutate(text_clean = as.character(map(text, string_cleaner)))

Jetzt können wir uns beispielhaft einige Tweets ausgeben:

In [None]:
data %>%
  select(text_clean) %>%
  sample_n(5)

Super, das sieht gut aus! Wir haben zwar gerade einige Informationen verloren, aber dafür haben wir nur noch Kleinbuchstaben und Leerzeichen in unserem Vokabular. Das erleichtert das Training für das neuronale Netzwerk immens!

Im nächsten Schritt schmeißen wir alle Spalten raus, die wir nicht brauchen, und wandeln die Sentiments in numerische Label um:

* 0 für "negative"
* 1 für "neutral"
* 2 für "positive"

In [None]:
data <- data %>%
    mutate(
        label = factor(airline_sentiment, levels = c("negative", "neutral", "positive")),
        label = as.numeric(label),
        label = label - 1) %>%
    select(text_clean, label) %>%
    na.omit()

Unser Datensatz sieht jetzt folgendermaßen aus:

In [None]:
data %>% sample_n(8)

## Tokenizers

Im nächsten Schritt wollen wir aus unseren Tweets sogenannte Tokens erstellen. Manchmal sind Tokens einzelne Zeichen, manchmal auch ganze Wörter.

> Das Wort "Beispiel" könnten wir auf verschiedene Weisen tokenizen:
> * nach einzelnen Zeichen: "B", "e", "i", "s", "p", "i", "e", "l"
> * nach Silben: "Bei", "spiel"
> * als einzelnes Wort: "Beispiel"

Für unser Netzwerk nehmen wir einzelne Wörter als Token. Um die Komplexität der Trainingsdaten zu reduzieren, benutzen wir lediglich die 1024 häufigsten Wörter. Wörter, die also sehr selten vorkommen, fließen nicht in die Analyse mit ein. Das verbessert die Performance des Netzwerkes, während wir trotzdem nur vergleichsweise unwichtige Informationen verlieren.

> In R gibt es verschiedene Möglichkeiten zu tokenizen, aus `tidytext`, `keras`, `tokenizers` und anderen Paketen.

Wir benutzen die Funktion `text_tokenizer()` aus dem Paket `keras`.

In [None]:
num_words <- 1024 # we only use the most frequent 1024 words for our model, the rest gets removed
tokenizer <- text_tokenizer(num_words = num_words, lower = TRUE) %>% # sort to frequency order, then tokenize the corpus
    fit_text_tokenizer(data$text_clean)

Wie sieht unser `tokenizer` jetzt aus?

Er enthält die 1024 häufigsten Wörter und gibt jedem dieser Wörter einen Index. Außerdem wird die Häufigkeit der Wörter gespeichert. Wir können das einmal beispielhaft für jeweils 5 Tokens ausgeben:

In [None]:
tokenizer$word_index %>% head(5)
tokenizer$word_counts %>% head(5)

## Trainings-, Validierungs- und Testdaten

Im nächsten Schritt splitten wir unseren Datensatz wieder in Trainings- und Testdaten. Das kennen wir bereits aus den vorherigen Übungen!

Wir zweigen allerdings von unserem Trainings-Set zusätzlich noch ein sogenanntes Validation-Set ab. Diese Validierungsdaten können während der vielen Trainingsdurchläufe vom Netzwerk für Fine-Tuning von Parametern verwendet werden. Außerdem haben wir so die Möglichkeit, das Modell frühzeitig und schon während des Trainingsprozesses zu optimieren. Die Validierungsdaten werden also im Gegensatz zu den Testdaten schon während des Trainings verwendet.

In [None]:
set.seed(100)
intrain <- data %>%
   initial_split(prop = 0.8, strata = "label") # use 80% as training data

data_train <- intrain %>%
   training()
data_test <- intrain %>%
   testing()

inval <- data_test %>%
   initial_split(prop = 0.5, strata = "label") # split the test data to use 10% for testing and 10% for validation

data_val <- inval %>%
   training()
data_test <- inval %>%
   testing()

Der längste vorliegende Tweet bestimmt über die Anzahl seiner Wörter die Dimension des Netzwerkes. Das Netzwerk soll so viele Inputs haben, wie der Tweet Worte lang ist. Deshalb müssen wir im nächsten Schritt herausfinden, welcher Text der längste ist bzw. wie viele Wörter er beinhaltet. Wir speichern diesen Wert im Objekt `maxlen`.

In [None]:
maxlen <- max(str_count(data$text_clean, "\\w+"))
paste("maxiumum length words in data:", maxlen)

## One-hot encoding

Jetzt wird es etwas komplizierter. Da das Netzwerk später mit numerischen Daten arbeiten muss, wir momentan aber nur Textdaten zur Verfügung haben, müssen wir uns einen schlauen Weg überlegen, wie der Text in numerische Vektoren umgewandelt werden kann. Eine mögliche Methode dafür ist das sogenannte [**one-hot encoding**](https://en.wikipedia.org/wiki/One-hot).

Wir können one-hot encoding auf verschiedene Arten betreiben. In diesem Beispiel brauchen wir dafür den Häufigkeitsindex der einzelnen Wörter. Weiter oben hatten wir ja bereits die fünf häufigsten Wörter ausgegeben ("to", "i", "the", "a" und "you"). Jedes Wort erhält jetzt als Bezeichner den eigenen Häufigkeitsindex. "to" steht auf Platz 1, und bekommt daher den Index 1. "i" steht auf Platz 2 und bekommt den Index 2, usw. Damit können wir ganze Sätze in Zeichenketten übersetzen.

> Beispiel: Wenn wir annehmen, das Wort "and" hat den Index 14, könnten wir aus der Konstruktion "you and i" z.B. die numerische Folge 5-14-2 erzeugen.

Im Folgenden müssen wir also jeden Tweet in eine solche Zahlenkette übersetzen. Wörter, die im Tokenizer nicht vorkommen, werden einfach weggelassen. Als Resultat erhalten wir eine Matrix, die in jeder Reihe einen Tweet stehen hat, und jede Spalte steht für ein Wort. Die Dimension der Matrix ist also (Anzahl Tweets) x (längster Tweet `maxlen`). Tweets, die kürzer sind als `maxlen`, werden einfach mit Nullen aufgefüllt.

Der folgende Code erledigt diese Schritte automatisch für uns. `texts_to_sequences()` übersetzt die einzelnen Wörter der Tweets in ihren Häufigkeitsindex, und `pad_sequences()` füllt die Tweets dann mit Nullen auf und erzeugt die notwendige Matrix. Außerdem übersetzen wir wie in der letzten Übung die Label in Kategorien mithilfe von `to_categorical()`. Diese Schritte wiederholen wir jeweils für die Trainings-, Validierungs- und Testdatensätze:

In [None]:
# prepare x vectors for the network
data_train_x <- tokenizer %>%
    texts_to_sequences(data_train$text_clean) %>%
    pad_sequences(maxlen = maxlen)

data_val_x <- tokenizer %>%
    texts_to_sequences(data_val$text_clean) %>%
    pad_sequences(maxlen = maxlen)

data_test_x <- tokenizer %>%
    texts_to_sequences(data_test$text_clean) %>%
    pad_sequences(maxlen = maxlen)

# prepare y vectors for the network
data_train_y <- data_train$label %>% to_categorical(num_classes = 3)
data_val_y <- data_val$label %>% to_categorical(num_classes = 3)
data_test_y <- data_test$label %>% to_categorical(num_classes = 3)

Wir können `data_train_x` einmal beispielhaft ausgeben.

In [None]:
data_train_x

## Model definition

Die Datengrundlage ist geschaffen. Diese Matrix können wir jetzt super nutzen, um unser Modell zu trainieren. Als nächstes müssen wir das Modell definieren.

Wir wollen wieder ein sequenzielles Netzwerk in Keras modellieren. Dieses hat die folgenden Layer:

In [None]:
model <- keras_model_sequential() %>%

    # the embedding input layer converts positive integers (indexes) to dense vectors of fixed size
    layer_embedding(name = "input", input_dim = num_words, input_length = maxlen, output_dim = 32) %>%

    # the lstm layer drops 20% of the units to per training session to prevent overfitting
    layer_lstm(name = "lstm", units = 256, dropout = 0.2, recurrent_dropout = 0.2) %>%

    # the output layer uses softmax as activation and has 3 units for the 3 sentiments negative, neutral and positive
    layer_dense(name = "output", units = 3, activation = "softmax") %>%

    # compile the model
    compile(optimizer = "adam", metrics = "accuracy", loss = "categorical_crossentropy")

Praktischerweise können wir uns Informationen über das Modell mithilfe von `summary()` ausgeben lassen:

* Welche Informationen entnehmt ihr der Zusammenfassung?
* Welche Funktionen könnten die einzelnen Layer haben?

In [None]:
summary(model)

<div style="background-color: #efe3fd"><h2>Präsenzteil</h2></div> 

## Modell trainieren

Jetzt geht es daran, das Modell zu trainieren. Das machen wir wieder mit der Funktion `fit()` aus `keras`. Wir können den Trainingsfortschritt in der Variable `history` abspeichern, um diesen später zu visualisieren:

In [None]:
# should take under 10 minutes

history <- model %>% fit(
    data_train_x, data_train_y, # this is our training data
    batch_size = 512, epochs = 15, # 512 tweets are processed per batch, and we are training 15 epochs
    validation_data = list(data_val_x, data_val_y) # this is our validation data
)

## Model evaluation

Damit wir unser Modell evaluieren können, hatten wir bei der Modelldefinition als Metrik wieder die bekannte `accuracy` definiert.

Wir können die `accuracy` und den `loss` des Trainings mithilfe von `plot()` visualisieren:

In [None]:
plot(history)

* Was seht ihr auf der Grafik? Wie würdet ihr die verschiedenen Kurven interpretieren?
* Was könnte eine gute Anzahl von Epochen sein, auf die ihr das Netzwerk trainieren würdet?

> Benutzt gerne eine Suchmaschine oder eine Chat-KI, falls ihr die beiden Fragen nicht beantworten könnt.

Falls das Training aus Performancegründen scheitert, sagt gerne Bescheid! Dann können wir ein trainiertes Modell auch aus dem Verzeichnis laden:

In [None]:
# diesen Code nur ausführen, wenn ihr wisst was ihr tut ;)
# model_temp <- load_model_hdf5("data/lstm_models/tweet_classification_15epochs.h5")
# save_model_hdf5(model, "data/lstm_models/tweet_classification_15epochs.h5")

Wir können die Accuracy auch für die Testdaten ausgeben.

* Dafür lassen wir das Modell mithilfe von `predict()` den Testdatensatz vorhersagen.
* Anschließend ermitteln wir die Output-Units, die den größten Wert erreichen mit `k_argmax()`...
* ...und wandeln das Ergebnis mit `k_eval()` in einen Vektoren um.

Diesen können wir wie gewohnt mit Truth und Estimate mit den ursprünglichen Labels `data_test_pred` vergleichen und die `accuracy` berechnen. Und wir können eine Confusion Matrix ausgeben:

In [None]:
# predict on testing data
data_test_pred <- model %>%
   predict(data_test_x) %>%
   k_argmax() %>%
   k_eval()

# accuracy vector
accuracy_vec(
    truth = factor(data_test$label, labels = c("negative", "neutral", "positive")),
    estimate = factor(data_test_pred, labels = c("negative", "neutral", "positive"))
)

# confusion matrix
data.frame(
  truth = factor(data_test$label, labels = c("negative", "neutral", "positive")),
  estimate = factor(data_test_pred, labels = c("negative", "neutral", "positive"))
) %>% conf_mat(truth, estimate)

Wir erreichen also knapp über 80% Genauigkeit bei der Vorhersage. Das ist gar nicht so schlecht, wenn wir bedenken, dass wir ein sehr einfaches Netzwerk definiert haben!

## Eigene Tweets klassifizieren

Als letzten Schritt können wir einmal eigene Tweets vorhersagen. Dafür müssen wir diese analog zu unserem Textdatensatz mit `text_to_sequences()` und `pad_sequences()` in das richtige Format konvertieren. Dieses können wir dann mit `predict()` vorhersagen und mit `k_argmax()` und `k_eval()` erhalten wir wieder unser Label. Das Ganze können wir in einer kleinen Funktion verpacken.

In [None]:
text_analysis <- function(tweet, model, tokenizer, maxlen){

    # preprocess the text data to sequences
    sequenced <- texts_to_sequences(tokenizer, tweet) %>%
        pad_sequences(maxlen = maxlen)

    # predict the sentiment and evaluate the outcome 0, 1, or 2
    sentiment <- model %>% predict(sequenced) %>% k_argmax() %>% k_eval()

    # print the sentiment depending on the outcome
    switch(as.character(sentiment),
           "0" = print("Negative Sentiment"),
           "1" = print("Neutral Sentiment"),
           "2" = print("Positive Sentiment"),
           print("Unknown Sentiment")
    )
}

* Testet das Netzwerk mit eigenen Texten. Funktioniert es einigermaßen?

In [None]:
bad <- "i hate the service it is really bad and the toilet was disgusting"
bad2 <- "this airline should be forbidden it is the worst"
good <- "i love this airline. the flight was really relaxed and the food was amazing!"

good %>%
    text_analysis(model, tokenizer, maxlen)

## Zusammenfassung

Analog zum Naive Bayes Spam Filter haben wir hier ein neuronales Netzwerk verwendet, um Text zu klassifizieren. Wir haben ein sehr einfaches Modell mit nur einem LSTM-Layer erstellt, welches trotzdem in der Lage ist, komplexere Zeichenketten einzuordnen. In der Realität müssten wir unser Netzwerk allerdings wesentlich verbessern, da die 80% Genauigkeit in einem tatsächlichen Szenario vermutlich eher nicht zufriedenstellend wäre. Zudem könnte man auch wieder die Datengrundlage verbessern, beispielsweise über das Entfernen von Stopwords (das hatten wir beim Spam Filter auch gemacht).

Wichtig ist vor allem der Schritt der Datenaufbereitung und wie der Text vektorisiert wird. Damit wir komplexere Datenformen wie Text oder Bild verarbeiten können, müssen wir i.d.R. immer eine schlaue Parametrisierung wählen und gleichzeitig darauf achten, dass die Daten nicht zu komplex werden - sonst dauert das Training ewig.

# LSTM Text Generation

Eine weitere, viel diskutierte Anwendung von LSTM-Netzwerken ist die Generierung von Text. Dabei lernt das Netzwerk i.d.R., wie einzelne Zeichen oder Wörter aneinander gereiht werden müssen, um Text zu erzeugen. Wir bauen hier natürlich nicht ChatGPT nach. In diesem einfachen Beispiel schaffen wir es lediglich, richtige Wörter zu generieren. Das diese dann tatsächlich sinnvoll ("intelligent"?) sind, ist nochmal eine ganze andere Hausnummer. 
Eine anschauliche Metapher ist, dass das Netzwerk "halluziniert" oder vor sich hin brabbelt. Es kommen zwar meistens an sich richtige oder aus Sicht des Netzwerks wahrscheinliche Wörter heraus - Die Wortketten sind dann aber noch sinnfrei bzw. folgen keinem erkennbaren Muster.

> In diesem Beispiel machen wir es uns relativ schwer, weil wir im Gegensatz zum vorherigen Beispiel keine ganzen Wörter mehr als Token nutzen, sondern einzelne Buchstaben! Das macht es für ein Netzwerk natürlich viel schwieriger, einen verständlichen Text zu generieren. Mal sehen, ob wir es trotzdem hinbekommen, sinnvolle Zeichen-/Wortketten zu generieren!

Im Vorfeld haben wir ein einfaches LSTM-Modell auf zwei verschiedene Textkorpora trainiert. Der eine Textkorpus enthält 3 Bücher von Jane Austen, die praktischerweise im Paket `janeaustenr` vorliegen. Der andere Textkorpus enthält alle Songtexte von Taylor Swift aus dem Paket `taylor`.

|                     | Jane Austen                                         | Taylor Swift   |
|----------           |----------                                           |----------      |
| R-Paket             | `janeaustenr`                                       | `taylor`       |
| Inhalt              | Pride & Prejudice", Sense & Sensibility, Persuasion | Alle Songtexte |
| # sequences         | 456.246                                             | 124.888        |
| # unique characters | 43                                                  | 33             |

Beide Textkorpora wurden im gleichen Netzwerk (wieder ein einfaches Netzwerk mit einem einzigen LSTM-Layer) trainiert. Der Einfachheit halber wurden die Modelle bereits vortrainiert (weil das Training auf code.min bis zu 2 Stunden gedauert hat, wäre es unpraktisch, das in der Übung zu machen). Ihr müsst also nicht den gesamten Code selber ausführen, wir wollen eher nochmal einen Überblick darüber bekommen.

In [None]:
pacman::p_load(
    keras,
    tensorflow,
    tokenizers,
    tidyverse,
    tidytext,
    janeaustenr,
    taylor)

## `janeaustenr`

<a title="James Andrews, Public domain, via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File:Jane_Austen_1870_cropped.jpg"><img width="256" alt="Jane Austen 1870 cropped" src="https://upload.wikimedia.org/wikipedia/commons/f/f9/Jane_Austen_1870_cropped.jpg"></a>

Als erstes schauen wir uns ganz kurz nochmal die Texte an, auf denen unser einfaches Beispiel trainiert wurde. Die Texte von Jane Austen können wir mit der Funktion `austen_books()` aus dem Paket `janeaustenr` laden:

In [None]:
austen_books() %>% head(20)

Der Text liegt in einfacher Form vor. Jede Zeile des Datensatzes enthält eine Sequenz. Die Sequenzen sind jeweils gleich lang. Um den Datensatz später im Netzwerk zu verwenden, müssen wir den Text zunächst bereinigen und dann später gleichmäßig lange Sequenzen erzeugen.

Schauen wir uns die Textbereinigung kurz mal an. In einer der früheren Übungen hatten wir ja bereits etwas Textbereinigung gesehen. In diesem konkreten Fall ist unser Ziel ein einzelner, extrem langer eindimensionaler String, in dem alle Zeichen hintereinander enthalten sind. Dafür müssen wir folgende Schritte durchgehen.

* Wir filtern den Textkorpus auf die 3 Bücher "Pride & Prejudice", "Sense & Sensibility" und "Persuasion". Wenn wir alle Bücher von Jane Austen nehmen würden, schafft der Server das Training nicht (aus Performancegründen).
* Mit `pull()` ziehen wir nur die Textspalte aus dem Datensatz.
* `str_c(collapse = " ")` erzeugt einen einzelnen langen String aus allen Büchern.
* Mithilfe von `str_remove_all()` können wir bestimmte Zeichen aussortieren. Dadurch wird eine Dimension (die Anzahl der einzigartigen Zeichen) des Netzwerkes kleiner und das Training performanter.
* `tokenize_characters()` aus dem Paket `tokenizers` erzeugt uns pro Zeichen einen einzelnen Token (mit diesen wird das Netzwerk später trainiert).

In [None]:
text_jane <- austen_books() %>%

    # damit der Server nicht abstürzt, beschränken wir die Trainingsdaten auf 3 Bücher
    filter(book %in% c("Pride & Prejudice", "Sense & Sensibility", "Persuasion")) %>%

    pull(text) %>% # Extract the 'text' column from the dataset

    str_c(collapse = " ") %>% # Concatenate all text into a single string

    str_remove_all(pattern = "\\d") %>% # remove numbers, from stringr
    str_remove_all(pattern = "£") %>% # remove British Pound sign, from stringr

    # tokenize the text into characters
    tokenize_characters(
        lowercase = TRUE, # convert everything to lowercase
        strip_non_alphanum = FALSE, # we want to keep punctuation
        simplify = TRUE
    )

text_jane %>% glimpse()

Wie wir sehen können haben wir den Text jetzt in sehr einfacher Form als einen ziemlich langen eindimensionalen Vektor vorliegen. Damit das Netzwerk weiß, welche Zeichen es im Text überhaupt gibt, müssen wir zusätzlich noch einen Vektor erstellen, der alle einzigarten Zeichen des Textes enthält. Dieses "Vokabular" definiert, welche einzigartigen Zeichen (oder Tokens) das Modell erkennt.

Das machen wir mit `unique()`.

In [None]:
chars_jane <- text_jane %>%
    unique() %>%
    sort()

chars_jane %>% print()

## `taylor`

<a title="Raph_PH, CC BY 2.0 &lt;https://creativecommons.org/licenses/by/2.0&gt;, via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File:HAIMO2210722_(30_of_51)_(52232595478)_Cropped.jpg"><img width="256" alt="HAIMO2210722 (30 of 51) (52232595478) Cropped" src="https://upload.wikimedia.org/wikipedia/commons/thumb/9/96/HAIMO2210722_%2830_of_51%29_%2852232595478%29_Cropped.jpg/256px-HAIMO2210722_%2830_of_51%29_%2852232595478%29_Cropped.jpg"></a>

Beim zweiten Textkorpus gehen wir analog vor. Diesmal benutzen wir das Paket `taylor`, welches einige Informationen über das Werk von Taylor Swift enthält. Da die Daten in anderer Form vorliegen, müssen wir ein wenig anders vorgehen. Da wir diese Woche aber nicht so viel Zeit haben, können wir leider nicht auf alles im Detail eingehen. Im originalen Datensatz `taylor_album_songs` liegen die einzelnen Lieder als verschachtelte Listen vor. Diese können wir mit `unnest()` und `unnest_tokens()` aber in die gleiche Form bringen wie vorher.

Danach benutzen wir wieder die gleiche Abfolge von `pull()` & `str_c(collape = " ")` um einen langen String zu erzeugen, entfernen mit `str_remove_all()` ungewünschte Zeichen und erstellen Tokens mit `tokenize_characters()`. Auch in diesem Fall müssen wir eine Liste mit einzigartigen Zeichen erzeugen, um die eine Dimension des Netzwerkes festzulegen.

In [None]:
text_taylor <- taylor_album_songs %>%
    unnest(lyrics) %>%
    unnest_tokens(word, lyric) %>% # from tidytext
    pull(word) %>%
    str_c(collapse = " ") %>%
    str_remove_all(pattern = "\\d") %>%

    # Tokenize the text into characters, keeping the original case and special characters
    tokenize_characters(
        lowercase = TRUE,
        strip_non_alphanum = FALSE,
        simplify = TRUE
    )

chars_taylor <- text_taylor %>%
    unique() %>%
    sort()

text_taylor %>% glimpse()
chars_taylor %>% print()

## Sequenzen erzeugen

Als nächstes müssen wir aus unserer Wortliste, die ja gerade nur aus einzelnen Zeichen besteht, Sequenzen erstellen. Diese Sequenzen sollen eine Länge von 40 Zeichen pro Sequenz haben, was wir einmal in der Variable `max_length` definieren:

In [None]:
max_length <- 40

Den folgenden Code werden wir allerdings nicht ausführen, da das Training des Netzwerkes leider zu lange dauern würde. Ihr könnt euch die folgenden Schritte trotzdem einmal anschauen und versuchen, nachzuvollziehen.

### Wo stehen wir jetzt?

Wir haben zwei Textkorpora, die jeweils als seeeehr lange Liste von einzelnen Zeichen (aber in der richtigen Reihenfolge!) vorliegen. Damit kann ein LSTM-Netzwerk noch nicht besonders viel anfangen. Die Idee ist jetzt, dass wir längere Zeichensequenzen erstellen und dazugehörig zu jeder Sequenz das Zeichen wählen, welches danach folgt. Ein einfaches Beispiel:

> Wenn wir die Sequenz "Guten Morge" haben, dann würden wir in den meisten Fällen ein "n" nachfolgen lassen, damit die Phrase "Guten Morgen" entsteht.

Das ist natürlich ein sehr einfaches und klares Beispiel. Schwieriger wird es, wenn es mehrere Möglichkeiten gibt. Um dem Netzwerk zu helfen, haben wir oben eine Sequenzlänge von 40 definiert. Dadurch sollte es besser in der Lage sein, richtige Wörter zu bilden. 40 Zeichen pro Sequenz sind lang genug, um möglichst sinnvolle Phrasen zu bilden, aber wiederum nicht zu lang, sodass das Netzwerk noch performant trainiert werden.

> Das Netzwerk bekommt als Input also eine Wortsequenz der Länge 40 und lernt dann, welches Zeichen auf diese Wortsequenz folgt. Wird dieser Prozess vielfach wiederholt, kann es einen Text generieren!

Zunächst müssen wir die notwendigen **Sequenzen erzeugen**. Das machen wir relativ trivial. Wir nehmen ein "Fenster" von einer Länge von 40 und "verschieben" das über den gesamten String, jeweils im Abstand von 4 Zeichen pro Schritt. Beim Taylor-Datensatz verschieben wir es im Abstand von 3 Zeichen pro Schritt. Weil dieser kleiner ist, können wir relativ zur gesamten Zeichenanzahl mehr Sequenzen erzeugen.

* Wie wichtig ist dieser gewählte Abstand für die Performance des Netzwerkes? Diskutiert dabei auch kurz, wie sich die Qualität des Netzwerkes verändern könnte, wenn hier größere oder kleinere Werte gewählt werden.

Die Indexierung der Sequenzen wird mithilfe von `seq()` erstellt, und anschließend erzeugen wir pro Index eine Liste mit zwei Elementen. Das erste Element ist die Textsequenz der Länge 39 (`max_length`- 1), welches in der Spalte `sentence` gespeichert wird. Das zweite Element ist das zugehörige Zeichen, welches an 40. Stelle folgt, und heißt `next_char`!

> Diesen Code müsst ihr nicht ausführen: ihr ladet später ohnehin das trainierte Modell. Es folgen jetzt ein paar Codeblöcke zum Durchlesen, die ihr aber nicht ausführen müsst!

```
##### create sequences by sliding a window of size `max_length` over the text #####

dataset <- map(

    seq(                                           # generate a sequence of starting indices
        1,
        length(text) - max_length - 1,             # calculate the amount of sequences from the length of the text corpus
        by = 4                                     # step 4 characters each time
    ),

    # For each starting index, create a list with two elements:
    ~list(
        sentence = text[.x:(.x + max_length - 1)], # a substring of `text` from the current index to (`max_length` - 1) characters ahead
        next_char = text[.x + max_length]          # the character immediately following the end of the 'sentence'
    )
)

dataset <- transpose(dataset)                      # Convert the list of lists into a data frame where each row is a list element
```

## One-hot encoding

Anschließend wird es noch etwas verwirrender. Wie im ersten Klassifizierungsbeispiel versteht das LSTM-Netzwerk zunächst erstmal keinen Text. Es kann nur mit numerischen Daten arbeiten. D.h., wir müssen etwas tricksen, und unsere Wortketten wieder in numerische Vektoren umwandeln. Wir müssen also wieder **one-hot encoding** anwenden.

Um das Modell zu trainieren, erzeugen wir zwei Vektoren. `x` enthält die Wortsequenzen, und `y` enthält die Zeichen, welche auf die Wortsequenzen folgen (also analog zu `sentence` und `next_char` in der Zelle zuvor). Diesmal aber one-hot encodet! Jedes einzelne Element von `x` ist eine Matrix, und jedes einzelne Element von `y` ein Vektor. Diesmal wird allerdings nicht der Häufigkeitsindex kodiert, sondern jedes einzelne Zeichen aus unserem Vokabular hat seine eigene Dimension.

> Beispiel: Wenn unser Vokabular die Zeichen "a", "b" und "c" enthält, dann haben wir drei Zeichen und somit drei Dimensionen. Das Zeichen "a" wird auf die erste Dimension enkodiert und bekommt den Vektor (1, 0, 0) zugewiesen, das Zeichen "b" auf die zweite Dimension und bekommt den Vektor (0, 1, 0), usw...

Mit einer for-Schleife wird dann über jede Sequenz iteriert, und die Zeichenkette wird für `x` in eine Matrix, und für `y` in einen Vektor umgewandelt. Die beiden entstehenden Listen speichern wir in der Variable `vectors`.

```
##### one-hot encoding #####

x <- array(                                                            # initialize an array for input sequences
        0,
        dim = c(length(dataset$sentence), max_length, length(chars))   # with dimensions (# sequences) x (max_length) x (# unique characters)
    )

y <- array(                                                            # initialize an array for output
        0,
        dim = c(length(dataset$sentence), length(chars))               # with dimensions (# sequences) x (# unique characters)
    )

for(i in 1:length(dataset$sentence)){                                  # Iterate over each sequence in the dataset

    x[i,,] <- sapply(chars, function(x){                               # One-hot encode each character in the sentence
        as.integer(x == dataset$sentence[[i]])
    })

    y[i,] <- as.integer(chars == dataset$next_char[[i]])               # One-hot encode the next character after the sentence
}

vectors <- list(y = y, x = x)                                          # one-hot encoded input (x) and output (y)
```

Jetzt haben wir den komplizierten Teil größtenteils geschafft. Im nächsten Schritt definieren wir wie weiter oben und letzte Woche unser Modell/Netzwerk.

* Wir benutzen ein sequenzielles Modell mit `keras_model_sequential()`.
* Der erste Layer ist vom Typ `layer_lstm()` besteht aus 128 Einheiten und hat als Input-Dimensionen `max_length` und die Anzahl der einzigartigen Zeichen.
* Anschließend folgt ein Output-Layer vom Typ `layer_dense()` mit einer softmax-activation. Dieser hat so viele Einheiten, wie es einzigartige Zeichen gibt. Durch die softmax-activation erreichen wir, dass das Netzwerk pro eingelesener Sequenz nur einen Buchstaben ausspuckt (wir wollen pro Sequenz ja auch nur das nächste Zeichen ausspucken).
* An letzter Stelle wird das Modell kompiliert (hier können wir verschiedene Methoden auswählen, das sei an dieser Stelle aber nicht so wichtig).

```
##### model definition #####

model <- keras_model_sequential() %>%                     # choose a sequential model

  
    layer_lstm(                                           # add an LSTM layer with 128 units
        128,
        input_shape = c(max_length, length(chars))        # the input shape is defined by the max_length of sequences and the number of unique characters
    ) %>%  

  layer_dense(length(chars)) %>%                          # add a densely connected output layer with a number of units equal to the number of unique characters

  layer_activation("softmax") %>%                         # add a softmax activation layer to output probabilities for each character

  compile(                                                # compile the model
      loss = "categorical_crossentropy",
      optimizer = "adam"
  )

summary(model)
```

Eine `summary()` des Modells sieht dann folgendermaßen aus:

* Welche Informationen erhaltet ihr aus der `summary()`?

```
# Model: "sequential"
# ___________________________________________________________________________
#  Layer (type)                       Output Shape                    Param #     
# ===========================================================================
#  lstm (LSTM)                        (None, 128)                     88064       
#  dense (Dense)                      (None, 43)                      5547        
#  activation (Activation)            (None, 43)                      0           
# ===========================================================================
# Total params: 93611 (365.67 KB)
# Trainable params: 93611 (365.67 KB)
# Non-trainable params: 0 (0.00 Byte)
# ___________________________________________________________________________
```

## Model training

Jetzt, wo wir Trainingsdaten und das Modell definiert haben, können wir es mit `fit()` trainieren. Als Inputs übergeben wir die beiden oben erstellten, one-hot encodeten Vektoren `vectors$x$` (die Sequenzen) und `vectors$y` (die Zeichen, die auf die Sequenzen folgen). Damit der Server nicht abschmiert, wählen wir eine eher kleine `batch_size` (die Anzahl der Sequenzen, die gleichzeitig ins Netzwerk geschickt werden), sowie eine kleine Zahl von 10 Trainingsrunden.

Nach jeder Ausführung des Codes wird das Modell mit der Funktion `save_model_hdf5()` gespeichert, sodass ihr jetzt gleich direkt auf die trainierten Modell zugreifen könnt!

```
model %>% fit(
    vectors$x, vectors$y,
    batch_size = 128 * 10,
    epochs = 10
)
```

## Generate a text

Was machen wir jetzt mit den trainierten Modellen? Wir möchten sie auf ihre Fähigkeit hin vergleichen, Text zu generieren. Dafür müssen wir uns allerdings noch einige Funktionen definieren.

Weiter oben, während des one-hot encodings, hatten wir ja bereits unsere Sequenzen von Text in Matrixform übersetzt. Diese Übersetzung definieren wir an dieser Stelle nochmal als eigene Funktion `convert_sentence_to_data()`. Im Prinzip wird hier wieder eine Sequenz Zeichen für Zeichen numerische Vektoren übersetzt, und diese werden dann als 3-dimensionale Array zurückgegeben, sodass das Modell sie als Input akzeptiert.

In [None]:
convert_sentence_to_data <- function(sentence, chars){   # Function to convert a sentence into a numeric data format

    x <- sapply(chars, function(x){                      # Convert each character in the sentence into a numeric format
        as.integer(x == sentence)                        # Create a binary vector where 1 represents a match with the current character
    })

    array_reshape(x, c(1, dim(x)))                       # Reshape the binary matrix into a 3-dimensional array suitable for model input
}

### Temperature function

Bei der Generierung von Text und Bild wird im Deep Learning häufig eine sogenannte **Temperature function** hinter den Output-Layer geschaltet. Die Temperature function ist eine mathematische Funktion, welche so gewählt ist, dass die die Zufälligkeit des Outputs steuern kann (Vielleicht erinnert ihr Euch an das Glücksrad aus der Vorlesung mit Chris Biemann). Eine **höher gewählte Temperatur** führt zu einer Verteilung mit höherer Entropie, was wiederum **zufälligeren/unstrukturierteren** und dadurch potentiell überraschenden oder spannenden Output generiert. Eine **niedriger gewählte Temperatur** resultiert in **strukturierteren** Daten. Niedrigere Temperaturen lassen das Modell konservativer agieren, höhere Temperaturen führen zu einer größeren Exploration des Modells.

> Higher temperatures result in sampling distributions of higher entropy that will generate more surprising and unstructured generated data, whereas a lower temperature will result in less randomness and much more predictable generated data (*Chollett et. al. 2022*)

Der folgende Code erzeugt eine Funktion, welche den Output des neuronalen Netzwerks mit einer extern gewählten Temperatur zwischen 0 und 1 verrechnet.

In [None]:
choose_next_char <- function(preds, chars, temperature){         # Function to choose the next character in a sequence based on model predictions

    # Adjust the prediction probabilities using the temperature parameter
    preds <- log(preds) / temperature
    exp_preds <- exp(preds)

    preds <- exp_preds / sum(exp_preds)                          # Normalize the adjusted probabilities so they sum to 1

    next_index <- rmultinom(1, 1, preds) %>%                     # Sample from the adjusted probabilities to choose the next character index
        as.integer() %>%
        which.max()

    chars[next_index]                                            # Return the character corresponding to the chosen index
}

### Generator function

Um Text einfach generieren zu können, müssen wir die oberen Schritte jetzt noch kombinieren. Die Funktion `generate_text()` erhält als Input:

* das gewünschte Modell `model`
* den Textkorpus `text`
* das zur Verfügung stehende Vokabular `chars`
* die Länge des zu generierenden Textes `length`
* sowie die Temperatur `temperature`

Anschließend wählt es mithilfe von `sample()` eine zufällige Sequenz aus dem Text aus. Das ist der Startpunkt des Modells. Es folgt ein For-Loop: dieser wiederholt sich so oft, wie Zeichen generiert werden sollen.

* Die momentane Sequenz `sentence` wird mithilfe von `convert_sentence_to_data()` in Matrixform enkodiert.
* Die nun enkodierte Sequenz wird vom Modell `model` mithilfe von `predict()` vorhergesagt.
* Die Temperature function `choose_next_char()` generiert in Abhängigkeit von der Temperatur das nächste Zeichen.
* Dieses wird dem String `generated` angehängt und die Sequenz wird um ein Zeichen nach links verschoben (das generierte Zeichen wird angehängt und das erste Zeichen der Sequenz fliegt raus).

Wenn wir diesen Vorgang öfter wiederholen, sollte das Modell einen längeren Text generieren!

In [None]:
generate_text <- function(model, text, chars, length = 100, temperature = 0.5){

    start_index <- sample(1:(length(text) - max_length), size = 1)                # take a random starting index
    sentence <- text[start_index:(start_index + max_length - 1)]                  # and select the according sequence
    generated <- ""                                                               # initialize an empty string for the generated output

    for(i in 1:length){                                                           # repeat as many times as stated by the user

        sentence_data <- convert_sentence_to_data(sentence, chars)                # encode to matrix form
        preds <- predict(model, sentence_data)                                    # get the predictions for each next character
        next_char <- choose_next_char(preds, chars, temperature = temperature)    # choose the character with the temperature function

        generated <- str_c(generated, next_char, collapse = "")                   # add it to the generated text
        sentence <- c(sentence[-1], next_char)                                    # and continue by shifting the sequence by 1 to the left
    }

    model_path = deparse(substitute(model))
    cat(                                                                          # print information about the current run
        "\n", "text:", str_extract(model_path, "(?<=lstm_models/)[^_]+"),         # print the text base of the model
        "/ number of epochs:", str_extract(model_path, "..(?=epochs)"),             # print the number of epochs
        "/ temperature:", temperature, "\n\n",                                    # print the chosen temperature
        generated                                                                 # print the generated text
       )
}

## Text generieren

Jetzt können wir die vortrainierten Modelle laden und miteinander vergleichen. Diese liegen im Ordner `data/lstm_models/`. Die Modelle können mit der `keras`-Funktion `load_model_hdf5()` geladen werden:

* Vergleicht im Folgenden verschiedene Parameter. Wie unterscheiden sich die generierten Texte
    * je nach Datengrundlage (Jane vs. Taylor)?
    * je nach Anzahl der durchlaufenen Epochen?
    * je nach verschiedenen Werten für `temperature`?

In [None]:
# Beispiel
generate_text(model = load_model_hdf5("data/lstm_models/jane_40epochs.h5"), text = text_jane, chars = chars_jane, length = 500, temperature = 0.5)

In [None]:
# Beispiel
generate_text(model = load_model_hdf5("data/lstm_models/taylor_10epochs.h5"), text = text_taylor, chars = chars_taylor, length = 500, temperature = 0.25)

In [None]:
# Beispiel
generate_text(model = load_model_hdf5("data/lstm_models/taylor_40epochs.h5"), text = text_taylor, chars = chars_taylor, length = 500, temperature = 0.6)

## Zusammenfassung

Die generierten Texte sind natürlich noch relativ basic. Das Modell kann nicht wirklich sinnvolle Phrasen erzeugen. Auch die Datengrundlage ist natürlich sehr klein. Aber immerhin schafft es in den meisten Fällen, korrekte englische Wörter zu bilden! Dafür, dass wir ein sehr einfaches LSTM-Netzwerk mit nur einem inneren Layer und einem kleinen Textkorpus gebaut haben, ist das schon gar nicht schlecht!


|                 | MNIST       | Taylor    | Jane      | GPT-4         | Faktor         |
|----------       |----------   |---------- |---------- |----------     |----------      |
| Layers          | 4           | 2         | 2         | 120           | $60$           |
| Parameters      | 1.8 million | 86.560    | 93.611    | ~1.8 trillion | $\approx 10^7$ |
| Training tokens | 60.000      | 124.874   | 456.236   | ~13 trillion  | $\approx 10^8$ |

In [None]:
summary(load_model_hdf5("data/lstm_models/taylor_40epochs.h5"))
summary(load_model_hdf5("data/lstm_models/jane_40epochs.h5"))