# Naiver Bayes Klassifikator

In dieser Übung lernen wir eine Umsetzung des Naive Bayes Classificators aus der Vorlesung kennen. Ein typisches Anwendungsbeispiel für dieses Modell ist die Klassifizierung von Texten, z. B. für die Erkennung von Spam in Textnachrichten. Da die theoretischen Grundlage für Naive Bayes in der Vorlesung behandelt werden, werden wir in dieser Übung nicht detailliert darauf eingehen. Es geht uns eher um eine praktische und robuste Umsetzung. 

> In dieser Übung möchten wir aber nicht nur den Naive Bayes-Klassifikator anwenden. Wir möchten ihn besser nachvollziehbar machen, indem wir ihn mit eigenen Funktionen selbst aufbauen. Das hat auch den Vorteil, dass ihr dadurch an das Schreiben eigener Funktionen herangeführt werdet. Der Code ist dadurch aber vielleicht etwas komplexer als er sein müsste und auch etwas herausfordernder als bisher gewohnt.

Ein typischer Spam-Filter ist in der Lage, Textnachrichten in zwei Kategorien einzusortieren – "Spam" und "Kein Spam". "Kein Spam" wird im Englischen auch oft als "Ham" bezeichnet. Daher werden wir für diese Übung mit den zwei Labels `spam` und `ham` arbeiten. Unser Spam-Filter wird mithilfe eines großen Textkorpus trainiert und lernt dadurch, welche Nachrichten `spam` und welche `ham` sind.

Wir benutzen wieder die bekannten Pakete `tidyverse` und `tidymodels`. Neu hinzu kommt in dieser Übung zum einen [`tidytext`](https://cran.r-project.org/web/packages/tidytext/vignettes/tidytext.html), welches uns umfangreiche Funktionen für Texte und Wörter bereitstellt, sowie [`patchwork`](https://patchwork.data-imaginist.com/) und [`ggwordcloud`](https://lepennec.github.io/ggwordcloud/) für die grafische Darstellung der Datenexploration. Für `tidytext` gibt es ähnlich wie für `tidyverse` und `tidymodels` ein eigenes [Buch](https://www.tidytextmining.com/) aus dem posit-Umfeld.

> Da wir in diesem Übungsblatt mit einigen Zufallsfunktion arbeiten, werden wir am Anfang einmal mithilfe von `set.seed()` den Zufallsgenerator von R an einer bestimmten Stelle starten. Dadurch bleibt der Code reproduzierbar.

Der Einfachheit halber werden wir, anders als in Übung 8, ohne das Paket `recipe` arbeiten. Tendenziell ist die Anwendung von `recipe` aber empfehlenswert und mit ein bisschen Übung auch übersichtlicher als ohne. Wir benutzen `recipe` dafür nochmal in Übung 9 & 10.

In [None]:
pacman::p_load(tidyverse, tidymodels, tidytext, patchwork, ggwordcloud)

set.seed(123)

# Make plots wider 
options(repr.plot.width = 18, repr.plot.height = 8) # außerdem wollen wir eine breitere Darstellung der Plots haben!

## Daten zusammentragen

Wir arbeiten mit der [SMS Spam Collection](https://archive.ics.uci.edu/dataset/228/sms+spam+collection) von Tiado Almeida und Jos Hidalgo. Der Datensatz enthält 5574 SMS-Nachrichten aus verschiedenen Quellen und unterteilt diese in `ham` und `spam`. `ham` sind authentische Nachrichten von echten Personen, und `spam` sind Nachrichten, die automatisiert zu Werbe- oder anderen Zwecken verschickt werden. 
Alle SMS-Nachrichten mussten zunächst von Menschen "manuell" als `ham` oder `spam` eingeordnet werden. Wir haben das Glück, dass wir uns diesen Schritt sparen können, und direkt den bereits gesammelten Datensatz für das Training unseres Modells verwenden können!

> Almeida,Tiago and Hidalgo, Jos. (2012). SMS Spam Collection. UCI Machine Learning Repository. https://doi.org/10.24432/C5CC84 .

## Daten explorieren und vorbereiten

Zunächst können wir die SMS spam collection **laden**. Wir benennen die Spalten direkt nach `label` und `msg` und entfernen alle `NA` values.

In [None]:
sms <- read_delim(
    "data/SMSSpamCollection", # path to file
    col_names = c("label", "msg"), # we can directly label the columns
    show_col_types = FALSE # suppress warning
    ) %>%
    drop_na() %>% # remove NA columns
    glimpse()

Danach bleiben uns 4773 vollständige SMS-Nachrichten. In `label` ist die Entscheidung gespeichert, die unser Modell vorhersagen soll. Als Basis dafür dient der Text der SMS, der in `msg` gespeichert ist.

1. Wie viel `ham` und wieviel `spam` ist im Datensatz vorhanden?

In [None]:
# write your own code here

Fast **14 Prozent** der Nachrichten in diesem Datensatz sind also Spam!

Mithilfe von `slice_sample(n = n)` können wir uns zufällige Nachrichten anzeigen lassen, um ein **allgemeines Gefühl** über den Datenkorpus zu bekommen.

In [None]:
sms %>% slice_sample(n = 5)

Wie wir sehen können, sind viele Nachrichten unaufgeräumt, inkonsistent in Groß- und Kleinschreibung oder beinhalten Zeichenketten, die keine Buchstaben sind. Für unser Naive Bayes Classificator Modell brauchen wir allerdings ein aufgeräumtes Vokabular. Daher müssen wir als nächstes den Datensatz durch **Preprocessing** säubern. Dafür schreiben wir eine Funktion, welche einen Text übergeben bekommt und anschließend eine **"saubere"** Version zurückgibt.

Schritte des Preprocessing, die wir anwenden wollen:

* Zeichensetzung (bis auf den Unterstrich) wird entfernt
* Alles wird klein geschrieben
* URLs (Webseiten) werden durch `_url_` ersetzt
* Lange Zahlenfolgen (meistens Telefonnummern) werden durch `_longnum_` ersetzt
* Text, der aus mehreren Wörtern besteht, wird durch `str_split()` auf die einzelnen Wörter aufgeteilt
* Alles was übrig ist und aus einem oder weniger Zeichen besteht, wird entfernt.

Damit sollten wir die meisten Inkonsistenzen abgedeckt haben!

2. Überlegt euch im Kopf, wie ihr eine solche Funktion strukturell aufbauen würdet.

<img src="https://stringr.tidyverse.org/logo.png" alt="stringr" width="100" align="right" />Das Ganze sieht dann folgendermaßen aus. Die einzelnen Funktionen wie `str_replace_all` oder `str_to_lower()` sind Teil des Paketes [`stringr`](https://stringr.tidyverse.org/index.html). In der Dokumentation von `stringr` könnt ihr die einzelnen Funktionen genauer nachschlagen. Ihr müsst an dieser Stelle nicht jede Funktion verstehen. Wir haben leider keine Zeit, ausführlich auf die sogenannten [**regular expressions**](https://stringr.tidyverse.org/articles/regular-expressions.html) einzugehen. Mehr zum Thema **regular expressions** findet ihr z.B. in [R4DS](https://r4ds.hadley.nz/regexps).

In [None]:
string_cleaner <- function(text_vector) {
    text_vector %>%
        # Remove all punctuation except for underscores (since URLs are recoded to _url_)
        str_replace_all("[^[:alnum:]_ ]+", "") %>%
        
        # Make everything lower case
        str_to_lower() %>%
        
        # Recode things that look like URLs to the string _url_
        str_replace_all("\\b(http|www\\S+)\\b", "_url_") %>%
        
        # Recode long sequences of numbers (e.g., phone numbers) to _longnum_
        str_replace_all("\\b(\\d{7,})\\b", "_longnum_") %>%
        
        # Split on spaces
        str_split(" ") %>%
        
        # Use map to apply the function to each element of the list
        map(~ .x[.x != "" & nchar(.x) > 1]) # Remove empty strings and strings with 1 or fewer characters
}

3. Wie würdet ihr die definierte Funktion mit einer ausgedachten Beispielnachricht testen?

In [None]:
string_cleaner("Blabla ...132 hallo")

Ganz praktisch. Jetzt können wir unseren gesamten Datensatz mithilfe der neuen Funktion `string_cleaner()` säubern! Die gesäuberte Nachricht wird in der neuen Spalte `msg_list` als Liste gespeichert. Um uns den `string_cleaner()` kurz genauer anzuschauen, können wir ein neues Datenobjekt `sms_clean` erstellen.

In [None]:
sms_clean <- sms %>%
    mutate(msg_list = map(msg, string_cleaner))

4. Lasst euch mithilfe von `slice_sample(n = n)` wieder ein paar Beispiele von `sms_clean` anzeigen anschauen. Welche Spalten enthält unser neue Datensatz?

### Supervised Learning

Wie in den vorherigen Übungen, teilen wir jetzt den Datensatz wieder in Trainings- und Testdaten auf:

In [None]:
split <- sms %>% 
    initial_split(strata = label) # random split in 75% test & 25% training data

train_spam <- split %>%
    training()

test_spam <- split %>%
    testing()

Die Testdaten lassen wir zunächst unberührt, da wir sie in einem real-world-scenario ja ebenfalls nicht kennen würden. Wir können aber die Trainingsdaten mit unserem `string_cleaner()` säubern!

In [None]:
train_spam <- train_spam %>%
    mutate(msg_list = string_cleaner(.$msg))

Im nächsten Schritt müssen wir ein **Vokabular** erstellen. Das ist ein "Wörterbuch" mit allen Worten, die im Datensatz vorkommen. Zusätzlich wird noch gezählt, wie häufig die Worte jeweils vorkommen. Wir brauchen das Vokabular später für die Berechnung der Wahrscheinlichkeiten für den Naive Bayes Klassifikator. Zunächst können wir mithilfe des Vokabulars aber auch die Trainingsdaten visualisieren!

5. Überlegt kurz, welche Möglichkeiten euch zur Visualisierung eines Vokabulars einfallen würden.

### Vokabular erstellen

Um das Vokabular zu erstellen, müssen wir alle einzelnen Wörter aus der Spalte `msg_list` extrahieren und anschließend zählen. Da die einzelnen Elemente von `msg_list` als Listen vorliegen, brauchen wir dafür ein paar mehr Schritte als gewohnt. Das Ergebnis ist ein neuer Datensatz `vocab` mit den Spalten `word` und `n` (für die Worthäufigkeit).

> Keine Sorge, der folgende Code mag etwas unübersichtlich erscheinen. Wenn das gerade zu komplex ist, könnt ihr ihn auch einfach ausführen und dann mit dem Ergebnis weiterarbeiten, ohne jeden einzelnen Schritt nachvollziehen zu müssen!

In [None]:
vocab <- train_spam %>%
    select(msg_list) %>% # wir wählen lediglich die Spalte msg_list aus
    deframe() %>% # in den nächsten drei Schritten machen wir aus der Listenstruktur eine Tabelle
    unlist() %>%
    table() %>% # durch table() zählen wir die Häufigkeit der einzelnen Wörter
    as_tibble() %>% # und konvertieren diese anschließend wieder in einen Tibble
    rename(word = '.') %>% # damit es etwas schöner ist, können wir die Spalte . noch in word umbenennen
    glimpse()

### Vokabular erweitern

Im nächsten Schritt müssen wir unser vorhin erzeugtes Vokabular `vocab` erweitern. Uns interessiert ja eigentlich die Aufteilung in `ham` und `spam`, daher müssen wir zwei extra Vokabulare `vocab_ham` und `vocab_spam` erstellen! Da wir diesen Schritt zweimal gehen müssen, wollen wir eine eigene Funktion dafür schreiben, denn so sparen wir Code und können die Funktion immer wieder verwenden:

In [None]:
create_vocab <- function(data, label) {
    data %>%
        filter(label == !!label) %>%
        select(msg_list) %>%
        deframe() %>%
        unlist()
}

6. Geht einmal Schritt für Schritt durch, was diese Funktion macht, und erläutert, was in den einzelnen Schritten passiert.

Diese neue Funktion `create_vocab()` wenden wir jetzt zweimal an, und zwar einmal auf das Label `ham` und auf das Label `spam`:

In [None]:
vocab_ham <- create_vocab(train_spam, "ham")
vocab_spam <- create_vocab(train_spam, "spam") 

Wir können jetzt die neu erzeugten Vokabulare `vocab_ham` und `vocab_spam` zu unserem allgemeinen Vokabular `vocab` hinzufügen. Für Wörter, die bei einem der beiden Label nicht auftauchen, wird standardmäßig ein `NA` eingetragen. Das `NA` ersetzen wir direkt mit `0`.

In [None]:
vocab <- table(vocab_ham) %>%
    as_tibble() %>%
    rename(n_ham = n) %>%
    left_join(vocab, ., by = c("word" = "vocab_ham")) # the dot in this line represents the current data objekt of the pipe

vocab <- table(vocab_spam) %>%
    tibble::as_tibble() %>%
    rename(n_spam = n) %>%
    left_join(vocab, ., by = c("word" = "vocab_spam")) %>%
    replace_na(list(n_ham = 0, n_spam = 0))

vocab %>% glimpse()

Das wird ja schon etwas übersichtlicher! Der Code fügt dem Vokabular zwei extra Spalten `n_ham` und `n_spam` hinzu. In diesen ist für jedes Wort die Information enthalten, wie häufig es in SMS die als "ham" bzw. "spam" gelabelt wurden, enthalten ist. Diese Infos brauchen wir später für die Wahrscheinlichkeitsberechnung im Klassifikator. 

An der Ausgabe oben können wir bspw. sehen, dass `_longnum_", also lange Zahlenfolgen, sehr viel häufiger in Spam-Nachrichten enthalten sind als in normalen SMS (263 Mal vs 20 Mal). 

Genaue Informationen über die Anzahl und Wahrscheinlichkeiten von `ham` und `spam` im Trainingsdatensatz brauchen wir für unseren Klassifikator ohnehin. Wir berechnen sie in der nächsten Zelle:

In [None]:
word_n <- c(
    "unique" = nrow(vocab),
    "ham" = length(vocab_ham),
    "spam" = length(vocab_spam)
    ) %>%
    print()

class_probs <- train_spam %>%
    pull(label) %>% # uns interessiert nur die Spalte label
    table() %>%
    prop.table()

class_probs

Tatsächlich, der Anteil an Spam ist auch im Trainingsdatensatz genauso gering wie im Gesamtdatensatz. Die zufällige Aufteilung in Trainings- und Testdaten hat also funktioniert. Die Häufung von langen Zahlenketten in Spam-Nachrichten ist also tatsächlich auffällig und ungewöhnlich. Sie ist jedoch auch leicht erklärbar: Vermutlich sollen die Adressat:innen des Spams dazu verleitet werden, eine bestimmte Telefonnummer anzurufen oder es ist von großen Geldsummen die Rede. Das ist ein guter Plausibilitätscheck für unsere Daten und die Datenaufbereitung!

7. Wieviele einzigartige Wörter sind insgesamt in unserem Vokabular vorhanden?

Ganz nebenbei sind wir nach diesen Vorbereitungsarbeiten auch schon relativ nahe an unserem Klassifikator! In einem letzten Schritt müssen wir noch die Wortwahrscheinlichkeiten (abhängig von der Gesamtmenge der Wörter) berechnen. Dafür schreiben wir uns wieder eine eigene Funktion `word_probabilities()`. Diese Funktion setzt die Anzahl eines einzelnen Wortes in Relation mit der gesamten labelspezifischen Anzahl. Außerdem haben wir **Laplacian smoothing** hinzugefügt, damit das Ergebnis niemals 0 wird! Da wir später mit Produkten arbeiten, sollte die Wahrscheinlichkeit nie 0 sein!

In [None]:
word_probabilities <- function(n_word, n_category, n_vocab, smooth = 1) {
    probability <- (n_word + smooth) / (n_category + smooth * n_vocab)
}

Diese Wahrscheinlichkeitsberechnung wenden wir jetzt auf unser Vokabular `vocab` an und erzeugen zwei weitere Spalten `prob_ham` und `prob_spam`. Dafür benutzen wir die Funktion `rowwise()` aus `dplyr`, um die Berechnung der Wahrscheinlichkeiten pro Zeile anzuwenden!

In [None]:
vocab <- vocab %>%
    rowwise() %>% # group dataframe rowwise
    mutate(
        prob_ham = word_probabilities(n_ham, word_n[["ham"]], word_n[["unique"]]),
        prob_spam = word_probabilities(n_spam, word_n[["spam"]], word_n[["unique"]])
    ) %>%
    ungroup() %>% # undo rowwise grouping
    glimpse()

Perfekt! In den beiden `prob_`-Spalten steht jetzt für jedes Wort eine Wahrscheinlichkeit dafür, dass es in Spam- oder Ham-Nachrichten vorkommt. 

> Die Zahlen in den Spalten sind hier in R´s wissenschaftlicher Schreibweise dargestellt. e-04 bedeutet beispielsweise "nimm die Zahl die vor dem e steht mit 0.0001 mal" (z. B. 4,026074e-04 = 0,0004026074). Je negativer die Zahl hinter dem e, desto kleiner also die Wahrscheinlichkeit des Wortes in der Klasse.

Warum sind die Wahrscheinlichkeiten so klein? Wir haben ein speziell auf unsere Trainings-Daten angepasstes Vokabular entwickelt, das für jedes Wort in Bezug auf alle im Datensatz existierenden Worte in der jeweiligen Spalte einen Wert ausgibt und es sind eben viele Worte, auf die die Wahrscheinlichkeiten aufgeteilt werden müssen. In der Summe ergibt sich für jede Spalte der Wert 1. 

In [None]:
sum(vocab$prob_ham) # should be 1
sum(vocab$prob_spam) # should be 1

Wir haben jetzt ein nach `ham` und `spam` gelabeltes Vokabular mit Häufigkeiten und Wahrscheinlichkeiten erstellt. Damit können wir zum nächsten Schritt übergehen, und zwar einen Naive Bayes Klassifikator zu erstellen und zu trainieren! 

<div style="background-color: #efe3fd"><h1>Präsenzteil</h1></div> 

## Daten explorieren und vorbereiten

### Explorative Statistik

Bevor wir jetzt mit den Naive Bayes Klassifikator weitermachen – wir haben die explorative Statistik ganz vergessen!

Daher wollen wir an dieser Stelle nochmal ein paar praktische Visualisierungen erstellen. Dafür eignen sich z. B. ein Histogramm über die Worthäufigkeiten und eine sogenannte Wordcloud. 

Mithilfe von `(p1 | p2)` können wir die beiden Plots nebeneinander darstellen. Das ermöglicht uns das Paket `patchwork`, von dem weiter oben bereits die Rede war.

In [None]:
p1 <- vocab %>%
    arrange(desc(n)) %>%  # Sort by frequency in descending order
    top_n(20, n) %>%
ggplot(aes(x = reorder(word, n), y = n)) + 
    geom_col() +  # geom_col is used for creating bar plots
    coord_flip() +  # Flip coordinates to have words on the y-axis
    labs(x = "Word", y = "Frequency", title = "Top 20 Most Frequent Words") +
    theme_minimal(base_size = 25)  # Use a minimal theme for a clean look

p2 <- vocab %>%
    top_n(30, n) %>%
    ggplot(aes(label = word, size = n, color = n)) +
    geom_text_wordcloud(area_corr = 0.5, rm_outside = FALSE) +
    scale_size_area(max_size = 30) +  # 'max_size' can increase the size of the largest word
    scale_color_gradient(low = "blue", high = "red") +  # Use a color gradient from blue to red
    theme_void()  # This removes axes, backgrounds, etc.

(p1 | p2)

Die häufigsten Wörter sind solche wie "to", "you", "the", "and", usw. Das sind sogenannte **stopwords**. Für eine aussagekräftigere Analyse könnten wir diese noch "aussortieren", also aus den Daten herausfiltern. Dafür können wir die Tabelle `stop_words` aus dem Paket `tidytext` benutzen. Keine Sorge, das dient hier nur der Vollständigkeit – es ist vielleicht hilfreich, wenn ihr so etwas schon mal gesehen habt!

In [None]:
data(stop_words)

p1 <- vocab %>%
    anti_join(stop_words, by = "word") %>%
    arrange(desc(n)) %>%  # Sort by frequency in descending order
    top_n(20, n) %>%
ggplot(aes(x = reorder(word, n), y = n)) + 
    geom_col() +  # geom_col is used for creating bar plots
    coord_flip() +  # Flip coordinates to have words on the y-axis
    labs(x = "Word", y = "Frequency", title = "Top 20 Most Frequent Words") +
    theme_minimal(base_size = 25)  # Use a minimal theme for a clean look

p2 <- vocab %>%
    anti_join(stop_words, by = "word") %>%
    top_n(15, n) %>%
    ggplot(aes(label = word, size = n, color = n)) +
    geom_text_wordcloud(area_corr = 0.5, rm_outside = FALSE) +
    scale_size_area(max_size = 30) +  # 'max_size' can increase the size of the largest word
    scale_color_gradient(low = "blue", high = "red") +  # Use a color gradient from blue to red
    theme_void()  # This removes axes, backgrounds, etc.

(p1 | p2)

8. Vergleicht Version 1 und Version 2 (ohne stopwords) miteinander.

9. Wie sieht das ganze aus, wenn ihr den gleichen Graphen getrennt für die Labels `ham` und `spam` erstellt?

## Modell trainieren

Jetzt geht es los! Im nächsten Schritt schreiben wir eine neue Funktion `classifier()`, welche folgende Argumente annimmt:

* `msg`: Die Textnachricht, die klassifiziert werden soll
* `prob_df`: Ein Dataframe mit Wahrscheinlichkeiten für einzelne Wörter (also in unserem Fall das oben erzeugte Vokabular `vocab`)
* `p_ham = 0.5`: Baseline Wahrscheinlichkeit für `ham`
* `p_spam = 0.5`: Baseline Wahrscheinlichkeit für `spam`

> Kurzer Disclaimer: wir schreiben im Folgenden unser Modell als eigene Funktion. Bisher haben wir ja immer vorprogrammierte Modelle aus Paketen genommen. Auch `naiveBayes()` gibt es als Modell, z. B. aus dem Paket `e1071`. Falls euch dieser Schritt hier viel zu kompliziert ist, könnt ihr ihn auch überspringen und die Funktion als Blackbox betrachten, bei der ihr zwar nicht genau wisst, wie sie funktioniert, aber annehmen könnt, dass sie funktioniert! Und falls ihr interessiert seid, versucht gerne die einzelnen Schritte der Funktion nachzuvollziehen!

Dann werden die folgenden Schritte durchlaufen:

1. Der `classifier()` säubert die `msg` zunächst mit unser Hilfsfunktion `string_cleaner()` und erzeugt dann einzelne Elemente daraus.
2. Für jedes Element aus der gesäuberten Nachricht wird im Vokabular `vocab` nachgeschlagen, welche Wahrscheinlichkeiten für dieses Wort für `ham` und `spam` vorliegen.
3. Wenn das Wort nicht im Vokabular vorkommt, wird als Klassifizierung `unknown` ausgewählt. Ansonsten folgt Schritt 4.
4. Als nächstes wird ein `tibble` erzeugt, welcher für jedes Wort der Nachricht `msg` eine eigene Zeile enthält. In jeder Zeile stehen die Wahrscheinlichkeiten, dass das Wort im `spam` oder `ham` Vokabular auftaucht.
5. In diesem Schritt werden alle Wahrscheinlichkeiten pro `spam` und `ham` multipliziert, um die Gesamtwahrscheinlichkeit der Nachricht zu ermitteln. Dies entspricht dem ersten Teil der Näherung aus der Vorlesung, indem alle einzelnen Wortwahrscheinlichkeiten miteinander multipliziert werden.
6. Wir multiplizieren die berechneten Wahrscheinlichkeiten nochmal mit den Gewichtungen `p_ham` und `p_spam`. Das entspricht dem zweiten Teil der Näherung aus der Vorlesung, bei dem die Wortwahrscheinlichkeit als Anteil aus dem gesamten Wortschatz dazu multipliziert wird.
7. Wenn die Wahrscheinlichkeit für das Label `spam` größer ist als die für `ham`, wird die Nachricht als `spam` klassifiziert. Ist sie kleiner klassifiziert das Modell `ham`.
8. Letzter Schritt: die berechnete Klassifizierung wird zurückgeben.

In [None]:
# This defines a function called 'classifier' that takes in four parameters:
# 'msg' is the message to classify,
# 'prob_df' is a data frame with the probabilities of each word being ham or spam,
# 'p_ham' is the prior probability of a message being 'ham' (not spam),
# 'p_spam' is the prior probability of a message being 'spam'.
classifier <- function(msg, prob_df, p_ham = 0.5, p_spam = 0.5) {
    
    # Schritt 1: Clean the input message using 'string_cleaner()' and then unlist the result.
    clean_message <- string_cleaner(msg) %>% 
        unlist()

    # Schritt 2: For each word in the cleaned message, look up the probabilities of
    # that word being ham or spam from the 'prob_df' data frame. It uses 'sapply' to 
    # apply the function to each word, 'filter' to select the rows where the word 
    # matches, and 'select' to keep only the columns with ham and spam probabilities.
    probs <- sapply(clean_message, function(x) {
        filter(prob_df, word == x) %>%
        select(prob_ham, prob_spam)
        })

    # Schritt 3: Check if the 'probs' object exists and has dimensions. If it doesn't,
    # the message is classified as 'unknown'. No further calculation needed.
    if (is.null(dim(probs))) {
       classification <- "unknown"
       return(classification)
    }

    # Schritt 4: Convert the matrix of probabilities into a tibble with one column for ham and one for spam. 
    # Each row corresponds to the probabilities for each word in the message.
    classification <- tibble(
         ham = as.numeric(probs[1, ]),
         spam = as.numeric(probs[2, ])) %>%

    # Schritt 5: Multiply all the ham probabilities together, and all the spam probabilities 
    # together, to get the overall probability of the message being ham or spam.
    summarise(across(everything(), ~prod(.x, na.rm = TRUE))) %>%

    # Schritt 6: Adjust these probabilities by the prior probabilities of any message being ham or spam.
    mutate(
        ham = ham * p_ham,
        spam = spam * p_spam) %>%

    # Schritt 7: Summarise the results into a single classification. 
    # If the probability of ham is higher, classify as 'ham'.
    # If spam is higher, classify as 'spam'.
    # If they are equal, it's 'unknown'.
    summarise(classification = case_when(
        spam <= ham ~ "ham",
        spam >  ham ~ "spam",
        TRUE ~ "unknown"
    )) %>%

    # Pull the classification from the tibble.
    pull(classification)
    
    # Schritt 8: Return the calculated classification
    return(classification)
}

## Modell evaluieren

<img src="https://yardstick.tidymodels.org/logo.png" alt="yardstick" width="100" align="right" />

Diese Klassifikatorfunktion `classifier()` können wir jetzt auf unseren Testdatensatz `test_spam` anwenden, um die Performance des Klassifikators zu evaluieren. Dafür wenden wir die Funktion `classifier()` auf jedes Element der Spalte `msg` in `test_spam` an, und zwar mithilfe von `map()`.

> Achtung, das kann gut eine Minute dauern, da die Funktion für relative viele Nachrichten durchgerechnet wird.

In [None]:
spam_classification <- test_spam %>%
    pull(msg) %>%
    map(~ classifier(.x, vocab, class_probs[["ham"]], class_probs[["spam"]]))

Wir haben jetzt den kompletten Testdatensatz klassifiziert und können die vorhergesagten Labels mit den ursprünglichen Labels. Dafür fügen wir die vorhergesagten Werte aus `spam_classification` einfach als neue Spalte zum Testdatensatz `test_spam` dazu:

In [None]:
labels <- c("ham", "spam", "unknown")

results <- test_spam %>%
    mutate(
        label = factor(.$label, levels = labels),
        predicted = factor(spam_classification, levels = labels)) %>%
    glimpse()

Jetzt können wir wie gewohnt unsere Labels `label` mit der Vorhersage `predicted` vergleichen.

### Confusion matrix

Für einen schnellen Überblick können wir wie in den Übungen zuvor eine **Confusion Matrix** erstellen. Dafür können wir wieder die Funktion `conf_mat()` aus dem Paket `yardstick` benutzen, welches wir ebenfalls mit `tidymodels` geladen haben.

In [None]:
results %>%
    conf_mat(truth = label, estimate = predicted)

10. Wieviele Nachrichten wurden richtig vorhergesagt? Wieviele falsch?

### Metrics

Wir können jetzt wieder die Accuracy berechnen:

In [None]:
metrics <- metric_set(accuracy)

results %>%
    metrics(truth = label, estimate = predicted) %>%
    print()

Unser Klassifikator kommt fast auf 100%! 

### Vergleich mit "einfachem" Modell

Wir können das vergleichen mit dem "einfachsten" Modell, was wir uns vorstellen können – einfach alles als `ham` zu labeln.

In [None]:
results %>%    
    mutate(all_ham = "ham") %>% 
    mutate(all_ham = factor(all_ham, levels = labels)) %>% 
    metrics(truth = label, estimate = all_ham) %>%
    print()

Es liegt auf der Hand, dass dabei einfach die Häufigkeit des Labels `ham` im Testdatensatz bei rauskommt, etwa 86%, denn in den jestlichen knapp 14 Prozent der fälle macht dieses "Pauschal-Modell" ja Fehler, weil es den Spam einfach immer übersieht. 

Wir erreichen also durch unseren gerade gebauten Spam-Filter eine wesentliche Verbesserung von 86% auf 98%!

## Modell verbessern

Diese Übung war schon recht lang und teilweise ganz schön kompliziert! Daher werden wir an dieser Stelle nicht detailliert darauf eingehen, wie wir das Modell noch verbessern könnten. Trotzdem seien einige Punkte gesagt:

* Wir erinnern uns, dass wir an einer Stelle weiter oben den Laplacian `smooth` gesetzt hatten. Mit diesem Wert können wir etwas herumspielen und schauen, ob sich das Ergebnis verbessert.
* Außerdem könnte ein ausgefeilteres Preprocessing helfen, also eine bessere Vorbereitung der Daten für unsere Analyse. Z. B. könnten wir vorab Wörter mit extrem geringen Wahrscheinlichkeiten herausfiltern (z. B. welche die insgesamt nur 1-2 mal im  Datensatz auftauchen).
* Ganz allgemein gesprochen profitiert ein Spam Filter (wie viele andere Machine Learning Algorithmen) von einer verbesserten Datengrundlage, sprich einer größeren Menge an gelabelten Trainingsdaten. Unser Filter trainiert lediglich auf ein paar tausend Textnachrichten, was natürlich nicht besonders viel ist!

Interessant wäre auch ein Vergleich von unserer eigens geschriebenen Funktion und Naive Bayes-Implementationen aus anderen Paketen, wie z. B. `naiveBayes()` aus dem Paket `e1071`. 

## Real-world scenario

Wie können wir uns den Spam Filter denn jetzt eigentlich zunutze machen für eine neue Nachricht, die wir erhalten?

Ganz einfach, wir haben ja unseren Klassifikator `classifier()` und unsere Datengrundlage über das Vokabular `vocab`. Wir können also neue Nachrichten, z. B. `new_msg`, einfach unserem Klassifikator übergeben und dieser gibt uns dann 'ham' oder 'spam' zurück:

In [None]:
# How can I now check new messages?
new_msg = "many chances to win free cash! dial 017623448234"
classifier(new_msg, vocab, class_probs[["ham"]], class_probs[["spam"]])

In [None]:
new_msg = "hey, i will be late, don't wait for dinner!"
classifier(new_msg, vocab, class_probs[["ham"]], class_probs[["spam"]])

## Zusammenfassung

In dieser Übung haben wir einen ersten Einblick in die Arbeit mit Textdaten bekommen und haben einen einfachen Spam Filter implementiert. Dieser funktioniert auf unseren Testdaten erstaunlich gut (fast 100% Genauigkeit) und schafft es, den Spam von den authentischen Nachrichten zu trennen! Teilweise wurde es ganz schön kompliziert, da wir den eigentlichen Klassifikator des Modells als eigene Funktion `classifier()` geschrieben haben! Das ist etwas Neues, da wir bisher immer bereits vorgeschriebene Modelle genutzt haben. Auch beim Spam Filter haben wir den klassischen Ablauf der Datenvorbereitung, des Trainings und der Evaluation genutzt.

Wir werden im Laufe der Übungen nochmal auf Textverarbeitung eingehen, was ein sehr spannendes Feld des maschinellen Lernens ist. Generative Künstliche Intelligenzen wie ChatGPT sind letztendlich auch aus Fragestellungen des maschinellen Lernens im Bereich der Textverarbeitung entstanden, auch wenn sie natürlich extrem komplexe Machine Learning Algorithmen mit einer riesigen Datengrundlage sind.