# K-means clustering

In der 10. Situng geht es um **K-means Clustering**, ein Klassifizierungs-Algorithmus im maschinellen Lernen, der auf **Unsupervised Learning** (unüberwachten Lernen) basiert. Dadurch unterscheidet er sich von den bisher kennengelernten Modellen, die alle auf Supervised Learning beruhen. K-means Clustering versucht bei einer großen Menge unstrukturierter Daten die einzelnen Datenpunkte in **Cluster** (Gruppen) aufzuteilen. Ähnliche Datenpunkte werden dabei in demselben Cluster zusammengefasst. Die Kategorien der Datenpunkte sind vorher unbekannt, daher können wir auch kein Supervised Learning nutzen. K-means versucht dabei, natürliche Strukturen oder Muster in dem Datensatz zu entdecken und zu interpretieren.

Der Algorithmus stammt ursprünglich aus den 1960er Jahren, ist also einer der früheren ML-Algorithmen.

In [None]:
pacman::p_load(tidyverse, tidymodels, janitor, devtools, ggrepel)
options(repr.plot.width = 16, repr.plot.height = 8) # Jupyter display options
set.seed(123) # for reproducibility

## Wie funktioniert K-means Clustering?

Die mathematischen Grundlagen für K-means werden in der Vorlesung hergeleitet. Der Algorithmus lässt sich aber relativ einfach visualisieren und wird dadurch anschaulich nachvollziehbar.

1. Schaut euch die folgenden beiden Gifs an und versucht, die einzelnen Schritte des Algorithmus qualitativ zu beschreiben.

Artwork by @allisonhorst

<a title="Artwork by @allisonhorst" href="https://www.tidymodels.org/learn/statistics/k-means/kmeans.gif"><img width="50%" alt="K-means convergence illustrated by @allisonhorst" src="https://www.tidymodels.org/learn/statistics/k-means/kmeans.gif"></a>

<a href="https://commons.wikimedia.org/wiki/File:K-means_convergence.gif">Chire</a>, <a href="https://creativecommons.org/licenses/by-sa/4.0">CC BY-SA 4.0</a>, via Wikimedia Commons

<a title="Chire, CC BY-SA 4.0 &lt;https://creativecommons.org/licenses/by-sa/4.0&gt;, via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File:K-means_convergence.gif"><img width="30%" alt="K-means convergence" src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/K-means_convergence.gif/512px-K-means_convergence.gif"></a>

## Einfache Einführung

Zunächst werden wir mit einem sehr einfachen Beispiel anfangen. Dafür generieren wir uns selbst zweidimensionale Zufallsdaten aus drei Clustern. Die einzelnen Datenpunkte in jedem Cluster folgen einer multivariaten Gauß-Verteilung. Wir merken uns die Label der Cluster, werden diese aber nicht im Training verwenden! Der Algorithmus kennt also nur die zufällig generierten Datenpunkte **ohne** Label und versucht innerhalb dieser ein Muster zu erkennen!

> <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/59/Multivariate_normal_density.png/450px-Multivariate_normal_density.png"  alt="zweidimensionale Gauss-Verteilung" width="150" align="right" > Eine multivariate Gauß-Verteilung ("Normalverteilung") ist eine Gauß-Verteilung in mehreren Dimensionen. Vielleicht hilft euch das Bild rechts (Bildquelle: <a href="https://de.wikipedia.org/wiki/Mehrdimensionale_Normalverteilung">Wikipedia</a>), damit ihr euch eine Gauß-Verteilung für zwei Variablen vorstellen könnt. Die Gauß-Verteilung selbst wird in der Vorlesung ausführlich erklärt. 


### Zufällige Datenpunkte generieren

Um die Datenpunkte zu generieren, erzeugen wir zunächst einen `tibble` namens `centers` aus 3 Reihen. Jede Reihe enthält die "Metadaten" eines Clusters, nämlich das Label `cluster`, die Anzahl der Punkte `num_points` sowie die Koordinaten `x1` und `x2` für die beiden Dimensionen.

> Die Erzeugung der zufälligen Daten müsst ihr nicht in jedem Detail nachvollziehen, uns geht es ja eigentlich eher darum, wie wir dann den K-means Algorithmus darauf anwenden.

In [None]:
centers <- tibble(
    cluster = factor(1:3),         
    num_points = c(100, 150, 50),  # number points in each cluster
    x1 = c(5, 0, -3),              # x1 coordinate of cluster center
    x2 = c(-1, 1, -2)              # x2 coordinate of cluster center
    ) %>%
    glimpse()

Anschließend müssen wir die Datenpunkte generieren! 

Für die beiden Dimensionen `x1` und `x2` wird mithilfe von `mutate()` und `map2()` eine Liste an zufällig erzeugten Datenpunkten generiert. `rnorm` erzeugt für uns dabei zufällige Werte, die einer Gauß-Verteilung folgen.

In [None]:
labelled_points <- centers %>%
    mutate(
        x1 = map2(num_points, x1, rnorm), # generate data points in dimension x1
        x2 = map2(num_points, x2, rnorm)  # generate data points in dimension x2
    ) %>% 
    glimpse()

Anschließend können wir mit `unnest()` die Liste **entpacken**.

In [None]:
labelled_points <- labelled_points %>%
    select(-num_points) %>% 
    unnest(cols = c(x1, x2)) %>% # unnest the data points in both dimensions
    glimpse()

So sieht es aus wenn wir die zufällig generierten Datenpunkte visualisieren:

In [None]:
labelled_points %>%
    ggplot(aes(x1, x2, color = cluster)) +
    geom_point(size = 5) +
    theme_minimal(base_size = 20)

Soweit so gut! Wir haben jetzt drei Cluster erzeugt und schon rein optisch lassen sich diese sehr gut trennen, wobei es auch einzelne Datenpunkte gibt, die räumlich recht weit von ihrem Cluster entfernt sind.

### Clustering mit K-means

Um K-means zu testen, müssen wir allerdings die Information über die Cluster entfernen! K-means soll ja nicht wissen, welcher Punkt zu welchem Cluster gehört.

Das machen wir wie gewohnt mit `select()`.

In [None]:
points <- labelled_points %>% 
    select(-cluster)

Visualisiert sieht das Ganze dann folgendermaßen aus. 

Ohne die Färbung wird es direkt schon etwas schwieriger fürs menschliche Auge, Clusterstrukturen zu erkennen. Der rechte Cluster ist immer noch relativ eindeutig, aber die Datenpunkte der linken beiden Cluster verschwimmen schon etwas mehr.

In [None]:
points %>%
    ggplot(aes(x1, x2)) +
    geom_point(size = 5) +
    theme_minimal(base_size = 20)

K-means ist in R bereits als eigene Funktion `kmeans()` implementiert als Teil des Paketes `stats`. 

Die einzigen zwingenden Argumente sind der Datensatz (in unserem Fall die ungelabelten Datenpunkte `points`) sowie die Anzahl der **centers**, auch als **k-value** $k$ bekannt. Wir sind selbst dafür verantwortlich, den angemessenen Wert für $k$ festzulegen, bzw. können wir können versuchen, durch verschiedene Methoden einen guten Wert herauszufinden. K-means wählt selber die Startpunkte für den Algorithmus und versucht dann, zu konvergieren. Das $k$ steht dabei für die Anzahl der Cluster.

In diesem Fall wissen wir ja, dass in den Daten drei Cluster enthalten sind - haben wir ja selbst oben so festgelegt und die Daten entsprechend generiert. Deshalb sagen wir K-means einfach direkt, dass $k = 3$ ist.

In [None]:
kclust <- points %>%
    kmeans(centers = 3)

Okay, schauen wir doch mal, was jetzt in unserem Modell gespeichert ist.

In [None]:
kclust

Hui, das sind eine ganze Menge Informationen.

R gibt uns eine ausführliche Zusammenfassung über die Größe der Cluster (**sizes**), die Koordinaten der gefundenen Cluster (**Cluster means**),  sowie den **Clustering vector**, der für jeden Datenpunkt den Cluster enthält, dem dieser zugeordnet wurde.

Außerdem erhalten wir eine wichtige Information über die Güte des Clusterings. **Within cluster sum of squares by cluster** sagt uns nämlich aus, wie groß die "Summe der quadrierten Abweichungen vom jeweiligen Cluster-Zerntrum" pro Cluster ist.  Für jeden Punkt wird die Distanz zum Cluster-Zerntrum berechnet. Diese wird dann quadriert und über alle Punkte des Clusters hinweg aufsummiert. Das ist so ähnlich, wie bei der Standardabweichung.

Den Wert **Within cluster sum of squares by cluster** versucht K-means zu minimieren. Eine niedrigerer Wert bedeutet, dass die Punkte im Cluster alle am Zentrum sind. Wir können über diese Zahlen also eine Einschätzung erhalten, wie kompakt die einzelnen Cluster zusammenliegen.

In Klammern unter den Werten für die einzelnen Cluster befindet sich noch eine sehr relevante Information über die Güte des Modells insgesamt, nämlich **between_SS / total_SS**. "SS" steht hier für "sum of squares". Der Wert drückt aus, wieviel der Varianz in den Daten durch die Zugehörigkeit zu den Clustern erklärt wird. Ein hoher Wert spricht für ein gutes Modell.

### `augment()`, `tidy()` and `glance()`

Bis hierhin war das Modellieren relativ einfach. Im Gegensatz zum Supervised Learning brauchen wir uns nicht um Trainings- und Testdaten zu kümmern. Außerdem ist es ganz praktisch, dass `kmeans()` direkt in R enthalten ist. 

<img src="https://broom.tidymodels.org/logo.png" alt="broom" width="100" align="right" /> Allerdings haben wir auch die Möglichkeit, die Evaluation des Modells etwas zu formalisieren. Dafür enthält `tidymodels` das Paket `broom`.

`broom` kennt einige Funktionen, mit denen wir komfortabel die verschiedenen Informationen unseres Modells ausgeben können. Diese werden wir in den nächsten Schritten kennenlernen.

Mit `augment()` können wir z.B. die neu erzeugten Labels (also die Informationen über die vom Modell berechneten Cluster) direkt mit den alten, ungelabelten Daten verknüpfen.

In [None]:
kclust %>% # take the cluster model
    augment(points) %>% # match it to the data points
    head(5)

Das ist praktisch, wenn wir die geclusterten Daten weiterverarbeiten wollen. Mit `augment()` können wir das mit einem Einzeiler tun.

Die Funktion `tidy()` gibt uns eine Zusammenfassung auf dem Level der Cluster aus. Der Output ist relativ ähnlich zu dem Fall, dass wir einfach das Modell über `kclust` aufrufen. 

Der Vorteil von `tidy()` ist, dass die Zusammenfassung direkt in einem `tibble` ausgegeben wird und dadurch innerhalb des Tidyverses einfacher weiterzuverarbeiten ist.

In [None]:
kclust %>% 
    tidy()

Auf der höchsten Ebene können wir `glance()` benutzen, um eine einzeilige Zusammenfassung des Modells zu erhalten.

In [None]:
kclust %>% 
    glance()

2. Was bedeuten die verschiedenen Variablen, die ihr mit `glance()` ausgegeben bekommt? Schaut dafür in der Dokumentation nach oder fragt eine Suchmaschine/Chatbot. (`totss`, `tot.withinss`, `betweenss`, `iter`).

3. Für zukünftige Übungen: was passiert, wenn ihr `augment()`, `tidy()` und `glance()` auf andere Modelle anwendet? Behaltet das mal in Kopf oder macht euch hier Notizen und probiert es beim nächsten Termin in der Wiederholung aus.

### Visualisierung

Jetzt wollen wir das Modell nochmal visualisieren. Dafür geben wir uns zunächst die vorhergesagten Datenpunkte mit `augment()` aus und benennen die Vorhersage der Cluster in `cluster_prediction` um.

Mit einem [`left_join()`](https://dplyr.tidyverse.org/reference/mutate-joins.html) können wir dann die tatsächlichen Cluster aus unserem ursprünglichen Datensatz `labelled_points` an die Daten anfügen. Zur besseren Übersichtlichkeit benennen wir auch hier die Variable um, und zwar in `cluster_true`.

In [None]:
results <- kclust %>%
    augment(points) %>%
    rename(cluster_prediction = .cluster) %>%
    left_join(labelled_points, by = join_by(x1, x2)) %>%
    rename(cluster_true = cluster) %>%
    #bind_cols(truth = labelled_points$cluster) %>%
    glimpse()

Jetzt können wir das Modell und den ursprünglichen Datensatz direkt vergleichen. Dafür plotten wir die Datenpunkte und übergeben den vorhergesagten Wert `prediction` als Form und den tatsächlichen Wert `truth` als Farbe.

In [None]:
results %>%
    ggplot(aes(x1, x2, color = cluster_true, shape = cluster_prediction)) +
    geom_point(size = 5) +
    theme_minimal(base_size = 20)

4. Wie interpretiert ihr die Grafik? Welche Datenpunkte wurden vom Algorithmus falsch zugeordnet?

<div style="background-color: #efe3fd"><h1>Präsenzteil</h1></div> 

## Einfache Einführung

### Increasing k

Die Zusammenfassungen mit `augment()`, `tidy()` und `glance()` werden erst so richtig praktisch, wenn wir sie in Kombinationen mit weiteren Tools von `dplyr` verwenden. Wir können z.B. mal annehmen, dass wir die richtige Anzahl der Cluster $k$ nicht kennen, also eine Analyse für verschiedene Werte von $k$ vornehmen wollen. 

Mithilfe von `map()` könnten wir dann sehr schnell über Werte von $k$, z.B. von 1 bis 9, iterieren und unsere Ergebnisse in einem einzigen, großen `tibble` abspeichern. 

> Die Funktion `map()` ist wie eine "Stapelverarbeitung": Sie wendet eine andere Funktion auf eine Reihe von Objekten an und gibt dann die durch die Funktion veränderten Objekte zurück. Für diejenigen unter euch, die bereits etwas Programmier-Erfahrung haben: Das ist wie eine Schleife nur schneller, und man kann `map()` auch in der Pipe einsetzen.

In [None]:
kclusts <- tibble(k = 1:9) %>%
    mutate(
        kclust = map(k, ~kmeans(points, .x)),
        tidied = map(kclust, tidy),
        glanced = map(kclust, glance),
        augmented = map(kclust, augment, points)
    ) %>%
    glimpse()

Huch, dass sieht ja seltsam aus! gar nicht wie ein normaler Datensatz. Da sind eckige und spitze Klammern und der Datentyp ist `list`. Der Grund ist, dass die einzelnen Outputs von `tidy()`, `glance()` und `augment()` als Listen innerhalb des Datensatzes `kclusts` vorliegen. 

> Dass ein Datensatz in den einzelnen Zellen Listen oder sogar andere Datensätze enthalten kann, kennt man nicht unbedingt aus anderen Programmen (z.B. Excel). Es ist ein spezielles Feature des `tibble`, das sehr praktisch sein kann.

Wir können die Listen mit `unnest()` entpacken und dann in eigenen Objekten speichern.

In [None]:
clusters <- kclusts %>%
    unnest(cols = c(tidied))

assignments <- kclusts %>% 
    unnest(cols = c(augmented))

clusterings <- kclusts %>%
    unnest(cols = c(glanced))

Im nächsten Schritt sehen wir jetzt die "Magie" von `tidymodels`. 

Mit einer einfachen Pipe können wir die verschiedenen Modelle für $k=1$ bis $k=9$ in einem einzigen Diagramm visualisieren. Wir erhalten relativ schnell einen guten Überblick über die verschiedenen Werte von $k$ und können das Diagramm bereits zur ersten Einschätzung eines geeigneten Wertes von $k$ nutzen.

In [None]:
assignments %>%
    ggplot(aes(x = x1, y = x2)) +
    geom_point(aes(color = .cluster), alpha = 0.8) + 
    facet_wrap(~ k) +
    theme_minimal(base_size = 15) +
    geom_point(data = clusters, size = 10, shape = "x") # add data from tidy

5. Interpretiert das Diagramm. Welche Werte von $k$ haltet ihr am geeignetsten? Welche wären auch noch okay? Wie würdet ihr das begründen?

### Elbow-Method

Im Normalfall ist es gar nicht so leicht, die "richtige" Anzahl an Clustern zu bestimmen. Zudem funktioniert diese optische Methode ja auch nur gut, wenn wie im Beispiel genau zwei Variablen in das Clustering einfließen. In der Praxis fließen meist viel mehr Variablen ein. K-means kennt einige Verfahren zur Bestimmung von $k$, die mathematisch mehr oder weniger fundiert sind. Dazu gehören:

1. Elbow method
2. Silhouette method
3. Gap statistic

Diese werden detaillierter z.B. in diesem [Artikel](https://uc-r.github.io/kmeans_clustering) erklärt. 

Beispielhaft werden wir an dieser Stelle einmal kurz auf die **Elbow method** eingehen. Diese wird auch in der Vorlesung beschrieben und hergeleitet.

Weiter oben hatten wir ja auch für den Output der Funktion `glance()` ein eigenes Objekt `clusterings` erstellt. `clusterings` kommt uns jetzt zugute, weil wir für die Elbow method die **total within-cluster sum of square** (wss) anschauen können. 

Dieser Wert wird uns praktischerweise direkt von `glance()` ausgegeben, und zwar innerhalb von `kmeans()` benannt als `tot.withinss`. Wenn wir also `tot.withinss` gegen `k` plotten, erhalten wir folgenden Output:

In [None]:
clusterings %>%
    ggplot(aes(k, tot.withinss)) +
    geom_line(linewidth = 1) +
    geom_point(size = 5) +
    theme_minimal(base_size = 25) +
    scale_x_continuous(breaks = seq(1, 9, 1))

Eine Krümmung (englisch: bend), bzw. ein sogenannter Ellbogen, symbolisiert i.d.R. einen geeigneten Wert von $k$ für eine Clusterlösung. Dieser **bend** indiziert, dass das Hinzufügen weiterer Cluster das Modell nicht verbessert. In diesem Beispiel liegt der Ellbogen bei $k=3$, was ja mit unserer vorab generierten Anzahl der Cluster übereinstimmt.

Eine mathematische Herleitung dieser Aussage findet ihr z.B. unter

> [Tibshirani, R., Walther, G. & Hastie. T (2000). Estimating the Number of Clusters in a Dataset via the Gap Statistic. Journal of the Royal Statistical Society, Series B, 63(2), p. 411-423.](https://hastie.su.domains/Papers/gap.pdf)

In der Realität wird K-means vor allem bei großen, unstrukturierten Datenmengen eingesetzt, sodass ein Clustering nicht immer so perfekt funktioniert wie in diesem Beispiel. Es besteht dann eine große Unsicherheit dahingehend, wieviele Cluster man extrahieren soll. Dabei werden dann mathematische Verfahren zur Bestimmung von $k$, wie z.B. die Elbow method, wichtiger. Allerdings sollte man sich auch nicht ausschließlich auf die mathematischen Verfahren beziehen, sondern auch die Interpretierbarkeit der Clusterlösung im Auge behalten.

## Mario Kart

<img src="https://aldomann.github.io/mariokart/reference/figures/logo.png" alt="Mariokart" width="100" align="right" />Als nächstes Beispiel haben wir einen vielleicht eher ungewöhnlichen Datensatz über Charaktere und Vehikel des Konsolenspiels Mario Kart.

Die Dokumentation des Datensatzes ist unter https://aldomann.github.io/mariokart/ zu finden.

Wir können den Datensatz mithilfe von `devtools::install_github()` direkt als Paket installieren und anschließend laden.

In [None]:
devtools::install_github("aldomann/mariokart")
library(mariokart)

In diesem Beispiel analysieren wir den Datensatz `mk8_characters`. Dieser besteht aus 12 Variablen, wie `speed_normal`, `acceleration` oder `grip` mit verschiedenen Werten zwischen 2 und 5. Jede Zeile steht für einen Charakter, dessen Name in der Spalte `character` gespeichert ist, und jeder Charakter ist eine Gewichtsklasse `weight_class` zugeordnet.

Das ganze können wir uns auch einmal anschauen:

In [None]:
data(mk8_characters)

mk8_characters %>% glimpse()

Im Folgenden wollen wir versuchen, die Charaktere in Gewichtsklassen zu clustern. Auch in diesem Beispiel haben wir wieder den Vorteil dass die Gewichtsklassen im Datensatz bereits gelabelt sind, wir können unser Ergebnis also gut überprüfen!

Da wir $k$ noch nicht kennen, macht es Sinn, wieder dem Ansatz von oben zu folgen, und zunächst über die visuelle Analyse sowie die Elbow-Method einen geeigneten Wert für $k$ herauszusuchen. Dafür können wir im Prinzip einfach den Code von oben kopieren und ein paar kleine Änderungen vornehmen.

> 1. Wir müssen die maximale Anzahl der Iterationen von `kmeans()` hochsetzen, da der Algorithmus sonst nicht konvergiert. Das bedeutet die Anzahl der Durchläufe in denen die Punkte zu den Clusterzentren zugeordnet werden reicht nicht aus, um zu einer stabielen Lösung zu kommen. Wie brauchen mehr Durchläufe, z.B. 30. Das machen wir mit dem Argument `iter.max = 30`. Theoretisch können wir hier immer einen sehr hohen Wert einstellen, dann kann es bei sehr großen Datenmengen aber dazu kommen, dass der Algorithmus sehr lange braucht, um zu konvergieren. Daher wird hier i.d.R. eher ein niedrigerer Wert eingestellt, und nur wenn der Algorithmus nicht konvergiert, wird der Wert nach und nach hochgesetzt.
> 2. Außerdem funktioniert `kmeans()` nur mit numerischen Variablen. Die Variablen `weight_class` und `character` müssen wir also vor Anwendung von K-means mithilfe von `select()` noch aus dem Datensatz ausschließen!

Ansonsten ist der Code derselbe wie oben.

In [None]:
mk8_kclusts <- tibble(k = 1:9) %>%
    mutate(
        kclust = map(k, ~kmeans(mk8_characters %>% select(-weight_class, -character), .x, iter.max = 30)),
        tidied = map(kclust, tidy),
        glanced = map(kclust, glance),
        augmented = map(kclust, augment, mk8_characters)
    )

mk8_clusters <- mk8_kclusts %>%
    unnest(cols = c(tidied))

mk8_assignments <- mk8_kclusts %>% 
    unnest(cols = c(augmented))

mk8_clusterings <- mk8_kclusts %>%
    unnest(cols = c(glanced))

Das geht wieder schnell! Die Datenmengen sind natürlich auch sehr klein, aber K-means ist auch ein sehr schneller Algorithmus.

Jetzt wollen wir wieder mithilfe von `facet_wrap()` die Cluster für verschiedene Werte von $k$ darstellen, und außerdem das Diagramm für die Elbow-Method ausgeben. Da der Datensatz aus 12 numerischen Variablen besteht, müssen wir uns für die zweidimensionale Darstellung 2 Variablen raussuchen, die wir plotten können. In diesem Beispiel sind es `x = speed_normal` und `y = handling_normal`.

6. Was würde passieren, wenn ihr andere Variablen für `x` und `y` verwendet?

In [None]:
mk8_assignments %>%
    ggplot(aes(x = speed_normal, y = handling_normal)) +
    geom_point(aes(color = .cluster), alpha = 0.8, size = 5) + 
    theme_minimal(base_size = 15) +
    facet_wrap(~ k) +
    geom_point(data = mk8_clusters, size = 10, shape = "x") # add data from tidy

Für die Elbow-Method plotten wir wieder `tot.withinss` gegen `k`. 

7. Bei welchem $k$ seht ihr den Ellbogen?

In [None]:
mk8_clusterings %>%
    ggplot(aes(k, tot.withinss)) +
    geom_line(linewidth = 1) +
    geom_point(size = 5) +
    theme_minimal(base_size = 25)

Auch in diesem Beispiel scheint $k=3$ wieder ein geeigneter Wert für K-means zu sein.

### Evaluation

Wir erinnern uns – die ursprünglichen Daten sind ja mit der Gewichtsklasse `weight_class` gelabelt! Mal sehen, was für Gewichtsklassen das Spiel in Betracht zieht.

In [None]:
mk8_characters %>%
    distinct(weight_class) %>%
    print()

Na so ein Zufall. Auch das Spiel schlägt 3 Gewichtsklassen vor, nämlich `light`, `medium` und `heavy`. Wir können das ganze auch nochmal visualisieren und das Label `weight_class` wieder als `shape` darstellen (so wie in dem Beispiel von weiter oben mit den generierten Daten).

8. Geht den folgenden Code Zeile für Zeile durch, und überlegt, was jede Zeile macht.

In [None]:
mk8_assignments %>%
    filter(k == 3) %>%
    group_by(speed_normal, handling_normal, weight_class) %>%
    slice(1) %>%
    ggplot(aes(x = speed_normal, y = handling_normal, label = character, shape = weight_class, color = .cluster)) +
    geom_point(size = 5) +
    ggrepel::geom_label_repel(seed = 1, show.legend = FALSE) +
    theme_minimal(base_size = 25)

9. Wie gut funktioniert das Clustering? Wurden alle Charaktere der richtigen Gewichtsklasse zugeordnet?
10. Wie sieht das Diagramm aus, wenn ihr zwei andere Variablen gegenüber plottet? An welchen Stellen müsst ihr die Variablen austauschen?

In [None]:
mk8_assignments %>%
    filter(k == 3) %>%
    group_by(acceleration, weight, weight_class) %>%
    slice(1) %>%
    ggplot(aes(x = acceleration, y = weight, label = character, shape = weight_class, color = .cluster)) +
    geom_point(size = 5) +
    ggrepel::geom_label_repel(seed = 1, show.legend = FALSE) +
    theme_minimal(base_size = 25)

Der Mario Kart Datensatz ist ziemlich klein, hat uns aber trotzdem anschaulich gezeigt, wie K-means verschiedene Cluster (oder Klassen) innerhalb eines unstrukturierten Datensatzes finden kann.

In der Realität würden wir K-means eher auf einen größeren Datensatz anwenden, der vermutlich auch viel weniger strukturiert ist als die beiden Beispiele, die wir bisher betrachtet haben. Eine Analyse eines umfangreichen, unstrukturierten Datensatzes ist aber oft nicht ganz einfach, weil selten klar ist, welche Cluster überhaupt sinnvoll sind.

Nur weil ein mathematisches Modell große Datenmengen clustern kann, heißt das nicht immer, dass wir die Cluster auch sinnvoll und logisch mit qualitativen Aussagen verknüpfen können!

Diese Übung hatte bisher schon recht viel neuen Input. Im Folgenden gibt es noch ein zweites Beispiel, welches recht analog zu den Mario Kart Daten funktioniert. Falls ihr Lust habt, könnt ihr versuchen, dieses noch durchzurechnen. Der Teil ist aber optional!

## iris k-means 

Einer der frühesten Datensätze für Klassifizierungsmethoden stammt von Fisher aus dem Jahr 1936 und beinhaltet Daten über verschiedene Arten der Schwertlilie (aka Iris).

11. Ladet den Datensatz aus dem Verzeichnis `"data/iris/iris.data"`. Benutzt `janitor`, um die Spaltenbezeichnungen möglichst sauber zu halten. Welche Variablen sind im Datensatz vorhanden und welche davon würden wir für ein K-means Clustering verwenden?

12. Erstellt wie in den vorangegangenen Beispielen eine Auswertung für verschiedene Werte von $k$ mithilfe der Elbow-Method. Welches $k$ ist für unser Modell am sinnvollsten?

13. Wenn ihr das richtige $k$ gefunden habt, erstellt eine grafische Auswertung des Modells. Ihr könnt beispielsweise `sepal_length` auf der x-Achse gegen `sepal_width` auf der y-Achse plotten und die `prediction` als Farbe sowie den tatsächlichen Wert `species` als Form übergeben. Welche Datenpunkte wurden falsch zugeordnet?

14. Wie gut funktioniert K-means in diesem Beispiel im Vergleich zu den vorhergehenden Beispielen?

## Zusammenfassung

> K-means clustering ist ein sehr einfacher und schneller Algorithmus. Dadurch kann K-means effizient mit sehr großen unstrukturierten Datenmengen umgehen. Eine Herausforderung von K-means ist, dass eine menschliche Eingabe über die Anzahl der Cluster benötigt wird und dass eine Unsicherheit über die Wahl des "richtigen" $k$ besteht. Andere Modelle, die man auch zum Clustern verwenden kann, wie z.B. Decision Trees, bilden die Gruppen automatisch. Ein weiterer Nachteil von K-means ist dessen erhöhte Sensitivität gegenüber Ausreißern im Datensatz. Weiterentwickelte Modelle wie z.B. **Partitioning Around Medoids** (PAM) Clustering erhöhen die Robustheit eines Modells wie K-means gegenüber Ausreißern.

K-means ist einer der ältesten Machine Learning-Algorithmen und stellt anschaulich dar, wie Modelle zu einem Optimum konvergieren können. In dieser Übung haben wir einige Beispiele für die Anwendung von K-means kennengelernt. Die Beispiele, die wir behandelt haben, dienen vor allem der Veranschaulichung, wie wir den Algorithmus in R implementieren können. In der Realität würden wir die Cluster nicht kennen und es würde vor allem darum gehen, sinnvolle Cluster zu **definieren**! Ein Beispiel wäre die Einteilung von Kund:innengruppen (Die/Der Schnäppchenjäger:in, der/die Impulskäufer:in, etc..), oder auch das Clustern in [Sinusmilieus](https://www.sinus-institut.de/sinus-milieus/sinus-milieus-deutschland). Dafür wäre aber ein erheblich größerer Aufwand notwendig, sodass wir uns in dieser Übung nur auf die R-Implementation beschränken.