# k-means Clustering

In diesem Notebook geht es um Clustering von unstrukturierten Daten mit dem **k-means**-Algorithmus. k-means ist ein Klassifizierungs-Algorithmus im Bereich des *unsupervised learning* (unüberwachtes Lernen). Dadurch unterscheidet er sich von den bisher kennengelernten Modellen, die alle auf Supervised Learning beruhen. k-means versucht bei einer großen Menge unstrukturierter Daten die einzelnen Datenpunkte in **Cluster** (Gruppen) aufzuteilen. Ähnliche Datenpunkte werden dabei demselben Cluster zugeordnet. Clustering-Algorithmen können Strukturen und Muster in unbekannten (ungelabelten) Datensätzen erkennen.

Die Idee zu k-means stammt ursprünglich aus den 1950er/1960ern und ist damit einer der ältesten ML-Algorithmen. k-means ist ein sehr einfacher und schneller Algorithmus und kann dadurch effizient mit sehr großen unstrukturierten Datenmengen umgehen. Typische Anwendungen von Clustering-Algorithmen sind bspw. Kund:innengruppen im digitalen Marketing, Netzwerkanalysen auf Social Media oder Personalized Recommendation Systems.

In diesem Notebook werden wir eine einfache Implementierung von k-means kennenlernen.

In [None]:
pacman::p_load(tidyverse, tidymodels, tidyclust)
options(repr.plot.width = 12, repr.plot.height = 8) # Jupyter display options

## Wie funktioniert k-means Clustering?

Die mathematischen Grundlagen für k-means werden in der Vorlesung hergeleitet. Der Algorithmus lässt sich aber relativ einfach visualisieren und wird dadurch anschaulich nachvollziehbar.

Artwork by @allisonhorst

<a title="Artwork by @allisonhorst" href="https://www.tidymodels.org/learn/statistics/k-means/kmeans.gif"><img width="50%" alt="K-means convergence illustrated by @allisonhorst" src="https://www.tidymodels.org/learn/statistics/k-means/kmeans.gif"></a>

<a href="https://commons.wikimedia.org/wiki/File:K-means_convergence.gif">Chire</a>, <a href="https://creativecommons.org/licenses/by-sa/4.0">CC BY-SA 4.0</a>, via Wikimedia Commons

<a title="Chire, CC BY-SA 4.0 &lt;https://creativecommons.org/licenses/by-sa/4.0&gt;, via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File:K-means_convergence.gif"><img width="30%" alt="K-means convergence" src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/K-means_convergence.gif/512px-K-means_convergence.gif"></a>

## Zufällige Datenpunkte generieren

Wir generieren zunächst zweidimensionale Zufallsdaten, bestehend aus drei Clustern. Die einzelnen Datenpunkte in jedem Cluster folgen einer multivariaten Gauß-Verteilung. 

Wir merken uns die Label der Cluster, werden diese aber nicht im Training verwenden! Der Algorithmus kennt also nur die zufällig generierten Datenpunkte **ohne** Label und versucht innerhalb dieser ein Muster zu erkennen!

> <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/59/Multivariate_normal_density.png/450px-Multivariate_normal_density.png"  alt="zweidimensionale Gauss-Verteilung" width="150" align="right" > Eine multivariate Gauß-Verteilung ("Normalverteilung") ist eine Gauß-Verteilung in mehreren Dimensionen. Vielleicht hilft euch das Bild rechts (Bildquelle: <a href="https://de.wikipedia.org/wiki/Mehrdimensionale_Normalverteilung">Wikipedia</a>), damit ihr euch eine Gauß-Verteilung für zwei Variablen vorstellen könnt. Die Gauß-Verteilung selbst wird in der Vorlesung ausführlich erklärt. 

Um die Datenpunkte zu generieren, erzeugen wir zunächst einen `tibble` namens `centers` aus 3 Reihen. Jede Reihe enthält die "Metadaten" eines Clusters, nämlich das Label `cluster`, die Anzahl der Punkte `num_points` sowie die Koordinaten `x1` und `x2` für die beiden Dimensionen. Mit `glimpse()` können wir uns den `tibble` wie gewohnt ausgeben lassen:

In [None]:
centers <- tibble(
    cluster = factor(1:3),         
    num_points = c(100, 150, 75),  # number points in each cluster
    x1 = c(3, 0, -2),              # x1 coordinate of cluster center
    x2 = c(-1, 1, -2)              # x2 coordinate of cluster center
    ) %>%
    glimpse()

Anschließend müssen wir die Datenpunkte für jeden der Center-Punkte generieren! 

Für die beiden Dimensionen `x1` und `x2` wird mithilfe von `mutate()` und `map2()` eine Liste an zufällig erzeugten Datenpunkten generiert. `rnorm` erzeugt für uns dabei zufällige Werte, die einer Gauß-Verteilung folgen.

In [None]:
centers_distributions <- centers %>%
    mutate(
        x1 = map2(num_points, x1, rnorm), # generate data points in dimension x1
        x2 = map2(num_points, x2, rnorm)  # generate data points in dimension x2
    ) %>% 
    glimpse()

Anschließend können wir mit `unnest()` die Liste **entpacken**...

In [None]:
points_labeled <- centers_distributions %>%
    select(-num_points) %>% 
    unnest(cols = c(x1, x2)) %>% # unnest the data points in both dimensions
    glimpse()

... und mit `ggplot2` visualisieren:

In [None]:
points_labeled %>%
    ggplot(aes(x1, x2, color = cluster)) +
    geom_point(size = 3) +
    geom_point(data = centers, aes(x = x1, y = x2), shape = "X", size = 15) +
    theme_minimal(base_size = 20)

Soweit so gut! Wir haben jetzt drei Cluster erzeugt und schon rein optisch lassen sich diese sehr gut trennen, wobei es auch einzelne Datenpunkte gibt, die räumlich recht weit von ihrem Cluster entfernt oder sich mit anderen Clustern überlappen.

Um k-means zu testen, müssen wir allerdings die Information über die Cluster entfernen! k-means soll ja nicht wissen, welcher Punkt zu welchem Cluster gehört.

Das machen wir wie gewohnt mit `select()`. Mit `sample_n()` durchmischen wir anschließend die Datenpunkte.

In [None]:
points <- points_labeled %>% 
    select(-cluster) %>%
    sample_n(nrow(.))

Ohne die Farbinformationen für die verschiedenen Cluster sieht unser Datensatz jetzt folgendermaßen aus. Es ist direkt schwieriger, Clusterstrukturen zu erkennen.

In [None]:
points %>%
    ggplot(aes(x1, x2)) +
    geom_point(size = 5) +
    theme_minimal(base_size = 20)

## Das Modell definieren

Wie bereits bekannt, definieren wir zunächst ein einfaches k-means-Modell mithilfe von `tidymodels`. k-means ist über die Funktion `k_means()` hinterlegt.

Mit `set_engine()` können wir die Parameter des Modells definieren. 

Wir wählen eine einfache k-means-Implementierung von `stats`. Der einzige Parameter, der für k-means zwingend notwendig ist, ist die Anzahl der **centers**, von denen der Algorithmus ausgehen soll. Diese Anzahl ist bekannt als **k-value** - daher hat der Algorithmus auch seinen Namen. Wir setzen $k$ mithilfe von `num_clusters`.

In der Realität kennen wir $k$ nicht von Anfang an, sondern müssen raten. Wir wir später sehen werden, gibt es verschiedene Methoden, um ein geeignetes $k$ zu finden. Wir schummeln an dieser Stelle der Einfachheit halber und starten mit $k=3$. Weitere Modellparameter lernen wir später kennen.

In [None]:
model <- k_means(num_clusters = 3) %>%
    set_engine("stats")

Wie gewohnt können wir das Modell mithilfe von `fit()` trainieren. Als Datensatz übergeben wir den ungelabelten Datensatz `points`. Der Algorithmus wählt selbstständig die Startpunkte und versucht dann, zu konvergieren.

In [None]:
fit_model <- model %>%
    fit(~ ., data = points)

## `broom`

<img src="https://broom.tidymodels.org/logo.png" alt="broom" width="100" align="right" /> Mithilfe des Pakets `broom` von `tidymodels` können wir das trainierte Modell anschließend inspizieren. 

Um die Modellinformationen abzurufen, können wir die Funktion `extract_fit_engine()` auf das trainierte Modell `fit_model` anwenden. 

Als erste Funktion von `broom` können wir uns `augment()` anschauen, was wir bereits kennengelernt haben. Mit `augment()` können wir die vorhergesagten neuen Labels direkt mit den ungelabelten Trainingsdaten verbinden:

In [None]:
fit_model %>%           
    augment(points) %>% 
    glimpse()

Wie wir sehen, wird jeder Datenpunkt einem Cluster zugeordnet.

Mit `tidy()` können wir Informationen auf der Cluster-Ebene ausgeben, nämlich:

In [None]:
fit_model %>% 
    extract_fit_engine() %>%
    tidy()

**Frage:**
1. Welche Informationen gibt `tidy()` aus? Benutzt eine Suchmaschine oder generative KI, und diskutiert die einzelnen Variablen zu zweit.

Mit `glance()` können wir Informationen auf der Modell-Ebene ausgeben:

In [None]:
fit_model %>% 
    extract_fit_engine() %>%
    glance()

**Fragen:**

2. Welche Informationen gibt `glance()` aus? Recherchiert wieder die Bedeutung der einzelnen Variablen. Was beschreibt der Quotient `betweenss` / `totss`? Welche Variablen versucht k-means zu minimieren und welche zu maximieren?

3. Wieso braucht der Algorithmus nur so wenige Iterationen, um zu konvergieren?

## Verformelung der Metriken von k-means

- $x_i$: data point $i$ in the total set of points $C_{total}$
- $C_k$: set of points $C_k$ in cluster $k$
- $\mu_k$: centroid of cluster $k$
- $\mu_{total}$: centroid of the total set of points $C_{total}$

$withinss_k = \sum_{i \in C_k} (x_i - \mu_k)^2$

$tot.withinss = \sum_{k=1}^k withinss_k$

$totss = \sum_{i \in C_{total}} (x_i - \mu_{total})^2$

$betweenss = totss - tot.withinss$

## Visualisierung

Wir können jetzt das trainierte Modell mit dem ursprünglich erzeugten Datensatz vergleichen, indem wir beides visualisieren:

In [None]:
fit_model %>%           
    augment(points_labeled) %>%
    ggplot(aes(x = x1, y = x2, color = cluster, shape = .pred_cluster)) +
    geom_point(size = 5) + 
    theme_minimal(base_size = 20)

* **Frage:**

4. Wie interpretiert ihr die Grafik? Welche Datenpunkte wurden vom Algorithmus falsch zugeordnet?

## Das richtige $k$ herausfinden

Die Zusammenfassungen mit `augment()`, `tidy()` und `glance()` werden erst so richtig praktisch, wenn wir sie in Kombinationen mit weiteren Tools von `dplyr` verwenden. Wir können z.B. mal annehmen, dass wir die richtige Anzahl der Cluster $k$ nicht kennen, also eine Analyse für verschiedene Werte von $k$ vornehmen wollen. 

Das würde eigentlich einem Tuning von Modellparametern entsprechen, allerdings befindet sich `tidyclust` noch so weit in der Entwicklung, dass es noch nicht in `tune` eingebunden werden kann. Wir müssen das Tuning also per Hand vornehmen.

Mithilfe von `map()` könnten wir dann sehr schnell über Werte von $k$, z.B. von 1 bis 9, iterieren und unsere Ergebnisse in einem einzigen, großen `tibble` abspeichern. 

> Die Funktion `map()` ist wie eine "Stapelverarbeitung": Sie wendet eine andere Funktion auf eine Reihe von Objekten an und gibt dann die durch die Funktion veränderten Objekte zurück. Im Prinzip funktioniert `map()` wie eine Schleife, hat aber eine bessere Performance. `map()` kann auch komfortabel in der Pipe eingesetzt werden.

Wir erzeugen zunächst einen `tibble` mit Werten von $k$ zwischen 1 und 9. Anschließend erzeugen wir mit `mutate()` eine neu Spalte namens `kclust`. In `kclust` wird für jedes $k$ ein eigenes Modell trainiert. Das Modelltraining erfolgt wie gehabt mithilfe von `k_means()` und `fit()`. Wie wir sehen, können wir durch die geschweiften Klammern `{}` einen ganzen Code-Block innerhalb von `mutate()` ausführen. Tendenziell sollte man versuchen, verschachtelten Code zu vermeiden. Allerdings gibt es Anwendungsfälle, in denen es nicht anders möglich ist, wie bei diesem Beispiel.

Nachdem wir für jedes $k$ ein eigenes Modell gefittet und in der Spalte `kclust` gespeichert haben, können wir mit `map()` die Befehle `tidy()`, `glance()` und `augment()` auf `kclust` anwenden:

In [None]:
kmodels <- tibble(k = 1:9) %>%             # iterate k from 1 to 9

    # fit a kmeans model for each k
    mutate(
        kclust = map(k, ~{                 # map the kmeans model pipeline on k
            k_means(num_clusters = .x) %>% # as before define the model
            set_engine("stats") %>%        # set the engine
            fit(~ ., data = points)        # and fit the data
    })) %>%

    # apply tidy(), glance() and augment() on each k-instance of kmeans
    mutate(
        tidied = map(kclust, tidy),                              # map tidy() on kclust
        glanced = map(kclust, glance),                           # map glance() on kclust
        augmented = map(kclust, ~augment(.x, new_data = points)) # map augment() on kclust – we have to specify the data points
        )

Schauen wir uns das Ergebnis mal an – dafür müssen wir die Funktion `glimpse()` benutzen, andernfalls bekommen wir eine Fehlermeldung ausgeworfen:

In [None]:
kmodels %>% glimpse()

Der Datensatz sieht etwas anders aus als sonst. 

* In der ersten Spalte `k` erkennen wir die Werte für $k$ von 1 bis 9.
* Die Spalte `klcust` ist vom Typ `list` und enthält unser Modell. Listen haben den Vorteil, dass sie Objekte von verschiedenen Datentypen beinhalten können. `glimpse()` zeigt daher für Listen immer den Objekttyp an. Jedes kmeans-Modell besteht aus verschiedenen Objekten unterschiedlichen Typs.
* Die Spalten `tidied` und `glanced` enthalten Objekte vom Typ `tbl_df` – ihr erinnert euch daran, dass beide Funktionen einen `tibble` mit den verschiedenen Metriken bzw. Informationen über das Modell ausgeben.
* `augmented` enthält ebenfalls viele `tbl_df`-Objekte, die alle die Dimension 325x3 haben. Das liegt daran, dass wir 325 Datenpunkte vorliegen haben, und jeder Datenpunkt hat zwei Koordinaten (`x1` und `x2`) sowie einen vorhergesagten Cluster.

Um sinnvoll weiterzuarbeiten, speichern wir die einzelnen Listen in eigenen Objekten. Dafür müssen wir sie mit der Funktion `unnest()` entpacken.

In [None]:
clusters <- kmodels %>%
    select(k, tidied) %>%
    unnest(tidied)

clusterings <- kmodels %>%
    select(k, glanced) %>%
    unnest(glanced)

assignments <- kmodels %>%
    select(k, augmented) %>%
    unnest(augmented)

Nachdem wir die Listen entpackt haben, sehen die `tibbles` auch schon wieder bekannter aus:

In [None]:
assignments %>% head(5)

Durch unser bisheriges Vorgehen ist es jetzt ein leichtes, die Modelle für die verschiedenen Werte von $k$ zu vergleichen.

Mit einer einfachen Pipe können wir die verschiedenen Modelle für $k=1$ bis $k=9$ in einem einzigen Diagramm visualisieren. Wir erhalten relativ schnell einen guten Überblick über die verschiedenen Werte von $k$ und können das Diagramm bereits zur ersten Einschätzung eines geeigneten Wertes von $k$ nutzen.

Dafür benutzen wir `facet_wrap()` und iterieren die Sub-Plots über `k`:

In [None]:
assignments %>%
    ggplot(aes(x = x1, y = x2)) +
    geom_point(aes(color = .pred_cluster), alpha = 0.8) + 
    facet_wrap(~ k) +
    theme_minimal(base_size = 15) +
    geom_point(data = clusters, size = 10, shape = "x") # add data from tidy

## Elbow-Method

Im Normalfall ist es nicht trivial, eine geeignete an Clustern zu bestimmen. Größere Datensätze haben i. d. R. nicht nur zwei Features, und lassen sich dadurch schwierig visualisieren.

K-means kennt einige Verfahren zur Bestimmung von $k$, die mathematisch mehr oder weniger fundiert sind. Dazu gehören:

1. Elbow method
2. Silhouette method
3. Gap statistic

Diese werden detaillierter z.B. in diesem [Artikel](https://uc-r.github.io/kmeans_clustering) erklärt. 

Beispielhaft werden wir an dieser Stelle einmal kurz auf die **Elbow method** eingehen. Diese wird auch in der Vorlesung beschrieben und hergeleitet.

Für die Elbow method brauchen wir die Metrik **total within-cluster sum of square** `tot.withinss`. Dieser Wert wird von `glance()` ausgegeben und wir hatten ihn weiter oben im Objekt `clusterings` gespeichert:

In [None]:
clusterings

Wenn wir also `tot.withinss` gegen `k` plotten, erhalten wir folgenden Output:

In [None]:
clusterings %>%
    ggplot(aes(k, tot.withinss)) +
    geom_line(linewidth = 1) +
    geom_point(size = 5) +
    theme_minimal(base_size = 25) +
    scale_x_continuous(breaks = seq(1, 9, 1))

**Frage:**

5. Bei welchem $k$ seht ihr den Ellbogen?

Eine Krümmung (englisch: bend), bzw. ein sogenannter Ellbogen, symbolisiert i.d.R. einen geeigneten Wert von $k$ für eine Clusterlösung. Dieser Ellbogen indiziert, dass das Hinzufügen weiterer Cluster das Modell nicht verbessert. In diesem Beispiel liegt der Ellbogen bei $k=3$, was ja mit unserer vorab generierten Anzahl der Cluster übereinstimmt.

Eine mathematische Herleitung dieser Aussage findet ihr z.B. unter

> [Tibshirani, R., Walther, G. & Hastie. T (2000). Estimating the Number of Clusters in a Dataset via the Gap Statistic. Journal of the Royal Statistical Society, Series B, 63(2), p. 411-423.](https://hastie.su.domains/Papers/gap.pdf)

In der Realität wird K-means vor allem bei großen, unstrukturierten Datenmengen eingesetzt. Es besteht daher eine große Unsicherheit, welches $k$ geeignet ist. In diesem Falle sind mathematische Verfahren wie die Elbow method hilfreich, um $k$ zu bestimmen. Zusätzlich sollte man jedoch auch immer die Interpretierbarkeit der Clusterlösung bedenken.

## Pre-Processing

Anders als bei den Decision Trees kann bei k-means eine Standardisierung der Datenpunkte das Ergebnis verbessern. Das würde man mit `recipe` mithilfe der Funktion `step_normalize()` umsetzen. Diese Funktion normalisiert den Datensatz in dem Sinne, dass nach dem Schritte der Mittelwert jeder Variable 0 ist und die Standardabweichung 1. Bei unserem Beispiel führt `step_normalize()` zwar zur eine Verbesserung der Metrik `tot.withinss`, allerdings ist diese Verbesserung nicht unbedingt aussagekräftig, da die Zuordnung in die einzelnen Cluster nicht verbessert wird. Das liegt daran, dass unser Datensatz künstlich generiert wurde und dadurch die Datenpunkte den neuen Clustern einfach zugeordnet werden können. 

Im folgenden Beispielcode könnt ihr das einmal ausprobieren, indem ihr den Code einmal mit dem Schritt `step_normalize()` ausführt und den Schritt einmal weglasst. Ihr könnt die Zeile einfach mit der Raute `#` auskommentieren.

In [None]:
clustering_recipe <- recipe(~ ., data = points) %>%
    step_normalize(all_predictors()) %>%
    step_impute_mean(all_numeric())

model <- k_means(num_clusters = 3) %>%
    set_engine("stats")

kmeans_workflow <- workflow() %>%
  add_recipe(clustering_recipe) %>%
  add_model(model)

kmeans_fit <- kmeans_workflow %>%
  fit(data = points)

kmeans_fit %>%
    extract_fit_engine() %>%
    pluck("tot.withinss")

kmeans_fit %>%           
    augment(points_labeled) %>%
    count(.pred_cluster, cluster) %>%
    pivot_wider(names_from = cluster, values_from = n, values_fill = 0)

## palmerpenguins

In dieser Woche gibt es keine neuen Datensätze als Beispiele. Wenn ihr hier bereits angekommen seid und noch Zeit habt, könnt ihr versuchen, k-means auf den Datensatz der Pinguine `palmerpenguins` anzuwenden. Ein Versuch wäre es, ob ihr es schafft, mit k-means eine Clusterlösung nach den Spezies der Pinguine umzusetzen.

Geht dabei wie bisher vor:
- Datensatz laden
- Datensatz "unlabeln"
- Features auswählen (startet am besten mit wenigen Features, z.B. `bill_depth_mm` und `bill_length_mm`
- Ein `recipe` erstellen (mit Standardisierung)
- Das Modell definieren (schaut euch die Parameter `nstart` und `iter.max` in der Dokumentation von k-means an. Es könnte sich lohnen, diese hochzusetzen, damit das Modell besser funktioniert. Ihr könnt die Parameter über `set_engine()` setzen)
- Den Workflow definieren und das Modell fitten
- Das Modell auf den ursprünglichen Datensatz anwenden... (mit `augment()`)
- und die Ergebnisse mit `ggplot2` visualisieren und evaluieren

In [None]:
# your code here