# k-Means-Clustering

Du hast mit dem [k-Nächste-Nachbarn-Algorithmus](knearestneighbor) ein Verfahren kennengelernt, welches mit Unterstützung von Trainingsdaten neue Daten klassifiziert ("labelt"). Wir werden nun das [k-Means-Clustering](https://de.wikipedia.org/wiki/K-Means-Algorithmus) ansehen, ein Algorithmus, welcher die Daten in Gruppen, sogenannte Cluster einteilt.

Im Bereich der KI und des maschinellen Lernen wird oft mit großen Datenmengen gearbeitet. Dabei werden diese Daten auf Merkmale, Gemeinsamkeiten und Muster untersucht und es wird versucht, die Daten zu klassifizieren und/oder in Gruppen einzuordnen. **k-Means** ist ein sogenannter **Clustering**-Algorithmus. Das bedeutet, dass er Datenpunkte in verschiedene Gruppen (**Cluster**) einteilt, sodass die Punkte innerhalb eines Clusters sich möglichst ähnlich. Die Datenpunkte werden dabei *ohne vorherige Kenntnis* der Gruppenzugehörigkeit in **k** Cluster eingeteilt. k-Means-Clustering ist daher ein **unüberwachter Lernalgorithmus**. Die Stärke von k-Means liegt darin, große Datensätze effizient zu strukturieren und versteckte Muster zu entdecken.

```{margin}
[Maschinelles Lernen](https://de.wikipedia.org/wiki/Maschinelles_Lernen) ist ein Teilgebiet der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen oder Entscheidungen treffen können.
Algorithmen im Bereich des maschinellen Lernens haben das Ziel, Daten zu analysieren und Muster darin zu erkennen. Ein gängiges Verfahren, um ähnliche Datenpunkte in Gruppen einzuteilen, ist das k-Means-Clustering.
```


## Überwachtes vs. unüberwachtes Lernen

**Maschinelles Lernen** lässt sich grob in zwei Kategorien unterteilen: **Überwachtes Lernen** und **unüberwachtes Lernen**. Beim [überwachten Lernen](https://de.wikipedia.org/wiki/Überwachtes_Lernen) wird der Algorithmus mit einem Datensatz trainiert, der sowohl Eingabedaten als auch die zugehörigen Zielwerte (**Label**) enthält. Das bedeutet, dass das Modell aus Beispielen lernt, bei denen die richtigen Antworten bereits bekannt sind. Diese Methode eignet sich gut für Aufgaben von Klassifikationen (z.B. Spam-Erkennung). Der  [k-Nächste-Nachbarn-Algorithmus](knearestneighbor) ist so ein Verfahren, der mit bereits gelabelten Trainingsdaten arbeitet.

Im Gegensatz dazu sind beim [unüberwachten Lernen](https://de.wikipedia.org/wiki/Unüberwachtes_Lernen) keine gelabelten Trainingsdaten vorhanden. Stattdessen versuchen solche Algorithmen, Muster und Strukturen in den Eingabedaten selbstständig zu erkennen. Clustering, wie k-Means, ist ein typisches Beispiel für unüberwachtes Lernen. Er wird nicht mit gelabelten Daten trainiert, sondern findet eigenständig Gruppen (Cluster) von ähnlichen Datenpunkten. In der Welt der KI und des maschinellen Lernens ist Clustering ein wichtiges Mittel, um ungeordnete Daten zu strukturieren und Muster zu erkennen.


## Einführung in das Verfahren

Wie oben erwähnt, gehört das k-Means-Clustering gehört zur Kategorie des unüberwachten Lernens. Das bedeutet, dass wir keine vordefinierten Klassen oder Labels haben, sondern lediglich die rohen Daten. Das Ziel von k-Means ist es, die Daten in **k Cluster** zu unterteilen, wobei *k* die Anzahl der Cluster darstellt, in die die Daten eingruppiert werden. Der Algorithmus ermittelt dabei die sogenannten **Zentroiden**, also Mittelpunkten, um die sich die einzelnen Cluster bilden. **Means** steht dabei für den Durchschnitt, da der Algorithmus die Zentroiden als Durchschnitt der Datenpunkte berechnet, die zu einem Cluster gehören. Am Ende des Algorithmus sind die Daten innerhalb eines Clusters homogener zueinander als zu den Daten in anderen Clustern.

In einfachen Beispielen könnten wir die Cluster auch mit dem Auge erkennen und auch ablesen, welche Zahl für *k* sinnvoll wäre. Bei großen Datenmengen oder nicht eindeutigen Clustern benötigen wir dann aber die Hilfe des Algorithmus.

**Aufgabe 1:** Wie würdest du die folgenden Daten in Cluster aufteilen?

```{figure} bilder/kmeans_3_cluster_einfach_datenpunkte.svg
---
width: 80%
name: fig_kmeans-3-cluster-einfach-datenpunkte
align: center
---
Beispiel von einfacher Verteilung von Datenpunkten
```

```{admonition} Lösung
:class: tip, dropdown
```{figure} bilder/kmeans_3_cluster_einfach_ergebnis.svg
---
width: 90%
name: fig_kmeans-3-cluster-einfach-ergebnis
align: center
---
Ergebnis des k-Means-Clustering mit k=3
```

**Aufgabe 2:** Wenn du dir das nächste Beispiel anschaust: welche Cluster-Einteilung würdest du hier vornehmen?

```{figure} bilder/kmeans_4_cluster_komplex_datenpunkte.svg
---
width: 80%
name: fig_kmeans-3-cluster-komplex-datenpunkte
align: center
---
Beispiel von komplexer Verteilung von Datenpunkten
```

```{admonition} Lösung
:class: tip, dropdown
```{figure} bilder/kmeans_4_cluster_komplex_ergebnis.svg
---
width: 90%
name: fig_kmeans-3-cluster-komplex-ergebnis
align: center
---
Ergebnis des k-Means-Clustering mit k=4
```

## Ein konkretes Beispiel: Clustering von Obstsorten

Nehmen wir mal an, wir hätten eine Datensammlung über verschiedene Obstsorten, einschließlich Informationen wie Gewicht, Farbe, Wassergehalt und Fruchtzuckergehalt. Wir möchten die Daten so segmentieren, dass ähnliche Obstsorten in einen Cluster kommen, sodass die Cluster möglichst homogen sind. k-Means würde in diesem Fall die Daten analysieren, Unterschiede und Gemeinsamkeiten erkennen, und basierend darauf die Cluster bilden. Zum Beispiel könnte der Algorithmus Äpfel und Bananen in unterschiedliche Cluster einteilen, da sie Unterschiede im Wasser- und Fruchtzuckergehalt aufweisen.

Wir haben in {numref}`fig_kmeans_obst` eine Sammlung von Obstsorten: 🍎 (Apfel), 🍐 (Birne), 🍌 (Banane), 🍊 (Orange), 🍇 (Weintrauben), 🍓 (Erdbeere), 🍉 (Wassermelone), 🥭 (Mango). Wir möchten diese Obstsorten basierend auf den Eigenschaften Wassergehalt und Fruchtzuckergehalt in Cluster aufteilen.

```{figure} bilder/kmeans_obst.svg
---
width: 80%
name: fig_kmeans_obst
align: center
---
Obstsorten visualisiert nach Wassergehalt und Fruchzuckergehalt
```

**Aufgabe 1:** Wie würdest du die Obstsorten in Cluster aufteilen? Überlege dabei, wieviele Cluster sinnvoll wären, also welchen Wert *k* einnehmen würde.

```{admonition} Lösung
:class: tip, dropdown
Der k-means Algorithmus würde folgende Cluster bilden:
```{figure} bilder/kmeans_obst_clusters_99.svg
---
width: 90%
name: fig_kmeans_obst_99
align: center
---
k-Means-Clustering mit k=3
```

**Aufgabe 2:** Okay, wir wissen nun die Anzahl der Cluster, aber was bedeutet das nun? Versuche mal, das Ergebnis in eigenen Worten zusammenzufassen.

```{admonition} Lösung
:class: tip, dropdown
Der Algorithmus hat die Obstsorten in 3 Cluster aufgeteilt, welche die folgenden Merkmale aufweisen:
1. 🍌 (Banane), 🍇 (Weintrauben), 🥭 (Mango): hoher Fruchtzuckergehalt mit mittlerem Wassergehalt
2. 🍎 (Apfel), 🍐 (Birne), 🍊 (Orange) mittlerer Fruchtzuckergehalt mit hohem Wassergehalt
3. 🍓 (Erdbeere), 🍉 (Wassermelone) niedriger Fruchtzuckergehalt mit sehr hohem Wassergehalt
```

## Reale Anwendungsbeispiele

Welche realen Anwendungsbeispiele kannst du dir vorstellen, bei denen das k-means Clustering sinnvoll eingesetzt werden könnte?

Überlege dabei, in welchen Bereichen es wichtig sein könnte, Daten in Gruppen aufzuteilen, ohne dass bereits vorgegeben ist, zu welcher Gruppe ein Datenpunkt gehört. Welche Situationen kennst du, in denen Menschen, Dinge oder Objekte aufgrund ihrer Ähnlichkeit in Gruppen eingeteilt werden müssen? Es gibt hier keine richtige Antwort, nur eine Auswahl an möglichen Einsatzszenarien.

```{admonition} Beispiele
:class: tip, dropdown
- *Marketing*: Kunden in verschiedene Segmente aufteilen. Dadurch können Unternehmen gezieltere Werbung schalten und ihre Produkte effizienter an die verschiedenen Kundengruppen anpassen.
- *Bildanalyse*: ähnliche Regionen in Bildern finden. Das ist besonders nützlich für die Objekterkennung. Hierbei hilft der Algorithmus, verschiedene Objekte in einem Bild zu identifizieren und zu klassifizieren.
- *Biologie*: Forscher nutzen den Algorithmus, um ähnliche Gene oder Spezies zu gruppieren. Dies kann helfen, neue Erkenntnisse über genetische Verbindungen und Unterschiede zu gewinnen und die Evolution besser zu verstehen.
- *Textanalyse*: Zum Beispiel kann der Algorithmus eingesetzt werden, um ähnliche Dokumente oder Artikel zu gruppieren, was bei der Organisation großer Textmengen hilfreich ist. In der Finanzwelt wird k-Means genutzt, um riskante von nicht riskanten Krediten zu unterscheiden, indem ähnliche Kreditprofile gruppiert werden.
```


## Der k-means-Clustering Algorithmus

Der Ablauf des k-means Algorithmus lässt sich in ein paar einfachen Schritten zusammenfassen:

```{important}
1. Zuerst werden zufällig **k Zentroiden** ausgewählt. Das können entweder bestehende Punkte aus den Datenpunkten oder zufällig generierte Punkte sein.
2. Dann wird jeden Datenpunkt dem **nächstgelegenen Zentroiden** zugewiesen, sodass Cluster gebildet werden.
3. Nachdem alle Datenpunkte zugewiesen sind, werden die Zentroiden neu berechnet, indem der Durchschnitt (**Mean**) aller Punkte innerhalb eines Clusters berechnet wird.
4. Schritt 2 und 3 werden solange wiederholt, bis die **Zentroiden sich nicht mehr ändern** oder eine maximale Anzahl an Iterationen erreicht ist.

Folgende Kriterien sind dabei erstrebenswert:
- Die Ähnlichkeit der Datenpunkte **innerhalb** der einzelnen Clustern soll **möglichst hoch** sein.

- Die Ähnlichkeit der Datenpunkte **zwischen** den einzelnen Clustern soll **möglichst gering** sein.
```

**Frage:** Warum benötigt es in der Regel mehrere Durchgänge (Iterationen), um die Cluster vollständig zu bilden?

```{admonition} Lösung
:class: tip, dropdown
Der k-means Algorithmus braucht in der Regel mehrere Durchgänge, um die Cluster korrekt zu finden. Das liegt daran, dass die Zentroiden (also die Mittelpunkte der Cluster) anfangs zufällig gewählt werden. Am Anfang sind diese Zentroiden oft nicht optimal, da sie weit von den echten Clustern entfernt liegen können.

In jeder Iteration passiert Folgendes:
1. Jeder Datenpunkt wird dem nächstgelegenen Zentrum zugewiesen, wodurch sich Cluster bilden oder ändern. Es ist gut möglich, dass ein Datenpunkt in einem anderen Cluster landet. Damit ändert sich dann auch die Position des Zentroiden.
2. Die Zentren werden dann neu berechnet, indem der Durchschnitt der Punkte in jeder Gruppe genommen wird.
3. Dieser Prozess wiederholt sich: Die Datenpunkte werden immer wieder neu zugeordnet, und die Zentren verschieben sich dabei nach und nach.

Das Ziel ist, dass die Zentroiden eine Position erreichen, bei der sie sich nicht mehr groß bewegen, also eine stabile Lösung finden. Diese Stabilität wird auch Konvergenz genannt. Je nach Anfangslage der Zentroiden kann es länger dauern, bis der Algorithmus eine stabile Gruppierung erreicht hat. Deshalb sind mehrere Iterationen nötig, um sicherzustellen, dass die Cluster gut und sinnvoll gebildet werden.
```


## Programmierung des Algorithmus