# k-Means-Clustering
Du kennst bereits den [k-Nächste-Nachbarn-Algorithmus](knearestneighbor), ein Verfahren, das mit Trainingsdaten neue Daten klassifiziert. Nun betrachten wir [k-Means-Clustering](https://de.wikipedia.org/wiki/K-Means-Algorithmus), einen Algorithmus zur Gruppierung von Daten in sogenannte Cluster.

Im Bereich der KI wird oft mit großen Datenmengen gearbeitet, die auf Muster untersucht und in Gruppen eingeteilt werden. k-Means ist ein Clustering-Algorithmus, der Datenpunkte ohne vorherige Kenntnis der Gruppenzugehörigkeit in k Cluster einteilt. Das macht k-Means zu einem unüberwachten Lernalgorithmus. Seine Stärke liegt in der effizienten Strukturierung großer Datensätze und dem Entdecken versteckter Muster.

```{margin}
[Maschinelles Lernen](https://de.wikipedia.org/wiki/Maschinelles_Lernen) ist ein Teilgebiet der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen oder Entscheidungen treffen können. Algorithmen im Bereich des maschinellen Lernens haben das Ziel, große Datenmengen zu analysieren und Muster darin zu erkennen.
```

## Überwachtes vs. unüberwachtes Lernen

Beide Algorithmen stammen aus dem Bereich **Maschinelles Lernen**, welches grob in **überwachtes Lernen** und **unüberwachtes Lernen** unterteilt wird. Beim [überwachten Lernen](https://de.wikipedia.org/wiki/Überwachtes_Lernen) wird ein Datensatz verwendet, der Eingabedaten und die zugehörigen Zielwerte (**Label**) enthält. Das Modell lernt aus Beispielen, bei denen die richtigen Antworten bekannt sind. Diese Methode eignet sich gut für Aufgaben wie Klassifikationen (z.B. Spam-Erkennung). Der [k-Nächste-Nachbarn-Algorithmus](knearestneighbor) ist ein solches Verfahren.

Beim [unüberwachten Lernen](https://de.wikipedia.org/wiki/Unüberwachtes_Lernen) gibt es keine gelabelten Trainingsdaten. Stattdessen versuchen unüberwachte Algorithmen, Muster in den Daten zu erkennen. Clustering, wie k-Means, ist ein typisches Beispiel dafür. Der Algorithmus findet eigenständig Gruppen (Cluster) von ähnlichen Datenpunkten und hilft, ungeordnete Daten zu strukturieren.

## Einführung in das Verfahren

k-Means-Clustering gehört zum **unüberwachten Lernen**. Wir haben keine vordefinierten Labels, sondern nur die rohen Daten. Das Ziel von k-Means ist es, die Daten in **k Cluster** zu unterteilen, wobei *k* die Anzahl der Cluster darstellt. Der Algorithmus ermittelt **Zentroiden**, also Mittelpunkte, um die sich die Cluster bilden. **Means** steht dabei für den Durchschnitt, da die Zentroiden als Durchschnitt der zugehörigen Datenpunkte berechnet werden. Am Ende sind die Daten innerhalb eines Clusters homogener als zu den Daten in anderen Clustern.

In einfachen Beispielen könnten wir die Cluster auch mit dem Auge erkennen und auch ablesen, welche Zahl für *k* sinnvoll wäre. Bei großen Datenmengen oder nicht eindeutigen Clustern benötigen wir dann aber die Hilfe des Algorithmus.

**Aufgabe 1:** Wie würdest du die folgenden Daten in Cluster aufteilen?

```{figure} bilder/kmeans_3_cluster_einfach_datenpunkte.svg
---
width: 80%
name: fig_kmeans-3-cluster-einfach-datenpunkte
align: center
---
Beispiel von einfacher Verteilung von Datenpunkten
```

`````{admonition} Lösung
:class: tip, dropdown
```{figure} bilder/kmeans_3_cluster_einfach_ergebnis.svg
---
width: 90%
name: fig_kmeans-3-cluster-einfach-ergebnis
align: center
---
Ergebnis des k-Means-Clustering mit k=3
```
Es ist recht offensichtlich, dass die Datenpunkte in 3 Cluster aufgeteilt werden können.
``````

**Aufgabe 2:** Wenn du dir das nächste Beispiel anschaust: welche Cluster-Einteilung würdest du hier vornehmen?

```{figure} bilder/kmeans_4_cluster_komplex_datenpunkte.svg
---
width: 80%
name: fig_kmeans-3-cluster-komplex-datenpunkte
align: center
---
Beispiel von komplexer Verteilung von Datenpunkten
```

``````{admonition} Lösung
:class: tip, dropdown
```{figure} bilder/kmeans_4_cluster_komplex_ergebnis.svg
---
width: 90%
name: fig_kmeans-3-cluster-komplex-ergebnis
align: center
---
Ergebnis des k-Means-Clustering mit k=4
```
Dieses Beispiel ist nicht so trivial wie das vorige. Mit bloßem Auge lassen sich  die Cluster nicht ablesen.
``````

### Reale Anwendungsbeispiele

Welche realen Anwendungsbeispiele kannst du dir vorstellen, bei denen das k-means Clustering sinnvoll eingesetzt werden könnte?

Überlege dabei, in welchen Bereichen es wichtig sein könnte, Daten in Gruppen aufzuteilen, ohne dass bereits vorgegeben ist, zu welcher Gruppe ein Datenpunkt gehört. Welche Situationen kennst du, in denen Menschen, Dinge oder Objekte aufgrund ihrer Ähnlichkeit in Gruppen eingeteilt werden? Es gibt hier keine richtige Antwort, nur eine Auswahl an möglichen Einsatzszenarien.

```{admonition} Beispiele
:class: tip, dropdown
- *Marketing*: Kunden in verschiedene Segmente aufteilen. Dadurch können Unternehmen gezieltere Werbung schalten und ihre Produkte effizienter an die verschiedenen Kundengruppen anpassen.
- *Bildanalyse*: ähnliche Regionen in Bildern finden. Das ist besonders nützlich für die Objekterkennung. Hierbei hilft der Algorithmus, verschiedene Objekte in einem Bild zu identifizieren und zu klassifizieren.
- *Biologie*: Forscher nutzen den Algorithmus, um ähnliche Gene oder Spezies zu gruppieren. Dies kann helfen, neue Erkenntnisse über genetische Verbindungen und Unterschiede zu gewinnen und die Evolution besser zu verstehen.
- *Textanalyse*: Zum Beispiel kann der Algorithmus eingesetzt werden, um ähnliche Dokumente oder Artikel zu gruppieren, was bei der Organisation großer Textmengen hilfreich ist. In der Finanzwelt wird k-Means genutzt, um riskante von nicht riskanten Krediten zu unterscheiden, indem ähnliche Kreditprofile gruppiert werden.
```

## Der k-means-Clustering Algorithmus

Der Ablauf des k-means-Clustering Algorithmus wird in folgende Schritte aufgeteilt:

```{important}
**1. Auswahl der Anzahl der Cluster (k)**  
Der erste Schritt besteht darin, die **Anzahl der Cluster** festzulegen. Dies bestimmt, in wie viele Gruppen die Datenpunkte aufgeteilt werden sollen.

**2. Initialisierung der Zentroiden**  
Als nächstes werden **k** Datenpunkte aus den Daten oder **k** zufällige Punkte ausgewählt, um die anfänglichen **Zentroiden** (Cluster-Zentren) zu bestimmen.

**3. Zuweisung der Datenpunkte und Bildung der Cluster**  
Jeder Datenpunkt wird dem nächstgelegenen Zentroiden zugewiesen. Dies wird durch die Messung der Entfernung zu allen Zentroiden bestimmt (z.B. mittels Euklidischer Distanz oder Manhattan Distanz).

**4. Aktualisierung der Zentroiden**  
Die Zentroiden werden neu berechnet, indem der Durchschnitt (**Mean**) aller Punkte innerhalb eines Clusters berechnet wird.

**5. Wiederholung der Schritte 3 und 4**  
Die Schritte 3 und 4 werden solange wiederholt, bis sich die Zentroiden nicht mehr ändern oder eine maximale Anzahl an Iterationen erreicht ist.
```

Versuche mal zu überlegen, worin das Ziel des Algorithmus besteht? Denke dabei an die Ähnlichkeit der Datenpunkte **innerhalb** eines Clusters und Punkte aus **verschiedenen** Clustern.

```{admonition} Lösung
:class: tip, dropdown
Folgende Kriterien sind das Ziel:
- Die Ähnlichkeit der Datenpunkte **innerhalb** der einzelnen Cluster soll **möglichst hoch** sein.
- Die Ähnlichkeit der Datenpunkte **zwischen** den einzelnen Clustern soll **möglichst gering** sein.
```

**Frage:** Warum benötigt es in der Regel mehrere Durchgänge (Iterationen), um die Cluster vollständig zu bilden?

```{admonition} Lösung
:class: tip, dropdown
Der k-means Algorithmus braucht in der Regel mehrere Durchgänge, um die Cluster korrekt zu finden. Das liegt daran, dass die Zentroiden (also die Mittelpunkte der Cluster) anfangs zufällig gewählt werden. Am Anfang sind diese Zentroiden oft nicht optimal, da sie weit von den echten Clustern entfernt liegen können.

In jeder Iteration passiert Folgendes:
1. Jeder Datenpunkt wird dem nächstgelegenen Zentrum zugewiesen, wodurch sich Cluster bilden oder ändern. Es ist gut möglich, dass ein Datenpunkt in einem anderen Cluster landet. Damit ändert sich dann auch die Position des Zentroiden.
2. Die Zentren werden dann neu berechnet, indem der Durchschnitt der Punkte in jeder Gruppe genommen wird.
3. Dieser Prozess wiederholt sich: Die Datenpunkte werden immer wieder neu zugeordnet, und die Zentren verschieben sich dabei nach und nach.

Das Ziel ist, dass die Zentroiden eine Position erreichen, bei der sie sich nicht mehr groß bewegen, also eine stabile Lösung finden. Diese Stabilität wird auch **Konvergenz** genannt. Je nach Anfangslage der Zentroiden kann mehrere Interationen dauern, bis der Algorithmus eine stabile Gruppierung erreicht hat. Deshalb sind mehrere Iterationen nötig, um sicherzustellen, dass die Cluster gut und sinnvoll gebildet werden.

Dieses iterative Verfahren führt schließlich zu einer optimalen Gruppierung der Datenpunkte, wobei jeder Punkt in dem Cluster landet, das am besten zu seinen Eigenschaften passt.
```


## Ein konkretes Beispiel: Clustering von Obstsorten

Nehmen wir an, wir haben Daten über Obstsorten mit Informationen wie Gewicht, Farbe, Wassergehalt und Fruchtzuckergehalt. Wir möchten ähnliche Obstsorten in Clustern gruppieren, sodass die Obstsorten möglichst homogen sind. k-Means analysiert die Daten, erkennt Unterschiede und Gemeinsamkeiten und bildet darauf basierend die Cluster. Zum Beispiel könnte der Algorithmus Äpfel und Bananen in unterschiedliche Cluster einteilen, da sie sich im Wasser- und Fruchtzuckergehalt unterscheiden.

In {numref}`fig_kmeans_obst` haben wir eine Sammlung von Obstsorten: 🍎 (Apfel), 🍐 (Birne), 🍌 (Banane), 🍊 (Orange), 🍇 (Weintrauben), 🍓 (Erdbeere), 🍉 (Wassermelone), 🥭 (Mango). Wir möchten diese Obstsorten basierend auf Wasser- und Fruchtzuckergehalt in Cluster aufteilen.

```{figure} bilder/kmeans_obst.svg
---
width: 80%
name: fig_kmeans_obst
align: center
---
Obstsorten visualisiert nach Wassergehalt und Fruchzuckergehalt
```

**Aufgabe 1:** Wie würdest du die Obstsorten in Cluster aufteilen? Überlege dabei, wieviele Cluster sinnvoll wären, also welchen Wert *k* einnehmen würde.

```{admonition} Lösung
:class: tip, dropdown
Der k-means Algorithmus würde folgende Cluster bilden:
```{figure} bilder/kmeans_obst_clusters_99.svg
---
width: 90%
name: fig_kmeans_obst_99
align: center
---
k-Means-Clustering der Obstsorten mit k=3
```

**Aufgabe 2:** Okay, wir wissen nun die Anzahl der Cluster, aber was bedeutet das nun? Versuche mal, das Ergebnis in eigenen Worten zusammenzufassen.

```{admonition} Lösung
:class: tip, dropdown
Der Algorithmus hat die Obstsorten in 3 Cluster aufgeteilt, welche die folgenden Merkmale aufweisen:
1. 🍌 (Banane), 🍇 (Weintrauben), 🥭 (Mango): hoher Fruchtzuckergehalt mit mittlerem Wassergehalt
2. 🍎 (Apfel), 🍐 (Birne), 🍊 (Orange) mittlerer Fruchtzuckergehalt mit hohem Wassergehalt
3. 🍓 (Erdbeere), 🍉 (Wassermelone) niedriger Fruchtzuckergehalt mit sehr hohem Wassergehalt
```