# k-Means-Clustering

Du hast mit dem [k-N√§chste-Nachbarn-Algorithmus](knearestneighbor) ein Verfahren kennengelernt, welches mit Unterst√ºtzung von Trainingsdaten neue Daten klassifiziert ("labelt"). Wir werden nun das [k-Means-Clustering](https://de.wikipedia.org/wiki/K-Means-Algorithmus) ansehen, ein Algorithmus, welcher die Daten in Gruppen, sogenannte Cluster einteilt.

Im Bereich der KI und des maschinellen Lernen wird oft mit gro√üen Datenmengen gearbeitet. Dabei werden diese Daten auf Merkmale, Gemeinsamkeiten und Muster untersucht und es wird versucht, die Daten zu klassifizieren und/oder in Gruppen einzuordnen. **k-Means** ist ein sogenannter **Clustering**-Algorithmus. Das bedeutet, dass er Datenpunkte in verschiedene Gruppen (**Cluster**) einteilt, sodass die Punkte innerhalb eines Clusters sich m√∂glichst √§hnlich. Die Datenpunkte werden dabei *ohne vorherige Kenntnis* der Gruppenzugeh√∂rigkeit in **k** Cluster eingeteilt. k-Means-Clustering ist daher ein **un√ºberwachter Lernalgorithmus**. Die St√§rke von k-Means liegt darin, gro√üe Datens√§tze effizient zu strukturieren und versteckte Muster zu entdecken.

```{margin}
[Maschinelles Lernen](https://de.wikipedia.org/wiki/Maschinelles_Lernen) ist ein Teilgebiet der KI, bei dem Algorithmen aus Daten lernen und Vorhersagen oder Entscheidungen treffen k√∂nnen.
Algorithmen im Bereich des maschinellen Lernens haben das Ziel, Daten zu analysieren und Muster darin zu erkennen. Ein g√§ngiges Verfahren, um √§hnliche Datenpunkte in Gruppen einzuteilen, ist das k-Means-Clustering.
```


## √úberwachtes vs. un√ºberwachtes Lernen

**Maschinelles Lernen** l√§sst sich grob in zwei Kategorien unterteilen: **√úberwachtes Lernen** und **un√ºberwachtes Lernen**. Beim [√ºberwachten Lernen](https://de.wikipedia.org/wiki/√úberwachtes_Lernen) wird der Algorithmus mit einem Datensatz trainiert, der sowohl Eingabedaten als auch die zugeh√∂rigen Zielwerte (**Label**) enth√§lt. Das bedeutet, dass das Modell aus Beispielen lernt, bei denen die richtigen Antworten bereits bekannt sind. Diese Methode eignet sich gut f√ºr Aufgaben von Klassifikationen (z.B. Spam-Erkennung). Der  [k-N√§chste-Nachbarn-Algorithmus](knearestneighbor) ist so ein Verfahren, der mit bereits gelabelten Trainingsdaten arbeitet.

Im Gegensatz dazu sind beim [un√ºberwachten Lernen](https://de.wikipedia.org/wiki/Un√ºberwachtes_Lernen) keine gelabelten Trainingsdaten vorhanden. Stattdessen versuchen solche Algorithmen, Muster und Strukturen in den Eingabedaten selbstst√§ndig zu erkennen. Clustering, wie k-Means, ist ein typisches Beispiel f√ºr un√ºberwachtes Lernen. Er wird nicht mit gelabelten Daten trainiert, sondern findet eigenst√§ndig Gruppen (Cluster) von √§hnlichen Datenpunkten. In der Welt der KI und des maschinellen Lernens ist Clustering ein wichtiges Mittel, um ungeordnete Daten zu strukturieren und Muster zu erkennen.


## Einf√ºhrung in das Verfahren

Wie oben erw√§hnt, geh√∂rt das k-Means-Clustering geh√∂rt zur Kategorie des un√ºberwachten Lernens. Das bedeutet, dass wir keine vordefinierten Klassen oder Labels haben, sondern lediglich die rohen Daten. Das Ziel von k-Means ist es, die Daten in **k Cluster** zu unterteilen, wobei *k* die Anzahl der Cluster darstellt, in die die Daten eingruppiert werden. Der Algorithmus ermittelt dabei die sogenannten **Zentroiden**, also Mittelpunkten, um die sich die einzelnen Cluster bilden. **Means** steht dabei f√ºr den Durchschnitt, da der Algorithmus die Zentroiden als Durchschnitt der Datenpunkte berechnet, die zu einem Cluster geh√∂ren. Am Ende des Algorithmus sind die Daten innerhalb eines Clusters homogener zueinander als zu den Daten in anderen Clustern.

In einfachen Beispielen k√∂nnten wir die Cluster auch mit dem Auge erkennen und auch ablesen, welche Zahl f√ºr *k* sinnvoll w√§re. Bei gro√üen Datenmengen oder nicht eindeutigen Clustern ben√∂tigen wir dann aber die Hilfe des Algorithmus.

**Aufgabe 1:** Wie w√ºrdest du die folgenden Daten in Cluster aufteilen?

```{figure} bilder/kmeans_3_cluster_einfach_datenpunkte.svg
---
width: 80%
name: fig_kmeans-3-cluster-einfach-datenpunkte
align: center
---
Beispiel von einfacher Verteilung von Datenpunkten
```

```{admonition} L√∂sung
:class: tip, dropdown
```{figure} bilder/kmeans_3_cluster_einfach_ergebnis.svg
---
width: 90%
name: fig_kmeans-3-cluster-einfach-ergebnis
align: center
---
Ergebnis des k-Means-Clustering mit k=3
```

**Aufgabe 2:** Wenn du dir das n√§chste Beispiel anschaust: welche Cluster-Einteilung w√ºrdest du hier vornehmen?

```{figure} bilder/kmeans_4_cluster_komplex_datenpunkte.svg
---
width: 80%
name: fig_kmeans-3-cluster-komplex-datenpunkte
align: center
---
Beispiel von komplexer Verteilung von Datenpunkten
```

```{admonition} L√∂sung
:class: tip, dropdown
```{figure} bilder/kmeans_4_cluster_komplex_ergebnis.svg
---
width: 90%
name: fig_kmeans-3-cluster-komplex-ergebnis
align: center
---
Ergebnis des k-Means-Clustering mit k=4
```

## Ein konkretes Beispiel: Clustering von Obstsorten

Nehmen wir mal an, wir h√§tten eine Datensammlung √ºber verschiedene Obstsorten, einschlie√ülich Informationen wie Gewicht, Farbe, Wassergehalt und Fruchtzuckergehalt. Wir m√∂chten die Daten so segmentieren, dass √§hnliche Obstsorten in einen Cluster kommen, sodass die Cluster m√∂glichst homogen sind. k-Means w√ºrde in diesem Fall die Daten analysieren, Unterschiede und Gemeinsamkeiten erkennen, und basierend darauf die Cluster bilden. Zum Beispiel k√∂nnte der Algorithmus √Ñpfel und Bananen in unterschiedliche Cluster einteilen, da sie Unterschiede im Wasser- und Fruchtzuckergehalt aufweisen.

Wir haben in {numref}`fig_kmeans_obst` eine Sammlung von Obstsorten: üçé (Apfel), üçê (Birne), üçå (Banane), üçä (Orange), üçá (Weintrauben), üçì (Erdbeere), üçâ (Wassermelone), ü•≠ (Mango). Wir m√∂chten diese Obstsorten basierend auf den Eigenschaften Wassergehalt und Fruchtzuckergehalt in Cluster aufteilen.

```{figure} bilder/kmeans_obst.svg
---
width: 80%
name: fig_kmeans_obst
align: center
---
Obstsorten visualisiert nach Wassergehalt und Fruchzuckergehalt
```

**Aufgabe 1:** Wie w√ºrdest du die Obstsorten in Cluster aufteilen? √úberlege dabei, wieviele Cluster sinnvoll w√§ren, also welchen Wert *k* einnehmen w√ºrde.

```{admonition} L√∂sung
:class: tip, dropdown
Der k-means Algorithmus w√ºrde folgende Cluster bilden:
```{figure} bilder/kmeans_obst_clusters_99.svg
---
width: 90%
name: fig_kmeans_obst_99
align: center
---
k-Means-Clustering mit k=3
```

**Aufgabe 2:** Okay, wir wissen nun die Anzahl der Cluster, aber was bedeutet das nun? Versuche mal, das Ergebnis in eigenen Worten zusammenzufassen.

```{admonition} L√∂sung
:class: tip, dropdown
Der Algorithmus hat die Obstsorten in 3 Cluster aufgeteilt, welche die folgenden Merkmale aufweisen:
1. üçå (Banane), üçá (Weintrauben), ü•≠ (Mango): hoher Fruchtzuckergehalt mit mittlerem Wassergehalt
2. üçé (Apfel), üçê (Birne), üçä (Orange) mittlerer Fruchtzuckergehalt mit hohem Wassergehalt
3. üçì (Erdbeere), üçâ (Wassermelone) niedriger Fruchtzuckergehalt mit sehr hohem Wassergehalt
```

## Reale Anwendungsbeispiele

Welche realen Anwendungsbeispiele kannst du dir vorstellen, bei denen das k-means Clustering sinnvoll eingesetzt werden k√∂nnte?

√úberlege dabei, in welchen Bereichen es wichtig sein k√∂nnte, Daten in Gruppen aufzuteilen, ohne dass bereits vorgegeben ist, zu welcher Gruppe ein Datenpunkt geh√∂rt. Welche Situationen kennst du, in denen Menschen, Dinge oder Objekte aufgrund ihrer √Ñhnlichkeit in Gruppen eingeteilt werden m√ºssen? Es gibt hier keine richtige Antwort, nur eine Auswahl an m√∂glichen Einsatzszenarien.

```{admonition} Beispiele
:class: tip, dropdown
- *Marketing*: Kunden in verschiedene Segmente aufteilen. Dadurch k√∂nnen Unternehmen gezieltere Werbung schalten und ihre Produkte effizienter an die verschiedenen Kundengruppen anpassen.
- *Bildanalyse*: √§hnliche Regionen in Bildern finden. Das ist besonders n√ºtzlich f√ºr die Objekterkennung. Hierbei hilft der Algorithmus, verschiedene Objekte in einem Bild zu identifizieren und zu klassifizieren.
- *Biologie*: Forscher nutzen den Algorithmus, um √§hnliche Gene oder Spezies zu gruppieren. Dies kann helfen, neue Erkenntnisse √ºber genetische Verbindungen und Unterschiede zu gewinnen und die Evolution besser zu verstehen.
- *Textanalyse*: Zum Beispiel kann der Algorithmus eingesetzt werden, um √§hnliche Dokumente oder Artikel zu gruppieren, was bei der Organisation gro√üer Textmengen hilfreich ist. In der Finanzwelt wird k-Means genutzt, um riskante von nicht riskanten Krediten zu unterscheiden, indem √§hnliche Kreditprofile gruppiert werden.
```


## Der k-means-Clustering Algorithmus

Der Ablauf des k-means Algorithmus l√§sst sich in ein paar einfachen Schritten zusammenfassen:

```{important}
1. Zuerst werden zuf√§llig **k Zentroiden** ausgew√§hlt. Das k√∂nnen entweder bestehende Punkte aus den Datenpunkten oder zuf√§llig generierte Punkte sein.
2. Dann wird jeden Datenpunkt dem **n√§chstgelegenen Zentroiden** zugewiesen, sodass Cluster gebildet werden.
3. Nachdem alle Datenpunkte zugewiesen sind, werden die Zentroiden neu berechnet, indem der Durchschnitt (**Mean**) aller Punkte innerhalb eines Clusters berechnet wird.
4. Schritt 2 und 3 werden solange wiederholt, bis die **Zentroiden sich nicht mehr √§ndern** oder eine maximale Anzahl an Iterationen erreicht ist.

Folgende Kriterien sind dabei erstrebenswert:
- Die √Ñhnlichkeit der Datenpunkte **innerhalb** der einzelnen Clustern soll **m√∂glichst hoch** sein.

- Die √Ñhnlichkeit der Datenpunkte **zwischen** den einzelnen Clustern soll **m√∂glichst gering** sein.
```

**Frage:** Warum ben√∂tigt es in der Regel mehrere Durchg√§nge (Iterationen), um die Cluster vollst√§ndig zu bilden?

```{admonition} L√∂sung
:class: tip, dropdown
Der k-means Algorithmus braucht in der Regel mehrere Durchg√§nge, um die Cluster korrekt zu finden. Das liegt daran, dass die Zentroiden (also die Mittelpunkte der Cluster) anfangs zuf√§llig gew√§hlt werden. Am Anfang sind diese Zentroiden oft nicht optimal, da sie weit von den echten Clustern entfernt liegen k√∂nnen.

In jeder Iteration passiert Folgendes:
1. Jeder Datenpunkt wird dem n√§chstgelegenen Zentrum zugewiesen, wodurch sich Cluster bilden oder √§ndern. Es ist gut m√∂glich, dass ein Datenpunkt in einem anderen Cluster landet. Damit √§ndert sich dann auch die Position des Zentroiden.
2. Die Zentren werden dann neu berechnet, indem der Durchschnitt der Punkte in jeder Gruppe genommen wird.
3. Dieser Prozess wiederholt sich: Die Datenpunkte werden immer wieder neu zugeordnet, und die Zentren verschieben sich dabei nach und nach.

Das Ziel ist, dass die Zentroiden eine Position erreichen, bei der sie sich nicht mehr gro√ü bewegen, also eine stabile L√∂sung finden. Diese Stabilit√§t wird auch Konvergenz genannt. Je nach Anfangslage der Zentroiden kann es l√§nger dauern, bis der Algorithmus eine stabile Gruppierung erreicht hat. Deshalb sind mehrere Iterationen n√∂tig, um sicherzustellen, dass die Cluster gut und sinnvoll gebildet werden.
```


## Programmierung des Algorithmus