# Übung: Clustering mit K-Means

**Ziel:**
In dieser Übung lernen Sie, den K-Means-Algorithmus für unüberwachtes Lernen anzuwenden. Sie laden einen Datensatz, erkunden ihn, standardisieren die Daten, bestimmen passende Cluster-Anzahlen, führen K-Means durch und visualisieren die Ergebnisse. Dabei experimentieren Sie mit Parametern und recherchieren online wichtige Metriken.

**Dauer:** ca. 30 Minuten

**Voraussetzungen:**
- Python-Grundkenntnisse
- scikit-learn, pandas, matplotlib, seaborn (optional), ggf. scikit‑learn-extra installiert


## 1. Problemstellung und Datensatz
Für viele reale Anwendungen (z. B. Kundensegmentierung, Bildkompression) ist es hilfreich, ähnliche Objekte in Gruppen zusammenzufassen. In dieser Übung nutzen wir dafür den **Wein-Datensatz** (Wine) aus scikit-learn.

**Aufgabe:**
1. Laden und erkunden Sie den Wine-Datensatz.
2. Standardisieren Sie die Features.
3. Bestimmen Sie mittels Elbow-Method und Silhouette-Analyse eine geeignete Anzahl von Clustern.
4. Führen Sie K-Means durch und interpretieren Sie Cluster-Zentren.
5. Visualisieren Sie die Cluster mithilfe von PCA auf 2 Komponenten.
6. Reflektieren Sie Einfluss von Parametern und recherchieren Sie online weitere Clustering-Verfahren.


## 2. Vorbereitung: Daten laden und erkunden

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine

# Laden des Wine-Datensatzes
data = load_wine()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df.head()

### Aufgabe 1:
- Nutzen Sie `df.info()` und `df.describe()`. Welche Eigenschaften hat der Datensatz?
- Wie groß ist jede Klasse (`value_counts()`)?

### Lösung Aufgabe 1:
...

## 3. Datenvorverarbeitung: Standardisierung


In [None]:
# %%
from sklearn.preprocessing import StandardScaler

# Features extrahieren und standardisieren
X = df[data.feature_names]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# In DataFrame zurück
df_scaled = pd.DataFrame(X_scaled, columns=data.feature_names)

df_scaled.head()

### Aufgabe 2:
- Warum ist Standardisierung (z. B. `StandardScaler`) vor K-Means wichtig?
- Experimentieren Sie: Was ändert sich, wenn Sie nicht skalieren (beim späteren Erstellen der Cluster. Erst nach Aufgabe 8)?

### Lösung Aufgabe 2:
...

## 4. Elbow-Method: Wahl der Cluster-Anzahl
Beim K-Means-Clustering versucht man, Datenpunkte in k Gruppen zu unterteilen, sodass die Punkte innerhalb eines Clusters möglichst ähnlich sind. Dazu wird die sogenannte Inertia (auch Within-Cluster Sum of Squares, WCSS) berechnet.

Die Elbow-Methode hilft dabei, den Punkt zu finden, an dem das Hinzufügen weiterer Cluster keinen signifikanten Gewinn mehr bringt.

### Wie funktioniert sie?
1. Berechne die Inertia für verschiedene Werte von k (z.B. von 1 bis 10).

2. Trage die Inertia gegen k auf einem Diagramm auf.

3. Suche nach dem „Knick“ oder „Ellbogen“ in der Kurve – also dem Punkt, ab dem die Inertia nur noch langsam sinkt.

Dieser Knick markiert den optimalen Wert für k, da ab diesem Punkt zusätzliche Cluster nur noch geringe Verbesserungen bringen.


In [None]:
from sklearn.cluster import KMeans

inertia = []
ks = range(..., ...) # Code anpassen
for k in ks:
    km = KMeans(n_clusters=k, random_state=42)
    km.fit(X_scaled)
    inertia.append(km.inertia_)

# Elbow-Plot
plt.figure(figsize=(8,5))
plt.plot(ks, inertia, '-o')
plt.xlabel('Anzahl der Cluster k')
plt.ylabel('Inertia')
plt.title('Elbow-Method zur Bestimmung von k')
plt.show()

### Aufgabe 3:
- Interpretieren Sie den Elbow-Plot. Wo erkennen Sie ggf. einen Knick („Elbow“)?
- Recherchieren Sie online: Was misst die Inertia genau und welche Limitationen hat sie?

### Lösung Aufgabe 3:
...

## 5. Silhouette-Analyse zur Validierung
Der Silhouette-Score misst, wie ähnlich ein Datenpunkt seiner eigenen Clustergruppe im Vergleich zu anderen Clustern ist.

### Wie wird die Silhouette-Analyse angewendet?
1. Clusterbildung: Führen Sie K-Means-Clustering für verschiedene Werte von k (Anzahl der Cluster) durch.

2. Berechnung des Silhouette-Scores: Für jeden k-Wert berechnen Sie den durchschnittlichen Silhouette-Score über alle Datenpunkte.

3. Visualisierung: Erstellen Sie ein Diagramm der Silhouette-Scores gegen die Anzahl der Cluster.

4. Bestimmung des optimalen k: Wählen Sie den k-Wert mit dem höchsten durchschnittlichen Silhouette-Score als optimale Anzahl von Clustern.


In [None]:
from sklearn.metrics import silhouette_score

sil_scores = []
for k in range(2, 11):
    km = KMeans(n_clusters=k, random_state=42)
    labels = km.fit_predict(X_scaled)
    sil_scores.append(silhouette_score(X_scaled, labels))

# Silhouette-Plot
plt.figure(figsize=(8,5))
plt.plot(range(2,11), sil_scores, '-o')
plt.xlabel('Anzahl der Cluster k')
plt.ylabel('Silhouette Score')
plt.title('Silhouette-Analyse')
plt.show()

### Aufgabe 4:
- Welchen k-Wert würden Sie aufgrund des Silhouette-Scores wählen?
- Recherchieren Sie: Wie wird der Silhouette-Score berechnet und was sagt er über die Cluster-Struktur aus?


### Lösung Aufgabe 4:
...

## 6. K-Means mit gewähltem k und Interpretation


In [None]:
# Beispiel: k aus vorheriger Analyse
chosen_k = 3
km = KMeans(n_clusters=chosen_k, random_state=42)
labels = km.fit_predict(X_scaled)

df['cluster'] = labels

# Cluster-Zentren (auf Originaldaten zurücktransformiert)
centers = scaler.inverse_transform(km.cluster_centers_)
centers_df = pd.DataFrame(centers, columns=data.feature_names)

print("Cluster-Zentren (ursprüngliche Skala):")
print(centers_df)

### Aufgabe 5:
- Interpretieren Sie die Cluster-Zentren. Welche Merkmale unterscheiden die Cluster am stärksten?
- Experiment: Ändern Sie `n_init` oder `max_iter` (Attribute von `KMeans`). Was beobachten Sie?

### Lösung Aufgabe 5:
...

## 7. Visualisierung mit PCA


In [None]:
from sklearn.decomposition import PCA

# PCA auf 2 Komponenten
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Scatterplot
df_plot = pd.DataFrame(X_pca, columns=['PC1', 'PC2'])
df_plot['cluster'] = labels

plt.figure(figsize=(8,6))
for c in range(chosen_k):
    subset = df_plot[df_plot['cluster'] == c]
    plt.scatter(subset['PC1'], subset['PC2'], label=f'Cluster {c}', edgecolor='k')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('K-Means Cluster in PCA-Projektion')
plt.legend()
plt.show()

### Aufgabe 6:
- Interpretieren Sie die Verteilung in der PCA-Projektion. Sind die Cluster klar separiert?

### Lösung Aufgabe 6:
...


## 8. Berechnung von Accuracy, Precision und Recall
Obwohl Clustering unüberwacht ist, können wir die gefundenen Cluster mit den echten Labels vergleichen und klassifikationsmetrische Auswertungen durchführen.



In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score
import numpy as np

# Mapping von Cluster zu Label mittels Mehrheitsentscheidung
label_mapping = {}
for cluster in np.unique(labels):
    mask = labels == cluster
    true_labels = df.loc[mask, 'target']
    most_common = true_labels.mode()[0]
    label_mapping[cluster] = most_common

# Vorhergesagte Labels anhand des Mapping
predicted_labels = np.array([label_mapping[c] for c in labels])

# Metriken berechnen
acc = accuracy_score(df['target'], predicted_labels)
prec = precision_score(df['target'], predicted_labels, average='weighted')
rec = recall_score(df['target'], predicted_labels, average='weighted')
print(f"Accuracy: {acc:.3f}")
print(f"Precision (gewichtet): {prec:.3f}")
print(f"Recall (gewichtet): {rec:.3f}")