# Silhouette Score Demonstration

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/klar74/WS2025_lecture/blob/main/Vorlesung_11/Silhouette_Score_Demonstration.ipynb)

Dieses Notebook zeigt anhand verschiedener Clustering-Szenarien, wie der Silhouette Score funktioniert und was er über die Qualität der Cluster aussagt.

**Erinnerung aus VL12:**
- **a:** Durchschnittlicher Abstand zu Punkten im *eigenen* Cluster (soll klein sein)
- **b:** Durchschnittlicher Abstand zum *nächstgelegenen anderen* Cluster (soll groß sein)
- **Formel:** $s = \frac{b - a}{\max(a, b)}$, wobei $s \in [-1, +1]$
- **s ≈ +1:** Punkt liegt klar in seinem Cluster (gut!)
- **s ≈ 0:** Punkt liegt zwischen zwei Clustern (grenzwertig)
- **s ≈ -1:** Punkt ist falsch zugeordnet (schlecht!)

In [None]:
# Import der benötigten Bibliotheken
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs, make_circles
from sklearn.metrics import silhouette_score, silhouette_samples
import seaborn as sns

# Stil für bessere Plots
plt.style.use('default')
sns.set_palette("husl")
np.random.seed(42)

print("✓ Bibliotheken erfolgreich importiert")

## Szenario 1: Perfekt getrennte Cluster (Erwartung: hoher Silhouette Score)

Wir erstellen drei klar getrennte, kompakte Cluster - die ideale Situation für Clustering.

In [None]:
# Perfekt getrennte Cluster erstellen
X_perfect, y_true_perfect = make_blobs(
    n_samples=300, 
    centers=3, 
    cluster_std=0.8,  # Kleine Standardabweichung = kompakte Cluster
    center_box=(-10.0, 10.0),  # Große Bounding Box = weit auseinander
    random_state=42
)

# K-Means Clustering
kmeans_perfect = KMeans(n_clusters=3, random_state=42, n_init=10)
y_pred_perfect = kmeans_perfect.fit_predict(X_perfect)

# Silhouette Score berechnen
sil_score_perfect = silhouette_score(X_perfect, y_pred_perfect)
sil_samples_perfect = silhouette_samples(X_perfect, y_pred_perfect)

print(f"Perfekte Cluster - Silhouette Score: {sil_score_perfect:.3f}")
print(f"Interpretation: Score > 0.7 = Ausgezeichnete Clusterung")

In [None]:
# Visualisierung der perfekten Cluster
plt.figure(figsize=(10, 7))

# Scatter Plot mit Clustern
colors = ['red', 'blue', 'green']
for i in range(3):
    mask = y_pred_perfect == i
    plt.scatter(X_perfect[mask, 0], X_perfect[mask, 1], 
               c=colors[i], alpha=0.7, s=50, 
               label=f'Cluster {i+1}')

# Cluster-Zentren markieren
centers = kmeans_perfect.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], 
           c='black', marker='x', s=200, linewidths=3, label='Zentren')

plt.title(f'Perfekte Cluster\nSilhouette Score: {sil_score_perfect:.3f} (Ausgezeichnet!)', fontsize=14)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"✅ Score > 0.7 = Ausgezeichnete Clusterung")
print(f"   Die Cluster sind klar getrennt und kompakt")

## Szenario 2: Überlappende Cluster (Erwartung: mittlerer Silhouette Score)

Hier erstellen wir Cluster, die sich teilweise überlappen - eine häufige Situation in realen Daten.

In [None]:
# Überlappende Cluster erstellen
X_overlap, y_true_overlap = make_blobs(
    n_samples=300, 
    centers=3, 
    cluster_std=2.5,  # Größere Standardabweichung = überlappende Cluster
    center_box=(-5.0, 5.0),  # Kleinere Bounding Box = näher zusammen
    random_state=42
)

# K-Means Clustering
kmeans_overlap = KMeans(n_clusters=3, random_state=42, n_init=10)
y_pred_overlap = kmeans_overlap.fit_predict(X_overlap)

# Silhouette Score berechnen
sil_score_overlap = silhouette_score(X_overlap, y_pred_overlap)
sil_samples_overlap = silhouette_samples(X_overlap, y_pred_overlap)

print(f"Überlappende Cluster - Silhouette Score: {sil_score_overlap:.3f}")
print(f"Interpretation: Score 0.25-0.5 = Schwache bis mäßige Clusterstruktur")

In [None]:
# Visualisierung der überlappenden Cluster
plt.figure(figsize=(10, 7))

# Scatter Plot
for i in range(3):
    mask = y_pred_overlap == i
    plt.scatter(X_overlap[mask, 0], X_overlap[mask, 1], 
               c=colors[i], alpha=0.6, s=50, 
               label=f'Cluster {i+1}')

centers = kmeans_overlap.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], 
           c='black', marker='x', s=200, linewidths=3, label='Zentren')

plt.title(f'Überlappende Cluster\nSilhouette Score: {sil_score_overlap:.3f} (Mäßig)', fontsize=14)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"⚠️ Score 0.25-0.5 = Schwache bis mäßige Clusterstruktur")
print(f"   Die Cluster überlappen - weniger klare Trennung")

## Szenario 3: Falsche Anzahl Cluster (Erwartung: niedriger Silhouette Score)

Was passiert, wenn wir zu viele Cluster für die Datenstruktur wählen? Wir nehmen die perfekten Daten von Szenario 1, aber clustern in 6 statt 3 Gruppen.

In [None]:
# Zu viele Cluster für die gleichen perfekten Daten
kmeans_wrong = KMeans(n_clusters=6, random_state=42, n_init=10)  # 5 statt 3!
y_pred_wrong = kmeans_wrong.fit_predict(X_perfect)

# Silhouette Score berechnen
sil_score_wrong = silhouette_score(X_perfect, y_pred_wrong)
sil_samples_wrong = silhouette_samples(X_perfect, y_pred_wrong)

print(f"Falsche Cluster-Anzahl - Silhouette Score: {sil_score_wrong:.3f}")
print(f"Interpretation: Score deutlich niedriger als bei korrekter Anzahl ({sil_score_perfect:.3f})")
print(f"Grund: Natürliche Cluster werden künstlich aufgespalten")

In [None]:
# Visualisierung der falschen Cluster-Anzahl
plt.figure(figsize=(10, 7))

# Scatter Plot mit 6 Clustern
colors_6 = ['red', 'blue', 'green', 'orange', 'purple', 'yellow']
for i in range(6):
    mask = y_pred_wrong == i
    plt.scatter(X_perfect[mask, 0], X_perfect[mask, 1], 
               c=colors_6[i], alpha=0.7, s=50, 
               label=f'Cluster {i+1}')

centers = kmeans_wrong.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], 
           c='black', marker='x', s=200, linewidths=3, label='Zentren')

plt.title(f'Falsche Cluster-Anzahl (6 statt 3)\nSilhouette Score: {sil_score_wrong:.3f} (Schlechter!)', fontsize=14)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"❌ Score deutlich niedriger als bei korrekter Anzahl ({sil_score_perfect:.3f})")
print(f"   Grund: Natürliche Cluster werden künstlich aufgespalten")

## Szenario 4: Optimale Cluster-Anzahl finden

Der Silhouette Score hilft uns, die optimale Anzahl von Clustern zu bestimmen. Wir testen verschiedene k-Werte und schauen, wo der Score am höchsten ist.

In [None]:
# Verschiedene k-Werte testen
k_range = range(2, 8)  # Von 2 bis 7 Cluster
silhouette_scores = []

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    cluster_labels = kmeans.fit_predict(X_perfect)
    score = silhouette_score(X_perfect, cluster_labels)
    silhouette_scores.append(score)
    print(f"k={k}: Silhouette Score = {score:.3f}")

# Optimales k finden
optimal_k = k_range[np.argmax(silhouette_scores)]
max_score = max(silhouette_scores)

print(f"\n🎯 Optimales k: {optimal_k} (Score: {max_score:.3f})")

In [None]:
# Silhouette Score vs. Anzahl Cluster plotten
plt.figure(figsize=(10, 6))
plt.plot(k_range, silhouette_scores, 'bo-', linewidth=2, markersize=8)
plt.axvline(x=optimal_k, color='red', linestyle='--', alpha=0.7, 
           label=f'Optimales k = {optimal_k}')
plt.axhline(y=max_score, color='red', linestyle='--', alpha=0.7)

# Annotationen
plt.annotate(f'Maximum: k={optimal_k}\nScore={max_score:.3f}', 
            xy=(optimal_k, max_score), 
            xytext=(optimal_k+0.5, max_score-0.05),
            arrowprops=dict(arrowstyle='->', color='red'),
            fontsize=12, ha='left')

plt.xlabel('Anzahl Cluster (k)', fontsize=12)
plt.ylabel('Silhouette Score', fontsize=12)
plt.title('Silhouette Score zur optimalen Cluster-Anzahl', fontsize=14)
plt.grid(True, alpha=0.3)
plt.legend()
plt.xticks(k_range)

# Interpretations-Bereiche markieren
plt.axhspan(0.7, 1.0, alpha=0.1, color='green', label='Ausgezeichnet (>0.7)')
plt.axhspan(0.5, 0.7, alpha=0.1, color='yellow', label='Gut (0.5-0.7)')
plt.axhspan(0.25, 0.5, alpha=0.1, color='orange', label='Schwach (0.25-0.5)')
plt.axhspan(-1.0, 0.25, alpha=0.1, color='red', label='Keine Struktur (<0.25)')

plt.tight_layout()
plt.show()

## Szenario 5: Smart Operations Beispiel - Maschinennutzungsprofile

Praktisches Beispiel aus der Vorlesung: Verschiedene Maschinennutzungsprofile basierend auf Betriebszeiten und Leistung.

In [None]:
# Simulierte Maschinendaten erstellen
np.random.seed(42)

# Dauerbetrieb: Hohe Betriebszeit, konstante Leistung
dauerbetrieb_x = np.random.normal(20, 2, 80)  # ~20h Betriebszeit
dauerbetrieb_y = np.random.normal(85, 5, 80)  # ~85% Auslastung

# Teilzeit: Mittlere Betriebszeit, variable Leistung
teilzeit_x = np.random.normal(10, 3, 80)  # ~10h Betriebszeit
teilzeit_y = np.random.normal(60, 10, 80)  # ~60% Auslastung

# Wartung/Probleme: Niedrige Betriebszeit, schwankende Leistung
wartung_x = np.random.normal(4, 2, 40)  # ~4h Betriebszeit
wartung_y = np.random.normal(30, 15, 40)  # ~30% Auslastung

# Daten kombinieren
X_machines = np.vstack([
    np.column_stack([dauerbetrieb_x, dauerbetrieb_y]),
    np.column_stack([teilzeit_x, teilzeit_y]),
    np.column_stack([wartung_x, wartung_y])
])

# Echte Labels für Vergleich (nur zur Evaluation, nicht für Clustering)
y_true_machines = np.array([0]*80 + [1]*80 + [2]*40)

print(f"Maschinendaten erstellt: {X_machines.shape[0]} Maschinen")
print(f"Features: [Betriebszeit (h/Tag), Auslastung (%)]")

### Aufgabe: Maschinentypen ohne Vorwissen identifizieren

**Stell dir vor:** Du bist Produktionsleiter und hast Daten von 200 Maschinen. Du weißt nur:
- Wie viele Stunden pro Tag jede Maschine läuft
- Wie stark sie dabei ausgelastet ist (in Prozent)

**Die Frage:** Gibt es natürliche Gruppen von Maschinen mit ähnlichen Nutzungsmustern? Ohne dass dir jemand sagt "Das ist eine Dauerbetrieb-Maschine" oder "Das ist eine Wartungsfall"?

**Clustering-Ziel:** Automatisch entdecken, welche Maschinen sich ähnlich verhalten → bessere Wartungsplanung, Ressourcenoptimierung

In [None]:
# Rohdaten visualisieren - ohne Clustering, nur die beiden Features
plt.figure(figsize=(10, 7))
plt.scatter(X_machines[:, 0], X_machines[:, 1], 
           alpha=0.6, s=50, c='gray', edgecolors='black', linewidth=0.5)

plt.xlabel('Betriebszeit (Stunden/Tag)', fontsize=12)
plt.ylabel('Auslastung (%)', fontsize=12)
plt.title('Rohdaten: 200 Maschinen ohne Gruppierung\nKann ein Algorithmus hier Muster erkennen?', fontsize=14)
plt.grid(True, alpha=0.3)

# Bereiche zur Orientierung einzeichnen
plt.axvspan(0, 7, alpha=0.05, color='red', label='Niedrige Betriebszeit')
plt.axvspan(7, 15, alpha=0.05, color='yellow', label='Mittlere Betriebszeit')  
plt.axvspan(15, 25, alpha=0.05, color='green', label='Hohe Betriebszeit')

plt.legend(loc='upper right')
plt.tight_layout()
plt.show()

print("👁️ Mit bloßem Auge sieht man schon 3 Bereiche...")
print("🤖 Aber kann K-Means das automatisch finden?")

In [None]:
# K-Means auf Maschinendaten anwenden
kmeans_machines = KMeans(n_clusters=3, random_state=42, n_init=10)
y_pred_machines = kmeans_machines.fit_predict(X_machines)

# Silhouette Score berechnen
sil_score_machines = silhouette_score(X_machines, y_pred_machines)
sil_samples_machines = silhouette_samples(X_machines, y_pred_machines)

print(f"Maschinennutzungsprofile - Silhouette Score: {sil_score_machines:.3f}")
print(f"Interpretation: Score > 0.7 = Ausgezeichnete Trennung der Nutzungsprofile!")

# Cluster-Labels zuordnen (für bessere Interpretation)
centers = kmeans_machines.cluster_centers_
cluster_names = []
for i, center in enumerate(centers):
    if center[0] > 15:  # Hohe Betriebszeit
        cluster_names.append(f"Cluster {i}: Dauerbetrieb")
    elif center[0] > 7:  # Mittlere Betriebszeit
        cluster_names.append(f"Cluster {i}: Teilzeit")
    else:  # Niedrige Betriebszeit
        cluster_names.append(f"Cluster {i}: Wartung/Probleme")

for name in cluster_names:
    print(f"  {name}")

In [None]:
# Visualisierung der Maschinennutzungsprofile
fig, ax1 = plt.subplots(1, 1, figsize=(16, 6))

# Links: Scatter Plot der Maschinenprofile
colors_machines = ['darkred', 'darkblue', 'darkgreen']

# Labels KORREKT basierend auf tatsächlichen Cluster-Zentren zuordnen
centers = kmeans_machines.cluster_centers_
labels_machines = [''] * 3
for i, center in enumerate(centers):
    if center[0] > 15:  # Hohe Betriebszeit
        labels_machines[i] = 'Dauerbetrieb'
    elif center[0] > 7:  # Mittlere Betriebszeit
        labels_machines[i] = 'Teilzeit'
    else:  # Niedrige Betriebszeit
        labels_machines[i] = 'Wartung/Probleme'

for i in range(3):
    mask = y_pred_machines == i
    ax1.scatter(X_machines[mask, 0], X_machines[mask, 1], 
               c=colors_machines[i], alpha=0.7, s=60, 
               label=f'{labels_machines[i]}')

# Cluster-Zentren
centers = kmeans_machines.cluster_centers_
ax1.scatter(centers[:, 0], centers[:, 1], 
           c='black', marker='x', s=300, linewidths=4, label='Zentren')

ax1.set_title(f'Maschinennutzungsprofile\nSilhouette Score: {sil_score_machines:.3f}', fontsize=14)
ax1.set_xlabel('Betriebszeit (Stunden/Tag)', fontsize=12)
ax1.set_ylabel('Auslastung (%)', fontsize=12)
ax1.legend(fontsize=10)
ax1.grid(True, alpha=0.3)

# Visualisierung der Maschinennutzungsprofile
fig, ax1 = plt.subplots(1, 1, figsize=(12, 8))  # Nur noch ein Plot!

# Scatter Plot der Maschinenprofile
colors_machines = ['darkred', 'darkblue', 'darkgreen']

# Labels KORREKT basierend auf tatsächlichen Cluster-Zentren zuordnen
centers = kmeans_machines.cluster_centers_
labels_machines = [''] * 3
for i, center in enumerate(centers):
    if center[0] > 15:  # Hohe Betriebszeit
        labels_machines[i] = 'Dauerbetrieb'
    elif center[0] > 7:  # Mittlere Betriebszeit
        labels_machines[i] = 'Teilzeit'
    else:  # Niedrige Betriebszeit
        labels_machines[i] = 'Wartung/Probleme'

for i in range(3):
    mask = y_pred_machines == i
    ax1.scatter(X_machines[mask, 0], X_machines[mask, 1], 
               c=colors_machines[i], alpha=0.7, s=60, 
               label=f'{labels_machines[i]}')

# Cluster-Zentren
centers = kmeans_machines.cluster_centers_
ax1.scatter(centers[:, 0], centers[:, 1], 
           c='black', marker='x', s=300, linewidths=4, label='Zentren')

ax1.set_title(f'Maschinennutzungsprofile - Automatisch gefundene Cluster\nSilhouette Score: {sil_score_machines:.3f}', fontsize=14)
ax1.set_xlabel('Betriebszeit (Stunden/Tag)', fontsize=12)
ax1.set_ylabel('Auslastung (%)', fontsize=12)
ax1.legend(fontsize=11)
ax1.grid(True, alpha=0.3)

# Bereiche markieren (basierend auf tatsächlichen Daten)
ax1.axvspan(0, 7, alpha=0.1, color='red')
ax1.axvspan(7, 15, alpha=0.1, color='yellow')
ax1.axvspan(15, 25, alpha=0.1, color='green')

plt.tight_layout()
plt.show()

In [None]:
# Detailanalyse der Cluster-Qualität - VIEL verständlicher als Silhouette Plot!
print("🔍 CLUSTER-QUALITÄT ANALYSE")
print("=" * 50)

# Score-Bewertung
if sil_score_machines > 0.7:
    quality_emoji = "🟢"
    quality_text = "AUSGEZEICHNET"
elif sil_score_machines > 0.5:
    quality_emoji = "🟡"
    quality_text = "GUT"
elif sil_score_machines > 0.25:
    quality_emoji = "🟠"
    quality_text = "SCHWACH"
else:
    quality_emoji = "🔴"
    quality_text = "SCHLECHT"

print(f"\n{quality_emoji} Gesamt-Score: {sil_score_machines:.3f} ({quality_text})")

# Pro-Cluster Analyse
print(f"\n📊 CLUSTER-DETAILS:")
for i in range(3):
    cluster_sil_scores = sil_samples_machines[y_pred_machines == i]
    avg_score = np.mean(cluster_sil_scores)
    cluster_size = len(cluster_sil_scores)
    center = centers[i]
    
    if avg_score > 0.7:
        cluster_quality = "🟢 Sehr gut getrennt"
    elif avg_score > 0.5:
        cluster_quality = "🟡 Gut getrennt"
    elif avg_score > 0.25:
        cluster_quality = "🟠 Schwach getrennt"
    else:
        cluster_quality = "🔴 Schlecht getrennt"
    
    print(f"  {labels_machines[i]:.<20} {avg_score:.3f} ({cluster_size:3d} Maschinen) {cluster_quality}")
    print(f"    Zentrum: {center[0]:.1f}h/Tag, {center[1]:.1f}% Auslastung")

print(f"\n💡 INTERPRETATION:")
print(f"• Score > 0.7: Cluster sind klar getrennt - vertraue der Gruppierung!")
print(f"• Score 0.5-0.7: Gute Trennung - Gruppierung macht Sinn")
print(f"• Score 0.25-0.5: Schwache Trennung - andere Anzahl Cluster probieren")
print(f"• Score < 0.25: Keine klare Struktur - eventuell andere Algorithmen")

print(f"\n🏭 BUSINESS-NUTZEN:")
print(f"• {labels_machines[0]}: Kritische Maschinen - präventive Wartung")
print(f"• {labels_machines[1]}: Standard-Maschinen - reguläre Wartungszyklen") 
print(f"• {labels_machines[2]}: Problem-Maschinen - sofortige Inspektion nötig")

## Zusammenfassung und Interpretation

Der Silhouette Score ist ein mächtiges Werkzeug zur Bewertung von Clustering-Qualität:

In [None]:
# Vergleich aller Szenarien
scenarios = [
    ('Perfekt getrennte Cluster', sil_score_perfect),
    ('Überlappende Cluster', sil_score_overlap),
    ('Falsche Cluster-Anzahl', sil_score_wrong),
    ('Maschinennutzungsprofile', sil_score_machines)
]

print("📊 SILHOUETTE SCORE VERGLEICH")
print("=" * 50)

for scenario, score in scenarios:
    if score > 0.7:
        quality = "🟢 Ausgezeichnet"
    elif score > 0.5:
        quality = "🟡 Gut"
    elif score > 0.25:
        quality = "🟠 Schwach"
    else:
        quality = "🔴 Keine Struktur"
    
    print(f"{scenario:.<30} {score:.3f} {quality}")

print("\n🎯 PRAKTISCHE EMPFEHLUNGEN:")
print("• Score > 0.7: Vertraue der Clusterung, sie zeigt echte Struktur")
print("• Score 0.5-0.7: Solide Clusterung, aber prüfe die Interpretation")
print("• Score 0.25-0.5: Schwache Struktur, eventuell andere Algorithmen probieren")
print("• Score < 0.25: Keine klare Clusterstruktur in den Daten")
print("\n💡 Bei schlechten Scores: Andere k-Werte, andere Algorithmen (DBSCAN, hierarchisch) oder Feature-Engineering probieren!")