# Unsupervised Learning: Clustering Beispiel

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/klar74/WS2025_lecture/blob/main/Vorlesung_10/VL10_Unsupervised_Clustering_Simple.ipynb)

**Lernziel:** Verstehen von K-Means Clustering ohne Labels

**Szenario:** Kundensegmentierung - Finde versteckte Kundengruppen basierend auf Alter und Ausgaben

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Synthetische Kundendaten erstellen
np.random.seed(42)

# 3 versteckte Kundengruppen simulieren
# Gruppe 1: Junge Kunden, niedrige Ausgaben
gruppe1_alter = np.random.normal(25, 5, 50)
gruppe1_ausgaben = np.random.normal(30, 10, 50)

# Gruppe 2: Mittleres Alter, mittlere Ausgaben  
gruppe2_alter = np.random.normal(40, 8, 50)
gruppe2_ausgaben = np.random.normal(70, 15, 50)

# Gruppe 3: Ältere Kunden, hohe Ausgaben
gruppe3_alter = np.random.normal(55, 7, 50)
gruppe3_ausgaben = np.random.normal(120, 20, 50)

# Alle Daten kombinieren
alter = np.concatenate([gruppe1_alter, gruppe2_alter, gruppe3_alter])
ausgaben = np.concatenate([gruppe1_ausgaben, gruppe2_ausgaben, gruppe3_ausgaben])

# DataFrame erstellen
df = pd.DataFrame({
    'alter': alter.round(0).astype(int),
    'ausgaben_euro': ausgaben.round(2)
})

print(f"📊 Kundendaten: {len(df)} Kunden")
print(f"Alter: {df['alter'].min()} - {df['alter'].max()} Jahre")
print(f"Ausgaben: {df['ausgaben_euro'].min():.2f} - {df['ausgaben_euro'].max():.2f} €")

df.head()

In [None]:
# Daten visualisieren - noch ohne Cluster
plt.figure(figsize=(10, 6))
plt.scatter(df['alter'], df['ausgaben_euro'], alpha=0.7, s=50, color='gray')
plt.xlabel('Alter (Jahre)')
plt.ylabel('Ausgaben (€)')
plt.title('Kundendaten - Versteckte Gruppen?')
plt.grid(True, alpha=0.3)
plt.show()

print("🤔 Frage: Siehst du versteckte Gruppen in den Daten?")
print("💡 Clustering hilft dabei, diese automatisch zu finden!")

In [None]:
# K-Means Clustering anwenden
print("🔍 K-MEANS CLUSTERING")
print("=" * 30)

# Daten standardisieren (wichtig für K-Means!)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df[['alter', 'ausgaben_euro']])

# K-Means mit 3 Clustern
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
cluster_labels = kmeans.fit_predict(X_scaled)

# Cluster-Labels zu DataFrame hinzufügen
df['cluster'] = cluster_labels

# Cluster-Zentren zurück transformieren
centers_original = scaler.inverse_transform(kmeans.cluster_centers_)

print(f"✅ {len(set(cluster_labels))} Cluster gefunden!")
print("\n📋 Cluster-Größen:")
cluster_counts = df['cluster'].value_counts().sort_index()
for cluster, count in cluster_counts.items():
    print(f"   Cluster {cluster}: {count} Kunden")

# Cluster-Zentren anzeigen
print("\n🎯 Cluster-Zentren:")
for i, center in enumerate(centers_original):
    print(f"   Cluster {i}: {center[0]:.1f} Jahre, {center[1]:.2f} €")

In [None]:
# Ergebnisse visualisieren
plt.figure(figsize=(12, 5))

# Subplot 1: Original Daten
plt.subplot(1, 2, 1)
plt.scatter(df['alter'], df['ausgaben_euro'], alpha=0.7, s=50, color='gray')
plt.xlabel('Alter (Jahre)')
plt.ylabel('Ausgaben (€)')
plt.title('Vorher: Unbekannte Struktur')
plt.grid(True, alpha=0.3)

# Subplot 2: Mit Clustern
plt.subplot(1, 2, 2)
colors = ['red', 'blue', 'green']
cluster_names = ['Sparsame Junge', 'Solide Mitte', 'Premium Ältere']

for i in range(3):
    cluster_data = df[df['cluster'] == i]
    plt.scatter(cluster_data['alter'], cluster_data['ausgaben_euro'], 
               alpha=0.7, s=50, color=colors[i], label=f'Cluster {i}: {cluster_names[i]}')

# Cluster-Zentren markieren
plt.scatter(centers_original[:, 0], centers_original[:, 1], 
           marker='x', s=200, linewidths=3, color='black', label='Zentren')

plt.xlabel('Alter (Jahre)')
plt.ylabel('Ausgaben (€)')
plt.title('Nachher: 3 Kundengruppen entdeckt!')
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n🎉 UNSUPERVISED LEARNING ERFOLGREICH!")
print("✅ Ohne Labels automatisch 3 Kundengruppen gefunden")
print("✅ Marketing kann jetzt zielgerichtete Strategien entwickeln")

## 💡 Was haben wir gelernt?

**Unsupervised Learning:**
- 🔍 **Keine Labels nötig** - Algorithmus findet selbst Muster
- 🎯 **K-Means Clustering** - Gruppiert ähnliche Datenpunkte
- 📊 **Standardisierung wichtig** - Verschiedene Skalen angleichen

**Business Value:**
- 👥 **Kundensegmentierung** ohne Vorwissen
- 🎯 **Zielgerichtetes Marketing** für jede Gruppe
- 💰 **Neue Erkenntnisse** aus vorhandenen Daten

**Nächste Schritte:**
- Optimale Anzahl Cluster finden (Elbow-Methode)
- Andere Clustering-Algorithmen (DBSCAN, Hierarchical)
- Cluster-Charakteristika analysieren