# 🌳 Woche 3: Bäume, Nachbarn und Clustering - AMALEA Kernkonzepte

**Integration der ursprünglichen AMALEA-Notebooks:**
- "Willkommen in der Baumschule!" → Decision Trees
- "Schöne Nachbarschaft" → K-Nearest Neighbors  
- "K-Means-Clustering" → Unsupervised Learning

## 📚 Was du heute lernst

- **Decision Trees** 🌳 - Wie Computer Entscheidungen treffen
- **K-Nearest Neighbors (KNN)** 👥 - Lernen von den Nachbarn
- **K-Means Clustering** 🎯 - Gruppen in Daten finden
- **Supervised vs. Unsupervised Learning** unterscheiden
- **Streamlit-Apps** für alle drei Algorithmen erstellen

---

## 🎬 Ergänzende Videos: Advanced Algorithms

**📼 Original AMALEA Video-Serie (KIT 2021):**

- **Video 1:** `../Kurs-Videos/amalea-kit2021-w3v2 (1080p).mp4` - Willkommen in der Baumschule! (Decision Trees)
- **Video 2:** `../Kurs-Videos/amalea-kit2021-w3v3 (1080p).mp4` - Schöne Nachbarschaft (K-Nearest Neighbors)  
- **Video 3:** `../Kurs-Videos/amalea-kit2021-w3v4 (1080p).mp4` - K-Means Clustering

💡 **Tipp:** Diese 3 Algorithmen sind die "Big 3" des Machine Learning - verstehst du sie, verstehst du 80% aller ML-Projekte!

In [None]:
# 📦 Installation und Imports
!pip install scikit-learn matplotlib seaborn plotly streamlit

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris, load_wine, make_blobs
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, silhouette_score, adjusted_rand_score
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cluster import KMeans

plt.style.use('default')
sns.set_palette("husl")

print("✅ Alle Pakete erfolgreich installiert!")
print("🎯 Bereit für die 'Big 3' des Machine Learning!")

In [None]:
# 🌳 Decision Trees - "Willkommen in der Baumschule!"
print("🌳 Decision Trees - Wie Computer Entscheidungen treffen")
print("=" * 60)

# Iris-Datensatz laden
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names

print("📊 Datensatz-Info:")
print(f"- Features: {feature_names}")
print(f"- Targets: {target_names}")
print(f"- Samples: {X.shape[0]}")

# Datenaufteilung
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Decision Tree trainieren
dt_classifier = DecisionTreeClassifier(max_depth=3, min_samples_split=2, random_state=42)
dt_classifier.fit(X_train, y_train)

# Vorhersagen und Evaluation
y_pred = dt_classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"\n✅ Accuracy: {accuracy:.2%}")
print(f"📋 Testsamples: {len(y_test)}")
print(f"🎯 Richtige Vorhersagen: {sum(y_test == y_pred)}")

# Visualisierung
plt.figure(figsize=(15, 10))
plot_tree(dt_classifier, feature_names=feature_names, class_names=target_names, filled=True, rounded=True, fontsize=10)
plt.title("🌳 Decision Tree Visualisierung - Iris Klassifikation")
plt.show()

print("\n💡 Interpretation:")
print("- Jeder Knoten zeigt eine Ja/Nein-Frage")
print("- Blätter zeigen die finale Klassifikation")
print("- Der Baum 'lernt' optimale Fragen automatisch!")

In [None]:
# 👥 K-Nearest Neighbors - "Schöne Nachbarschaft"
print("👥 K-Nearest Neighbors - Lernen von den Nachbarn")
print("=" * 60)

# Daten skalieren (wichtig für KNN!)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Verschiedene k-Werte testen
k_values = [1, 3, 5, 7, 9, 11, 15]
accuracies = []

print("🔍 Testing verschiedene k-Werte:")
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, y_train)
    y_pred_knn = knn.predict(X_test_scaled)
    acc = accuracy_score(y_test, y_pred_knn)
    accuracies.append(acc)
    print(f"k={k:2d}: Accuracy = {acc:.2%}")

# Bestes k finden
best_k = k_values[np.argmax(accuracies)]
print(f"\n🏆 Bestes k: {best_k} mit {max(accuracies):.2%} Accuracy")

# Visualisierung
plt.figure(figsize=(10, 6))
plt.plot(k_values, accuracies, 'bo-', linewidth=2, markersize=8)
plt.title('👥 KNN Performance für verschiedene k-Werte')
plt.xlabel('k (Anzahl Nachbarn)')
plt.ylabel('Accuracy')
plt.grid(True, alpha=0.3)
plt.axvline(best_k, color='red', linestyle='--', alpha=0.7, label=f'Bestes k={best_k}')
plt.legend()
plt.show()

print("\n�� KNN Learnings:")
print("- k=1: Sehr flexibel, aber anfällig für Noise")
print("- k=groß: Glatter, aber weniger Details")
print("- Skalierung ist WICHTIG bei KNN!")
print("- 'Lazy Learning': Kein Training, nur Speichern der Daten")

In [None]:
# 🎯 K-Means Clustering - Unsupervised Learning
print("�� K-Means Clustering - Unsupervised Learning in Aktion")
print("=" * 60)

# Clustering-Daten erstellen
X_cluster, y_true = make_blobs(n_samples=300, centers=4, n_features=2, random_state=42, cluster_std=1.2)

print("📊 Clustering-Datensatz:")
print(f"- Samples: {X_cluster.shape[0]}")
print(f"- Features: {X_cluster.shape[1]} (für 2D-Visualisierung)")
print(f"- Wahre Cluster: 4 (aber wir tun so, als wüssten wir das nicht!)")

# Elbow-Method
print("\n🔍 Elbow-Method: Suche optimales k...")
inertias = []
k_range = range(1, 11)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X_cluster)
    inertias.append(kmeans.inertia_)

# Visualisierung
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(k_range, inertias, 'bo-', linewidth=2, markersize=8)
plt.title('🎯 Elbow-Method für optimales k')
plt.xlabel('Anzahl Cluster (k)')
plt.ylabel('Inertia')
plt.grid(True, alpha=0.3)
plt.axvline(4, color='red', linestyle='--', alpha=0.7, label='Erwartetes k=4')
plt.legend()

# K-Means mit k=4
optimal_k = 4
kmeans_final = KMeans(n_clusters=optimal_k, random_state=42, n_init=10)
cluster_labels = kmeans_final.fit_predict(X_cluster)
centers = kmeans_final.cluster_centers_

# Cluster-Visualisierung
plt.subplot(1, 2, 2)
colors = ['red', 'blue', 'green', 'purple']
for i in range(optimal_k):
    cluster_points = X_cluster[cluster_labels == i]
    plt.scatter(cluster_points[:, 0], cluster_points[:, 1], c=colors[i], alpha=0.6, s=50, label=f'Cluster {i+1}')

plt.scatter(centers[:, 0], centers[:, 1], c='black', marker='x', s=200, linewidths=3, label='Zentroide')
plt.title('🎯 K-Means Clustering Ergebnis')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Qualitätsbewertung
silhouette_avg = silhouette_score(X_cluster, cluster_labels)
ari_score = adjusted_rand_score(y_true, cluster_labels)

print(f"\n📊 Clustering-Qualität:")
print(f"✅ Silhouette Score: {silhouette_avg:.3f} (höher = besser)")
print(f"✅ Adjusted Rand Index: {ari_score:.3f} (1.0 = perfekt)")

print("\n💡 K-Means Learnings:")
print("- Unsupervised: Keine Labels/Targets benötigt!")
print("- Elbow-Method hilft bei k-Wahl")
print("- Zentroide = Mittelpunkt jedes Clusters")
print("- Anwendung: Customer Segmentation, Datenexploration")

## 🎓 Zusammenfassung: Die "Big 3" des Machine Learning

Du hast jetzt die drei wichtigsten Algorithmen des Machine Learning kennengelernt!

### 🌳 Decision Trees
- **Stärken**: Interpretierbar, keine Skalierung nötig
- **Schwächen**: Overfitting, instabil
- **Einsatz**: Wenn Interpretierbarkeit wichtig ist

### 👥 K-Nearest Neighbors
- **Stärken**: Einfach zu verstehen, no assumptions
- **Schwächen**: Braucht Skalierung, langsam bei großen Daten
- **Einsatz**: Baseline-Algorithmus, lokale Muster

### 🎯 K-Means Clustering
- **Stärken**: Unsupervised, findet versteckte Muster
- **Schwächen**: k muss vorgegeben werden, nur runde Cluster
- **Einsatz**: Datenexploration, Customer Segmentation

---

## 🚀 Nächste Schritte

1. **🎬 Videos schauen**: Die Original AMALEA-Videos ergänzen perfekt diese praktische Erfahrung
2. **🔬 Eigene Daten testen**: Lade deine eigenen Datasets und experimentiere
3. **📚 Weiterlesen**: Neural Networks & Deep Learning in Woche 4!

### 💡 Pro-Tipps aus den AMALEA-Videos:
- **Immer mehrere Algorithmen testen** - jeder hat seine Stärken
- **Cross-Validation verwenden** für robuste Evaluation
- **Feature Engineering** kann wichtiger sein als der Algorithmus
- **Domain Knowledge** schlägt oft komplexe Algorithmen

---

> 🎓 **Original AMALEA-Weisheit**: "Verstehst du Decision Trees, KNN und K-Means, verstehst du 80% aller ML-Projekte!"

**Herzlichen Glückwunsch! Du bist jetzt bereit für Advanced Machine Learning! 🚀**