# Übung: Klassifikation mit Random Forest & XGBoost

**Ziel dieser Übung:**
Vergleichen Sie Random Forest und XGBoost anhand des Breast Cancer Wisconsin (Diagnostic) Datasets. Sie implementieren die Modelle, experimentieren mit Schlüsselparametern und vergleichen die Ergebnisse.

**Dauer:** ca. 45 Minuten

**Voraussetzungen:** Python, scikit-learn, pandas, matplotlib, xgboost


## 1. Daten laden und explorative Analyse

In [None]:
from sklearn.datasets import load_breast_cancer
import pandas as pd

data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df.head()

### Aufgabe 1
- Führen Sie folgende Befehle aus und interpretieren Sie die Ergebnisse:
  - `df.info()`
  - `df.describe()`
  - `df['target'].value_counts()`
- Beantworten Sie:
  - Wie viele Beispiele enthält jede Klasse?
  - Welche Features weisen Auffälligkeiten in Skala oder Verteilung auf?
  - Warum könnte eine Standardisierung später sinnvoll sein? Führen Sie die Standardisierung durch.


In [None]:
### Lösung
...

### Lösung Aufgabe 1:
...

## 2. Datenvorbereitung und Split

In [None]:
X = df[data.feature_names]
y = df['target']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

### Aufgabe 2:
- Überprüfen Sie die Klassenverteilung in `y_train` und `y_test`.

In [None]:
# Lösung
...

## 3. Random Forest Klassifikation

### 3.1: Erstes Modelltraining und Evaluation

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score

rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)
probs = rf.predict_proba(X_test)[:, 1]

### Aufgabe 3:
- Berechnen und protokollieren Sie:
  - Accuracy (`accuracy_score(y_test, y_pred)`)
  - Precision (gewichtet) (`precision_score(y_test, y_pred, average='weighted')`)
  - Recall (gewichtet) (`recall_score(y_test, y_pred, average='weighted')`)
  - ROC-AUC (`roc_auc_score(y_test, probs)`)
- Diskutieren Sie: Welche Metrik ist in diesem medizinischen Klassifikationskontext besonders relevant?


In [None]:
### Lösung
...

### Lösung Aufgabe 3:
...

### 3.2 Hyperparameter-Experiment


In [None]:
results = []
n_estimators = [50, 100, 200]
max_depth = [None, 5, 10]
for n in n_estimators:
    for d in max_depth:
        model = RandomForestClassifier(n_estimators=n, max_depth=d, random_state=42)
        model.fit(X_train, y_train)
        auc = roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])
        results.append({'n_estimators': n, 'max_depth': d, 'roc_auc': auc})

### Aufgabe 4:
- Wandeln Sie `results` in einen DataFrame um und visualisieren Sie die ROC-AUC-Werte als Heatmap oder Linienplot.
- Erläutern Sie den Einfluss von `max_depth` auf Overfitting/Underfitting.

In [None]:
### Lösung
...

### Lösung Aufgabe 4:
...

## 4. XGBoost Klassifikation

### 4.1 Erstes XGBoost-Modell

In [None]:
from xgboost import XGBClassifier

xgb = XGBClassifier(
    n_estimators=100,
    learning_rate=0.1,
    random_state=42,
    eval_metric='logloss'
)
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)
probs_xgb = xgb.predict_proba(X_test)[:, 1]

### Aufgabe 5:
- Berechnen Sie dieselben Metriken wie bei Random Forest und vergleichen Sie die Ergebnisse.


In [None]:
# Lösung
...

### 4.2 Hyperparameter-Experiment für XGBoost


In [None]:
results_xgb = []
learning_rates = [0.01, 0.1, 0.2]
n_estimators = [50, 100, 200]
for lr in learning_rates:
    for n in n_estimators:
        model = XGBClassifier(
            n_estimators=n,
            learning_rate=lr,
            random_state=42,
            eval_metric='logloss'
        )
        model.fit(X_train, y_train)
        auc = roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])
        results_xgb.append({'n_estimators': n, 'learning_rate': lr, 'roc_auc': auc})

### Aufgabe 6:
- Transformieren Sie `results_xgb` zu einem DataFrame und visualisieren Sie die Abhängigkeit der ROC-AUC von `n_estimators` und `learning_rate`.


In [None]:
# Lösung
...

## 5. Modellvergleich und Visualisierung
### 5.1: ROC-Kurven im Vergleich



In [None]:
from sklearn.metrics import roc_curve

fpr_rf, tpr_rf, _ = roc_curve(y_test, probs)
fpr_xgb, tpr_xgb, _ = roc_curve(y_test, probs_xgb)

### Aufgabe 7:
- Plotten Sie beide ROC-Kurven in einem Diagramm und fügen Sie eine Zufallslinie hinzu (`[0,1]`).
- Kommentieren Sie: Welches Modell erreicht eine höhere AUC? In welchem Bereich unterscheiden sie sich?

In [None]:
# Lösung
...

### 5.2: Feature Importance vergleichen


In [None]:
fi_rf = pd.Series(rf.feature_importances_, index=data.feature_names).nlargest(10)
fi_xgb = pd.Series(xgb.feature_importances_, index=data.feature_names).nlargest(10)

In [None]:
#Lösung
...

### Aufgabe 8:
- Visualisieren Sie die Feature Importances beider Modelle nebeneinander als Balkendiagramme.
- Diskutieren Sie, welche Merkmale für die Klassifikation am relevantesten sind.


In [None]:
# Lösung
...

### Lösung Aufgabe 8:
...
