# Entscheidungsbaum-Klassifikation mit dem Iris-Datensatz
In diesem Notebook wird ein Entscheidungsbaum auf den bekannten Iris-Datensatz angewendet. Die einzelnen Schritte umfassen das Laden und Aufbereiten der Daten, das Trainieren eines Entscheidungsbaums, sowie Evaluierung und Visualisierung.

## 1. Importieren der benötigten Bibliothek zum Datenhandling

In [None]:
import pandas as pd

## 2. Einlesen des Iris-Datensatzes
Die Datei muss im CSV-Format vorliegen, Trennzeichen ist Komma.
Ziel ist die Vorhersage der Art ('species') anhand von vier Merkmalen.

In [None]:
file_path = '../data/processed/iris.csv'
df = pd.read_csv(file_path, sep=',')

## 3. Feature-Ziel-Trennung
`X` enthält alle erklärenden Variablen, `y` das Klassenlabel ('species').

In [None]:
features = [c for c in df.columns if c != 'species']
X = df[features]
y = df['species']

## 4. Aufteilen in Trainings- und Testdaten
Verwendung von `stratify=y`, um die Klassenverteilung konstant zu halten.

In [None]:
from sklearn.model_selection import train_test_split
X_tr, X_tst, y_tr, y_tst = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

## 5. Entscheidungsbaum trainieren
Ein `DecisionTreeClassifier` mit Standardparametern (Gini-Kriterium).

In [None]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()  # alternativ: criterion='entropy'
model.fit(X_tr, y_tr)

## 6. Vorhersage und Evaluation
Das Modell wird auf dem Testdatensatz evaluiert.

In [None]:
y_predicted = model.predict(X_tst)

### 6.1 Konfusionsmatrix

In [None]:
from sklearn.metrics import confusion_matrix
matrix = confusion_matrix(y_tst, y_predicted)
print('Confusion Matrix:')
print(matrix)

### 6.2 Klassifikationsbericht

In [None]:
from sklearn.metrics import classification_report
report = classification_report(y_tst, y_predicted, digits=3)
print('Classification Report:')
print(report)

## 7. Visualisierung des Entscheidungsbaums

In [None]:
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 8))
plot_tree(
    model,
    feature_names=features,
    class_names=model.classes_,
    filled=True,
    rounded=True,
    fontsize=6
)
plt.show()
plt.savefig('../figs/baumstruktur.png', dpi=300, bbox_inches='tight')

## 8. Hinweise zur Interpretation
- **Precision**: Wie zuverlässig sind positive Vorhersagen?
- **Recall**: Wie viele der echten Positiven wurden erkannt?
- **F1-Score**: Harmonie von Precision und Recall, besonders wichtig bei Imbalance.
- **Confusion Matrix**: Zeigt Verwechslungen zwischen Klassen deutlich.

**Visualisierung**:
- Jeder Knoten zeigt Split-Merkmal, Reinheit (gini), Verteilung und Klasse.
- `filled=True` färbt nach dominierender Klasse, `rounded=True` verbessert Lesbarkeit.

**Modellkomplexität steuern mit**:
- `max_depth`, `min_samples_split`, `ccp_alpha` (Pruning)