# 04.06.2025 - Entscheidungsbäume - Erweiterungen
---
Nach einer Wiederholung dazu, wie ein einfaches Python Programm zur Ausführung eines Entscheidungsbaumes aufgebaut ist, betrachten wir genauer den Gini-Index und seine Bedeutung. Danach wenden wir die Entscheidungsbäume auf einen anderen Anwendungsfall an: Die Klassifizierung von Pilzen. Neben dem Anwedungsbezug steht hier die Art der Merkmalswerte im Fokus. Im Anschluss gehen wir auf die Bewertung der Qualität eines trainierten Entscheidungsbaumes ein.

* Zur Bearbeitung der Aufgaben können Sie benötigte Informationen zu Python-Befehlen und zu KI relevanten Bibliotheken (numpy, scikit, pandas) aus allen verfügbaren Quellen beziehen. Die meisten findet man natürlich über eine Suche im Internet, oder durch die Nutzung von KI chat-Systemen selbst.
Ein gutes Tutorial für den Start findet sich  z.B. hier: https://www.python-kurs.eu/numerisches_programmieren_in_Python.php

## Phase I - Wiederholung: Anwendung von Entscheidungsbäumen

### Wiederholung der Aufgabe: Klassifikation der Schwertlilien mit einem Entscheidungsbaum

<img src="./PythonGrundlagen_023_Bilder/iris_flower_magnifying_glass.webp" alt="Diagramm" width="550" />

Schreiben Sie ein Python-Programm, das die berühmten *Schwertlilien-Daten (Iris-Datensatz)* mithilfe eines Entscheidungsbaums klassifiziert.
Trainieren Sie dazu ein Entscheidungsbaum-Modell auf dem Iris-Datensatz, um die drei Iris-Arten (Setosa, Versicolor, Virginica) anhand ihrer Merkmale zu unterscheiden. Der Datensatz liegt vor in der Datei iris.csv.

#### Schritte:
1. Laden Sie den Iris-Datensatz in ein DataFrame.
2. Trainieren Sie einen Entscheidungsbaum mit den Merkmalsdaten und den zugehörigen Klassenlabels.
3. Testen Sie das Modell. Treffen Sie mit seiner Hilfe Vorhersagen durch einzelne Beispieldatenpunkte.

*Variante:* Trainieren Sie den Entscheidungsbaum nur mit einem Teil des Iris-Datensatzes, und testen Sie das Modell dann an den übrigen Daten.



In [None]:
# Module importieren
import pandas as pd
from sklearn import tree
import matplotlib.pyplot as plt

# 1. Iris-Datensatz laden
df = pd.read_csv("iris.csv")
print (df)

# Merkmale (Features) und Zielwerte (Target) extrahieren
X = df.drop("variety", axis=1)  # Dataframe mit Merkmalen
y = df["variety"]               # Dataframe mit Zielwerten

# 2. Entscheidungsbaum anlegen und trainieren
tr = tree.DecisionTreeClassifier(min_samples_split=4)
tr.fit(X, y)

# 3. Testen mit einzelnen Beispielen
neuePflanze1Merkmale = [[5.1, 3.5, 1.4, 0.2]]  # sollte Setosa sein (Originalwerte eines Setosa Trainingsdatums)
neuePflanze2Merkmale = [[7.1, 3.3, 4.8, 1.5]]  # sollte Versicolor sein (um 0.1 erhöhte Originalwerte eines Versicolor Trainingsdatums)


vorhersage1 = tr.predict(neuePflanze1Merkmale)
vorhersage2 = tr.predict(neuePflanze2Merkmale)

print("Vorhersage für neuePflanze1:", vorhersage1[0])
print("Vorhersage für neuePflanze2:", vorhersage2[0])

# Entscheidungsbaum visualisieren (minimal)
tree.plot_tree(tr)

# Entscheidungsbaum visualisieren (erweitert)


## Phase II - Ein tieferer Blick in den Entscheidungsbaum

### Gini-Index vs. Entropie in Entscheidungsbäumen


Bei der Konstruktion von Entscheidungsbäumen muss entschieden werden, anhand welcher Merkmale ein Datensatz aufgeteilt wird. Ziel ist es, möglichst „reine“ Teilmengen zu erhalten – also Teilmengen, in denen möglichst nur eine Klasse vorkommt. Zwei Maße zur Bewertung dieser Reinheit sind der **Gini-Index** und die **Entropie**.

#### 1. Gini-Index

Der **Gini-Index** misst die Wahrscheinlichkeit, dass zwei zufällig (unabhängig) gezogene Instanzen aus dem Knoten unterschiedlichen Klassen angehören.

Formel:

$$
\text{Gini}(D) = 1 - \sum_{i=1}^{C} p_i^2
$$

Dabei ist:
- $D$: Aktueller Knoten bzw. Datensatz des Knotens.
- $C$: Anzahl der Klassen
- $p_i$: Anteil der Klasse $i$ im Datensatz des Knotens.

Der Gini-Index hat:
- Wertebereich: $[0, 1 - \frac{1}{C}]$

Geringerer Wert bedeutet höhere Reinheit. Sein Minimum ist 0, und zwar für den Fall dass alle Daten eines Datensatzes nur noch einer Klasse angehören.




#### 2. Entropie

Die Entropie basiert auf dem Informationsgehalt einer Verteilung und misst die Unordnung (Unreinheit) eines Datensatzes.

Formel:

$$
\text{Entropie}(D) = - \sum_{i=1}^{C} p_i \cdot \log_2(p_i)
$$

(Parameterbezeichnungen wie oben.)

Die Entropie hat
- Wertebereich: $[0, \log_2 C]$

Geringerer Wert bedeutet höhere Reinheit (wie beim Gini-Index). Ihr Minimum ist 0, und zwar für den Fall dass alle Daten eines Datensatzes nur noch einer Klasse angehören.




- Beide Maße - Gini und Entropie - verfolgen dasselbe Ziel: optimale Trennung.
- Gini ist rechentechnisch einfacher und führt oft zu ähnlichen Ergebnissen wie Entropie.
- Entropie kann bei gleichverteilten Klassen feiner reagieren.

Im Machine-Learning-Alltag ist die Wahl oft pragmatisch: Scikit-learn verwendet Gini standardmäßig, kann aber auch Entropie.


### 1. Aufgabe - Möglichkeiten beim Training des Entscheidungsbaums

- Trainieren sie den Baum aus der Schwertlilienklassifizierung basierend auf Entropie, anstatt auf Gini-Index. Beobachten Sie, ob es Unterschiede in den erstellen Bäumen gibt?
- Experimentieren Sie auch mit anderen Konfigurationsmöglichkeiten des DecisionTreeClassifier und untersuchen Sie deren Effekte. Wofür sind Sie nützlich?

### Neuer Anwendungsfall: Klassifizierung von Pilzen in Essbar/Giftig

Bekanntermaßen sind Pilze in Deutschland nicht per se essbar – im Gegenteil: Die Grenze zwischen Delikatesse und tödlichem Irrtum kann hauchdünn sein. Seit jeher beschäftigt die Unterscheidung zwischen essbaren und giftigen Pilzen Menschen aller Kulturen, und besonders in unseren heimischen Wäldern lauern zahlreiche Doppelgänger, die selbst geübte Sammler in die Irre führen können.

Im Folgenden befassen auch wir uns - im Kontext der Entscheidungsbäume - mit der Klassifikation der Pilze. 


#### Vergleich der Merkmalsbeschaffenheit: Schwertlilien vs. Pilze

**-> Vergleichen Sie die Datensätze der Schwertlilienklassifikation (iris.csv) mit denen der Pilzklassifizierung (agaricus-lepiota.data). Was fällt bezüglich der Merkmale auf?**

Ein Auszug aus den Daten steht auch in den folgenden zwei Tabellen:


| Sepal Length | Sepal Width | Petal Length | Petal Width | Variety     |
|--------------|-------------|--------------|-------------|-------------|
| 5.1          | 3.5         | 1.4          | 0.2         | Setosa      |
| 7.0          | 3.2         | 4.7          | 1.4         | Versicolor  |
| 6.3          | 3.3         | 6.0          | 2.5         | Virginica   |

*Tabelle 1: Merkmalsauszug – Iris-Datensatz*

<br>

| Class | Cap Shape | Cap Color | Odor | Gill Size |
|-------|-----------|-----------|------|------------|
| p     | x         | n         | p    | n          |
| e     | x         | y         | a    | b          |
| p     | b         | w         | l    | n          |

*Tabelle 2: Merkmalsauszug – Mushroom-Datensatz*

<br>
<br>

### 2. Aufgabe - Klassifizierung von Pilzen in Essbar/Giftig

<img src="./PythonGrundlagen_024_Bilder/20250601_Marios_Mushroom_Dilemma.png" alt="Diagramm" width="550" />

Ziel ist es, ein Python-Programm zu entwickeln, das anhand der Daten in *agaricus-lepiota.data* einen Entscheidungsbaum trainiert, um Pilze in die Klassen *Essbar* und *Giftig* zu klassifizieren.

#### Schritte:
1. Informieren Sie sich darüber, wie man das Problem löst, dass der *sklearn.DecisionTreeClassifier* nicht mit Merkmalen arbeiten kann, deren Werte textuell sind.
2. Trainieren Sie einen Entscheidungsbaum mit den Merkmalsdaten und den zugehörigen Klassenlabels.
3. Testen Sie das Modell. Treffen Sie mit seiner Hilfe Vorhersagen durch einzelne Beispieldatenpunkte.
4. Lassen Sie sich den Entscheidungsbaum als Graph ausgeben und unteruchen Sie seine Eigenschaften.

<br>

> **Verwenden Sie weder Ihr Modell, noch das eines anderen, um tatsächlich zu entscheiden, ob Sie einen Pilz essen oder nicht! Weder die angewandten Trainingsdaten noch die besprochenen Modelle sind verifiziert!**

In [None]:
# Module importieren


#  Mushroom-Datensatz laden


#  Entscheidungsbaum anlegen und trainieren


#  Testen mit einzelnen Beispielen


#  Entscheidungsbaum visualisieren


### Wie gut ist mein Baum?

Beim maschinellen Lernen ist es wichtig, ein Modell nicht nur auf den vorhandenen Daten zu trainieren, sondern auch seine **Verallgemeinerungsfähigkeit** zu testen.

Dazu teilt man den **vorhandenen** Datensatz auf in:

- **Trainingsdaten**: Diese werden verwendet, um den Entscheidungsbaum zu trainieren.
- **Testdaten**: Diese werden genutzt, um die Qualität des trainierten Baums unabhängig zu bewerten.

Eine einfache Bewertung der Qualität des trainierten Baumes ergibt sich aus der Feststellung: Wie groß ist der Anteil der korrekt vorhergesagten Testdaten?


### 3. Aufgabe

Wenden Sie oben beschriebene Strategie auf den Anwendungsfall der Pilzklassifizierung an: Teilen Sie die vorhandenen Daten in Trainings- und Testdaten auf. Informieren Sie sich dazu über das Modul *train_test_split* aus dem Paket *sklearn.model_selection*, und wenden Sie es in Ihrem Programm an.

Um eine Bewertung der Qualität für Ihren trainierten Entscheidungsbaum zu bekommen, bietet sich das Modul *accuracy_score* aus dem Paket *sklearn.metrics* an.

In [None]:
# Module importieren


#  Daten laden


#  Aufteilen in Trainings- und Testdaten


#  Entscheidungsbaum trainieren


#  Modell testen, accuracy_score ausgeben

#  Visualisierung des Baums


## 4. Aufgabe

Ändern Sie Ihr Programm so, dass Sie den Entscheidungsbaum mehrmals mit unterschiedlichen Zufallsaufteilungen in Trainings- und Testdaten trainieren.
Ziel ist es, einen Baum zu finden, der eine möglichst hohe Genauigkeit (Accuracy) hat.

Um Ihr Programm sinnvoll zu testen, sollte entweder der Datensatz der vorhandenen Daten verkleinert werden, oder die Größe des Baumes beschränkt werden. 

In [None]:
# Module importieren


#  Daten laden

#  Mehrere Trainings-/Testdurchläufe (z. B. 10)

#   Visualisierung des Baums
