# 12.06.2025 - Entscheidungsbäume mit kategorischen/textuellen Merkmalen
---
Wir betrachten noch einmal genauer die Schwierigkeit, die entsteht, wenn Merkmale nicht als numerische Daten vorliegen, sondern kategorisch/textuell. Diesbezüglich machen wir einen Exkurs in das Thema Label Encoding vs. One-hot Encoding.

Die weitere Unterrichtszeit ist für den Start der Arbeiten zur Leistungsfeststellung "Projekt Temperaturentwicklungen analysieren" angedacht.

* Zur Bearbeitung der Aufgaben können Sie benötigte Informationen zu Python-Befehlen und zu KI relevanten Bibliotheken (numpy, scikit, pandas) aus allen verfügbaren Quellen beziehen. Die meisten findet man natürlich über eine Suche im Internet, oder durch die Nutzung von KI chat-Systemen selbst.
Ein gutes Tutorial für den Start findet sich  z.B. hier: https://www.python-kurs.eu/numerisches_programmieren_in_Python.php

## Phase I: Entscheidungsbäume mit kategorischen/textuellen Merkmalen

### Neuer Anwendungsfall: Klassifizierung von Pilzen in Essbar/Giftig

Bekanntermaßen sind Pilze in Deutschland nicht per se essbar – im Gegenteil: Die Grenze zwischen Delikatesse und tödlichem Irrtum kann hauchdünn sein. Seit jeher beschäftigt die Unterscheidung zwischen essbaren und giftigen Pilzen Menschen aller Kulturen, und besonders in unseren heimischen Wäldern lauern zahlreiche Doppelgänger, die selbst geübte Sammler in die Irre führen können.

Im Folgenden befassen auch wir uns - im Kontext der Entscheidungsbäume - mit der Klassifikation der Pilze. 


#### Vergleich der Merkmalsbeschaffenheit: Schwertlilien vs. Pilze

**-> Vergleichen Sie die Datensätze der Schwertlilienklassifikation (iris.csv) mit denen der Pilzklassifizierung (agaricus-lepiota.data). Was fällt bezüglich der Merkmale auf?**

Ein Auszug aus den Daten steht auch in den folgenden zwei Tabellen:


| Sepal Length | Sepal Width | Petal Length | Petal Width | Variety     |
|--------------|-------------|--------------|-------------|-------------|
| 5.1          | 3.5         | 1.4          | 0.2         | Setosa      |
| 7.0          | 3.2         | 4.7          | 1.4         | Versicolor  |
| 6.3          | 3.3         | 6.0          | 2.5         | Virginica   |

*Tabelle 1: Merkmalsauszug – Iris-Datensatz*

<br>

| Class | Cap Shape | Cap Color | Odor | Gill Size |
|-------|-----------|-----------|------|------------|
| p     | x         | n         | p    | n          |
| e     | x         | y         | a    | b          |
| p     | b         | w         | l    | n          |

*Tabelle 2: Merkmalsauszug – Mushroom-Datensatz*

<br>
<br>

##### Beobachtung:

Der Iris-Datensatz enthält ausschließlich numerische Merkmale, die kontinuierliche Messwerte darstellen (z. B. Blütenlängen in cm).

Der Mushroom-Datensatz hingegen besteht aus kategorischen Merkmalen, die diskrete Ausprägungen wie Farben oder Gerüche kodieren (repräsentiert durch Buchstabencodes).


### Wiederholung der Aufgabe - Klassifizierung von Pilzen in Essbar/Giftig

<img src="./PythonGrundlagen_025_Bilder/20250601_Marios_Mushroom_Dilemma.png" alt="Diagramm" width="550" />

Ziel ist es, ein Python-Programm zu entwickeln, das anhand der Daten in *agaricus-lepiota.data* einen Entscheidungsbaum trainiert, um Pilze in die Klassen *Essbar* und *Giftig* zu klassifizieren.

#### Schritte:
1. Informieren Sie sich darüber, wie man das Problem löst, dass der *sklearn.DecisionTreeClassifier* nicht mit Merkmalen arbeiten kann, deren Werte textuell sind.
2. Trainieren Sie einen Entscheidungsbaum mit den Merkmalsdaten und den zugehörigen Klassenlabels.
3. Testen Sie das Modell. Treffen Sie mit seiner Hilfe Vorhersagen durch einzelne Beispieldatenpunkte.
4. Lassen Sie sich den Entscheidungsbaum als Graph ausgeben und unteruchen Sie seine Eigenschaften.

<br>

> **Verwenden Sie weder Ihr Modell, noch das eines anderen, um tatsächlich zu entscheiden, ob Sie einen Pilz essen oder nicht! Weder die angewandten Trainingsdaten noch die besprochenen Modelle sind verifiziert!**

### Exkurs: Umwandlung kategorialer Merkmale in numerische: Label Encoding vs. One-Hot Encoding

Dieser Exkurs betrifft den 1. Schritt aus obiger Aufgabenstellung.

Kategorische Merkmale müssen vor der Verarbeitung durch viele Machine-Learning-Modelle in numerische Form gebracht werden. Zwei gängige Methoden dafür sind **Label Encoding** und **One-Hot Encoding**.

#### Label Encoding
Beim Label Encoding wird jeder Ausprägung eines kategorialen Merkmals eine eindeutige Ganzzahl zugewiesen. Beispiel: zur Kategorie Farbe: `"rot" → 0`, `"grün" → 1`, `"blau" → 2`. Diese Methode ist speichereffizient, führt aber zu einer künstlichen Ordnung zwischen den Kategorien.

#### One-Hot Encoding
One-Hot Encoding wandelt jeden möglichen Wert einer Kategorie in ein eigenes Merkmal um. Für drei Ausprägungen entstehen drei neue Spalten, z. B.: `"Farbe rot" → [0, 1]`, `"Farbe grün" → [0, 1]`, `"Farbe blau" → [0, 1]`. Jede der neuen Spalten kann dann nur die Werte 1 (True) oder 0 (False) als Merkmalswerte enthalten.



### Code mit Label Encoding:

### Code mit One-hot Encoder:

## Phase II - Leistungsfeststellung: Projekt "Temperaturentwicklungen analysieren"

-> Vorstellung des Arbeitsauftrages und selbstständiges Bearbeiten.