# 15.05.2025 - Einstieg in das Thema Entscheidungsbäume
---
Mit Untersuchungen dazu, wie sich Beziehungsformen zwischen Klassen in einem etwas technischeren Programmierkontext äußern, schließen wir das vorangegangene Thema ab. Dazu betrachten wir Klassenbeziehungen, die relevant sind, wenn Funktionalitäten anderer Module benutzt werden.
Danach steigen wir ein in das Thema Entscheidungsbäume. Entscheidungsbäume sind ein Modell in der Künstlichen Intelligenz, das Daten anhand von Entscheidungsregeln in Form von Wenn-Dann-Bedingungen schrittweise klassifiziert oder vorhersagt.

* Zur Bearbeitung der Aufgaben können Sie benötigte Informationen zu Python-Befehlen und zu KI relevanten Bibliotheken (numpy, scikit, pandas) aus allen verfügbaren Quellen beziehen. Die meisten findet man natürlich über eine Suche im Internet, oder durch die Nutzung von KI chat-Systemen selbst.
Ein gutes Tutorial für den Start findet sich  z.B. hier: https://www.python-kurs.eu/numerisches_programmieren_in_Python.php

## Phase I Beziehungen zwischen Klassen bei der Nutzung externer Module

### Warum sind Assoziation, Aggregation und Komposition wichtig – auch technisch gesehen?

Wenn wir über Assoziation, Aggregation und Komposition sprechen, dann geht es oft um selbst geschriebene Klassen und ihre Beziehungen zueinander. Doch der Nutzen dieser Konzepte zeigt sich genauso dann, wenn wir Programme entwickeln, die reale Aufgaben lösen – und dabei auf externe Module wie pandas, matplotlib, sklearn, etc. zurückgreifen.

Denn:
Auch zu diesen Klassen bauen wir Beziehungen auf – bewusst oder unbewusst.

Das Bewusstsein dafür ist wichtig, weil:
- es schärft das Verständnis für Struktur und Verantwortung im Code.
- es hilft dabei, Speicherverwaltung und Lebensdauer von Objekten besser zu verstehen.
- es macht deutlich, welche Klassen abhängig, autark oder austauschbar sind – das ist essenziell für gute Softwarearchitektur.

### 1. Aufgabe - Die Python Welt ist voller Assoziationen, Aggregationen und Kompositionen 

Informieren Sie sich mithilfe geeigneter Quellen (z. B. KI, Dokumentationen, Beispiele) darüber, wo die objektorientierten Beziehungen Assoziationen, Aggregationen und/oder Kompositionen bei der Nutzung folgender Module vorkommen:
- pandas
- matplotlib
- numpy
- sklearn (scikit-learn)
- random

Bitte nicht alle Kombinationen von Beziehungen und Modulen untersuchen :-)  Suchen Sie sich eine/ein paar wenige Kombinationen aus, für die Sie detaillierter "in der Tiefe" recherchieren und ein Beispiel zusammenstellen.


#### Beispiel 1: Aggregation-Beziehung zu einer Klasse aus random

In [None]:
# wird im Unterricht gefüllt


#### Beispiel 2: Assoziations-Beziehung einer Klasse aus scikit-learn


In [None]:
# wird im Unterricht gefüllt


## Phase II Einführung in Entscheidungsbäume

*Entscheidungsbäume* gehören zu den grundlegenden und am häufigsten eingesetzten Verfahren im Bereich des überwachten maschinellen Lernens.
Wir betrachten Entscheidungsbäume zunächst im Kontext der *Klassifikation*, d.h. der Vorhersage von Klassen.


#### Was ist ein Entscheidungsbaum und wie soll er funktionieren?

Die zentrale Idee:  
Ein Entscheidungsbaum trifft Entscheidungen durch eine sukzessive Zerlegung des Merkmalsraums.

### Beispiel

Fahrzeugklassifikation anhand der Merkmale Höchstgeschwindigkeit und Gewicht -> 2-dimensionaler Merkmalraum

#### Aufgabe 2: Fahrzeugklassifikation für Versicherungsprämien

Ein Versicherungsunternehmen möchte seine Fahrzeugtarife risikobasiert staffeln.
Ein Fahrzeug wird anhand seines Gewichts und seiner Höchstgeschwindigkeit in eine von vier Risikoklassen (Kleinwagen, Sportwagen, Kleintransporter, Premium-SUV) eingeordnet. Dabei gelten feste Schwellenwerte als Grenzen zwischen den Klassen:

| Klasse                  | Gewicht (kg)            | Höchstgeschwindigkeit (km/h) |
|-------------------------|-------------------------|-------------------------------|
| Kleinwagen          | < 1000                  | < 180                         |
| Sportwagen          | < 1000                  | ≥ 180                         |
| Kleintransporter    | ≥ 1000                  | < 150                         |
| Premium-SUV         | ≥ 1000                  | ≥ 150                         |


Schreiben Sie ein Python-Programm, das alleine mittels **`if`**, **`elif`** und **`else`** (ohne *and* oder *or* zu benutzen) die richtige Risikoklasse bestimmt und ausgibt. Testen Sie Ihren Klassifizierungsalgorithmus mit Beipieldaten.


In [2]:
weight = 890
max_speed = 300

if weight <1000:
    if max_speed < 180:
        print("Kleinwagen")
    else:
        print("Sportwagen")
else:
    if max_speed < 150:
        print("Kleintransporter")
    else:
        print("Premium-SUV")

Sportwagen


#### Merkmalsraum

#### Aufgabe 3: Visualisierung

Plotten Sie mit mathplotlib ein 2-dimensionales Diagramm, mit Gewicht als x-Achse und Höchstgeschwindigkeit als y-Achse. Fügen Sie für jede der 4 Fahrzeugklassen (Kleinwagen, Sportwagen, Kleintransporter, Premium-SUV) einige Datenpunkte dem Diagramm hinzu. Zeichnen Sie außerdem die Klassifikationsgrenzen mit ein.

In [None]:
# Module importieren


# Datenpunkte für vier Fahrzeugklassen

# Datenpunkte plotten

# Klassengrenzen plotten



### Von *if* zum *Baum*

Verschachtelte *if*-Bedingungen lassen sich hervorragend als Baum darstellen:

<img src="./PythonGrundlagen_022_Bilder/Entscheidungsbaum_Fahrzeuge.drawio.png" alt="Diagramm" width="550" />

Ein *(Entscheidungs-)baum* besteht aus
- *Knoten*:  
Jeder innere Knoten enthält eine *Verzweigungsbedingung (Split*).  
Jeder Knoten repräsentiert eine Teilmenge des Merkmalraumes.
- *Verzweigungen*:  
Verbindungen von einem Knoten zu mehreren anderen Knoten (meist zwei).

Bei den Knoten unterscheidet man zwischen
- *Wurzelknoten (Root)*: Einziger Knoten, in den keine Verzweigung mündet.
- *Innere Knoten (Decision nodes)*: Haben ausgehende Verzweigungen.
- *Blätter (Leaf nodes)*: Knoten, die keine weiteren Verzweigungen haben. **Sie enthalten die Vorhersage (z.B. Klasse).**

### Welche Probleme löst ein Entscheidungsbaum?

Die Eingabedaten, für die eine Vorhersage getroffen werden soll, werden durch ihre *Merkmale* dargestellt:

 <!-- Diese neuen Daten haben **die gleiche Struktur wie die Trainingsdaten**, allerdings **ohne die Zielwerte (`y`)**. -->

##### Merkmale (Features, Eingabedaten)

Jedes Eingabeobjekt, für das eine Vorhersage getroffen werden soll, hat
- $d$ Merkmale (z.B. Größe, Gewicht, Höchstgeschwindigkeit).
- Typen der Merkmale: numerisch, kategorial.
- Die Reihenfolge der Merkmale muss immer gleich sein und identisch mit der vom Entscheidungsbaum genutzten Reihenfolge.

Beispiel (ein neues Fahrzeug zur Klassifikation, 3 Merkmale):

| Gewicht (kg) | Farbe | Geschwindigkeit (km/h) |
|--------------|-------|------------------------|
| 950          | rot   | 175                    |


##### Wie ein Entscheidungsbaum eine Klasse vorhersagt

Ein Entscheidungsbaum trifft Vorhersagen, indem er schrittweise die Knoten des Baumes entlangläuft. Der Pfad wird dabei durch die Merkmale und die Split-Kriterien der Knoten vorgegeben.

1. Start an der Wurzel  
Der Entscheidungsprozess beginnt am Wurzelknoten des Baums. Dieser enthält eine Bedingung, die sich auf den Wert eines Merkmals bezieht (z. B. "Gewicht < 1000").

2. Verzweigung abhängig vom Merkmal  
Abhängig vom Ergebnis der Bedingung (wahr oder falsch) wird entweder der linke oder der rechte Teilbaum betreten.  
Dabei wird üblicherweise jeweils nur ein einzelnes Merkmal geprüft.

3. Wiederholung bis zum Blattknoten  
Dieser Vorgang wird rekursiv wiederholt: An jedem Knoten wird eine neue Bedingung auf einem Merkmal geprüft, bis schließlich ein Blattknoten erreicht wird.

4. Ausgabe der Klasse  
Im Blattknoten steht die vorhergesagte Klasse (z. B. "Kleinwagen"). Diese wird als Vorhersage für den gegebenen Datenpunkt ausgegeben.


##### Resultierende Daten aus der Vorhersage/Klassifikation

Nachdem der Entscheidungsbaum durchlaufen wurde, erhält man als Ergebnis die *Klasse*, die der Entscheidungsbaum für die Eingabedaten vorhersagt.

Beispiel:

Eingabedaten:                          

| Gewicht (kg) | Geschwindigkeit (km/h) |
|--------------|------------------------|
| 950          | 175                    |
| 1250         | 135                    |
| 900          | 210                    |

Vorhergesagte Klasse:

| Klassifizierung |
|----------------------|
| Kleinwagen           |
| Kleintransporter     |
| Sportwagen           |


- Die Werte in Klassifizierung stammen aus einer **festen endlichen Menge von labels**, z. B.:
- Der Entscheidungsbaum ordnet jedem Eingabeobjekt genau **eine Klasse** zu
- In Anwendungen können die Klassen auch durch Zahlen (z. B. 0, 1, 2, 3) repräsentiert sein



### Und wie wird der Entscheidungsbaum aufgebaut?

Die elementare Frage, die einen jeden Entscheidungsbaum ausmacht, ist:
Welche Splits werden in den inneren Knoten gemacht und welche Knoten gibt es überhaupt?

#### Beispiel: Paketklassifizierung

Daten:

| Gewicht (kg) | Breite (mm) | Klasse      |
|--------------|------------|-------------|
| 0.2          | 220     | Dokumente   |
| 0.3          | 229     | Dokumente   |
| 1.0          | 363     | Kleidung    |
| 1.5          | 415     | Kleidung    |
| 1.2          | 353     | Elektronik  |
| 1.1          | 365     | Elektronik  |

Frage 1. Was für eine Eigenschaft sollte ein Split haben? Wie ist die Intention hinter einem Split?

Frage 2. Wie müssen die Splits deifniert sein, um o.g. Objekte in einem möglichst kleinen Entscheidungsbaum richtig zu klassifizieren?


**Bad news** 

Spontan kann die optimale Auswahl von Splits nicht angegeben werden!

Achtung: Letztendlich kann der Entscheidungsbaum immer so aufgebaut werden, dass es für jedes einzelne Objekt auch ein Blatt gibt. -> "*Overfitting*".  
Nachteil: Das entspricht nicht der Idee, Merkmalcluster zu bilden, in die neu zu klassifizierende Objekte passen werden.

**Good news**

Die optimale Definition der Splits kann berechnet werden. Und Python übernimmt das für uns.

Die Definition des kompletten Entscheidungsbaumes, also
- wie sind die Splits in den inneren Knoten definiert, und
- welche Knoten ergeben sich daraus,

-> Dies ist das Resultat der *Trainingsphase* des Entscheidungsbaums.

### Klassifizierung mittels Entscheidungsbäumen

#### 4. Aufgabe: Eine Klassifizierung durchführen - vom Aufbau des Baumes bis zur Entscheidungsfindung

In dieser Aufgabe soll ein vollständiges Programm zur Klassifizierung mittels Entscheidungsbaum programmiert werden. Als Anwendungsfall dient die Klassifikation der Fahrzeuge anhand ihres Gewichts und ihrer Geschwindigkeit.  

1. Erstellen Sie ein Pandas DataFrame, in dem Ihre Datenpunkte der 4 Fahrzeugklassen aus Aufgabe 3 aufgeführt werden. Das Dataframe soll die Spaltennamen  "Gewicht", "Geschwindigkeit" und "Klasse" haben.

2. Informieren Sie sich, wie eine Klassifizierung mittels Entscheidungsbaumes mit dem Python Paket sklearn programmiert wird.

3. Programmieren Sie die Klassifizierung mittels Entscheidungsbaum für das Beispiel der Fahrzeugklassen.
   - Trainieren Sie den Entscheidungsbaum mit den Daten aus dem DataFrame
   - Lassen Sie den Entscheidungsbaum für einen beliebigen neuen Datenpunkt eine Vorhersage der Klasse machen

4. Testen Sie die Vorhersage anhand unterschiedlicher neuer Datenpunkte.


In [None]:
# Module importieren

# Datenpunkte:

# Datenpunkte als Dataframe Tabelle:



# Klassifizierungsbaum anlegen

# Baum trainieren

# Einen neuen Datenpunkt mit seinen Merkmalen definieren und als Dataframe formatieren

# Vorhersage für den neuen Datenpunkt mittels Entscheidungsbaum:
