<a href="https://colab.research.google.com/github/schahor/TU_25_SS_Data-Mining-und-Maschinelles-Lernen-2025/blob/main/04_Vorlage.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importieren der benötigten Libraries
import numpy as np
import sklearn
from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_validate
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap


# Aufgabe 4.2 Entscheidungsbäume für Klassifikation


[sklearn.tree.DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) ist eine Klasse, die eine Mehrklassenklassifizierung eines Datensatzes durchführen kann.

Wie bei anderen Klassifikatoren nimmt _DecisionTreeClassifier_ zwei Arrays während des Trainings als Eingabe entgegen: ein Array _X_, _sparse_ oder _non-sparse_, mit der Größe _[n\_samples, n\_features]_, das die Trainingsproben enthält, und ein Array _Y_ mit ganzzahligen Werten, mit der Größe _[n\_samples]_, das die Klassenbezeichnungen für die Trainingsproben enthält.


In [None]:
# Load and investigate the iris dataset
iris = load_iris()
X = iris.data
y = iris.target
print(X.shape, y.shape)

(150, 4) (150,)


In [None]:
# Fit a Decision tree on the iris data
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = clf.fit(X, y)

In [None]:
# plot the tree for investigation
plt.figure(figsize=(14,12))
_ = sklearn.tree.plot_tree(clf, fontsize=9, feature_names=iris.feature_names, class_names=iris.target_names)

## a) Unsichere Vorhersagen

Entscheidungsbäume erlauben es eine (Pseudo)-Wahrscheinlichkeit für die Entscheidungen anzugeben.
Finden Sie alle Entscheidungen des Modells für den Testdatensatz, für welches das Modell keine 100\,\% Zuordnung treffen konnte.
Verwenden Sie dabei die Methode _clf.predict\_proba_.

Wir verwenden hierzu den bekannten [Iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html)-Datensatz. Ziel ist die Klassifizierung von Untergruppen der [Schwertlilie](https://de.wikipedia.org/wiki/Schwertlilien) (Iris) anhand der Merkmale _petal_ (Blütenblatt) und _sepal_ (Kelchblatt) Länge.

In [None]:
# Train another model with a train-test split and a max depth of 3
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# Plot the new tree for investigation


In [None]:
"""Computes a boolean array where all items with a probability != 1 are marked as true"""


## b) Entscheidungsregionen

Um die Entscheidungsregionen zu visualisieren, können wir eine Vorhersage für jeden möglichen Datenpunkt um die gültige Region um den Iris-Datensatz machen. Zur Erleichterung der Visualisierung verwenden wir nun nur noch die ersten 2 Features des Iris-Datensatzes für das Training.

Visualisieren Sie die Entscheidungsregionen des trainierten Modells dar. Sie können hierzu [sklearn.inspection.DecisionBoundaryDisplay](https://scikit-learn.org/stable/modules/generated/sklearn.inspection.DecisionBoundaryDisplay.html#sklearn.inspection.DecisionBoundaryDisplay.from_estimator) verwenden. Unterscheiden Sie dabei visuell die Trainings- und Testmenge

In [None]:
# Train decision tree
clf = tree.DecisionTreeClassifier(max_depth=3)
X = iris.data[:, :2]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=7)
clf = clf.fit(X_train, y_train)

In [None]:
# Plot the decision boundaries

## c) Kreuzvalidierung

Wir können visuell erkennen, dass der Entscheidungsbaum mit zunehmender Tiefe dazu neigt, sich zu spezialisieren, um zu den einzelnen Datenpunkten zu passen, was zu komplexeren Entscheidungsregionen führt.
Um den optimalen Wert für die maximale Tiefe zu finden, können wir außerdem eine Kreuzvalidierung des 2D-Iris-Datensatzes über einen Bereich möglicher Werte für den Parameter für die maximale Tiefe durchführen.

Implementieren Sie die Methode _get\_acc\_per\_depth_, welche eine 10-fache Kreuzvalidierung durchführt und die korrespondierenden Train- und Testgenauigkeiten zurückgibt.


In [None]:
def get_acc_per_max_depth(X: np.ndarray, y: np.ndarray, max_depths: range) -> [np.ndarray, np.ndarray]:
    """Runs 10-fold cross validation for all given depths and
     returns an array for the corresponding train and test accuracy"""

In [None]:
def plot_results(acc_test, acc_train, depths_to_eval):
    # Plot results
    plt.figure()
    plt.scatter(depths_to_eval, acc_test, label="Accuracy Test", marker="^")
    plt.scatter(depths_to_eval, acc_train, label="Accuracy Train", marker="x")
    plt.legend()
    plt.xlabel("Maximum Tree Depth")
    plt.ylabel("Accuracy")
    plt.title("Decision Tree: Accuracy vs. Max. Depth")
    plt.show()

In [None]:
acc_train, acc_test = get_acc_per_max_depth(iris.data, iris.target, range(1,16))

# Aufgabe 4.3 Entscheidungsbäume für Regression

Entscheidungsbäume können auch zur Regression verwendet werden.
Dazu erstellen wir eine verrauschte Sinusfunktion.
Wir können jetzt Entscheidungsbäume anpassen, um die Sinusfunktion zu erlernen. Als Ergebnis werden lokale lineare Regressionen gelernt, die sich der Sinuskurve annähern.

In [None]:
def distorted_sin():
    # Create a random dataset
    X_cont = np.sort(10 * np.random.rand(80, 1), axis=0)
    y_cont = np.sin(X_cont).ravel()
    y_cont += 0.5 * (0.5 - np.random.rand(80))
    y_cont[::5] += 3 * (0.5 - np.random.rand(16))
    return X_cont, y_cont

In [None]:
# create dataset
X, y = distorted_sin()

In [None]:
# plot the training data
plt.scatter(X, y)

## a) Regression

Verwenden Sie den [sklearn.tree.DecisionTreeRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html) in der Methode _get\_dt\_prediction_ um eine Regression mittels eines Entscheidungsbaum anzuwenden. Geben Sie anschließend die Vorhersagen des Modells für gegebenen Trainingdatensatz zurück.


In [None]:
def get_dt_prediction(X_train: np.ndarray, y_train: np.ndarray, max_depth: int) -> np.ndarray:
    """Fits a decision tree regressor and returns its predictions as an array."""

## b) Ergebnisvisualisierung

Wir können sehen, dass, wenn die maximale Tiefe des Baumes (gesteuert durch den Parameter _max\_depth_ zu hoch eingestellt ist, die Entscheidungsbäume zu feine Details der Trainingsdaten lernen und aus dem Rauschen lernen, d.h. sie _überanpassen_ sich.

Zeigen Sie die verschiedenen Anpassungen für die unterschiedlichen Einstellungen von _max\_depth_ in der Methode _plot\_regression\_models_ an.


In [None]:
# Make predictions for depth 2 and 5


In [None]:
def plot_regression_models(X_cont: np.ndarray, y_cont: np.ndarray, y_1: np.ndarray, y_2: np.ndarray):
    """Plots the regression results for y_1 and y_2 on top of the training data X_cont, y_cont."""
