<a href="https://colab.research.google.com/github/schahor/TU_25_SS_Data-Mining-und-Maschinelles-Lernen-2025/blob/main/03_Vorlage.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importieren der benötigten Libraries
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import sklearn
from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import (confusion_matrix, mean_absolute_error,
                             mean_squared_error, mean_squared_log_error,
                             median_absolute_error, precision_recall_curve,
                             r2_score, roc_auc_score, roc_curve)
from sklearn.model_selection import cross_val_predict
from sklearn.naive_bayes import GaussianNB


# Aufgabe 3.2 Precision, Recall und Accuracy

Wir verwenden hier das [Breast Cancer Wisconsin (Diagnostic) Data Set](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html). Die Merkmale werden aus einem digitalisierten Bild eines Feinnadelaspirats (FNA) einer Brustmasse berechnet. Sie beschreiben die Merkmale der im Bild vorhandenen Zellkerne.

In [None]:
# Features im Dataset
datasets.load_breast_cancer().feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [None]:
# Labels im Dataset
datasets.load_breast_cancer().target_names

array(['malignant', 'benign'], dtype='<U9')

In [None]:
# Load Data
X, y = datasets.load_breast_cancer(return_X_y=True)
X_train, y_train = X[:int(0.8*len(X))], y[:int(0.8*len(y))]
X_test, y_test = X[int(0.8*len(X)):], y[int(0.8*len(y)):]

# Train classifier
clf = RandomForestClassifier(n_estimators=10, max_depth=1)
clf.fit(X_train, y_train)
y_scores = clf.predict_proba(X_test)

## f) PR-Kurve (Precision-Recall Kurve)
Die Optimierung auf Precision führt in der Regel zu einer Verringerung des Recalls und umgekehrt. Dies zeigt sich in einem PR-Kurvendiagramm wie im folgenden Beispiel, in dem wir einen RandomForestClassifier auf dem Brustkrebs-Datensatz ausführen. Die Datenpunkte für die PR-Kurve erhält man durch Berechnung der Precision und des Recall-Wertes für einen Satz von Schwellenwerten zwischen $0.0$ und $1.0$.

Implementieren Sie die Funktion _plot\_pr\_curve_.
Sie können dabei die Funktion [sklearn.metrics.precision_recall_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html) verwenden.

In [None]:
def plot_pr_curve(y: np.ndarray, y_scores: np.ndarray):
    """Zeichnet die Kurve für die Precision und den Recall für die wahren Klassenlabels y und die vorhergesagten Labels mit ihrer Wahrscheinlichkeit"""

In [None]:
plot_pr_curve(y_test, y_scores)

## g) ROC-Kurve (Receiver Operating Characteristic)
Implementieren Sie die Funktion _plot\_roc\_curve_ um die ROC-Kurve zu visualisieren. Geben Sie im Plot-Titel den zugehörigen AUC-Wert an.
Sie können dabei die Funktionen [sklearn.metrics.roc_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html) und [sklearn.metrics.roc_auc_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html) verwenden.


In [None]:
def plot_roc_curve(y, y_scores):
    """Zeichnet die Receiver-Operating-Characteristic-Kurve für die wahren Klassenlabels y und die vorhergesagten Labels mit ihrer Wahrscheinlichkeit"""

In [None]:
plot_roc_curve(y_test, y_scores)

## h) Confusion Matrix

Zeigen Sie die Konfusionsmatrix über die Funktion _plot\_confusion\_matrix_ an.
Sie können dabei die Funktionen[sklearn.metrics.confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) und [seaborn.heatmap](https://seaborn.pydata.org/generated/seaborn.heatmap.html) verwenden.


In [None]:
def plot_confusion_matrix(y_test: np.ndarray, y_scores: np.ndarray, threshold: int):
    """Zeichnet die Konfusionsmatrix für die wahren Labels y und die vorhergesagten Labels y_pred"""

In [None]:
plot_confusion_matrix(y_test, y_scores, 0.5)

# Aufgabe 3.3 Fehlermetriken der Regression

## a) Metrikevaluierung
Evaluieren Sie die oben beschriebenen Metriken in der Funktion _evaluate\_metric_.
Wenden Sie dabei zunächst eine 5-fache Kreuzvalidierung mittels [sklearn.model_selection.cross_val_predict.html](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_predict.html) an und werten Sie anschließend die Metrik über die Parameterübergabe von _y\_true_ und _y\_pred_ aus.

Wir werden hierzu den [California Housing Prices Datensatz](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html) verwenden. Die Daten enthalten Informationen aus der Volkszählung von 1990 in Kalifornien. Auch wenn sie Ihnen nicht bei der Vorhersage aktueller Immobilienpreise helfen können, bieten sie doch einen zugänglichen Einführungsdatensatz für die Vermittlung der Grundlagen des maschinellen Lernens.

Als Modell dient hierzu ein [RandomForestRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html) Modell. Dieses konstruiert ein Ensemble von mehreren Regression Tree Modellen und liefert den Mittelwert der Vorhersagen der einzelnen Modelle.

In [None]:
# Load boston house pricing dataset
X, y = datasets.fetch_california_housing(return_X_y=True)
print(X.shape, y.shape)

(20640, 8) (20640,)


In [None]:
print('Features:\t', datasets.fetch_california_housing().feature_names)
print('Target:\t\t', datasets.fetch_california_housing().target_names)

Features:	 ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']
Target:		 ['MedHouseVal']


In [None]:
# define regression model (Random Forest Regressor)
model = RandomForestRegressor(n_estimators=10)

In [None]:
def evaluate_metric(X: np.ndarray, y: np.ndarray, clf: sklearn.base.BaseEstimator, metric:  staticmethod.__func__) -> float:
  """Führt eine 5-fold cross validation durch und evaluiert mithilfe der übergebenen Metrik."""
  return err

In [None]:
# define custom RMSE implementation (not available in sklearn)
def root_mean_squared_errror(y_true, y_pred):
  return rmse

In [None]:
# Evaluate predictions w.r.t. the above metrics
print(f"{'Metric':<24}{'Score':>6}")
print("-" * 30)

# define list of tuples containing the metric and its name
for metric, name in [
    (mean_absolute_error, "Mean Absolute Error"),
    (mean_squared_error, "Mean Squared Error"),
    (root_mean_squared_errror, "Root Mean Squared Error"),
    (mean_squared_log_error, "Mean Log Squared Error"),
    (median_absolute_error, "Median Absolute Error"),
    (r2_score, "R2 Score")]:

    # evaluate with metric
    err = evaluate_metric(X, y, model, metric)

    # print out results (formatted)
    print(f"{name:<24}{err: >6.2f}")