# Workshop Hands On KI
# Regression
**In dieser Aufgabe implementieren wir ein simples neuronales Netzwerk zur Vorhersage (Regression) der Eigenschaft eines Bauteils. Der folgende Code ist ein vollst√§ndiges Beispiel f√ºr ein einfaches Regressionsproblem mit neuronalen Netzen, von der Datenvorbereitung bis zur Modellbewertung.**

**Bibliotheken importieren:** Der folgende Code importiert die erforderlichen Bibliotheken f√ºr das Erstellen, Trainieren und Evaluieren eines KI-Modells sowie zugeh√∂riger graphischer Ausgaben.

Wichtige Bibliotheken sind beispielsweise

1. pandas:
   - Eine Bibliothek f√ºr Datenmanipulation und -analyse. Mit ihr kann man Datenstrukturen wie DataFrames erstellen und bearbeiten, was besonders n√ºtzlich f√ºr das Handling gro√üer Datenmengen ist.

2. numpy:
   - Eine Bibliothek f√ºr die effiziente Arbeit mit gro√üen, mehrdimensionalen Arrays und Matrizen.

3. seaborn und matplotlib:
   - Beides sind Visualisierungsbibliotheken. Seaborn baut auf Matplotlib auf und erm√∂glicht die Erstellung sch√∂n gestalteter Grafiken. Beide werden oft verwendet, um Daten zu explorieren und die Ergebnisse der Datenanalyse visuell darzustellen.

4. sklearn:
   - Eine Bibliothek f√ºr maschinelles Lernen. Beispielsweise wird `train_test_split` genutzt, um Daten in Trainings- und Testsets aufzuteilen.

5. tensorflow und tensorflow.keras:
   - TensorFlow ist eine Open-Source-Plattform f√ºr maschinelles Lernen. Keras ist eine Schnittstelle f√ºr TensorFlow, die das Erstellen und Trainieren von Modellen vereinfacht. `Sequential` erm√∂glicht die einfache Erstellung eines linearen Stapels von Schichten f√ºr ein neuronales Netzwerk. `Dense` steht f√ºr vollst√§ndig verbundene Neuronenschichten.

In [1]:
# Profiling
!pip install ydata_profiling > /dev/null 2>&1
from ydata_profiling import ProfileReport

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Scikit-learn
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.ensemble import RandomForestRegressor

# XGBoost
from xgboost import XGBRegressor

# TensorFlow / Keras
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Input
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import Huber

Datensatz:
- TrendAuto2030plus_Entwicklungssystematik_HandsOnKI_Regression_DATEN.xlsx

In diesem Datensatz geht es darum, die Druckfestigkeit von Beton anhand der Anteile seiner Bestandteile (Zement, Asche, Wasser, k√ºnstl. Zusatzmittel, ...) mithilfe eines KI-Modells vorherzusagen. Das Ziel ist dabei, dass die vorhergesagte Druckfestigkeiten m√∂glichst nah an den tats√§chlichen Werten liegen.

In [2]:
# Pfad der Daten in Excel-Datei definieren
data_path = 'https://drive.google.com/uc?export=download&id=1qcd2_D_yRwXsMqfMdeTOTQE4OzdiSeK6'

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**1. Lesen Sie die Daten der spezifizierten Excel-Datei ein.**

**2. Geben Sie den Kopf der Datei aus.**

**3. Geben Sie die Anzahl an Spalten und Zeilen der Datei aus.**

**4. Geben Sie die allgemeinen Informationen der Datei aus.**

**5. Geben Sie die statistischen Daten der Datei aus.**

Sie kommen nicht weiter? Lassen Sie sich durch Vibe Coding helfen:
https://cloud.google.com/discover/what-is-vibe-coding?hl=de


In [None]:
# Daten einlesen
XXX

# Daten ausgeben
XXX

# Daten rudiment√§r analysieren
XXX

### Datenanalyse

**Explorative Datenanalyse (EDA):** Der folgende Code analysiert beispielhaft mithilfe des Profile Reports die Verteilung der Merkmale des Datensatzes, um Muster und Beziehungen zu erkennen. Der Profile Report enth√§lt u.a.
 - Eigenschaften der einzelnen Variablen,
 - Interaktionsgrafik,
 - visualisiert Datendichte zwischen zwei Variablen,
 - Korrelationsgrafik,
 - lineare Zusammenh√§nge zwischen Variablen,
 - schnelle √úberpr√ºfung fehlender Werte pro Variable.

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.


**Aufgabe:**

**1. F√ºhren Sie den Profile Report f√ºr die Daten aus.**

**2. Analysieren Sie die Ergebnisse des Profile Reports. Was f√§llt Ihnen auf?**

In [None]:
# Daten detailliert analysieren und Analyseergebnisse visualisieren
XXX

### Datenvorbereitung

**Aufteilung in Eingangs- und Ausgangsvariablen:** Der folgende Code definiert die Eingangs- (`X`) und Ausgangsvariablen (`y`). Dabei enth√§lt `X` alle Spalten au√üer `CompressiveStrength [MPa]` sowie `y` die Spalte `CompressiveStrength [MPa]`.

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**Definieren Sie die Ein- & Ausgangsvariablen.**

In [None]:
# Ein- und Ausgangsvariablen definieren
XXX

In [None]:
# Spaltennamen vereinfachen (gewisse Zeichen nicht lesbar f√ºr XGBoost)
X.columns = [col.replace('[', '').replace(']', '').replace('<', '').replace('>', '').replace('/', '_').replace(' ', '_') for col in X.columns]

**Standardisierung numerischer Werte:** Der folgende Code standardisiert numerische Werte mithilfe des Standardscalers, sodass der Mittelwert der Daten 0 und die Standardabweichung 1 betr√§gt, sodass alle Werte in einer vergleichbaren Gr√∂√üenordnung vorliegen. Diese Standardisierung ist notwendig f√ºr KI-Modelle, die empfindlich auf Skalen oder Distanzen reagieren, wie logistische Regression, k-Means und neuronale Netze, jedoch nicht erforderlich f√ºr skalenunabh√§ngige KI-Modelle wie Random Forest und XGBoost.

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**Skalieren Sie die Eingangsvariablen.**

In [None]:
# Skalierung der Eingangsdaten
XXX

**Aufteilung in Trainings- und Testdaten:** Der folgende Code teilt den Datensatz in Trainings- (z.B. 80%) und Testdaten (z.B. 20%) mittels der Funktion `train_test_split` auf.

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**Teilen Sie den Datensatz in 80 % Trainings- sowie 20 % Testdaten auf.**

In [None]:
# Aufteilung in Trainings- und Testdaten
XXX

# PAUSE

### Modellauswahl und Training

### Neuronales Netz

**Modell definieren und zusammenstellen:** Der folgende Code erstellt mittels der Funktion `Sequential` ein sequenzielles Modell eines neuronalen Netzes. Dies ist ein Stapel von Schichten, wo jede Schicht genau eine Eingabe und eine Ausgabe hat. Mit der Funktion `Dense` werden anschlie√üend dem Modell Schichten hinzugef√ºgt. Eine Schicht des neuronalen Netzes ben√∂tigt dabei Spezifikationen wie die Anzahl der Neuronen und die Aktivierungsfunktion. Au√üerdem wird hier eine Verlustfunktion (`loss = Huber()`), ein Optimierer (`optimizer = Adam(learning_rate = 0.0001)`) mit einer Lernrate angegeben, mit dem das Modell mittels der Funktion `model.compile` kompiliert wird.

*Die Anzahl Schichten, Neuronen pro Schicht sowie die Aktivierungsfunktion pro Schicht sind klassische Designparameter der Architektur eines neuronalen Netzwerks, welche zum Finetuning des Modells variiert werden k√∂nnen.*

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**1. Bauen Sie ein neuronales Netz mit einer Eingabeschicht, beliebig vielen versteckten Schichten sowie einer Ausgabeschicht auf und w√§hlen Sie die Anzahl an Neuronen entsprechend. W√§hlen Sie als Aktivierungsfunktion der Eingabeschicht sowie der versteckten Schichten `relu` sowie der Ausgabeschicht `linear`.**

**2. Begr√ºnden Sie warum die Aktivierungsfunktion der Ausgabeschicht `linear` sein sollte.**

In [None]:
# Neuronales Netz erstellen
XXX

# Modell kompilieren
XXX

**Modell trainieren:** Der folgende Code trainiert das Modell des neuronalen Netzes mit den Trainingsdaten, z.B. √ºber 50 Epochen (`epochs`) mit einer Batch-Gr√∂√üe von z.B. 32 (`batch_size`) mittels der Funktion `model.fit`, wobei z.B. 20 % der Daten f√ºr die Validierung reserviert werden (`validation_split`).

*Die Anzahl Epochen sowie die Batch-Gr√∂√üe sind klassische Designparameter beim Training eines neuronalen Netzwerks, welche zum Finetuning des Modells variiert werden k√∂nnen.*

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**Trainieren Sie das Modell. Definieren Sie hierf√ºr passende Parameter.**

In [None]:
# Modell trainieren
XXX

### Modellanalyse

**Modell evaluieren:** **Modell evaluieren:** Der folgende Code bewertet das trainierte Modell. Dazu werden die Testdaten (`X_test`) verwendet, um Vorhersagen des Modells f√ºr den Testdatensatz werden zu berechnen (`y_pred`). Anschlie√üend werden die Vorhersagen mit den tats√§chlichen Werten verglichen und z.B. der mittlere absolute prozentuale Fehler (Mean Absolute Percentage Error) mittels der Funktion `mean_absolute_percentage_error` als eine Metrik zur Bewertung des Modells berechnet.

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**1. Berechnen Sie den mittleren absoluten prozentualen Fehler.**

**2. Geben Sie den mittleren absoluten prozentualen Fehler aus.**

In [None]:
# Vorhersagen treffen
XXX

# MAPE (Mean Absolute Percentage Error) berechnen
XXX

# Pr√§zision der Vorhersagen ausgeben
XXX

Der folgende Code erlaubt die Bewertung des Training des Modells, indem die Trainings- und Validierungsgenauigkeit √ºber die Epochen hinweg in Diagrammen dargestellt werden.

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**Visualisieren Sie den Trainingsverlust sowie den Validierungsverlust √ºber die Epochen hinweng in einem Diagramm.**

In [None]:
# Verlust des Modells visualisieren
XXX

Der folgende Code erstellt eine Visualisierung, die die tats√§chlichen Werte (Ist-Werte) mit den vorhergesagten Werten des Modells vergleicht

In [None]:
# Vergleich Ist-Werte und Vorhersagen plotten
plt.figure(figsize = (6, 5))
plt.scatter(y_test, y_pred_nn, alpha = 0.5)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')
plt.title('Vergleich tats√§chliche Werte vs. vorhergesagte Werte')
plt.xlabel('tats√§chliche Druckfestigkeit (MPa)')
plt.ylabel('Vorhergesagte Druckfestigkeit (MPa)')
plt.show()

**Aufgabe:**

**1. Evaluieren Sie die Analyseergebnisse**

**2. Optimieren Sie die Designparameter und trainieren Sie das Modell entsprechend neu, bis Sie mit den Ergebnissen zufrieden sind.**

**Feinabstimmung und Vorhersagen:** Basierend auf der vorherigen Auswertung ist ersichtlich, dass das Modell des neuronalen Netzwerks noch Optimierungspotenzial f√ºr diese Regressionsaufgabe zeigt. Daher wird in einem n√§chsten Schritt das Modell weiter angepasst, um die Leistung zu verbessern. Ist ein optimales Modell gefunden, kann das Modell realisiert werden, um beispielsweise wie in dieser Anwendung Vorhersagen zu t√§tigen.

### XGBoost

XGBoost ist ein leistungsstarkes maschinelles Lernmodell, das auf dem Prinzip des Gradient Boosting basiert. Dabei handelt es sich um ein Ensemble-Modell, das durch die sequentielle Kombination von Entscheidungsb√§umen arbeitet, um genauere Vorhersagen zu erlangen. Anders als beim Random Forest, bei dem die B√§ume parallel trainiert werden, erh√§lt bei XGBoost jeder Baum nacheinander neue Merkmale. Jeder neue Baum zielt darauf ab, die Fehler der vorhergehenden B√§ume zu korrigieren, was die Modellleistung sukzessive verbessert.

Eine besondere St√§rke von XGBoost ist seine F√§higkeit, gewichtete Entscheidungsb√§ume zu verwenden und Regularisierungstechniken einzusetzen, um Overfitting zu vermeiden.

*Zu den wichtigsten Hyperparametern z√§hlen die Anzahl der zu verwendenden Entscheidungsb√§ume (`n_estimators`) und die Lernrate (`learning_rate`), welche den Einfluss jedes neu hinzugef√ºgten Baums bestimmt.*

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**1. Definieren Sie die Anzahl der Entscheidungsb√§ume sowie die Lernrate.**

**2. Implementieren Sie die Funktion, mit der das Modell trainiert wird.**

In [None]:
# Modell definieren
model_xgb = XGBRegressor(XXX)

# Modell trainieren
XXX

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**1. Berechnen Sie den mittleren absoluten prozentualen Fehler.**

**2. Geben Sie den mittleren absoluten prozentualen Fehler aus.**

In [None]:
# Vorhersagen treffen
XXX

# MAPE (Mean Absolute Percentage Error) berechnen
XXX

# Pr√§zision der Vorhersagen ausgeben
XXX

### üîß Bitte diesen Code bearbeiten
Passen Sie die Stellen XXX an.

**Aufgabe:**

**Stellen Sie die Vorhersage √ºber den tats√§chliche Werten in einem Diagramm dar.**

In [None]:
# Vergleich Ist-Werte und Vorhersagen plotten
XXX

**Aufgabe:**

**1. Optimieren Sie die verschiedenen KI-Modelle.**

**2. Welches Modell liefert die besten Ergebnisse?**

### Vergleich

**Modellvergleich:** Der folgende Code vergleicht die verschiedener Modelle  Neuronale Netz (NN) und XGBoost (XGB). Hierbei wird ein Streudiagramm wird verwendet, um die Modellg√ºte zu veranschaulichen. In diesem Diagramm repr√§sentieren blaue Punkte die Vorhersagen der Modelle, w√§hrend eine rote Linie die idealen Vorhersagen darstellt. Je n√§her die blauen Punkte an der roten Linie liegen, desto genauer sind die Vorhersagen des Modells.

Das prim√§re Ziel dieser grafischen Analyse ist es, die unterschiedlichen Modelle hinsichtlich ihrer Vorhersagegenauigkeit zu vergleichen. Eine visuelle Einsch√§tzung erm√∂glicht die Identifikation systematischer Abweichungen, wie etwa √úber- oder Untersch√§tzungen in speziellen Wertebereichen.

In [None]:
# Ergebnisse Modellen (tats√§chliche Werte vs. Vorhergesagte Werte) plotten
fig, axs = plt.subplots(1, 2, figsize = (18, 5), sharey=True)
models = {
    'Neuronales Netz': y_pred_nn,
    'XGBoost': y_pred_xgb
}
for ax, (name, y_pred_model) in zip(axs, models.items()):
    ax.scatter(y_test, y_pred_model, alpha=0.6, label = "Vorhersage")
    ax.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', label = "Optimum")
    ax.set_title(name)
    ax.set_xlabel("Tats√§chliche Druckfestigkeit (MPa)")
    ax.set_ylabel("Vorhergesagte Druckfestigkeit (MPa)")
    ax.grid(True)
    ax.legend()
fig.suptitle("Vergleich tats√§chliche Werte vs. vorhergesagte Werte", fontsize = 16)
plt.tight_layout()
plt.show()