# Jupyter Notebook: Regression mit einem Multi Layer Perceptron in PyTorch

In diesem Notebook erstellen wir ein Multi Layer Perceptron (MLP) mit PyTorch, um eine Regressionsaufgabe auf dem California Housing Dataset zu lösen. Der Datensatz enthält Merkmale wie Medianalter des Hauses, Anzahl der Zimmer und Einkommen der Nachbarschaft, um den Medianhauspreis (kontinuierlich) vorherzusagen. Wir integrieren CUDA-Unterstützung für GPU-Beschleunigung, falls verfügbar, und visualisieren die Trainings- und Validierungsverluste. Am Ende evaluieren wir das Modell mit Metriken wie Mean Squared Error (MSE), Mean Absolute Error (MAE) und R² Score und erstellen einen Scatter-Plot der vorhergesagten vs. tatsächlichen Werte.

Das Notebook ist in folgende Abschnitte gegliedert:
1. Datenvorbereitung: Laden und Skalieren des Datensatzes.
2. PyTorch Datasets und Dataloaders: Daten für PyTorch vorbereiten.
3. MLP-Modell: Definition eines einfachen MLP für Regression.
4. Training: Training mit MSE Loss und Visualisierung der Verluste.
5. Evaluation: Berechnung von Metriken und Visualisierung der Ergebnisse.

## 1. Datenvorbereitung

Wir laden den California Housing Dataset und skalieren die Daten, um die Modellleistung zu optimieren.

## 1.1 Datensatz laden

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

# Datensatz laden
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target  # Zielvariable: Medianhauspreis in 100.000 USD

# Erste Zeilen anzeigen
print(X.head())
print(f"Zielvariable (erste 5 Werte): {y[:5]}")

### 1.2 Daten aufteilen

Wir teilen die Daten in Trainings- (70%), Validierungs- (15%) und Testsets (15%).

In [None]:
from sklearn.model_selection import train_test_split

# Aufteilung in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=42)

# Aufteilung des Trainingsdatensatzes in Trainings- und Validierungsdaten
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.1765, random_state=42)  # 0.1765 * 85% ≈ 15%

### 1.3 Daten skalieren

Wir standardisieren die Merkmale und die Zielvariable mit StandardScaler.

In [None]:
from sklearn.preprocessing import StandardScaler

# Skalierung der Merkmale
scaler_X = StandardScaler()
X_train = scaler_X.fit_transform(X_train)
X_val = scaler_X.transform(X_val)
X_test = scaler_X.transform(X_test)

# Skalierung der Zielvariable
scaler_y = StandardScaler()
y_train = scaler_y.fit_transform(y_train.reshape(-1, 1)).flatten()
y_val = scaler_y.transform(y_val.reshape(-1, 1)).flatten()
y_test = scaler_y.transform(y_test.reshape(-1, 1)).flatten()

## 2. Erstellen von PyTorch Datasets und Dataloaders

Wir wandeln die Daten in PyTorch-Tensoren um und erstellen Dataloaders für effizientes Training.

### 2.1 Benutzerdefiniertes Dataset

## 2.2 Dataloaders

Wir nutzen pin_memory=True für schnellere Datenübertragung zur GPU, falls CUDA verfügbar ist.

## 3. Definition des MLP-Modells

Unser MLP hat eine Eingabeschicht, eine versteckte Schicht mit ReLU-Aktivierung und eine Ausgabeschicht für Regression.

### 4.1 Funktion zum Plotten der Verluste

Wir definieren eine Funktion, die die Trainings- und Validierungsverluste über die Epochen hinweg speichert und einen Plot erstellt.

In [None]:
import matplotlib.pyplot as plt

def plot_losses(train_losses, val_losses, num_epochs):
    plt.figure(figsize=(10, 5))
    plt.plot(range(1, num_epochs + 1), train_losses, label='Train Loss', marker='o')
    plt.plot(range(1, num_epochs + 1), val_losses, label='Validation Loss', marker='s')
    plt.xlabel('Epoch')
    plt.ylabel('Loss')
    plt.title('Trainings- und Validierungsverluste über Epochen')
    plt.legend()
    plt.grid(True)
    plt.show()

### 4.2 Trainingsschleife

## 5. Evaluation des Modells

Wir evaluieren das Modell auf dem Testset mit MSE, MAE und R² Score und visualisieren die Ergebnisse.

### 5.1 Metriken berechnen

### 5.2 Scatter-Plot der Ergebnisse

In [None]:
# Scatter-Plot
plt.figure(figsize=(8, 8))
plt.scatter(all_labels, all_preds, alpha=0.5)
plt.plot([all_labels.min(), all_labels.max()], [all_labels.min(), all_labels.max()], 'r--', lw=2)
plt.xlabel('Tatsächliche Hauspreise (in 100.000 USD)')
plt.ylabel('Vorhergesagte Hauspreise (in 100.000 USD)')
plt.title('Vorhergesagte vs. Tatsächliche Hauspreise')
plt.grid(True)
plt.show()