### 1. Klassifikation
Trainieren Sie einen **Random Forest Classifier** und eine **SVM**, um vorherzusagen, ob ein Haus „teuer“ ist.
Vergleichen Sie die Modelle und visualisieren Sie die **Konfusionsmatrix** des besseren Modells.

In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

# 1. Load data
housing = fetch_california_housing()
X = pd.DataFrame(housing.data, columns=housing.feature_names)
y = pd.Series(housing.target, name='MedHouseVal')

# 2. Feature Engineering
X['RoomsPerPerson'] = X['AveRooms'] / X['AveOccup']

# 3. Create Classification Target (Median Split)
# We want to predict whether a house is "expensive" (above the median) or "inexpensive".
median_val = y.median()
y_class = (y > median_val).astype(int) # 1 = Expensive, 0 = Inexpensive

# Split Data (We need sets for regression and classification)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
_, _, y_train_class, y_test_class = train_test_split(X, y_class, test_size=0.2, random_state=42)

print("Data prepared.")
print(f"Class distribution: \n{y_class.value_counts()}")

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# TODO: Initialisieren Sie die Modelle RandomForestClassifier und SVC.
# Verwenden Sie n_estimators=100 und random_state=42 für den Random Forest.
# Verwenden Sie random_state=42 für die SVC.
clf_rf = None
clf_svm = None

# TODO: Trainieren Sie beide Modelle mit den Trainingsdaten (X_train, y_train_class).


# TODO: Berechnen Sie die Genauigkeit für beide Modelle auf den Testdaten.
acc_rf = 0
acc_svm = 0

print(f"Random Forest Genauigkeit: {acc_rf:.4f}")
print(f"SVM Genauigkeit: {acc_svm:.4f}")

# TODO: Wählen Sie basierend auf der Genauigkeit das bessere Modell aus und erstellen Sie eine Konfusionsmatrix.
# Verwenden Sie die Funktion `confusion_matrix` und zeigen Sie sie dann mit `ConfusionMatrixDisplay` an.
# Zeigen Sie abschließend den Plot mit plt.show() an.

### 2. Regression
Trainieren Sie einen **Random Forest Regressor**, um den Hauspreis (`MedHouseVal`) vorherzusagen. 
Bewerten Sie das Modell mithilfe des **Mean Absolute Error (MAE)** und visualisieren Sie die Vorhersagen im Vergleich zu den tatsächlichen Werten.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# TODO: Initialisieren Sie den RandomForestRegressor.
# Verwenden Sie n_estimators=100 und random_state=42.
reg_rf = None

# TODO: Trainieren Sie das Modell mit den ursprünglichen Regressions-Trainingsdaten (y_train).


# TODO: Machen Sie Vorhersagen für den Testsatz und berechnen Sie den Mean Absolute Error.
y_pred = []
mae_rf = 0

print(f"Random Forest Regressor MAE: {mae_rf:.4f}")

# TODO: Erstellen Sie ein Streudiagramm, um die tatsächlichen vs. vorhergesagten Werte zu visualisieren.
# Stellen Sie die tatsächlichen Werte (y_test) auf der x-Achse und die vorhergesagten Werte (y_pred) auf der y-Achse dar.
# Fügen Sie eine rote gestrichelte Linie hinzu, um den Idealfall darzustellen, bei dem die Vorhersage dem tatsächlichen Wert entspricht.

### 3. Unüberwachtes Lernen
Verwenden Sie **K-Means**, um die Häuser basierend auf ihrem Standort (`Latitude`, `Longitude`) zu clustern.
Visualisieren Sie die Cluster in einem Streudiagramm.

In [None]:
from sklearn.cluster import KMeans

# TODO: Erstellen Sie einen neuen DataFrame `X_geo`, der nur die Spalten 'Latitude' und 'Longitude' aus X enthält.
X_geo = None

# TODO: Initialisieren Sie das KMeans-Modell, um 5 Cluster zu finden. Verwenden Sie random_state=42.
kmeans = None

# TODO: Passen Sie das Modell an die geografischen Daten an und sagen Sie den Cluster für jedes Haus voraus.
# Weisen Sie die Ergebnisse einer neuen Spalte 'Cluster' im ursprünglichen DataFrame `X` zu.


# TODO: Erstellen Sie ein Streudiagramm zur Visualisierung der Cluster.
# Verwenden Sie 'Longitude' für die x-Achse und 'Latitude' für die y-Achse.
# Färben Sie die Punkte nach der gerade erstellten Spalte 'Cluster'.
# Fügen Sie eine Farbleiste und entsprechende Beschriftungen hinzu.

### 4. Neuronales Netz
Trainieren Sie ein einfaches **Neuronales Netz** (MLP) zur Regression (Vorhersage des Hauspreises).
Skalieren Sie die Daten vorher! Experimentieren Sie mit der Anzahl der Schichten.

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.preprocessing import StandardScaler

# TODO: Skalieren Sie die Feature-Daten (X_train und X_test) mit StandardScaler.
# Denken Sie daran, den Scaler an die Trainingsdaten anzupassen und sowohl die Trainings- als auch die Testdaten zu transformieren.
scaler = None
X_train_scaled = None
X_test_scaled = None

# TODO: Erstellen Sie ein sequentielles neuronales Netzwerkmodell für die Regression.
# Es sollte eine Eingabeschicht, zwei versteckte Schichten (64 und 32 Neuronen mit 'relu'-Aktivierung)
# und eine Ausgabeschicht mit einem einzelnen Neuron für die Preisvorhersage haben.
model = None

# TODO: Kompilieren Sie das Modell.
# Verwenden Sie den 'adam'-Optimierer und 'mse' (Mean Squared Error) als Verlustfunktion.
# Verfolgen Sie 'mae' (Mean Absolute Error) als Metrik.


# TODO: Trainieren Sie das Modell für 20 Epochen.
# Verwenden Sie eine Batch-Größe von 32 und einen Validierungs-Split von 0.2. Setzen Sie verbose=0.
history = None

# TODO: Zeichnen Sie den Trainings- und Validierungsverlust aus dem History-Objekt, um auf Überanpassung zu prüfen.


# TODO: Werten Sie das Modell auf den skalierten Testdaten aus und geben Sie den endgültigen Test-MAE aus.
loss, mae = [0, 0]
print(f"Test MAE: {mae:.4f}")

### 5. Einzelne Vorhersage: Definition des Beispielhauses

Hier definieren wir ein fiktives Haus, das wir für unsere Vorhersagen verwenden werden. Sie können die Werte in der folgenden Zelle ändern, um zu sehen, wie sich die Vorhersagen für verschiedene Häuser ändern.

In [None]:
# Erstellen Sie ein fiktives Haus als Beispiel
# Die Werte basieren auf den Durchschnittswerten des Datensatzes und wurden leicht angepasst.
# ÄNDERN SIE DIESE WERTE, UM VERSCHIEDENE HÄUSER ZU TESTEN
sample_house_dict = {
    'MedInc': [3.5],       # Medianeinkommen (in Zehntausend USD)
    'HouseAge': [25],      # Durchschnittliches Hausalter
    'AveRooms': [5.0],     # Durchschnittliche Anzahl der Zimmer
    'AveBedrms': [1.0],    # Durchschnittliche Anzahl der Schlafzimmer
    'Population': [1400],  # Blockbevölkerung
    'AveOccup': [2.8],     # Durchschnittliche Belegung
    'Latitude': [36.75],   # Nördlicher Breitengrad
    'Longitude': [-119.7]  # Westlicher Längengrad
}
sample_house = pd.DataFrame(sample_house_dict)
sample_house['RoomsPerPerson'] = sample_house['AveRooms'] / sample_house['AveOccup']

# Stellen Sie sicher, dass die Spaltenreihenfolge mit den Trainingsdaten übereinstimmt
sample_house = sample_house[X_train.columns]

print("Beispielhaus erstellt:")
print(sample_house.T)

### 6. Vorhersage: Klassifikation

Jetzt testen wir unsere trainierten Klassifikationsmodelle an dem gerade definierten Haus. Wir wollen sehen, ob die Modelle es als 'Teuer' oder 'Preiswert' klassifizieren.

In [None]:
# TODO: Verwenden Sie Ihre trainierten RandomForestClassifier und SVC, um vorherzusagen, ob das `sample_house` teuer ist.
pred_rf_class = None
pred_svm_class = None

# TODO: Holen Sie sich für das Random Forest-Modell die Vorhersagewahrscheinlichkeiten für das Beispielhaus.
proba_rf = [0, 0] # Sollte Wahrscheinlichkeiten für Klasse 0 und 1 enthalten

print("--- Klassifikationsvorhersage für ein Beispielhaus ---")
# Die folgenden Zeilen funktionieren, sobald Sie die Vorhersagen haben.
# print(f"Random Forest sagt: {'Teuer' if pred_rf_class == 1 else 'Preiswert'} (Wahrscheinlichkeit: {proba_rf[pred_rf_class]*100:.2f}%)")
# print(f"SVM sagt: {'Teuer' if pred_svm_class == 1 else 'Preiswert'}")

# TODO: Erstellen Sie ein Balkendiagramm, um die Vorhersagewahrscheinlichkeiten aus dem Random Forest-Modell zu visualisieren.
# Beschriften Sie die Balken entsprechend.

### 7. Vorhersage: Regression

Jetzt verwenden wir das Regressionsmodell, um den genauen Preis für dasselbe Haus vorherzusagen und das Ergebnis zu visualisieren.

In [None]:
# TODO: Verwenden Sie Ihren trainierten RandomForestRegressor, um den Preis des `sample_house` vorherzusagen.
predicted_price = 0

print(f"--- Regressionsvorhersage für ein Beispielhaus ---")
# Der Preis ist in Einheiten von 100.000 $
print(f"Vorhergesagter Preis (Random Forest Regressor): ${predicted_price*100000:,.2f}")

# TODO: Erstellen Sie ein Streudiagramm, das die tatsächlichen vs. vorhergesagten Werte aus den Testdaten Ihres Regressors zeigt.
# Fügen Sie dann einen einzelnen, großen, roten Punkt zum Diagramm hinzu, der die Vorhersage für das `sample_house` darstellt.
# Für den 'tatsächlichen' Wert des Beispielhauses im Diagramm können Sie den Median des Testsatzes (y_test.median()) verwenden.