# Notebook 3: Training und Evaluierung von Regressionsmodellen

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/theavengerscroissant/htw-awe-ki-ana/blob/main/notebooks/lecture_3_regression.ipynb)

In [None]:
%pip install scikit-learn matplotlib numpy pandas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score


In [None]:
# Laden des Beispiel-Datensatzes (California Housing Dataset)
california_housing = fetch_california_housing()
df_california_housing = pd.DataFrame(california_housing.data, columns=california_housing.feature_names)
df_california_housing['MedHouseVal'] = california_housing.target

# Aufteilen der Daten in Trainings-, Test- und Validierungs-Sets
X = df_california_housing.drop('MedHouseVal', axis=1)
y = df_california_housing['MedHouseVal']
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_test, X_val, y_test, y_val = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)


In [None]:

# Training eines linearen Modells
linear_reg = LinearRegression()
linear_reg.fit(X_train, y_train)

In [None]:
# Evaluierung der Modelle
models = {'Linear Regression': linear_reg}
for name, model in models.items():
    y_pred = model.predict(X_val)
    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
    mae = mean_absolute_error(y_val, y_pred)
    r2 = r2_score(y_val, y_pred)
    print(f'{name} - RMSE: {rmse}, MAE: {mae}, R²: {r2}')

In [None]:
# Visualisierung der Ergebnisse
plt.figure(figsize=(12, 8))
plt.scatter(y_val, linear_reg.predict(X_val), alpha=0.5, label='Linear Regression')
plt.plot([y_val.min(), y_val.max()], [y_val.min(), y_val.max()], 'k--', lw=2)
plt.xlabel('Tatsächliche Werte')
plt.ylabel('Vorhergesagte Werte')
plt.legend()
plt.show()

### Aufgaben für Studierende

- Fügt weitere Modelle hinzu und vergleicht deren Leistung
- Experimentiert mit verschiedenen Hyperparametern für die Entscheidungsbaum- und Random Forest-Modelle
- Visualisiert die Fehlerverteilung der Modelle
- Implementiert eine Kreuzvalidierung zur besseren Evaluierung der Modelle