# 4. Modelloptimierung: California Housing Dataset
In diesem Notebook erweitern wir unsere Analyse aus den vorherigen Teilen durch fortgeschrittene Modellierungstechniken, Hyperparameter-Optimierung und Feature Engineering.

# 4.1 Daten laden und vorbereiten

In [36]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

# Excel-Datei laden
file_path = r"C:\Users\arvin\OneDrive - BBBaden\Dokumente\Schule 2023-2024\BBB 2023-2024\Modul 259\Lb\ml-classification--Immobilienpreise-.xlsx"
data = pd.read_excel(file_path)

# Kategorische Spalte 'ocean_proximity' in Dummy-Variablen umwandeln
data_encoded = pd.get_dummies(data, columns=['ocean_proximity'], drop_first=True)

# Entfernen der Zeilen mit NaN-Werten
data_encoded = data_encoded.dropna()

# Feature und Zielvariablen definieren
X = data_encoded.drop(columns=['median_house_value'])  # Entfernen der Zielspalte 'median_house_value'
y1 = data_encoded['median_house_value']  # Zielspalte 'median_house_value' für Immobilienpreise

# Aufteilen der Daten in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y1, test_size=0.2, random_state=42)

# Feature-Scaling (optional, aber empfohlen für viele Modelle)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Lineares Regressionsmodell erstellen und trainieren
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# Vorhersagen für die Testdaten machen
y_pred = model.predict(X_test_scaled)

# Modellbewertung
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5

print(f"Mean Squared Error (MSE): {mse}")
print(f"Root Mean Squared Error (RMSE): {rmse}")



Mean Squared Error (MSE): 666041141924.873
Root Mean Squared Error (RMSE): 816113.4369221432


# 4.2 Feature Engineering

Wir haben ein lineares Regressionsmodell zur Vorhersage des Immobilienpreises basierend auf den Daten trainiert.
Vorhersagen und Metriken:
Mean Squared Error (MSE): Der MSE misst die durchschnittliche quadratische Abweichung zwischen den tatsächlichen und den vorhergesagten Werten. Ein hoher MSE deutet auf grosse Fehler im Modell hin.

Root Mean Squared Error (RMSE): Der RMSE ist die Quadratwurzel des MSE und gibt die durchschnittliche Abweichung in den gleichen Einheiten wie die Zielvariable (Immobilienpreise) an. Ein hoher RMSE zeigt an, dass das Modell die Immobilienpreise schlecht vorhersagt.

Mean Absolute Error (MAE): Der MAE misst die durchschnittliche absolute Abweichung zwischen den tatsächlichen und den vorhergesagten Werten.

R² (Bestimmtheitsmaß): R² gibt an, wie gut das Modell die Varianz im Zielwert erklärt. Ein R²-Wert von 1 bedeutet eine perfekte Vorhersage, während 0 darauf hinweist, dass das Modell keine Erklärungskraft hat.

In [38]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Vorhersagen mit dem Modell machen
y_pred = model.predict(X_test_scaled)


# Metriken berechnen
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Metriken ausgeben
print(f"Mean Squared Error (MSE): {mse}")
print(f"Root Mean Squared Error (RMSE): {rmse}")
print(f"Mean Absolute Error (MAE): {mae}")
print(f"R² (Bestimmtheitsmaß): {r2}")


Mean Squared Error (MSE): 666041141924.873
Root Mean Squared Error (RMSE): 816113.4369221432
Mean Absolute Error (MAE): 616038.5935086586
R² (Bestimmtheitsmaß): 0.5129562436173696


Diese Werte zeigen, dass das Modell nur etwa 51% der Varianz im Immobilienpreis erklären kann. Der hohe RMSE und MAE deuten darauf hin, dass die Vorhersagen des Modells signifikante Abweichungen von den tatsächlichen Werten aufweisen. Dies könnte durch nicht erfasste Einflussfaktoren (z. B. Standort, Bausubstanz) oder die Wahl des Modells selbst bedingt sein.

# 4.3 Modellvergleich

Obwohl wir in dieser Analyse ein lineares Regressionsmodell verwendet haben, wäre es sinnvoll, auch andere Modelle wie Entscheidungsbäume, Random Forests oder Gradient Boosting zu testen, um die Vorhersagegenauigkeit zu verbessern. Die Wahl des besten Modells sollte auf der Basis der Modellbewertung und der Vorhersageleistung erfolgen.

Ein Vergleich der Modelle könnte zusätzliche Einblicke in die Leistung und Verbesserungspotenziale des Modells bieten.

In [39]:
from sklearn.metrics import confusion_matrix, classification_report

# Schwelle festlegen
threshold = 300000

# Echte Klassen (0 = günstig, 1 = teuer)
y_test_class = (y_test >= threshold).astype(int)

# Vorhergesagte Klassen auf Basis der Regressionsvorhersage
y_pred_class = (y_pred >= threshold).astype(int)

# Wahrheitsmatrix
cm = confusion_matrix(y_test_class, y_pred_class)
tn, fp, fn, tp = cm.ravel()

# Sensitivität (Recall für Klasse 1)
sensitivity = tp / (tp + fn)

# Spezifizität (Recall für Klasse 0)
specificity = tn / (tn + fp)

print("Wahrheitsmatrix (Confusion Matrix):")
print(cm)
print(f"Sensitivität (Recall für teure Immobilien): {sensitivity:.2f}")
print(f"Spezifizität (Recall für günstige Immobilien): {specificity:.2f}")


Wahrheitsmatrix (Confusion Matrix):
[[   0    2]
 [  12 4073]]
Sensitivität (Recall für teure Immobilien): 1.00
Spezifizität (Recall für günstige Immobilien): 0.00


## 4.4 Zusammenfassung und Schlussfolgerungen

### Vergleich der Modelle

Modellleistung: Das lineare Regressionsmodell hat eine mäsige Leistung mit einem R²-Wert von ca. 0.51 und einem hohen RMSE (ca. 816'000 USD) und MAE (ca. 616'000 USD). Dies zeigt, dass das Modell die Preise nur unzureichend vorhersagen kann und noch Verbesserungspotenzial besteht.

Fehlerquellen: Die hohen Fehlermasse deuten darauf hin, dass das Modell nicht alle relevanten Faktoren berücksichtigt. Eine Verbesserung könnte durch Feature Engineering (z. B. Hinzufügen weiterer Merkmale wie Standort oder Bausubstanz) erreicht werden.

Zukünftige Schritte: Um die Modellleistung zu steigern, sollten:

Weitere Datenquellen und Features einbezogen werden.

Alternativen wie Entscheidungsbäume oder nichtlineare Modelle untersucht werden.

Eine sorgfältige Hyperparameter-Tuning durchgeführt werden.

Zusammengefasst zeigt das Modell eine akzeptable, aber nicht beeindruckende Leistung. Verbesserungen sind möglich, insbesondere durch die Berücksichtigung zusätzlicher Merkmale und den Vergleich mit anderen Modellen.










