# 📊 Finanzdatenanalyse und Maschinelles Lernen Projekt

## 1. Ziel
In diesem Projekt wollen wir:
- Faktoren analysieren, die den Immobilienpreis beeinflussen
- Ein Vorhersagemodell für Immobilienpreise mit maschinellem Lernen erstellen
- Die Modellleistung mit R², MSE und RMSE bewerten

In [None]:

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression, Ridge
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error


In [None]:

# Datensatz laden (z.B. finance_data.csv)
df = pd.read_csv("finance_data.csv")

# Spaltentypen
df.dtypes


In [None]:
df.describe()

In [None]:

df.drop(["id", "Unnamed: 0"], axis=1, inplace=True)
df.describe()


In [None]:

floor_counts = df["floor"].value_counts().to_frame()
floor_counts


In [None]:

plt.figure(figsize=(8,6))
sns.boxplot(x="waterfront", y="price", data=df)
plt.title("Preisverteilung nach Waterfront-Status")
plt.show()


In [None]:

plt.figure(figsize=(8,6))
sns.regplot(x="sqft_above", y="price", data=df, line_kws={"color":"red"})
plt.title("Beziehung zwischen sqft_above und Preis")
plt.show()


In [None]:

X = df[['sqft_living']]
y = df['price']

lm = LinearRegression()
lm.fit(X, y)
r2 = lm.score(X, y)
print("R^2 Wert:", r2)


In [None]:

y_pred = lm.predict(X)
mse = mean_squared_error(y, y_pred)
rmse = np.sqrt(mse)

print("MSE:", mse)
print("RMSE:", rmse)


In [None]:

features = ["sqft_living", "bedrooms", "bathrooms", "floors", "grade"]
X = df[features]
y = df["price"]

pipe = Pipeline([
    ("scale", StandardScaler()),
    ("model", LinearRegression())
])

pipe.fit(X, y)
print("Pipeline R^2:", pipe.score(X, y))


In [None]:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

ridge_model = Ridge(alpha=0.1)
ridge_model.fit(X_train, y_train)
print("Ridge Test R^2:", ridge_model.score(X_test, y_test))


In [None]:

poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

ridge_poly = Ridge(alpha=0.1)
ridge_poly.fit(X_train_poly, y_train)
print("Polynomial Ridge Regression Test R^2:", ridge_poly.score(X_test_poly, y_test))



## 2. Zusammenfassung
- Wir haben die Daten untersucht und vorverarbeitet (unnötige Spalten, statistische Übersicht)
- Mit Visualisierungen die Zusammenhänge analysiert (Boxplot, Regplot)
- Eine einfache und multiple lineare Regression erstellt
- Mit Ridge Regression und Polynomial Ridge Regression robustere Modelle aufgebaut
- Die Modellleistung mit R², MSE und RMSE bewertet
