# Praxis√ºbung: Vorhersage von Wohnungsmieten
Ziel dieser √úbung ist es, die Monatskaltmiete f√ºr eine Mietwohnung vorherzusagen anhand verschiedener Features wie Gr√∂√üe und Zustand der Wohnung, Nebenkosten, Bundesland etc. Laden Sie sich daf√ºr die Dateien "immo_data.csv" und "immo_data_column_description.csv" herunter. Alternativ k√∂nnen Sie sich die Datei immo_data.csv hier herunterladen: https://www.kaggle.com/corrieaar/apartment-rental-offers-in-germany (Account ben√∂tigt).

Die Daten stammen von Immoscout24, der gr√∂√üten Immobilienplattform in Deutschland. Immoscout24 bietet sowohl Miet- als auch Kaufobjekte an, allerdings enthalten die Daten nur Angebote f√ºr Mietobjekte. Zu einem bestimmten Zeitpunkt wurden alle verf√ºgbaren Angebote von der Website abgefragt und gespeichert. Dieser Vorgang wurde dreimal wiederholt, so dass der Datensatz Angebote aus den Zeitr√§umen 2018-09-22, 2019-05-10 und 2019-10-08 enth√§lt.

Der Datensatz enth√§lt die meisten wichtigen Eigenschaften, wie z.B. die Gr√∂√üe der Wohnfl√§che, die Miete, sowohl Kaltmiete als auch Gesamtmiete (falls zutreffend), die Lage (Stra√üe und Hausnummer, falls vorhanden, Postleitzahl und Bundesland), Energieart usw. Au√üerdem gibt es zwei Variablen, die l√§ngere Freitextbeschreibungen enthalten: Beschreibung mit einem Text, der das Angebot beschreibt, und Ausstattung mit einer Beschreibung aller verf√ºgbaren Einrichtungen, der neuesten Renovierung usw. Die Datumsspalte wurde hinzugef√ºgt, um den Zeitpunkt des Scrapings anzugeben.

Wir m√∂chten unser Wissen √ºber lineare Regression und Datenanalyse an diesem Datensatz testen.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

from IPython.display import display

pd.options.display.max_columns = 50

In [None]:
df_raw = pd.read_csv("Daten/immo_data.csv")
desc = pd.read_csv("Daten/immo_data_column_description.csv")

Spaltenbeschreibungen

In [None]:
desc

Aus der Liste der Beschreibungen fallen uns einige Attribute auf, die doppelt auftreten oder (wahrscheinlich) keine Vorhersagekraft haben (eigentlich m√ºsste man das verifizieren!). Diese schlie√üen wir direkt aus, indem wir die "drop" Methode des DataFrame aufrufen und die entsprechenden Spaltennamen √ºbergeben. Das Argument errors="ignore" besagt, dass, falls die Spalte nicht (mehr) existiert, keine Fehlermeldung produziert werden soll. Das ist hier hilfreich: falls man im Notebook eine Zelle mehrmals ausf√ºhrt, w√ºrde ab dem zweiten Mal immer eine Fehlermeldung auftauchen.

In [None]:
df = df_raw.copy()
# Einschr√§nken des Datensatzes auf eine bestimmte Region
#df = df[df["regio2"]=="Karlsruhe"]
#df = df[df["regio1"]=="Baden_W√ºrttemberg"]

df = df.drop(["scoutId", "houseNumber", "geo_bln", "geo_krs", "date"], axis=1, errors="ignore")

## Datenanalyse

### Nicht-numerische Daten
Wir schauen uns die Spalten, d.h. die *Attribute*, von denen einige sp√§ter zu *Features* werden, genauer an. Um es etwas √ºbersichtlicher zu halten schauen wir uns zun√§chst die nicht-numerischen und dann die numerischen Spalten an.

In [None]:
numeric_columns = df.select_dtypes(include=np.number).columns
categorical_columns = df.select_dtypes(exclude=np.number).columns

df[categorical_columns].describe()

Wir erinnern uns: Wenn kategorielle Features mittels OneHot Encoding transformiert werden, so entsteht f√ºr jede Auspr√§gung eine neue Spalte. Die Anzahl der unterschiedlichen Auspr√§gungen gibt die Zeile "unique" an. Wenn wir also z.B. "description" (das ist ein Freitext Feld) mittels OneHot Encoding transformieren w√ºrden, w√ºrden wir einen DataFrame (also eine Datenmatrix) mit √ºber 200,000 Spalten erhalten! Attribute mit zu vielen Auspr√§gungen schlie√üen wir also zun√§chst aus.

In [None]:
df = df.drop(["street", "streetPlain", "description", "facilities"], axis=1, errors="ignore")

Uns f√§llt ein Attribut "firingTypes" (laut Beschreibung die "main energy source") auf, das 132 verschiedene Auspr√§gungen hat. Das schauen wir uns genauer an.

In [None]:
df["firingTypes"].unique()

Es gibt ein √§hnliches Attribut heatingType, das hat aber deutlich weniger Auspr√§gungen. Wir schauen uns an, welche Auspr√§gungen es gibt.

In [None]:
df["heatingType"].unique()

FiringTypes enth√§lt *Kombinationen* von Auspr√§gungen von heatingTypes, getrennt durch Doppelpunkte. Wir entscheiden uns, das detailliertere von beiden Attributen auszuschlie√üen, damit das entstehende Datenset nicht so gro√ü wird.

In [None]:
df = df.drop("firingTypes", axis=1, errors="ignore")

Wir schauen noch einmal die kategoriellen Attribute an, die wir als Kandidaten f√ºr Features behalten m√∂chten.

In [None]:
display(df.describe(exclude=np.number))

Als n√§chstes schauen wir uns noch die H√§ufigkeitsverteilung der verschiedenen Auspr√§gungen an. Hier arbeiten wir mit der Methode .value_counts() von Pandas und erzeugen jeden Plot separat in einem Gitter.

In [None]:
categorical_columns = df.select_dtypes(exclude=np.number).columns

# n times n subplots
n = int(np.ceil(np.sqrt(len(categorical_columns))))
fig, axes = plt.subplots(nrows=n, ncols=n)
fig.tight_layout()

for i, col in enumerate(categorical_columns):
    plt.subplot(n, n, i+1)
    if col in ["regio2", "regio3"]:  # regio2 und regio3 haben zu viele Auspr√§gungen
        pass
    else:
        df[col].value_counts().plot(kind='bar', figsize=(20,20), title=col)

## ‚úè Aufgabe
Beschreiben Sie die Verteilungen.

### Numerische Daten

Als n√§chstes schauen wir uns nun die numerischen Attribute genauer an.

In [None]:
display(df.describe(include=np.number))

Wir sehen, dass es einige extreme *Ausrei√üer* in den Daten gibt. So gibt es z.B. eine Wohnung mit monatlichen Nebenkosten von 146118 EUR, ein Objekt, das etwa 15 mio EUR Miete pro Monat kostet oder 111111m¬≤ Wohnfl√§che besitzt. Wir speichern uns die Namen der verd√§chtigen Spalten in einer Liste.
Weiterhin sehen wir, dass das Feature telekomHybridUploadSpeed immer den Wert 10 hat oder leer ist, deshalb l√∂schen wir es.

In [None]:
interesting_columns = ["serviceCharge", "totalRent", "yearConstructed", "noParkSpaces", "baseRent", "livingSpace", "noRooms", "numberOfFloors", "heatingCosts", "lastRefurbish"]
df.drop(["telekomHybridUploadSpeed"], axis=1, inplace=True, errors="ignore")

Wir schlie√üen explizit die Postleitzahl aus.

## ‚úè Aufgabe
Glauben Sie, dass die PLZ ein gutes Feature w√§re, d.h. h√§tte die PLZ Aussagekraft bez√ºglich der Kaltmiete?

In [None]:
df = df.drop(["regio3","geo_plz"], axis=1, errors="ignore")

### Untersuchung von Ausrei√üern

In [None]:
# plotly dauert lange, da der Datensatz gro√ü ist
#fig = make_subplots(rows=12, cols=1, subplot_titles=interesting_columns)
#fig.update_layout(width=1200, height=1200)

#for i, col in enumerate(interesting_columns):
#    fig.add_trace(
#        go.Box(x=df[col]),
#        #row=i//4+1, col=i%4+1#
#        row=i+1, col=1
#    )
#fig.show()

In [None]:
fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(20,20))
fig.tight_layout()

for i, col in enumerate(interesting_columns):
    plt.subplot(3, 4, i+1)
    df[col].plot(kind="box")

## Datenbereinigung
Das sind zu viele Ausrei√üer, als dass wir sie alle gesondert betrachten m√∂chten. Wir schauen uns an, was passieren w√ºrde, wenn wir einfach die unteren und oberen 0.5% der Daten bez√ºglich dieser Attribute wegwerfen w√ºrden.

In [None]:
display(df[interesting_columns].quantile(0.995))
display(df[interesting_columns].quantile(0.005))

Das sieht nach einer ges√ºnderen Verteilung aus. Wir wollen mit diesen Daten weiterarbeiten. Dazu erzeugen wir eine Kopie von df. Sonst w√ºrde df bei versehentlichem mehrmaligen Ausf√ºhren der Zelle immer kleiner werden (die Quantile w√ºrden auf dem neuen, kleineren df neu berechnet)

In [None]:
upper_limits = df[interesting_columns].quantile(0.995)
lower_limits = df[interesting_columns].quantile(0.005)

df_reduced = df.copy()
display(df_reduced.describe(include=np.number))

# F√ºr jede Spalte behalten wir: Daten die < (99.5%-Quantil) sind und > (0.5%-Quantil) sind ODER die NaN sind (damit befassen wir uns spaeter noch) 
for col in interesting_columns:
    df_reduced = df_reduced[((df_reduced[col] <= upper_limits[col]) & (df_reduced[col] >= lower_limits[col])) | df_reduced[col].isna()]

Wir haben nun also eine grobe Auswahl an Attributen getroffen, mit denen wir ab jetzt weiterarbeiten m√∂chten.

In [None]:
fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(20,20))
fig.tight_layout()

for i, col in enumerate(interesting_columns):
    plt.subplot(3, 4, i+1)
    df_reduced[col].plot(kind="box")

### Behandlung von fehlenden Datens√§tzen
Wir haben eben schon gesehen, dass es einige NaN (=not a number) Felder in den Daten gibt. Bevor wir entscheiden, was wir damit tun, verschaffen wir uns einen √úberblick, wie viele das etwa sind.

In [None]:
display(df_reduced.isna().sum()) # isna() wandelt jeden Wert in einen Boolschen Datentyp (0/1) um. sum() summiert diese Werte pro Spalte. Man erh√§lt also die Anzahl der NaN Werte pro Spalte.

Das sind z.T. sehr viele NaN Werte. Wenn wir alle Daten ignorieren w√ºrden, w√ºrden nicht mehr viele √ºbrig bleiben. Wir verfolgen zun√§chst folgende Strategie: 
- F√ºr numerische Werte wird f√ºr einen fehlenden Wert der Mittelwert der restlichen Werte eingesetzt.
- F√ºr nicht-numerische Werte wird f√ºr einen fehlenden Wert der h√§ufigsten Wert (=Modus) der restlichen Werte eingesetzt.

Zum Auff√ºllen der Werte stellt scikit-learn stellt die Klasse SimpleImputer bereit.

In [None]:
from sklearn.impute import SimpleImputer

# Technisches Detail: wir m√ºssen noch die Bool-Werte explizit konvertieren, sonst wirft der Imputer einen Fehler
df_reduced = df_reduced.replace({False: 0, True: 1})

numeric_columns = df_reduced.select_dtypes(include=np.number).columns
numeric_columns = numeric_columns.drop("baseRent") # Wenn das Label fehlt, wird es nicht ersetzt
categorical_columns = df_reduced.select_dtypes(exclude=np.number).columns

imp_freq = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

df_reduced.loc[:,numeric_columns] = imp_mean.fit_transform(df_reduced[numeric_columns])
df_reduced.loc[:,categorical_columns] = imp_freq.fit_transform(df_reduced[categorical_columns])

## Feature Engineering
### Korrelationen
Wir erzeugen uns Scatter Plots um offensichtlich lineare oder nichtlineare Zusammenh√§nge zwischen einzelnen Features und der Zielvariable zu identifizieren.

In [None]:
fig, axes = plt.subplots(nrows=4, ncols=3, figsize=(20,20))
fig.tight_layout()

for i, col in enumerate(interesting_columns):
    #plt.subplot(4, 3, i+1)
    df_reduced[["baseRent",col]].plot.scatter(x=col, y="baseRent", ax=axes[i//3,i%3], alpha=0.2)

## ‚úè Aufgabe
Schauen Sie sich die Korrelationen an. Was f√§llt Ihnen auf?

### OneHot Encoding
Als n√§chstes transformieren wir die kategoriellen Spalten mittels OneHot-Encoding. Daf√ºr benutzen wir die Pandas Funktion get_dummies() die in einem DataFrame f√ºr jede kategorielle Spalte das OneHot Encoding durchf√ºhrt. D.h., f√ºr jede kategorielle Spalte entstehen mehrere 0/1-wertige Spalten, und zwar gerade so viele wie es Auspr√§gungen der Variable gibt. Das Ergebnis ist nun ein DataFrame, der weitaus mehr Spalten hat. Diese sind daf√ºr aber alle numerisch, d.h. wir k√∂nnen sie f√ºr die lineare Regression (oder einen anderen ML Algorithmus verwenden).

In [None]:
df_reduced = pd.get_dummies(df_reduced)

Ein letzter Blick in die Daten ob alles funktioniert hat:

In [None]:
display(df_reduced)

### Entfernen des Labels aus den Attributen
WICHTIG: Wir m√∂chten die Kaltmiete bzw. Gesamtmiete *vorhersagen*. Diese (und das davon direkt abgeleitete Attribut baseRentRange) m√ºssen wir also auch noch ausschlie√üen. Zuvor entfernen wir noch Datens√§tze, f√ºr die wir kein Label haben.

In [None]:
df_reduced = df_reduced[df_reduced["baseRent"].isna() == False] # Entfernen der Datens√§tze ohne Label
y = df_reduced["baseRent"]
df_reduced = df_reduced.drop(["baseRent", "totalRent","baseRentRange"], axis=1, errors="ignore") 

### Erstellen von Trainings- und Testset
Bevor wir die Daten weiter bearbeiten, spalten wir sie in Trainings- und Testset auf.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_reduced, y, test_size=0.2, random_state=1)

### Modelltraining
Nun ist es soweit: Wir trainieren das Regressionsmodel!

In [None]:
from sklearn import linear_model
m = linear_model.LinearRegression()
m.fit(X_train, y_train)

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error
r2_train = m.score(X_train, y_train)
mse_train = mean_squared_error(y_train, m.predict(X_train))
mae_train = mean_absolute_error(y_train, m.predict(X_train))
r2_test = m.score(X_test, y_test)
mse_test = mean_squared_error(y_test, m.predict(X_test))
mae_test = mean_absolute_error(y_test, m.predict(X_test))

In [None]:
print(f"R¬≤ Trainingsdaten: {r2_train}")
print(f"Mean squared error Trainingsdaten: {mse_train}")
print(f"Mean absolute error Trainingsdaten: {mae_train}")
print(f"R¬≤ Testdaten: {r2_test}")
print(f"Mean squared error Testdaten: {mse_test}")
print(f"Mean absolute error Testdaten: {mae_test}")

Das Ergebnis der multiplen linearen Regression ist nicht so einfach zu visualisieren. Hier ein Versuch als Scatterplot zwischen der Gr√∂√üe der Wohnung und der Kaltmiete (blau) bzw. der vorhergesagten Kaltmiete (rot).

In [None]:
plt.plot(X_test["livingSpace"], y_test, "bo", alpha=0.2)
plt.plot(X_test["livingSpace"], m.predict(X_test), "ro", alpha=0.2)

## ‚úè Aufgabe 1
Arbeiten Sie das Notebook durch und versuchen Sie die einzelnen Schritte nachzuvollziehen.

## ‚úè Aufgabe 2
Wie √§ndert sich die Vorhersagequalit√§t des Modells, wenn sie die Ausrei√üer nicht entfernen?
Gehen Sie dazu zum Abschnitt Datenbereinigung, identifizieren sie den Code, der f√ºr das Entfernen der Ausrei√üer zust√§ndig ist und kommentieren sie ihn aus.

## ‚úè Aufgabe 3
Erstellen Sie ein Modell, das die Kaltmiete nur f√ºr eine bestimmte Region (z.B. Baden W√ºrttemberg, Karlsruhe, Karlsruhe und benachbarte Landkreise) vorhersagt. 
Am einfachsten geht das, indem Sie den Datensatz direkt nach dem Einlesen der Daten einschr√§nken und dann alle weiteren Zellen unver√§ndert ausf√ºhren. Wie ist die Vorhersagequalit√§t auf Trainings- und Testdaten?

## ‚úè Aufgabe 4
Erstellen Sie ein Modell mit anderen Features. Hier einige Vorschl√§ge:
- Nehmen Sie Features mit in das Modell auf, die wir am Anfang ausgeschlossen hatten und schauen sie, ob sie die Vorhersageg√ºte verbessern.
- Nehmen Sie weniger Features. Die Vorhersageg√ºte (zumindest auf dem Trainingsdatensatz) wird dadurch zwar schlechter, doch auf kleinen Datens√§tzen sollten Sie ein robusteres Modell erhalten, d.h. eines, welches auf den Testdaten √§hnlich gute Ergebnisse liefert wie auf den Trainingsdaten. Entweder w√§hlen Sie per Hand geeignete Features aus oder Sie nehmen z.B. eine automatische Methode wie SelectKBest. Benutzen Sie dazu folgenden Code:

In [None]:
from sklearn.feature_selection import SelectKBest, f_regression
feature_selection = SelectKBest(f_regression, k=50) # Ein Transformer, der per f_regression die 50 vielversprechendsten Features ausw√§hlt

X_train = feature_selection.fit_transform(X_train, y_train)
X_test = feature_selection.transform(X_test)

- Erstellen Sie sich neue Features durch Kombination oder Umformung vorhandener Features, z.B. polynomielle bzw. Interaktionsfeatures. Hier ein Code Beispiel, mit dem sie sich Interaktionsfeatures Bundesland x livingSpace erzeugen. Anschaulich bedeutet das: Der Koeffizient f√ºr das Feature livingSpace kann von Bundesland zu Bundesland unterschiedlich sein. Der Koeffizient f√ºr livingSpace ist anschaulich der Preis, der f√ºr einen zus√§tzlichen qm Wohnung mehr bezahlt werden muss.

In [None]:
from sklearn.preprocessing import PolynomialFeatures
pf = PolynomialFeatures(degree=2,interaction_only=True) # Ein Transformer, der Interaktionsfeatures vom (bis zu) Grad 2 erzeugt

# Interaktionsfeatures: Bundesland x livingSpace
bundeslaender_columns = "regio1_" + df["regio1"].unique()
for col in bundeslaender_columns:
    features = pf.fit_transform(df_reduced[[col,"livingSpace"]])
    df_reduced[col + "_livingSpace"] = features[:,-1]

## ‚úè Aufgabe 5 ü§Ø
  - Sagen sie die Kaltmiete f√ºr Ihre Wohnung voraus. √úberlegen Sie sich dazu, wie der Featurevektor f√ºr Ihre Wohnung aussehen w√ºrde, erstellen Sie einen DataFrame mit einer Zeile und wenden Sie das gelernte Modell mit .predict() an.
  - Wie w√ºrde die Normalengleichung f√ºr das Problem aussehen? Versuchen Sie, statt des scikit-learn Modells das Modell "per Hand" zu trainieren, indem Sie die Normalengleichung aufstellen und nach den Modellparametern $w$ aufl√∂sen (z.B. mit numpy.linalg.solve). Machen Sie sich dazu zun√§chst die Problemdimensionen klar in Analogie zu den Formeln aus der Vorlesung.