## Challenge: Vorhersage von Immobilienpreisen

## 1. Problemstellung

Eine Investmentgesellschaft will seine internen Review- und Investment-Prozesse besser automatisieren.

Teil des Portfolios der Investementgesellschaft sind Immobilienbestände im Gebiet um Ames, Iowa, USA. Über den Zustand und die Austattung dieser Immobilien wird selbstverständlich Buch geführt. Neben Wohnfläche, Baujahr, Zustand und Anzahl der Zimmer sind diverse andere Informationen vorhanden, so zum Beispiel die Form des Grundstücks, der Belag der Einfahrt, das Material der Außenwände und so weiter. Insgesamt sind für jede Immobilie in etwa ~80 Messgrößen und Eckdaten bekannt.

Die Investmentgesellschaft hat ein Interesse daran, den Wert dieser Immobilien möglichst genau zu schätzen. Üblicherweise würde der Wert jeder Immobilie von Experten geschätzt. In einzelnen Fällen wäre dafür sogar eine Begutachtung des Objeckt nötig. Der Prozess, den Wert von fast 3000 Immobilien im Portfolio der Investmentgesellschaft zu schätzen ist langwierig, fehleranfällig und teuer.

Deshalb ist die Investmentgesellschaft auf Sie zugekommen, um feststellen, ob es möglich ist, die Prozesse zu automatisieren, möglicherweise sogar durch *Machine Learning*.

Der Kunde hat deshalb eine Beispielaufgabe für Sie vorbereitet, um das Potential von Methoden des *Machine Learning* für die Problemstellung einzuschätzen.

Ihnen wir zunächst ein folgender Datensatz zur Verfügung gestellt:

![Test Data](https://raw.githubusercontent.com/layerwise/training/main/assets/house_prices_test_example_image.png)

Dabei handelt es sich um eine Liste von Immobilien im Bestand des Kunden, jede mit einer eindeutigen Identifikationsnummer, für die ein Verkaufspreis vorhergesagt werden soll. Für jede Immobilie sind diverse Messdaten und Informationen gegeben - insgesamt 80 solche Größen.

Der Kunde hat per Expertenmeinung bereits eine Schätzung für den Verkaufspreis jeder dieser Immobilien angestellt - doch diese wird Ihnen nicht mitgeteilt. Ihre Aufgabe ist es, für jede der Immobilien einen Verkaufspreis vorherzusagen und dabei möglichst genau die Einschätzung des Kunden zu treffen.

Das einzige, was Ihnen dafür zur Verfügung steht, ist ein weiterer Datensatz:

![Train Data](https://raw.githubusercontent.com/layerwise/training/main/assets/house_prices_test_example_image.png)


Dieser Datensatz ist sehr ähnlich dem ersten Datensatz. Er beschreibt eine andere Menge von Immobilien, die sich zuvor im Bestand des Kunden befunden haben und inzwischen verkauft wurden, für die die gleichen Messgrößen und Informationen vorliegen. Es gibt keine Überschneidung zwischen den zwei Datensätzen, d.h. jede Idenfikationsnummer in diesem zweiten Datensatz kommt nicht im ersten Datensatz vor und umgekehrt.

Für diesen zweiten Datensatz gibt es aber eine zusätzliche Information: hier wurde bereits der tatsächliche Verkaufspreis (*SalePrice*) in US-Dollar angegeben.

**Wie lassen sich die Informationen aus dem zweiten Datensatz nutzen, um für die Immobilien des Kunden den Verkaufspreis vorherzusagen?**

**Schreiben Sie ein Programm, das für jede Immobilie des Kunden ein Zahl ausgibt - Ihre Schätzung für den Verkaufspreis in US-Dollar.**

## 2. Daten

### 2.1. Daten laden

Zuallerst müssen Sie die Daten für die folgende Aufgabe finden und herunterladen. Es handelt sich dabei um den Datensatz *Ames House Prices* der in der Lektion als zip-Archiv heruntergeladen werden kann. Nach dem Entpacken befinden sich im Ordner folgende Dateien:

- `AmesIowaHousingData.csv`
- `AmesIowaHousingData_new.csv`
- `AmesIowaHousingDataDocumentation.txt`

Beschäftigen Sie sich mit den Dateien. Zur Erklärung: die Datei `AmesIowaHousingData.csv` ist diejenige, die die Investmentgesellschaft Ihnen zum Trainieren Ihres Modells zur Verfügung gestellt hat. Die Datei `AmesIowaHousingData_new.csv` ist die Datei, auf der Sie eine Vorhersage anstellen sollen (die Investmentgesellschaft hat hier die tatsächlichen Preise der Immobilien gelöscht).

In [18]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split

In [1]:
# TODO: Daten laden
# TODO: Trainings- und Testdaten - im Idealfall sollten die Testdaten bis zum fertigen Modell
# nicht einmal angeschaut werden

### 2.2 Daten sichten

In [2]:
# TODO

#### 2.2.1 Zielvariable

Zunächst die Zielvariable - `SalePrice`. Hiermit kann die Verteilung der Zielvariablen eingeschätzt werden. Oft sind Transformationen der Zielvariablen sinnvoll, z.B. logarithmische Transformationen oder Transformationen hin zu einer stärker normalverteilten Zielvariablen. Dies ist auch hier eine Möglichkeit, aber wir fassen dieses Thema dennoch als weiterführend auf und überspringen es.

In [3]:
# TODO

#### 2.2.2 Korrelationen der Features mit der Zielvariablen

**Numerische Features**

In [4]:
# TODO

**Kategorische Features**

In [5]:
# TODO

**Korrelationsmatrix**

In [6]:
# TODO

**Reduzierte Korrelationsmatrix**

Eine Korrelationsmatrix *kann* zur Selektion von Features verwendet werden. Dies ist nur eine von vielen Möglichkeiten und hat viele Limitationen. So werden durch eine Korrelationsmatrix nur lineare Korrelationen abgebildet. Nicht-lineare Modelle (z.B. RandomForests) können eventuell auch nicht-lineare Zusammenhänge entdecken und werden durch eine Selektion der Features eher eingeschränkt.

In [7]:
# TODO

**Scatterplot Matrix**

In [8]:
# TODO

#### 2.2.3. Missing Values

Anhand der Trainingsdaten sollte sich ein Überblick über die fehlenden Werte verschafft werden.

In [9]:
# TODO

#### 2.2.4. Kategorische Features

In [10]:
# TODO

#### 2.2.5. Numerische Features

Um einzuschätzen, ob und welche Skalierung der numerischen Features notwendig ist, kann der folgende Plot helfen.

In [11]:
# TODO

## 3. Das Machine Learning Modell

In [99]:
# TODO: Vorbereitung, Data Types

### 3.1. Fehlende Werte ersetzen

In [101]:
# TODO: Scikit-Learn Imputation
# TODO: Imputations-Transformationen instanziieren und fitten
# TODO: Trainingsdaten transformieren

### 3.2 Encoding: Ordinale und Nominale Features

In [102]:
# TODO: Scikit-Learn Feature Encoding
# TODO: Encoding-Transformationen instanziieren und fitten
# TODO: Trainingsdaten transformieren

### 3.3. Numerische Features skalieren

In [103]:
# TODO: Scikit-Learn Feature Scaling
# TODO: Feature Scaling instanziieren und fitten
# TODO: Trainingsdaten transformieren

In [104]:
# TODO: Skalierung überprüfen

### 3.4. Modell trainieren

In [105]:
# TODO: Modell und Fit

### 3.5. Scikit-Learn Pipeline

In [13]:
# TODO

## 4. Evaluation


In [108]:
# TODO

## 5. Vorhersage auf neuen Daten

In [111]:
# TODO: Vorhersage