# Challenge: Vorhersage von Immobilienpreisen

## Beschreibung

Eine Investmentgesellschaft will seine internen Review- und Investment-Prozesse besser automatisieren.

Teil des Portfolios der Investementgesellschaft sind Immobilienbestände im Gebiet um Ames, Iowa, USA. Über den Zustand und die Austattung dieser Immobilien wird selbstverständlich Buch geführt. Neben Wohnfläche, Baujahr, Zustand und Anzahl der Zimmer sind diverse andere Informationen vorhanden, so zum Beispiel die Form des Grundstücks, der Belag der Einfahrt, das Material der Außenwände und so weiter. Insgesamt sind für jede Immobilie in etwa ~80 Messgrößen und Eckdaten bekannt.

Die Investmentgesellschaft hat ein Interesse daran, den Wert dieser Immobilien möglichst genau zu schätzen. Üblicherweise würde der Wert jeder Immobilie von Experten geschätzt. In einzelnen Fällen wäre dafür sogar eine Begutachtung des Objeckt nötig. Der Prozess, den Wert von fast 3000 Immobilien im Portfolio der Investmentgesellschaft zu schätzen ist langwierig, fehleranfällig und teuer.

Deshalb ist die Investmentgesellschaft auf Sie zugekommen, um feststellen, ob es möglich ist, die Prozesse zu automatisieren, möglicherweise sogar durch *Machine Learning*.

Der Kunde hat deshalb eine Beispielaufgabe für Sie vorbereitet, um das Potential von Methoden des *Machine Learning* für die Problemstellung einzuschätzen.

Ihnen wir zunächst ein folgender Datensatz zur Verfügung gestellt:

<img src="../assets/house_prices_test_example_image.png" width="1000" >

Dabei handelt es sich um eine Liste von Immobilien im Bestand des Kunden, jede mit einer eindeutigen Identifikationsnummer, für die ein Verkaufspreis vorhergesagt werden soll. Für jede Immobilie sind diverse Messdaten und Informationen gegeben - insgesamt 80 solche Größen.

Der Kunde hat per Expertenmeinung bereits eine Schätzung für den Verkaufspreis jeder dieser Immobilien angestellt - doch diese wird Ihnen nicht mitgeteilt. Ihre Aufgabe ist es, für jede der Immobilien einen Verkaufspreis vorherzusagen und dabei möglichst genau die Einschätzung des Kunden zu treffen.

Das einzige, was Ihnen dafür zur Verfügung steht, ist ein weiterer Datensatz:

<img src="../assets/house_prices_train_example_image.png" width="1000" >

Dieser Datensatz ist sehr ähnlich dem ersten Datensatz. Er beschreibt eine andere Menge von Immobilien, die sich zuvor im Bestand des Kunden befunden haben und inzwischen verkauft wurden, für die die gleichen Messgrößen und Informationen vorliegen. Es gibt keine Überschneidung zwischen den zwei Datensätzen, d.h. jede Idenfikationsnummer in diesem zweiten Datensatz kommt nicht im ersten Datensatz vor und umgekehrt.

Für diesen zweiten Datensatz gibt es aber eine zusätzliche Information: hier wurde bereits der tatsächliche Verkaufspreis (*SalePrice*) in US-Dollar angegeben.

## Fragestellung

## Wie lassen sich die Informationen aus dem zweiten Datensatz nutzen, um für die Immobilien des Kunden den Verkaufspreis vorherzusagen ?

## Schreiben Sie ein Programm, das für jede Immobilie des Kunden ein Zahl ausgibt - Ihre Schätzung für den Verkaufspreis in US-Dollar.

## 0. Vorbereitung

Laden Sie optional für zusätzliche Tipps und Anweisungen das Modul `learntools` aus dem Datenaustausch.

Führen Sie dann den unten stehenden Code aus. Ändern Sie dazu die Variable `learntools_path` auf entsprechende Weise, sodass diese den Pfad speichert, an dem sich der heruntergeladene Ordner befindet.

Mit dem Befehl

```python
aufgabe.hint()
aufgabe.check()
```

lassen sich nun für eine (hypothetische) Aufgabe `aufgabe` Lösungen abrufen.


In [80]:
import sys
import os

# change this
learntools_path = "path/to/learntools/folder"
sys.path.append(learntools_path)

from learntools.core import binder; binder.bind(globals())
from learntools.challenges.challenge2 import *
print("Setup complete.")

ModuleNotFoundError: No module named 'learntools'

## 1. Daten herunterladen und bereitstellen

Zuallerst müssen Sie die Daten für die folgende Aufgabe finden und herunterladen. Diese befinden sich im Datenaustausch.

Wie Sie die Daten in diesem Jupyter-Notebook verfügbar machen, hängt davon ab, ob Sie das Notebook lokal oder in Google Colab ausführen.

Falls Sie das Notebook lokal ausführen, haben Sie zunächst nichts weiter zu tun. Platzieren Sie die heruntergeladene Datei in einem Ordner Ihrer Wahl und entpacken Sie sie, falls es sich um eine ZIP-Datei handelt.

Falls Sie das Notebook in Google Colab ausführen, müssen Sie die Daten für das Notebook in der Cloud zugänglich machen - das Notebook hat keinen Zugriff auf Ihre lokalen Dateien. Folgen Sie diesem Link für zusätzliche Tipps zum Hochladen von Daten in Google Colab: https://towardsdatascience.com/importing-data-to-google-colab-the-clean-way-5ceef9e9e3c8. Falls Sie optional das Modul `learntools` von weiter oben verwenden wollen, müssen Sie dieses zusätzlich hochladen.

Zunächst sollten Sie die beiden Datensätze kennenlernen und verstehen.
Die gesamten Daten sind in zwei Dateien mit der Endung `.csv` abgespeichert.

Die erste Liste ist
- `AmesIowaHousingData_test.csv`

Und die zweite Liste ist
- `AmesIowaHousingData_train.csv`

### 1.1. Daten laden

Wie können Dateien mit der Endung .csv in Python geladen werden?

In [81]:
import pandas as pd

data_path = "../../data/challenge2"

train_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_train.csv", index_col=0)
test_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_test_with_labels.csv", index_col=0)

### 1.2 Daten sichten

Welche Analysen könnte man auf den Daten ausführen?

Wie könnte man die Daten visualieren?

### 1.3. Preprocessing

In [82]:
import numpy as np

# mit Scikit-Learn Transformer API
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler, MaxAbsScaler, MinMaxScaler
# fortgeschrittene Transformer:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import FeatureUnion

# mit pandas
# pd.get_dummies()


In [83]:
# Missing data

train_data = train_data.dropna(axis="columns", how="any")

In [84]:
train_data.describe(include="all")

Unnamed: 0,PID,MS SubClass,MS Zoning,Lot Area,Street,Lot Shape,Land Contour,Utilities,Lot Config,Land Slope,...,Enclosed Porch,3Ssn Porch,Screen Porch,Pool Area,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
count,2344.0,2344.0,2344,2344.0,2344,2344,2344,2344,2344,2344,...,2344.0,2344.0,2344.0,2344.0,2344.0,2344.0,2344.0,2344,2344,2344.0
unique,,,7,,2,4,4,3,5,3,...,,,,,,,,10,6,
top,,,RL,,Pave,Reg,Lvl,AllPub,Inside,Gtl,...,,,,,,,,WD,Normal,
freq,,,1819,,2337,1489,2118,2342,1718,2236,...,,,,,,,,2024,1928,
mean,713062900.0,57.700512,,10134.198805,,,,,,,...,22.28541,2.785836,15.613481,1.906997,46.700939,6.212884,2007.774317,,,181514.678754
std,188734200.0,43.046619,,8326.223504,,,,,,,...,63.92116,25.910682,55.563231,32.498765,551.827274,2.706024,1.32503,,,80468.275246
min,526301100.0,20.0,,1300.0,,,,,,,...,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,,,12789.0
25%,528458100.0,20.0,,7403.0,,,,,,,...,0.0,0.0,0.0,0.0,0.0,4.0,2007.0,,,129975.0
50%,535452100.0,50.0,,9400.0,,,,,,,...,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,,,160000.0
75%,907182100.0,70.0,,11516.25,,,,,,,...,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,,,214600.0


In [85]:
ordinal_columns = ["Overall Qual", "Overall Cond", "Lot Shape"]

ordinal_encoder = OrdinalEncoder()
ordinal_encoder.fit(train_data.loc[:, ordinal_columns])

ordinal_transformed = ordinal_encoder.transform(train_data.loc[:, ordinal_columns])

In [86]:
from sklearn.feature_extraction import FeatureHasher

In [87]:
hashing_encoder = FeatureHasher()
# hashing_encoder.transform(train_data[hashing_columns].to_dict()["Utilities"])

In [100]:
from sklearn import __version__

__version__

'0.21.2'

In [8]:
import pandas as pd
import numpy as np

# mit Scikit-Learn Transformer API
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler, MaxAbsScaler, MinMaxScaler
# fortgeschrittene Transformer:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import FeatureUnion


data_path = "../../data/challenge2_downloaded/"

train_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_train.csv", index_col=0)
test_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_test_with_labels.csv", index_col=0)

# Missing data
train_data = train_data.dropna(axis="columns", how="any")
test_data = test_data[train_data.keys()]

print(train_data.shape)
print(test_data.shape)

ordinal_columns = ["Overall Qual", "Overall Cond", "Lot Shape"]
nominal_columns = ["Sale Condition", "Sale Type"]
continuous_columns = ["Yr Sold", "Lot Area"]
untouched_columns = ["1st Flr SF"]

feature_encoder = ColumnTransformer(
    [
        ("ordinal_encoder", OrdinalEncoder(), ordinal_columns),  # 3 Spalten
        ("nominal_encoder", OneHotEncoder(),  nominal_columns),  # 16 Spalten
        ("standard_scaler", StandardScaler(), continuous_columns),  # 2 Spalten
        ("untouched_columns", "passthrough", untouched_columns),  # 1 Spalte
    ],
    remainder="passthrough"
)

all_columns = ordinal_columns + nominal_columns + continuous_columns + untouched_columns 
print(set(all_columns).issubset(set(train_data.columns)))
print(set(all_columns).issubset(set(test_data.columns)))

# fitting auf Grundlage der Trainingsdaten
feature_encoder.fit(train_data)

# Transformiere Trainingsdaten
X_train = feature_encoder.transform(train_data)
y_train = train_data.SalePrice.values

# Transformiere Testdaten
X_test = feature_encoder.transform(test_data)

(2344, 54)
(586, 54)
True
True


In [59]:
train_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_train.csv", index_col=0)
test_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_test_with_labels.csv", index_col=0)

# Missing Values

### Pandas

# Option 1 - Fehlende Werte löschen

# Option 1a - Alle Features löschen, in denen mindestens ein Wert fehlt
# train_data = train_data.dropna(axis="columns", how="any")

# Option 1b - Alle Features löschen, in denen ein gewisser Anteil an fehlenden Werten vorliegt
# train_data = train_data.dropna(axis="columns", thresh=0.9 * len(train_data))

# Option 1c - Alle Samples löschen, die mindestens einen fehlenden Wert haben
# train_data = train_data.dropna(axis="index", how="any")

# Option 1d - Alle Samples löschen, die einen gewissen Anteil an fehlenden Werten haben
# train_data = train_data.dropna(axis="index", thresh=0.9 * train_data.shape[1])

# Option 2 - Imputation

# Option 2a - Fehlende Werte durch einen Wert ersetzen
# train_data = train_data.fillna(0.0)

# Option 2b - Fehlende Werte durch den Durchschnittswert ersetzen
# train_data = train_data.fillna(train_data.mean())

# Option 2c - Fehlende Werte durch den Durchschnittswert ersetzen
train_data = train_data.fillna(train_data.median())


# print(train_data.shape)

### Scikit-Learn
from sklearn.impute import SimpleImputer

imputable_nominal_columns = ["Mas Vnr Type"]

imputer = SimpleImputer(strategy="most_frequent")

imputer.fit(train_data.loc[:, imputable_nominal_columns])

X_train_imputed = imputer.transform(train_data.loc[:, imputable_nominal_columns])
X_test_imputed = imputer.transform(test_data.loc[:, imputable_nominal_columns])

In [60]:
SimpleImputer?

## 2. Das Machine Learning Modell

Wie könnte ein Programm aussehen, dass die Daten in `AmesIowaHousingData_train.csv` nutzt,
um Vorhersagen für `AmesIowaHousingData_test.csv` zu treffen?

In [62]:
# Split
train_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_train.csv", index_col=0)
test_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_test_with_labels.csv", index_col=0)

In [65]:
OrdinalEncoder()

In [64]:
train_data["Garage Qual"].unique()

array(['TA', nan, 'Fa', 'Gd', 'Ex', 'Po'], dtype=object)

In [None]:
# kontinuierliche Variablen
# Hinweis - "Mas Vnr Area" hat fehlende Werte
continuous_columns = ["Mas Vnr Area", "Yr Sold", "Lot Area"]

# ordinale Variablen
# Hinweis - derzeit keine bekannten fehlenden Werte
ordinal_columns = ["Overall Qual", "Overall Cond", "Lot Shape"]

# nominale Variablen
nominal_columns = ["Sale Condition", "Sale Type", "Mas Vnr Type"]

In [63]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2344 entries, 39014 to 94319
Data columns (total 81 columns):
PID                2344 non-null int64
MS SubClass        2344 non-null int64
MS Zoning          2344 non-null object
Lot Frontage       1951 non-null float64
Lot Area           2344 non-null int64
Street             2344 non-null object
Alley              151 non-null object
Lot Shape          2344 non-null object
Land Contour       2344 non-null object
Utilities          2344 non-null object
Lot Config         2344 non-null object
Land Slope         2344 non-null object
Neighborhood       2344 non-null object
Condition 1        2344 non-null object
Condition 2        2344 non-null object
Bldg Type          2344 non-null object
House Style        2344 non-null object
Overall Qual       2344 non-null int64
Overall Cond       2344 non-null int64
Year Built         2344 non-null int64
Year Remod/Add     2344 non-null int64
Roof Style         2344 non-null object
Roof Matl      

## 3. Evaluation

Der Kunde möchte, dass Sie Ihre Ergebnisse wie folgt präparieren: jeder `id` in der Datei `AmesIowaHousingData_test.csv` soll ein vorhergesagter Verkaufspreis in US-Dollar zugeordnet werden. Dazu sollen Sie den Python-Datentyp `dictionary` verwenden. Das Ergbenis könnte zum Beispiel so aussehen:

In [10]:
results = {
    36414: 172000,  # die erste Zahl ist die ID, die zweite der Verkaufspreis
    75897: 136000,
    68774: 205000,
    68535: 223000,
    # ...
    40264: 405000
}


In [14]:
# q1.hint()
# q1.check()