# Challenge: Vorhersage von Immobilienpreisen

## Beschreibung

Eine Investmentgesellschaft will seine internen Review- und Investment-Prozesse besser automatisieren.

Teil des Portfolios der Investementgesellschaft sind Immobilienbestände im Gebiet um Ames, Iowa, USA. Über den Zustand und die Austattung dieser Immobilien wird selbstverständlich Buch geführt. Neben Wohnfläche, Baujahr, Zustand und Anzahl der Zimmer sind diverse andere Informationen vorhanden, so zum Beispiel die Form des Grundstücks, der Belag der Einfahrt, das Material der Außenwände und so weiter. Insgesamt sind für jede Immobilie in etwa ~80 Messgrößen und Eckdaten bekannt.

Die Investmentgesellschaft hat ein Interesse daran, den Wert dieser Immobilien möglichst genau zu schätzen. Üblicherweise würde der Wert jeder Immobilie von Experten geschätzt. In einzelnen Fällen wäre dafür sogar eine Begutachtung des Objeckt nötig. Der Prozess, den Wert von fast 3000 Immobilien im Portfolio der Investmentgesellschaft zu schätzen ist langwierig, fehleranfällig und teuer.

Deshalb ist die Investmentgesellschaft auf Sie zugekommen, um feststellen, ob es möglich ist, die Prozesse zu automatisieren, möglicherweise sogar durch *Machine Learning*.

Der Kunde hat deshalb eine Beispielaufgabe für Sie vorbereitet, um das Potential von Methoden des *Machine Learning* für die Problemstellung einzuschätzen.

Ihnen wir zunächst ein folgender Datensatz zur Verfügung gestellt:

<img src="../assets/house_prices_test_example_image.png" width="1000" >

Dabei handelt es sich um eine Liste von Immobilien im Bestand des Kunden, jede mit einer eindeutigen Identifikationsnummer, für die ein Verkaufspreis vorhergesagt werden soll. Für jede Immobilie sind diverse Messdaten und Informationen gegeben - insgesamt 80 solche Größen.

Der Kunde hat per Expertenmeinung bereits eine Schätzung für den Verkaufspreis jeder dieser Immobilien angestellt - doch diese wird Ihnen nicht mitgeteilt. Ihre Aufgabe ist es, für jede der Immobilien einen Verkaufspreis vorherzusagen und dabei möglichst genau die Einschätzung des Kunden zu treffen.

Das einzige, was Ihnen dafür zur Verfügung steht, ist ein weiterer Datensatz:

<img src="../assets/house_prices_train_example_image.png" width="1000" >

Dieser Datensatz ist sehr ähnlich dem ersten Datensatz. Er beschreibt eine andere Menge von Immobilien, die sich zuvor im Bestand des Kunden befunden haben und inzwischen verkauft wurden, für die die gleichen Messgrößen und Informationen vorliegen. Es gibt keine Überschneidung zwischen den zwei Datensätzen, d.h. jede Idenfikationsnummer in diesem zweiten Datensatz kommt nicht im ersten Datensatz vor und umgekehrt.

Für diesen zweiten Datensatz gibt es aber eine zusätzliche Information: hier wurde bereits der tatsächliche Verkaufspreis (*SalePrice*) in US-Dollar angegeben.

## Fragestellung

## Wie lassen sich die Informationen aus dem zweiten Datensatz nutzen, um für die Immobilien des Kunden den Verkaufspreis vorherzusagen ?

## Schreiben Sie ein Programm, das für jede Immobilie des Kunden ein Zahl ausgibt - Ihre Schätzung für den Verkaufspreis in US-Dollar.

## 0. Vorbereitung

Laden Sie optional für zusätzliche Tipps und Anweisungen das Modul `learntools` aus dem Datenaustausch bzw. unter folgendem Google Drive-Link herunter ().

Führen Sie dann den unten stehenden Code aus. Ändern Sie dazu die Variable `learntools_path` auf entsprechende Weise, sodass diese den Pfad speichert, an dem sich der heruntergeladene Ordner befindet.

Mit dem Befehl

```python
aufgabe.check()
```

lassen sich nun für eine (hypothetische) Aufgabe `aufgabe` Lösungen abrufen.


In [1]:
import sys
import os
learntools_path = f"{os.getenv('HOME')}/alfatraining/learntools"
# learntools_path = "path/to/learntools/folder"
sys.path.append(learntools_path)

from learntools.core import binder; binder.bind(globals())
from learntools.challenges.challenge2 import *
print("Setup complete.")

Setup complete.


## 1. Daten herunterladen und bereitstellen

Zuallerst müssen Sie die Daten für die folgende Aufgabe finden und herunterladen. Diese befinden sich entweder im Datenaustausch oder sind unter folgendem Google Drive Link zu finden:
https://drive.google.com/drive/folders/1v2A2afB0X6brczH54COvptKHzQ2O5lEg?usp=sharing

Wie Sie die Daten in diesem Jupyter-Notebook verfügbar machen, hängt davon ab, ob Sie das Notebook lokal oder in Google Colab ausführen.

Falls Sie das Notebook lokal ausführen, haben Sie zunächst nichts weiter zu tun. Platzieren Sie die heruntergeladene Datei in einem Ordner Ihrer Wahl und entpacken Sie sie, falls es sich um eine ZIP-Datei handelt.

Falls Sie das Notebook in Google Colab ausführen, müssen Sie die Daten für das Notebook in der Cloud zugänglich machen - das Notebook hat keinen Zugriff auf Ihre lokalen Dateien. Folgen Sie diesem Link für zusätzliche Tipps zum Hochladen von Daten in Google Colab: https://towardsdatascience.com/importing-data-to-google-colab-the-clean-way-5ceef9e9e3c8. Falls Sie optional das Modul `learntools` von weiter oben verwenden wollen, müssen Sie dieses zusätzlich hochladen.

Zunächst sollten Sie die beiden Datensätze kennenlernen und verstehen.
Die gesamten Daten sind in zwei Dateien mit der Endung `.csv` abgespeichert.

Die erste Liste ist
- `AmesIowaHousingData_test.csv`

Und die zweite Liste ist
- `AmesIowaHousingData_train.csv`

### 1.1. Daten laden

Wie können Dateien mit der Endung .csv in Python geladen werden?

In [2]:
# Wie können Dateien mit der Endung .csv in Python geladen werden?
import pandas as pd
import numpy as np

data_path = "../../data/challenge2"

train_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_train.csv", index_col=0)
test_data = pd.read_csv(f"{data_path}/AmesIowaHousingData_test_with_labels.csv", index_col=0)

### 1.2 Daten sichten

Welche Analysen könnte man auf den Daten ausführen?

Wie könnte man die Daten visualieren?

### 1.3. Daten vorverarbeiten

In [20]:
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler, MaxAbsScaler, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import make_pipeline, make_union, Pipeline, FeatureUnion
from sklearn.impute import SimpleImputer

from sklearn.linear_model import Ridge

In [21]:
# zum Überblick über Datentypen und fehlende Werte
train_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2344 entries, 39014 to 94319
Data columns (total 81 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   PID              2344 non-null   int64  
 1   MS SubClass      2344 non-null   int64  
 2   MS Zoning        2344 non-null   object 
 3   Lot Frontage     1951 non-null   float64
 4   Lot Area         2344 non-null   int64  
 5   Street           2344 non-null   object 
 6   Alley            151 non-null    object 
 7   Lot Shape        2344 non-null   object 
 8   Land Contour     2344 non-null   object 
 9   Utilities        2344 non-null   object 
 10  Lot Config       2344 non-null   object 
 11  Land Slope       2344 non-null   object 
 12  Neighborhood     2344 non-null   object 
 13  Condition 1      2344 non-null   object 
 14  Condition 2      2344 non-null   object 
 15  Bldg Type        2344 non-null   object 
 16  House Style      2344 non-null   object 
 17  Overall Q

In [22]:
y_train = train_data.SalePrice.values
X_train = train_data.drop(columns=["PID", "SalePrice"])

y_test = test_data.SalePrice.values
X_test = test_data.drop(columns=["PID", "SalePrice"])

In [23]:
# Anteil der nan-Werte für jede Spalte
proportion_nans = X_train.isna().sum() / len(X_train)

# Thresholding und Löschen der entsprechenden Spalten

# registriere alle Spalten mit mehr als 40% fehlenden Werten
threshold = 0.4
nan_columns = list(X_train.columns[proportion_nans > 0.4])
nan_columns

['Alley', 'Fireplace Qu', 'Pool QC', 'Fence', 'Misc Feature']

In [24]:
# manuelles Erschließen der kategorischen/oridinalen Variablen
ordinal_columns = ["Lot Shape", "Land Slope"]
nominal_columns = ["Street", "Lot Config"]

# np.number is ein Oberbegriff für int/float etc.
continuous_columns = X_train.select_dtypes(include=np.number).columns.tolist()

# Mengenoperationen zum Herauslöschen von Spalten
continuous_columns = list(set(continuous_columns).difference(nan_columns))
continuous_columns

['BsmtFin SF 1',
 'Overall Qual',
 'Total Bsmt SF',
 'Lot Frontage',
 'Bedroom AbvGr',
 'Kitchen AbvGr',
 '2nd Flr SF',
 'Fireplaces',
 'Year Built',
 'Bsmt Unf SF',
 'Wood Deck SF',
 'Misc Val',
 'Year Remod/Add',
 'TotRms AbvGrd',
 'BsmtFin SF 2',
 'Overall Cond',
 'Garage Area',
 '1st Flr SF',
 'Bsmt Full Bath',
 'Yr Sold',
 'Half Bath',
 'Gr Liv Area',
 'Bsmt Half Bath',
 'Open Porch SF',
 '3Ssn Porch',
 'Garage Yr Blt',
 'Screen Porch',
 'Mas Vnr Area',
 'Lot Area',
 'Pool Area',
 'Full Bath',
 'Garage Cars',
 'Low Qual Fin SF',
 'Enclosed Porch',
 'MS SubClass',
 'Mo Sold']

In [26]:
ordinal_columns

['Lot Shape', 'Land Slope']

In [27]:
nominal_columns

['Street', 'Lot Config']

In [None]:
# Transformieren zu kategorischen Daten
X_train.loc[:, ordinal_columns] = X_train.loc[:, ordinal_columns].astype("category")
X_train.loc[:, nominal_columns] = X_train.loc[:, nominal_columns].astype("category")

# Theoretisch sollte dies auch mit den Testdaten passieren. Allerdings
# ist es durch die späteren Scikit-Learn-Klassen optional
X_test.loc[:, ordinal_columns] = X_test.loc[:, ordinal_columns].astype("category")
X_test.loc[:, nominal_columns] = X_test.loc[:, nominal_columns].astype("category")

for column in ordinal_columns:
    # Zugriff auf die jeweiligen Kategorien über pd.Series.values.categories
    print(X_train[column].values.categories)
    
for column in nominal_columns:
    # Zugriff auf die jeweiligen Kategorien über pd.Series.values.categories
    print(X_train[column].values.categories)

In [201]:
# Ordinale Kategorien sollten in der richtigen Weise sortiert sein
ordinal_categories = [
    ["Reg", "IR1", "IR2", "IR3"],
    ["Gtl", "Mod", "Sev"]    
]

# Nominale Kategorien können aus den Daten geschlossen werden
nominal_categories = [
    list(X_train[column].values.categories) for column in nominal_columns
]

In [261]:

# Scikit-Learn Imputation
ordinal_imputer = SimpleImputer(strategy="most_frequent")
nominal_imputer = SimpleImputer(strategy="most_frequent")
continuous_imputer = SimpleImputer(strategy="median")

# Scikit-Learn Feature Encoding
ordinal_encoder = OrdinalEncoder(categories=ordinal_categories)
nominal_encoder = OneHotEncoder(categories=nominal_categories, sparse=False)

# Scikit-Learn Standardisierung
scaler = StandardScaler()

# Die Vorarbeitung für ordinale Variablen sollte zunächst eine most-frequent-Imputation
# ausführen, bevor das feature encoding stattfindet
ordinal_preprocessing = make_pipeline(
    ordinal_imputer,
    ordinal_encoder
)

# Die Vorarbeitung für nominale Variablen sollte zunächst eine most-frequent-Imputation
# ausführen, bevor das feature encoding stattfindet
nominal_preprocessing = make_pipeline(
    nominal_imputer,
    nominal_encoder
)


# Die Reihenfolge der Vorarbeitung ist hier nicht zwingend, solange
# SimpleImputer mit fehlenden Werten umgehen kann
continuous_preprocessing = make_pipeline(
    continuous_imputer,
    scaler
)

preprocessor = ColumnTransformer([
    ("ordinal_preprocessor", ordinal_preprocessing, ordinal_columns),
    ("nominal_preprocessor", nominal_preprocessing, nominal_columns),
    ("continuous_preprocessor", continuous_preprocessing, continuous_columns),
])

#### 1.3.1. Manuelles Transformieren

Wir gewinnen einen Überblick über die einzelnen Bestandteile des Preprocessings.
Dazu benutzen wir nur die Trainingsdaten. Am Ende sollten alle Transformationen (aber nicht das Fitting!)
auch auf die Testdaten angwendet werden.

#### Imputation

In [203]:
# Indexing
X_ordinal = X_train.loc[:, ordinal_columns]
X_nominal = X_train.loc[:, nominal_columns]
X_continuous = X_train.loc[:, continuous_columns]

In [205]:
ordinal_imputer.fit(X_ordinal)

X_ordinal_imputed = ordinal_imputer.transform(X_ordinal)

# dies sollte keine nans mehr enthalten
X_ordinal_imputed

array([['IR1', 'Mod'],
       ['Reg', 'Mod'],
       ['Reg', 'Gtl'],
       ...,
       ['IR1', 'Gtl'],
       ['IR1', 'Gtl'],
       ['Reg', 'Gtl']], dtype=object)

In [206]:
nominal_imputer.fit(X_nominal)

X_nominal_imputed = ordinal_imputer.transform(X_nominal)

# dies sollte keine nans mehr enthalten
X_nominal_imputed

array([['Pave', 'Inside'],
       ['Pave', 'Inside'],
       ['Pave', 'Inside'],
       ...,
       ['Pave', 'Corner'],
       ['Pave', 'Inside'],
       ['Pave', 'Corner']], dtype=object)

In [207]:
continuous_imputer.fit(X_continuous)

X_continuous_imputed = continuous_imputer.transform(X_continuous)

# dies sollte keine nans mehr enthalten
X_continuous_imputed

array([[0.000e+00, 0.000e+00, 1.600e+03, ..., 1.000e+00, 1.200e+02,
        2.008e+03],
       [5.220e+02, 0.000e+00, 1.240e+03, ..., 1.000e+00, 3.320e+02,
        1.998e+03],
       [0.000e+00, 6.770e+02, 1.440e+03, ..., 1.000e+00, 5.360e+02,
        2.000e+03],
       ...,
       [0.000e+00, 0.000e+00, 1.905e+03, ..., 1.000e+00, 1.905e+03,
        2.006e+03],
       [0.000e+00, 0.000e+00, 1.064e+03, ..., 1.000e+00, 2.850e+02,
        1.967e+03],
       [4.680e+02, 0.000e+00, 8.820e+02, ..., 1.000e+00, 2.760e+02,
        1.972e+03]])

#### Encoding

In [209]:
ordinal_encoder.fit(X_ordinal_imputed)

X_ordinal_imputed_encoded = ordinal_encoder.transform(X_ordinal_imputed)

# dies sollte weiterhin 2 Spalten enthalten
X_ordinal_imputed_encoded

array([[1., 1.],
       [0., 1.],
       [0., 0.],
       ...,
       [1., 0.],
       [1., 0.],
       [0., 0.]])

In [210]:
nominal_encoder.fit(X_nominal_imputed)

X_nominal_imputed_encoded = nominal_encoder.transform(X_nominal_imputed)

# dies sollte zusätzliche Spalten enthalten
# (es handelt sich hier eventuell um eine "sparse matrix" falls sparse=True gesetzt wurde)
X_nominal_imputed_encoded

<2344x7 sparse matrix of type '<class 'numpy.float64'>'
	with 4688 stored elements in Compressed Sparse Row format>

#### Standardisieren

In [212]:
scaler.fit(X_continuous_imputed)

X_continuous_imputed_scaled = scaler.transform(X_continuous_imputed)

In [214]:
X_ordinal_imputed_encoded.shape

(2344, 2)

In [215]:
X_nominal_imputed_encoded.shape

(2344, 7)

In [216]:
X_continuous_imputed_scaled.shape

(2344, 36)

#### Concatenation

In [222]:
X_train_preprocessed = np.concatenate((
    X_ordinal_imputed_encoded,
    X_nominal_imputed_encoded.todense(),
    X_continuous_imputed_scaled
), axis=1)

In [223]:
X_train_preprocessed.shape

(2344, 45)

#### Testdaten

In [None]:
# TODO

#### 1.3.2. Preprocessing Pipeline

In [220]:
# die Vorverarbeitung kann auch komplett gefittet werden.
# Dies beinhaltet
#   - Das Finden des most-frequent Wertes für alle ordinalen Variablen auf Grundlage der Trainingsdaten
#   - Das Finden des most-frequent Wertes für alle nominalen Variablen auf Grundlage der Trainingsdaten
#   - Das Encoding sowohl für ordinale Variablen als auch nominale Variablen
#   - Das Standardisieren der metrischen Variablen

preprocessor.fit(X_train)

ColumnTransformer(n_jobs=None, remainder='drop', sparse_threshold=0.3,
                  transformer_weights=None,
                  transformers=[('ordinal_preprocessor',
                                 Pipeline(memory=None,
                                          steps=[('simpleimputer',
                                                  SimpleImputer(add_indicator=False,
                                                                copy=True,
                                                                fill_value=None,
                                                                missing_values=nan,
                                                                strategy='most_frequent',
                                                                verbose=0)),
                                                 ('ordinalencoder',
                                                  OrdinalEncoder(categories=[['Reg',
                                                             

## 2. Das Machine Learning Modell


### 2.1. Lineare Regression

In [233]:
from sklearn.linear_model import LinearRegression, Ridge, ElasticNet

regressor = Ridge(alpha=10.0, fit_intercept=True)

baseline_model = make_pipeline(
    preprocessor,
    regressor
)

# Ja, es ist wirklich so einfach
baseline_model.fit(X_train, y_train)

Pipeline(memory=None,
         steps=[('columntransformer',
                 ColumnTransformer(n_jobs=None, remainder='drop',
                                   sparse_threshold=0.3,
                                   transformer_weights=None,
                                   transformers=[('ordinal_preprocessor',
                                                  Pipeline(memory=None,
                                                           steps=[('simpleimputer',
                                                                   SimpleImputer(add_indicator=False,
                                                                                 copy=True,
                                                                                 fill_value=None,
                                                                                 missing_values=nan,
                                                                                 strategy='most_frequent',
                          

In [184]:
# Scoring der Trainingsdaten - r²
baseline_model.score(X_train, y_train)

0.8412686015082297

In [189]:
from sklearn.ensemble import GradientBoostingRegressor

boosting = GradientBoostingRegressor(n_estimators=100)

model = make_pipeline(
    preprocessor,
    boosting
)

# Ja, es ist wirklich so einfach
model.fit(X_train, y_train)

Pipeline(memory=None,
         steps=[('columntransformer',
                 ColumnTransformer(n_jobs=None, remainder='drop',
                                   sparse_threshold=0.3,
                                   transformer_weights=None,
                                   transformers=[('ordinal_preprocessor',
                                                  Pipeline(memory=None,
                                                           steps=[('simpleimputer',
                                                                   SimpleImputer(add_indicator=False,
                                                                                 copy=True,
                                                                                 fill_value=None,
                                                                                 missing_values=nan,
                                                                                 strategy='most_frequent',
                          

In [190]:
# Scoring der Trainingsdaten - r²
model.score(X_train, y_train)

0.9579008662857603

### 2.3. Hyperparameter Tuning

In [231]:
from sklearn.model_selection import GridSearchCV

param_grid = {"ridge__alpha": [1e-4, 1e-3, 1e-2, 1.0, 10.0, 100.0]}


hp_tuned_model = GridSearchCV(
    baseline_model,
    param_grid=param_grid,
    cv=5
)

hp_tuned_model.fit(X_train, y_train)

GridSearchCV(cv=5, error_score='raise-deprecating',
             estimator=Pipeline(memory=None,
                                steps=[('columntransformer',
                                        ColumnTransformer(n_jobs=None,
                                                          remainder='drop',
                                                          sparse_threshold=0.3,
                                                          transformer_weights=None,
                                                          transformers=[('ordinal_preprocessor',
                                                                         Pipeline(memory=None,
                                                                                  steps=[('simpleimputer',
                                                                                          SimpleImputer(add_indicator=False,
                                                                                                        cop

In [232]:
hp_tuned_model.score(X_train, y_train)

0.8404173794044503

## 3. Evaluation

In [191]:
# Scoring der Testdaten - r²
baseline_model.score(X_test, y_test)

0.8147468212224674

In [227]:
# Scoring der Testdaten - r²
hp_tuned_model.score(X_test, y_test)

0.8189757328232418

In [228]:
# Scoring der Testdaten - r²
model.score(X_test, y_test)

0.8896564953477966