## 1. Daten importieren

Für dieses Tutorial relevant ist der Datensatz `house_location_new_data.csv` der zum Download in der Lektion zu Verfügung steht. Wir speichern diesen zunächst einem sinnvollen Speicherort. Dann importieren wir diesen in der üblichen Weise.

In [41]:
# TODO: Pandas importieren
import pandas as pd

# TODO: Daten importieren
data = pd.read_csv("../data/house_location/house_location_new_data.csv")
data.head(15)

Unnamed: 0,id,beds,bath,price,year_built,sqft,price_per_sqft,elevation
0,8268,1.0,1.0,399000,1910,475,840,14
1,2271,2.0,2.0,849000,1911,1100,772,66
2,5122,3.0,2.5,1300000,1975,1642,792,4
3,2778,2.0,2.0,3995000,1906,2400,1665,9
4,4960,5.0,3.5,3995000,1905,3350,1193,59
5,1317,3.0,1.5,699000,1910,1625,430,94
6,1445,2.0,2.5,850000,2000,1136,748,5
7,9513,2.0,2.5,3495000,1900,1968,1776,76
8,2283,2.0,2.0,4195000,2016,1750,2397,15
9,3423,2.0,2.5,2495000,1940,1809,1379,48


## 2. Modell importieren

Bevor wir uns in späteren Tutorials damit befassen, wie Modelle erzeugt - genauer *trainiert* oder *gefittet* - werden können, befassen wir uns hier zunächst nur damit, wie ein fertiges Modell für Vorhersagen genutzt werden kann. Wir nehmen also an, dass das *Training* bereits stattgefunden hat.

Die Bibliothek unserer Wahl, um solche Modelle zu managen, heißt **Scikit-Learn**. Wir importieren zur Übung diese Bibliothek - genauer: ein bestimmtes Modell dieser Bibliothek, den `DecisionTreeClassifier`. Es ist dabei nicht wichtig zu verstehen, um welches Modell es sich handelt oder wie dieses *trainiert* wurde.

In [24]:
# TODO: Scikit-Learn DecisionTreeClassifier importieren
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()

print(model)

DecisionTreeClassifier()


Die vorherige Aufgabe dient nur der Orientierung, denn tatsächlich ist das Modell bereits *trainiert* und muss nur heruntergeladen werden. In der Lektion ist das Modell zum Download verfügbar. Das Format des Modells ist `.pkl` - doch das ist zunächst nur untergeordnet wichtig. Formate zum Speichern von Modellen gibt es wie Sand am Meer. Durch eine Hilfsbibliothek - genannt `joblib`- kann dieses importiert werden.

In [22]:
# TODO: Modell mit joblib importieren
import joblib

model_imported = joblib.load("house_location_model.pkl")

print(model_imported)

DecisionTreeClassifier(max_depth=10)


## 3. Vorhersagen

Ein so importiertes Modell kann zur Vorhersage auf dem weiter oben importierten Datensatz verwendet werden. Die Schnittstelle ist wie immer die `predict`-Funktion des Modells.

In [42]:
# TODO: Modell zur Vorhersage nutzen

# "id" Spalte kann nicht zur Vorhersage genutzt werden
X_new = data.drop(columns=["id"])

In [43]:
X_new

Unnamed: 0,beds,bath,price,year_built,sqft,price_per_sqft,elevation
0,1.0,1.0,399000,1910,475,840,14
1,2.0,2.0,849000,1911,1100,772,66
2,3.0,2.5,1300000,1975,1642,792,4
3,2.0,2.0,3995000,1906,2400,1665,9
4,5.0,3.5,3995000,1905,3350,1193,59
...,...,...,...,...,...,...,...
94,1.0,1.0,515000,1962,725,710,10
95,1.0,1.0,699000,1907,932,750,59
96,2.0,1.0,550000,1908,800,688,43
97,4.0,1.0,1050000,1932,1767,594,55


In [36]:
model.predict(X_new)

NotFittedError: This DecisionTreeClassifier instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

In [38]:
y_pred = model_imported.predict(X_new)
print(y_pred)

print(len(data_copy))

data.insert(0, "in_sf_predicted", y_pred)

data

[0 1 0 0 1 1 1 1 0 1 0 0 1 0 1 1 1 0 1 1 1 1 0 1 1 0 0 0 1 0 1 1 1 0 0 0 1
 0 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 1 0 1 1 0 1 0 1 0 0 1 1 0 0 1 0 0 0 1 0 1
 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 1 1 1 0 1 0 1 0]
99


Unnamed: 0,in_sf_predicted,id,beds,bath,price,year_built,sqft,price_per_sqft,elevation
0,0,8268,1.0,1.0,399000,1910,475,840,14
1,1,2271,2.0,2.0,849000,1911,1100,772,66
2,0,5122,3.0,2.5,1300000,1975,1642,792,4
3,0,2778,2.0,2.0,3995000,1906,2400,1665,9
4,1,4960,5.0,3.5,3995000,1905,3350,1193,59
...,...,...,...,...,...,...,...,...,...
94,0,2127,1.0,1.0,515000,1962,725,710,10
95,1,3137,1.0,1.0,699000,1907,932,750,59
96,0,5467,2.0,1.0,550000,1908,800,688,43
97,1,6099,4.0,1.0,1050000,1932,1767,594,55
