## 1. Vorbereitung

Wir verfolgen zunächst im Wesentlichen dieselbe Strategie wie in der vorherigen Lektion (**Vorhersagen treffen**). Statt der Datei `house_location_new.csv` steht nun allerdings die Datei `house_location_new_with_labels.csv` im Fokus. Diese unterscheidet sich in einem wesentlichen Punkt von der vorherigen Datei: für alle Datenpunkte ist die richtige Antwort bereits bekannt.

In [9]:
# Importieren der Daten mit Pandas
import pandas as pd
data = pd.read_csv("../data/house_location/house_location_new_data_with_labels.csv", index_col=0)

In [10]:
# Untersuchung des neuen Datensatzes
data

Unnamed: 0_level_0,in_sf,beds,bath,price,year_built,sqft,price_per_sqft,elevation
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
8268,0,1.0,1.0,399000,1910,475,840,14
2271,1,2.0,2.0,849000,1911,1100,772,66
5122,1,3.0,2.5,1300000,1975,1642,792,4
2778,0,2.0,2.0,3995000,1906,2400,1665,9
4960,1,5.0,3.5,3995000,1905,3350,1193,59
...,...,...,...,...,...,...,...,...
2127,0,1.0,1.0,515000,1962,725,710,10
3137,1,1.0,1.0,699000,1907,932,750,59
5467,1,2.0,1.0,550000,1908,800,688,43
6099,1,4.0,1.0,1050000,1932,1767,594,55


In [11]:
# Importieren des Modells
import joblib

my_model = joblib.load("../1_5_vorhersagen_treffen/house_location_model.pkl")
my_model

DecisionTreeClassifier(max_depth=10)

## 2. Vorhersage

Nach erfolgreichem Import des Modells können wir erneut - wie zuvor - eine Vorhersage für unseren Datensatz treffen. Wir müssen nur noch die relevanten Spalten des Datensatzes ausfindig machen.

In [13]:
# mit dem Modell Vorhersagen treffen

# Auswahl aller Spalten bis auf `in_sf`
X = data.loc[:, ["beds", "bath", "price", "year_built", "sqft", "price_per_sqft", "elevation"]]
y_pred = my_model.predict(X)

y_pred

array([0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1,
       0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0,
       0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0,
       1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0])

## 3. Modell evaluieren

Da wir nun für alle Datenpunkte des Datensatzes die richtige Antwort kennen, können wir die Vorhersage des Modells mit diesen richtigen Antworten abgleichen und so eine Einschätzung gewinnen, ob das Modell funktioniert. Die dafür verwendete Metrik ist die *Genaugikeit* oder *Accuracy* oder *Korrekte-Klassifikations-Rate* und soll den Prozentsatz erfassen, zu dem das Modell korrekt Vorhersagen liefert.

In [15]:
# Vorhersage mit der richtigen Antwort abgleichen
y_true = data.in_sf.values

In [17]:
# Option 1: for-schleife
correct = 0
for i in range(len(y_true)):
    if y_true[i] == y_pred[i]:
        correct += 1
        
accuracy = correct / len(y_true)

accuracy

0.898989898989899

In [20]:
# Option 2: elementweises Vergleichen (the power of NumPy!!!)
import numpy as np

y_true == y_pred

array([ True,  True, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True, False,  True, False,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True, False,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True, False,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True, False,
        True,  True,  True, False,  True,  True,  True,  True,  True,
        True,  True, False,  True, False,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True, False,  True,  True])

In [21]:
np.sum(y_true == y_pred)

89

In [23]:
accuracy = np.sum(y_true == y_pred) / len(y_true)

accuracy

0.898989898989899