<h1>Inhaltsverzeichnis<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Einleitung" data-toc-modified-id="Einleitung-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Einleitung</a></span></li><li><span><a href="#Verwendeter-Datensatz" data-toc-modified-id="Verwendeter-Datensatz-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Verwendeter Datensatz</a></span></li><li><span><a href="#Daten-einlesen" data-toc-modified-id="Daten-einlesen-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Daten einlesen</a></span></li><li><span><a href="#Spalten-selektieren,-Daten-plotten" data-toc-modified-id="Spalten-selektieren,-Daten-plotten-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Spalten selektieren, Daten plotten</a></span></li><li><span><a href="#Daten-normalisieren" data-toc-modified-id="Daten-normalisieren-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Daten normalisieren</a></span></li><li><span><a href="#Trainings--und-Testdaten-definieren" data-toc-modified-id="Trainings--und-Testdaten-definieren-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Trainings- und Testdaten definieren</a></span></li><li><span><a href="#MLP-vorbereiten" data-toc-modified-id="MLP-vorbereiten-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>MLP vorbereiten</a></span></li><li><span><a href="#MLP-trainieren" data-toc-modified-id="MLP-trainieren-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>MLP trainieren</a></span></li><li><span><a href="#Modell-testen/anwenden" data-toc-modified-id="Modell-testen/anwenden-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Modell testen/anwenden</a></span></li><li><span><a href="#Modell-speichern" data-toc-modified-id="Modell-speichern-10"><span class="toc-item-num">10&nbsp;&nbsp;</span>Modell speichern</a></span></li><li><span><a href="#Modell-wiederherstellen-und-anwenden" data-toc-modified-id="Modell-wiederherstellen-und-anwenden-11"><span class="toc-item-num">11&nbsp;&nbsp;</span>Modell wiederherstellen und anwenden</a></span></li></ul></div>

# Einleitung

In diesem Jupyter-Notebook durchlaufen wir alle relevanten Schritte des Machine-Learnings:
1. Daten einlesen
2. Daten vorverarbeiten
3. Trainings- und Testdaten vorbereiten
4. Machine-Learning Modell definieren (hier: ein MLP)
5. Modell trainieren
6. Modell testen/anwenden
7. Modell speichern/wiederherstellen

# Verwendeter Datensatz

Wir wollen mit realen Daten arbeiten. Bei [Kaggle](https://www.kaggle.com/) können wir viele Datensätze finden. Diesen hier verwenden wir im Folgenden:

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

Der Datensatz enthält in den Trainingsdaten 1460 Beispiele von Häusern, wobei deren Eigenschaften und deren jeweiliger tatsächlicher Verkaufspreis aufgeführt ist.

# Daten einlesen

Die Datensätze liegen often als .csv Dateien vor. Diese können mittels der Bibliothek Pandas einfach eingelesen werden.

Wenn Pandas noch nicht installiert ist, kann diese Bibliothek mittels

    conda install pandas

unter der Anaconda Prompt installiert werden.

In [None]:
import tensorflow as tf
print(tf.__version__)

In [None]:
import pandas as pd
print(pd.__version__)

In [None]:
df = pd.read_csv("hausbeispiele.csv")

In [None]:
type(df)

In [None]:
df

In [None]:
df["LotShape"]

In [None]:
df["LotShape"].unique()

In [None]:
df = pd.get_dummies(df)

In [None]:
df

In [None]:
df.shape

In [None]:
df.columns

# Spalten selektieren, Daten plotten

In [None]:
df["YearBuilt"]

In [None]:
df["SalePrice"]

In [None]:
x = df["YearBuilt"]
y = df["SalePrice"]

In [None]:
import matplotlib.pyplot as plt
plt.scatter(x,y, marker="+")
plt.show()

In [None]:
data_input = df[["YearBuilt", "LotArea"]].values

In [None]:
data_input.shape

In [None]:
#data_input = df[["YearBuilt", "LotArea"]].values
data_input = df[["YearBuilt", "LotArea", "OverallQual"]].values

nr_inputs = data_input.shape[1]

In [None]:
nr_inputs

In [None]:
data_input

In [None]:
data_output = df["SalePrice"].values

In [None]:
data_output

# Daten normalisieren

In [None]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

In [None]:
scaler_input = MinMaxScaler(feature_range=(0, 1))
scaled_input_data = scaler_input.fit_transform(data_input)

In [None]:
scaled_input_data

In [None]:
type(scaled_input_data)

In [None]:
scaled_input_data.ndim

In [None]:
scaled_input_data.shape

In [None]:
scaler_output = MinMaxScaler(feature_range=(0, 1))
scaled_output_data = scaler_output.fit_transform(data_output.reshape(-1,1))

In [None]:
scaled_output_data

# Trainings- und Testdaten definieren

In [None]:
x_train = scaled_input_data[0:1000]
y_train = scaled_output_data[0:1000]
x_test  = scaled_input_data[1000:]
y_test  = scaled_output_data[1000:]

In [None]:
x_train.shape

In [None]:
y_train.shape

In [None]:
x_test.shape

In [None]:
y_test.shape

In [None]:
print(x_train[-1], "-->", y_train[-1])

# MLP vorbereiten

In [None]:
import tensorflow as tf
from tensorflow import keras

tf.keras.backend.clear_session()

model = keras.Sequential()
model.add(keras.layers.Dense(80,
                             activation="relu",
                             input_shape=(nr_inputs,)))
model.add(keras.layers.Dense(40,
                             activation="relu"
                             ))
model.add(keras.layers.Dense(1,
                             activation="linear"))

In [None]:
model.compile(optimizer='sgd',           
              loss=tf.keras.losses.MeanSquaredError(),
              metrics=['accuracy'])

#loss=tf.keras.losses.MeanSquaredError(),

In [None]:
model.summary()

# MLP trainieren

In [None]:
history = model.fit(x_train,
                    y_train,
                    epochs=200)

In [None]:
plt.plot(history.history["loss"])
plt.show()

# Modell testen/anwenden

In [None]:
x_test[:10]

In [None]:
preds = model.predict(x_test)

In [None]:
preds.shape

In [None]:
preds[0:5]

In [None]:
preds_dollar = scaler_output.inverse_transform( preds )

In [None]:
preds_dollar.shape

In [None]:
preds_dollar[:10]

In [None]:
gt_dollar = scaler_output.inverse_transform( y_test )

In [None]:
gt_dollar.shape

In [None]:
gt_dollar[:10]

In [None]:
nr_tests = len(y_test)
sum_errors = 0.0
for i in range(0,nr_tests):
    error = gt_dollar[i] - preds_dollar[i]
    print("{0} vs {1} --> Fehler: {2}"
          .format(preds_dollar[i],
                  gt_dollar[i],
                  error ))
    sum_errors += abs(error)
print("Durchschnittlicher Fehler in $:", sum_errors/nr_tests)

# Modell speichern

In [None]:
fname1 = "hauspreis_schaetzer.h5"
model.save(fname1)

In [None]:
import pickle
fname2 = "scaler_input.pkl"
fobj = open(fname2, "wb")
pickle.dump(scaler_input, fobj)
fobj.close()

In [None]:
import pickle
fname2 = "scaler_output.pkl"
fobj = open(fname2, "wb")
pickle.dump(scaler_output, fobj)
fobj.close()

# Modell wiederherstellen und anwenden

In [None]:
from tensorflow import keras

new_model = keras.models.load_model("hauspreis_schaetzer.h5")

In [None]:
new_model.summary()

In [None]:
import pickle
fobj = open("scaler_input.pkl", "rb")
scaler_input = pickle.load(fobj)
fobj.close()

In [None]:
type(scaler_input)

In [None]:
import pickle
fobj = open("scaler_output.pkl", "rb")
scaler_output = pickle.load(fobj)
fobj.close()

In [None]:
type(scaler_output)

In [None]:
baujahr = float(input("Baujahr:"))
groesse = float(input("Groesse:"))
qualitaet = float(input("Qualität:"))

In [None]:
baujahr, groesse, qualitaet

In [None]:
input_matrix = scaler_input.transform( [[baujahr, groesse, qualitaet]] )

In [None]:
input_matrix

In [None]:
pred = new_model.predict( input_matrix )

In [None]:
pred

In [None]:
pred_dollar = scaler_output.inverse_transform( pred )

In [None]:
pred_dollar