# Laden von böntigeten Softwarebibliotheken und Festlegung von Grundeinstellungen

Mit dem Befehl ***import Name*** wird eine Bibliothek geladen.<br>
Mit dem Befehl ***import Name as*** Abkürzung> wird eine Bibliothek geladen und kann mit der Abkürzung im weiteren Code genutzt werden.<br>
Beispiel: ***import numpy as np*** lädt die Bibliothek numpy mit der Abkürzung np. Somit können wir im folgenden Funktionen der Bibliothek numpy mit ***np.Funktionsname*** aufrufen.<br><br>
Überblick der genutzen Bibliotheken:<br>
**numpy**: Effizient implementierte Funktionen für numerische Berechnungen von Vektoren und Matrizen.<br>
**pandas**: Hilfsmittel für die Verwaltung von Daten und deren Analyse. Enthält insbesondere Datenstrukturen, sogenannte "dataframes (kurz df)", und Operatoren für den Zugriff auf numerische Tabellen und Zeitreihen.<br>
**pandas_profiling**: Ermöglicht eine statistische Analyse der Datenstrukturen von pandas mit einem Befehl.<br>
**matplotlib**: Ermöglicht mathematische Darstellungen aller Art anzufertigen.<br>
**matplotlib.pyplot**: Enthält den Teil der genutzen Funktionen. Macht das künftige Aufrufen von Funktionen einfacher. (Statt ***mpl.pyplot.Funktionsname*** kann ***plt.Funktionsname*** geschrieben werden.)<br>
**seaborn**: Baut auf der Bibliothek Matplotlib auf und erweitert diese um weitere Diagrammtypen, Maps und Plots.<br> 
**time**: Diese Bibliothek bietet verschiedene zeitbezogene Funktionen.

In [1]:
# Importieren von Bibliotheken die benötigt werden
%matplotlib inline
import numpy as np
import pandas as pd
import pandas_profiling
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import time
import random

# Verhindere warnings, die durch die mybinder Umgebung erzeugt werden und ignoriert werden können
import warnings
warnings.filterwarnings(action='ignore')


# Definiere Farben für Schaubilder
fh_teal = '#179c7d'
fh_orange = '#f29400'
fh_blue = '#1f82c0'
fh_red = '#e2001a'
fh_lightgreen = '#b1c800'
fh_beige = '#feefd6'
fh_grey = '#e1e3e3'

# Globale Einstellung für Schriftgröße, Farben usw. in Schaubildern
fh_palette = [fh_teal, fh_orange, fh_blue, fh_red, fh_lightgreen, fh_beige, fh_grey]
sns.set_style('darkgrid', {'axes.facecolor': '.9'})
sns.set_palette(fh_palette)
params = {'legend.fontsize': 22,
          'figure.figsize': (20, 14),
          'axes.labelsize': 22,
          'axes.titlesize': 26,
          'xtick.labelsize': 20,
          'ytick.labelsize': 20}
mpl.rcParams.update(params)

# Initiale Exploration der Daten

So sehen die Trainingsdaten aus:<br>
<img src="./Bilder/train_FD001.png">

Aus der readme Datei wissen wir wie die Daten aufgebaut sind:
<img src="./Bilder/readme.png">

## Laden der Daten:
Als nächstes werden die Trainingsdaten geladen. Zuerst legen wir jedoch die Namen der einzelnen Merkmale (Spalten) fest. Diese können wir der Readme entnehmen:<br>
1)	unit number<br>
2)	time, in cycles<br>
3)	operational setting 1<br>
4)	operational setting 2<br>
5)	operational setting 3<br>
6)	sensor measurement  1<br>
7)	sensor measurement  2<br>
...<br>
26)	sensor measurement  26<br>

In [None]:
# Festlegung der Namen der einzenlnen Merkmale (Spalten)
# Wir erstellen eine Lsite mit den ersten beiden Namen
index = ['engine#','tCycles']

# Wir erstellen eine Lsite mit den Namen für die Settings
settings = ['setting1','setting2','setting3']

# In der dritten Zeile erstellen wir eine Lsite mit den Namen für die Sensoren. Hierbei nutzen wir eine kleine Funktion,
# die eine Liste mit den Namen sensor1 bis sensor 24 erstellt.
sensors = ['sensor' + str(i) for i in range(1,24)]

# wir erstellen eine Liste col_names, die alle Namen enthält. Dabei können wir die vorherigen listen einfach mit
# einem + Verknüpfen
col_names = index + settings + sensors

# Mit dem Aufrufen von col_names können wir uns die Liste anschauen
col_names

In [None]:
# Laden der Trainingsdaten mit dem Befehl pd.read_csv(...)
# Der Funktion teilen wir den Pfad und Dateinamen mit, mit sep=' ' teilen wir der Funktion mit, dass die einzelnen
# Werte in einer Zeile durch ein Leerzeichen gtrennt sind und mit names=col_names teilen wir die Namen der Spalten mit.
df_train = pd.read_csv('./CMAPSSData/train_FD001.txt', sep=' ', names=col_names)

---
---
---
# Aufgabe 1
Nicht alle Sensoren liefern sinnvolle Informationen. Welche Sensoren sind das und sollten von der weiteren Analyse ausgeschlossen werden?
Die Daten und Sensoren können in den nächsten Zellen genauer betrachtet werden.

In [None]:
# Ein Blick auf die Trainingsdaten. Jede Zeile ist eine Beobachtung, jede Spalte ein Merkmal.
# Der Wert NaN (Abkürzung für: not a number) bedeutet, dass an dieser Stelle der Wert fehlt. 
df_train

Erstellung einer Funktion, mit der in einem Schaubild des Sensorverlaufs von mehreren Engines dargestellt werden kann


In [None]:
# Erstellung der Funktion Namens plot_sensor, die als Eingabe die Variable sensor_name benötigt.
def plot_feature(feature_name):
    plt.figure(figsize=(13,5))
    for i in df_train['engine#'].unique():
        if (i % 20 == 0):
            plt.plot(np.arange(0, df_train[df_train['engine#']==i].shape[0]),
                     feature_name,
                     data=df_train[df_train['engine#']==i])
    plt.xlim(0, 250)
    plt.xticks(np.arange(0, 275, 25))
    plt.ylabel(feature_name)
    plt.xlabel('"Zeit" angegeben in #tCycles')
    plt.show()

In der nächsten Zelle kann noch einmal der Verlauf von verschiedenen Merkmale dargestellt werden. Hierfür für wird die gerade erstellte Funktion <font color='blue'>plot_feature</font> genutzt. Durch die eingabe des Merkmalsnamen, z.B. <font color='darkred'>engine#</font> wird das Merkmal engine# für fünf verschiedene Engines über die Zeit (in tCycles) dargestellt. Man kann durch <font color='darkred'>engine#</font> durch den Namen eines anderen Merkmals ersetzen (Spalten in der Tabelle oberhalb). Die <font color='darkred'>' '</font> müssen stehen bleiben.


In [None]:
# Erstellen eines Schaubilds
plot_feature('engine#')

Als nächstes wollen wir uns einen Überblick über den Datensatz machen. Dabei hilft uns die Bibliothek pandas_profiling, die nur die eine Funktion "profile_report" beinhaltet. Durch den profile_report können wir mit Hilfe eines Befehls einen detallirte Übersicht über den Datnsatz erhalten. 

In [None]:
# Erstellen eines Profile Reports, der einen Überblick über den Datensatz und die Merkmale gibt.
# correlations=None verhindert, dass Korrelationen zwischen den Merkmalen berechnet werden. Dies wird hier hauptsächlich
# aus Performance Gründen gemacht, da die Berechnung der Korrelationen einige Zeit in Anspruch nimmt.
# Bei Interesse kann correlations=None gelöscht werden: pandas_profiling.ProfileReport(df_train)
profile_report = pandas_profiling.ProfileReport(df_train, correlations=None)
profile_report

# Ende Aufgabe 1
---
---
---

In der nächsten Zelle werden alle Merkmale, die keine Informationen oder Mehrwert liefern, gelöscht. Dabei werden alle Merkmale (Spalten) gelöscht, die in der List ***drop_cols*** stehen.

In [None]:
# Löschen von Merkmalen (Spalten), die keine Information beinhalten
# Die Funktion drop(...) können Zeilen oder Spalten gelöscht werden, dabei wird der Funktion folgende Paramter mitgegeben:
# labels: Liste von Zeilen- oder Spaltennamen, die gelöscht werden sollen
# axis: Gibt an, ob Zeilen oder Spalten gelöscht werden sollen, 0=Zeilen, 1=Spalten
drop_cols = ['setting3', 'sensor1', 'sensor5', 'sensor6', 'sensor10',
             'sensor16', 'sensor18', 'sensor19', 'sensor22', 'sensor23']
df_train = df_train.drop(labels=drop_cols, axis=1)

Hier laden wir nun noch die Testdaten. Die Funktion für das Einlesen der Daten ist gleich wie bei den Trainingsdaten und da die Testdaten gleich aufgebaut sind wie die Trainingsdaten können wir die gleichen Spaltennamen nutzen. <br>
Anschließend löschen wir direkt die gleichen Spalten, die wir auch im Trainingsdatensatz gelöscht haben. Auch hier ist die Funktion dieselbe.

In [None]:
# Laden der Testdaten
df_test = pd.read_csv('./CMAPSSData/test_FD001.txt', sep=' ', names=col_names)

# Löschen der selben Splaten, die auch im Trainingsdatensatz gelöscht wurden.
df_test = df_test.drop(drop_cols,axis=1)

# Anzeigen der Testdaten
df_test

# Feature engineering / Merkmale konstruieren

Für das Trainieren von Algorithmen benötigen wir eine Zielvariable. Die Zielvariable, ist das Merkmal, das wir in Zukunft mit Hilfe unseres KI-Algorithmus vorhersagen wollen. Eine solche Zielvariable müssen wir im vorliegendan Fall erst noch festlegen und ggf. erst noch konstruieren. Dabei gibt es kein richtig oder falsch, sondern mehrere Möglichkeiten dies zu tun. An dieser Stelle ist im Allgemeinen ein intensiver Austausch mit Domänenexperten sehr hilfreich.


---
---
---
# Aufgabe 2
Überlegen Sie sich was wir im vorliegenden Fall vorhersagen wollen und welches die Zielvariable sein könnte.

### Erstellung der Restlaufdauer (Remaining Useful Lifetime, RUL)
Eine Möglichkeit für die Zielvariable ist diesogenannte Remaining Useful Lifetime (RUL). Diese gibt für jeden Zeile an, wie lange die Maschine noch läuft, bis ein Defekt auftritt. Die RUL haben wir nicht direkt in den Date vorliegen und wir müssen diese erst aus der Laufzeit tCycle konstruieren.<br>
Die vermutlich einfachtse und naheliegendste Möglichkeit, die RUl zu definieren ist die Zeit vom Defekt rückwärts uz zählen. D.h. im letzen Durchlauf (tCycle) einer Engine wird die RUL auf 0 gesetzt, da kein weiterer Durchlauf mehr möglich ist. Dann wird rückwärts hochgezählt.

In [None]:
# Definition der Funktion "add_remaining_useful_life", die die RUL für jede Engine erzeugt.
def add_remaining_useful_life(df):
    # Erhalte die maximale Anzahl von Durchläufen pro Triebwerk (engine)
    grouped_by_unit = df_train.groupby(by='engine#')
    max_cycle = grouped_by_unit['tCycles'].max()
    
    # Erstelle eine neue Spalte "max_cycle", die die maximale Anzahl an Zyklus für jedes Triebwerk beinmhaltet
    result_frame = df_train.merge(max_cycle.to_frame(name='max_cycle'), left_on='engine#', right_index=True)
    
    # Berechne die RUL für jede Beobachtung (Zeile)
    remaining_useful_life = result_frame['max_cycle'] - result_frame['tCycles']
    result_frame['RUL'] = remaining_useful_life
    
    # Lösche die Spalte "max_cycle", da sie nicht Länger benötigt wird
    result_frame = result_frame.drop('max_cycle', axis=1)
    return result_frame

In [None]:
# Berechne die RUL für den Trainingsdatensatz
df_train = add_remaining_useful_life(df_train)

# Zeige die Testdatenmatrix mit dem neuen Merkmal "RUL"
df_train

### Erstelln von Trainings- und Testdatensatz
Die Testdaten und die Trainingsdaten werden jeweils in zwei Teile Aufgeteilt. Dabei ist X_train bzw. X_test immer der Datensatz, den der Algorithmus als Input bekommt und y_train bzw. y_test ist das Label, welches vom Algorithmus vorausgesagt werden soll.

In [None]:
# Erstelln von Trainings- und Testdatensatz
X_train = df_train.copy()
y_train = X_train.pop('RUL')


X_test = df_test.copy()
X_test = df_test.groupby('engine#').last().reset_index()

y_test = pd.read_csv(('./CMAPSSData/RUL_FD001.txt'), sep='\s+', header=None, names=['RUL'])

X_train = X_train.drop(labels=['tCycles'], axis=1)
X_test = X_test.drop(labels=['tCycles'], axis=1)

# Modellierung

#### Importiere benötigte Bibliotheken und Funktionen für die Modellierung

In [2]:
import tensorflow.keras as tfk
from sklearn import linear_modelb
from sklearn import svm
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import ShuffleSplit
from tensorflow.random import set_seed

# Setze einen Seed für den Zufallsnummergenerator für Reproduzierbarkeit
np.random.seed(1)
set_seed(1)

In [4]:
!pip3 freeze

absl-py==0.13.0
alembic==1.4.1
altair==4.1.0
altgraph==0.16.1
argon2-cffi==20.1.0
astor==0.8.0
astroid==2.3.3
astropy==4.0
astunparse==1.6.3
atomicwrites==1.3.0
attr==0.3.1
attrs==21.2.0
backcall==0.1.0
backports.zoneinfo==0.2.1
bcrypt==3.2.0
beautifulsoup4==4.9.3
bleach==3.1.0
blis==0.7.4
Boruta==0.3
Bottleneck==1.3.2
Brotli==1.0.9
cached-property==1.5.2
cachetools==4.1.0
catalogue==1.0.0
celluloid==0.2.0
certifi==2020.12.5
cffi==1.14.5
chardet==4.0.0
clang==5.0
click==7.1.2
cloudpickle==2.0.0
cloudscraper==1.2.58
cmake==3.14.4
colorama==0.4.1
colorlover==0.3.0
confuse==1.0.0
cryptography==3.3.2
cufflinks==0.17.3
cycler==0.10.0
cymem==2.0.5
Cython==0.29.14
dash==1.21.0
dash-core-components==1.17.1
dash-html-components==1.1.4
dash-table==4.12.0
databricks-cli==0.15.0
decorator==4.4.0
defusedxml==0.6.0
distro==1.5.0
docker==5.0.2
docutils==0.15.2
elasticsearch==7.5.1
entrypoints==0.3
et-xmlfile==1.1.0
Faker==2.0.4
fitparse==1.2.0
Flask==1.1.2
Flask-API==2.0
Flask-Compress==1.10.1
Flask-

#### Standardisierung (Skalieren) der Daten
Die Standardisierung der Daten wird für einige Algorithmen vorausgesetzt. Dabei werden alle Merkmale in einen vergleichbaren Wertebereich überführt. Da viele Algorithmen mit Zahlen arbeiten und diese mathematischen Operationen unterziehen besteht ansonsten das Problem, dass große Zahlen einen großen Einfluss auf den Algorithmus haben und z.B. die Wahl zwischen Metern und Millimetern einen großen Unterschied spielen würde, obwohl die Bedeutung von 1 m und 1000 mm die selbe ist.<br>
Es verschiedne Möglichkeiten die Merkmale zu Transformieren. Die wichtigsten sind:
* die Standardisierung (z-Transformation) bei der jedes Merkmal so trasformiert wird, dass es einen Mittelwert von 0 und eine Standaerabweichung von 1 hat. Dadurch bleiben die relativen Abstände innerhalb eines Merkmals erhalten.<br>
* die Normalisierung bei der alles Werte in einen Bereich zwischen 0 und 1 überführt werden.

In [None]:
# Skalieren der Daten mit Hilfe der Funktion StandardScaler

# Definition des Skalierers
scaler = StandardScaler()

# Anwenden des Skalierers auf die Trainingsdaten
X_train_scaled = scaler.fit_transform(X_train)

# Anwenden des Skalierers auf die Testdaten
X_test_scaled = scaler.fit_transform(X_test)

#### Definition einer Loss Function
Die Loss Function wird genutzt um den Fehler (loss) des Algorithmus zu berechnen. Anhnd des Loss lässt sich der ALgorithmus optimieren (möglichst kleiner Fehler) und es können anhand der Größe des Fehlers unterschiedliche Algorithmen verglichen werden. Es gibt viele verschiedene Loss Functions, die genutzt werden können. Einige wichtige Loss Functions sind:
* 0-1 loss
* RMSE (root mean squared error)
* Likelihood loss
* Hinge loss

In [None]:
# Definition des RMSE, das im Folgenden als Loss genutzt wird
def root_mean_squared_error(y_true, y_pred):
    return tfk.backend.sqrt(tfk.backend.mean(tfk.backend.square(y_pred - y_true)))

## Zum Start ein einfacher Algorithmus / Modell: Lineare Regression

Definition der Begriffe Algorithmus und Modell
* Ein Algorithmus ist eine eindeutige Handlungsvorschrift zur Lösung eines Problems oder einer Klasse von Problemen. Algorithmen bestehen aus endlich vielen, wohldefinierten Einzelschritten. Damit können sie zur Ausführung in ein Computerprogramm implementiert, aber auch in menschlicher Sprache formuliert werden. Bei der Problemlösung wird eine bestimmte Eingabe in eine bestimmte Ausgabe überführt. [1]
* Ein Maschine Learning (ML) Algorithmus ist ein Algorithmus aus dem Bereich des Machine Learnings. Dieser Algorithmus wird mit Daten trainiert und lernt aus diesen Zusammenhänge und Muster. Ein Algorithmus ist somit immer in der Entwicklungsphase und noch Gegenstand von Anpassung und Optimierung. Für die optimierung eines Modells wird viel Rechenleistung benötigt.
* Ein (ML) Modell ist ein mit den vorhandenen Daten fertig trainierter und optimierter Algorithmus. Das Modell ist in der Lage für neue Daten, die dem Algorithmus während des Trainings unbekannt waren, Aussagen zu treffen. Ein ML-Modell kann in einen Produktiveinsatz gebracht werden und in bestehenden IT-Systeme integriert werden. Im produktiveinsatz benötigt ein Modell normalerweise nur geringe Rechenleistung.


In [None]:
# Definition des Algorithmus
model_linear = LinearRegression()

In [None]:
# Training des Algorithmus
model_linear.fit(X_train_scaled, y_train)

In [None]:
# Definition einer Funktion, die den Trainings- und Testfehler berechnet und ausgibt
def evaluate(y_true, y_hat, label='test'):
    mse = mean_squared_error(y_true, y_hat)
    rmse = np.sqrt(mse)
    variance = r2_score(y_true, y_hat)
    print('{} set RMSE:{}, R2:{}'.format(label, rmse, variance))

In [None]:
# Evaluation des Modells
y_hat_train = model_linear.predict(X_train_scaled)
evaluate(y_train, y_hat_train, 'train')

y_hat_test = model_linear.predict(X_test_scaled)
evaluate(y_test, y_hat_test)

---
---
---
# Aufgabe 3
Der Fehler für das Trainingsset ist "train set RMSE", der Fehler des Testsets ist "test set RMSE". Es fällt auf, dass der Testfehler kleiner ist als der Trainingsfehler. Im Allgemeinen sollte dies genau umgekehrt sein.
<br>
<br>
Versuchen Sie folgende Fragen zu beantworten:
<br>
Warum ist der Trainingsfehler normalerweise kleiner als der Testfehler?

# Ende Aufgabe 3
---
---
---

# Genaue Betrachtung der RUL

---
---
---
# Aufgabe 4
Genaue Betrachtung der Restnutzungsdauer (RUL), die wie vorhin selbst erstellt haben.
<br>
Was fällt bei dieser auf?
<br>
Worin könnten Probleme liegen (Trainingsdaten vs. Testdaten)?

In [None]:
# Erstellen zweier Schaubilder. Diese zeigen die Verteilung der RUL im Trainings- und im Testdatensatz

# Berechnung der maximalen RUL jeder Engines bzw. wie viele Zeitschritte eine Engine funktioniert bis zum Defekt.
df_max_rul = df_train[['engine#', 'RUL']].groupby('engine#').max().reset_index()

# Estellung eines "Canvas", eines leeren Bildes
fig = plt.figure(tight_layout=True)

# Hinzufügen des ersten Plots
ax = fig.add_subplot(211)
df_max_rul['RUL'].hist(ax=ax, bins=range(25, 350, 20))
plt.xlabel('RUL')
plt.ylabel('Häufigkeit')
plt.title('Trainingsdaten')

# Hinzufügen des zweiten Plots
ax2 = fig.add_subplot(212)
y_test['RUL'].hist(ax=ax2, bins=range(25, 350, 20))
plt.xlabel('RUL')
plt.ylabel('Häufigkeit')
plt.title('Testdaten')
plt.show()

In [None]:
# Erstellung eines Schabilds, welches die RUL und einen beispielhaften Sensor für ein Triebwerk zeigt
fig, ax1 = plt.subplots(1,1, figsize=(13,5))

unit20_RUL = np.array(df_train.loc[df_train['engine#']==20, 'RUL'])
unit20_sensor12 = np.array(df_train.loc[df_train['engine#']==20, 'sensor12'])

signal = ax1.plot(unit20_RUL, unit20_sensor12, color=fh_blue)

plt.xlim(250, 0)
plt.xticks(np.arange(0, 275, 25))
ax1.set_ylabel('Sensor 12', labelpad=20)
ax1.set_xlabel('RUL', labelpad=20)

ax2 = ax1.twinx()
rul_line = ax2.plot(unit20_RUL, unit20_RUL, 'k', linewidth=4)
ax2.set_ylabel('RUL', labelpad=20)

ax2.set_ylim(0, 250)
ax2.set_yticks(
    np.linspace(ax2.get_ybound()[0], ax2.get_ybound()[1], 6))
ax1.set_yticks(
    np.linspace(ax1.get_ybound()[0], ax1.get_ybound()[1], 6))

lines = signal+rul_line
labels = ['sensor12', 'RUL']
ax1.legend(lines, labels, loc=0)

plt.show()

# Ende Aufgabe 3
---
---
---

# Erstellung einer besseren / optimierten Restlaufdauer
Für die optimierte RUL werden alle Werte oberhalb von 125 auf 125 gesetzt. Ob dies wirklich sinnvoll ist, sollte an dieser Stelle mit Domain Experten diskutiert werden und auch der Wert 125 evaluiert werden.

In [None]:
# Berechnung der optimierten Restlaufdauer RUL 
y_train_optimized = y_train.clip(upper=125)

In [None]:
# Erstellung eines Schabilds, welches die RUL, die optimierte RUL und einen beispielhaften Sensor für ein Triebwerk zeigt
fig, ax1 = plt.subplots(1,1, figsize=(13,5))

signal = ax1.plot(unit20_RUL, unit20_sensor12, color=fh_blue)

rul = df_train.loc[df_train['engine#']==20, 'RUL']
unit20_RUL_optimized = unit20_RUL.copy()
unit20_RUL_optimized[unit20_RUL_optimized >= 125] = 125

plt.xlim(250, 0)
plt.xticks(np.arange(0, 275, 25))
ax1.set_ylabel('Sensor 12', labelpad=20)
ax1.set_xlabel('verbleibende Laufzeit', labelpad=20)

ax2 = ax1.twinx()
rul_line = ax2.plot(unit20_RUL, unit20_RUL, 'k', linewidth=4)

rul_line2 = ax2.plot(unit20_RUL, unit20_RUL_optimized, '--', linewidth=4, color=fh_teal)

ax2.set_ylim(0, 250)
ax2.set_yticks(
    np.linspace(ax2.get_ybound()[0], ax2.get_ybound()[1], 6))
ax1.set_yticks(
    np.linspace(ax1.get_ybound()[0], ax1.get_ybound()[1], 6))

lines = signal+rul_line+rul_line2
labels = ['Sensor 12', 'RUL', 'Optimierte RUL']
ax1.legend(lines, labels, loc=0)
plt.show()

#### Lineare Regression mit optimiertem RUL

In [None]:
# Model Definition
lm = LinearRegression()

# Model Training
lm.fit(X_train_scaled, y_train_optimized)

# Model Evaluation
y_hat_train = lm.predict(X_train_scaled)
evaluate(y_train_optimized, y_hat_train, 'train')
y_hat_test = lm.predict(X_test_scaled)
evaluate(y_test, y_hat_test)

# Weitere Modelle

## Model Definition

### Definition eines Random Forest

In [None]:
model_forest = RandomForestRegressor(n_estimators=10)

### Definition eines Neural Network (Input Layer und Output Layer)

In [None]:
optim = tfk.optimizers.RMSprop(learning_rate=0.01)

inputs = tfk.Input(shape=(17,))
outputs = tfk.layers.Dense(1, activation=tfk.activations.relu)(inputs)

model_nn = tfk.Model(inputs=inputs, outputs=outputs)
model_nn.compile(optimizer='rmsprop',loss = root_mean_squared_error)

### Definition eines Tiefen Neuronalen Netzes (Deep Neural Network; Input Layer, 3 Hidden Layer, Output Layer)

In [None]:
inputs = tfk.Input(shape=(17,))
x = tfk.layers.Dense(17, 
                     activation=tfk.activations.relu,
                     kernel_initializer='glorot_normal',
                     activity_regularizer=tfk.regularizers.l1(0.00002))(inputs)
x = tfk.layers.Dense(70, 
                     activation=tfk.activations.relu,
                     kernel_initializer='glorot_normal',
                     activity_regularizer=tfk.regularizers.l1(0.00002))(x)
x = tfk.layers.Dense(60, 
                     activation=tfk.activations.relu,
                     kernel_initializer='glorot_normal',
                     activity_regularizer=tfk.regularizers.l1(0.00002))(x)
x = tfk.layers.Dense(50, 
                     activation=tfk.activations.relu,
                     kernel_initializer='glorot_normal',
                     activity_regularizer=tfk.regularizers.l1(0.00002))(x)
x = tfk.layers.Dense(40, 
                     activation=tfk.activations.relu,
                     kernel_initializer='glorot_normal',
                     activity_regularizer=tfk.regularizers.l1(0.00002))(x)
x = tfk.layers.Dense(10,
                     activation=tfk.activations.relu,
                     kernel_initializer='glorot_normal',
                     activity_regularizer=tfk.regularizers.l1(0.00002))(x)
outputs = tfk.layers.Dense(1,
                           activation=tfk.activations.relu,
                          activity_regularizer=tfk.regularizers.l1(0.00002))(x)

model_deep_nn = tfk.Model(inputs=inputs, outputs=outputs)
model_deep_nn.compile(optimizer=optim,
                      loss = root_mean_squared_error,
                     metrics=[root_mean_squared_error])

#### Definition einer Support Vector Maschine (SVM)

In [None]:
supVecMac = svm.SVR(kernel='linear')

# Model Training

### Training des Random Forest

In [None]:
model_forest.fit(X_train_scaled, y_train_optimized)

### Training des Neural Network

In [None]:
# Umwandeln der Daten in ein Datenformat, mitdem das Neuronale Netz arbeiten kann.
X_train_scaled = np.float32(X_train_scaled)
y_train_optimized = np.float32(y_train_optimized)

In [None]:
model_nn.fit(X_train_scaled, y_train_optimized, batch_size=10, epochs=10)

### Training des Deep Neural Networks

In [None]:
model_deep_nn.fit(X_train_scaled, y_train_optimized, batch_size=10, epochs=10)

### Training der Support Vector Machine

In [None]:
supVecMac.fit(X_train_scaled, y_train_optimized)

# Model Evaluation & vergleich aller Modelle

In [None]:
# evaluation der zueben Trainierten Modelle
model_linear = linear_model.LinearRegression()
model_linear.fit(X_train_scaled, y_train_optimized)

models = [model_linear, model_forest, model_nn, model_deep_nn, supVecMac]

metric = metrics.mean_squared_error
metric_per_model = []
for model in models:
    prediction = model.predict(X_test_scaled)
    cost = metric(y_test, prediction)
    cost = np.sqrt(cost)
    metric_per_model.append(cost)

In [None]:
# Darstellung der Testfehler in einem Schaubild
x = np.arange(len(metric_per_model))
model_names = ['Lineare \n Regression', 'Random Forest', 'Neural \n Network', 'Deep Neural \n Network', 'Support \n Vector Machine']


fig, ax = plt.subplots()
bar = ax.bar(x, metric_per_model, .5)
plt.xticks(x,[model for model in model_names])

for rect in bar:
    height = rect.get_height()
    ax.text(rect.get_x() + rect.get_width()/2., .2 + height,
            '%8.2f' % height,
            ha='center', va='bottom',
            fontsize=20)

plt.title('Testfehler verschiedener Algorithmen')
plt.ylabel('Testfehler (RMSE)');

# Hyperparameter-Optimierung (Hyperparamter tunining)

---
---
---
# Aufgabe 5
Welches sind die optimaten Hyperparamter für einen Random Forest?
<br>
Versuche verschiedene Hyperparametr aus. Dabei können in der nächsten Zelle die folgenden Hyperparameter angepasst werden:
<br>
<b>n_estimator:</b> Anzahl der Bäume (ganze Zahl zwischen 2 und 100. Je höher die Zahl, desto länger dauert die Berechnung)
<br>
<b>max_depth:</b> Maximale Tiefe eines Baumes (ganze Zahl zwischen 2 und 15 oder None, falls keine maximale Tiefe vorgegebn werden soll)
<br>
<b>max_features:</b> Maximale Anzhal der Merkmale, die für das erstellen eines Baumes zufällig ausgewählt wertden (ganze Zahl zwischen 2 und 15 oder “auto”, “sqrt”, “log2”. Der Standardwert ist sqrt(n_features), die Quadratwurzel der Anzahl der Merkmale)
<br>
Es gibt noch viele weitere...

In [None]:
# Definition des Random Forests
model_forest2 = RandomForestRegressor(n_estimators=100, max_depth=5, max_features='sqrt')

In [None]:
# Training des Random Forests
model_forest2.fit(X_train_scaled, y_train_optimized)
y_pred = model_forest2.predict(X_train_scaled)
print('Trainingsfehler (RMSE):', np.sqrt(metrics.mean_squared_error(y_train_optimized, y_pred)))

##### Ende Aufgabe 5
---
---
---

# Zufällige Suche (Random Search) der optimalen Hyperparamter für einen Random Forest

In [None]:
# Erstellen der Random Search mit Angabe, welche Hyperparameter mit welchen werten getestet werden sollen
def Random_Search_CV_RFR(X_train, y_train):

    estimator = RandomForestRegressor()
    param_grid = { 
            'n_estimators'      : [10, 50, 100],
            'max_features'      : ['sqrt', 'log2'],
            'max_depth'         : [2, 4, 6, 8, 10, 12, 14, None],
            'min_samples_split' : [2,4,8,16],
            'bootstrap': [True, False]
            }

    random_params = RandomizedSearchCV(estimator, param_grid, n_iter=50, n_jobs=-1, cv=5)

    random_params.fit(X_train, y_train)

    return random_params.best_score_ , random_params.best_params_

def RFR(X_train, X_test, y_train, y_test, best_params):
    
    estimator = RandomForestRegressor(n_jobs=-1).set_params(**best_params)
    estimator.fit(X_train,y_train)
    y_predict = estimator.predict(X_test)
    return y_test,y_predict

In [None]:
# Durchführen der Random Search für den Random Forest
best_score, best_params = Random_Search_CV_RFR(X_train_scaled, y_train_optimized)
y_test , y_predict = RFR(X_train_scaled, X_test_scaled, y_train_optimized, y_test, best_params)
print('Best params:', best_params)

### Der Random Forest mit den optimalen Hyperparametern

In [None]:
# Der Random Forest mit den optimalen Hyperparametern wird nun noch einmal mit allen Daten trainiert
model_forest3 = RandomForestRegressor(n_estimators=100, min_samples_split=8, max_features='sqrt',
                                       max_depth=12, bootstrap=True)
model_forest3.fit(X_train_scaled, y_train_optimized)
y_pred = model_forest3.predict(X_train_scaled)

In [None]:
# Testfehler des Random Forest mit den optimalen Hyperparametern
y_pred = model_forest3.predict(X_test_scaled)
print('Testfehler (RMSE):', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

# Vergleich aller Modelle

In [None]:
# evaluation der Trainierten Modelle, inklusive des optimierten Random Forest
models2 = [model_linear, model_forest, model_forest3, model_nn, model_deep_nn, supVecMac]

metric = metrics.mean_squared_error
metric_per_model2 = []
for model in models2:
    prediction = model.predict(X_test_scaled)
    cost = metric(y_test, prediction)
    cost = np.sqrt(cost)
    metric_per_model2.append(cost)

In [None]:
# Darstellung der Testfehler in einem Schaubild
x = np.arange(len(metric_per_model2))
model_names2 = ['Lineare \n Regression', 'Random Forest', 'Optimierter  \n Random Forest', 'Neural \n Network', 'Deep Neural \n Network', 'Support \n Vector Machine']


fig, ax = plt.subplots()
bar = ax.bar(x, metric_per_model2, .5)
plt.xticks(x,[model for model in model_names2])

for rect in bar:
    height = rect.get_height()
    ax.text(rect.get_x() + rect.get_width()/2., .2 + height,
            '%8.2f' % height,
            ha='center', va='bottom',
            fontsize=20)

plt.title('Testfehler verschiedener Algorithmen')
plt.ylabel('Testfehler (RMSE)');