# MLiP  Ensemble Learning am Beispiel PSF

#### In diesem Notebook werden Verfahren des Ensemble Learnings für Decision Trees anhand des Anwendungsbeispiels Profilschienenführung (PSF) geübt. 

Linearführungen und Profilschienenführungen sind für einen nicht unbedeutenden Teil der Ausfälle bei Werkzeugmaschinen.
Typische Fehlerfälle die dabei auftreten sind Mangelschmierungen, Pittings an Laufbahnen oder an den Wälzkörpern. In diesem Beispiel ist aber der grundlegende Zustand der PSF von Interesse, d.h. ist der Zustand fehlerfrei (OK) oder machen sich Verschleißerscheinungen (Ausfall) deutlich. 

Für dieses Beispiel wurden mehrere Profilschienen unter Belastung bis zu ihrem Lebensende verfahren. Die dabei auftretenden Fehler sind natürlich entstanden. Dementsprechend unterscheiden Sie sich sowohl in der Art als auch in der Stärke.

Während der Versuche wurde mittels einem 3-achsigen MEMS-Sensor die Beschleunigungen, in Verfahrrichtung (Acc_X)
in Richtung oder entgegen Erdmittelpunkt (Acc_Y) und orthogonal zu beiden in Richtung des Seitennormalenvektor des Versuchsstands (Acc_Z) aufgenommen. Die entsprechenden Zeitreihen:
<table><tr>
<td> <img src="MLiP_PSF_Messfahrt_gut.png" alt="Status OK" style="width: 250px;"/> </td>
<td> <img src="MLiP_PSF_Messfahrt_ausfall.png" alt="Status Ausfall" style="width: 250px;"/> </td>
</tr></table>
Für diese Aufgabe wurde nur die Beschleunigung in Verfahrrichtung (Acc_X) verwendet. Deren Werte wurden bereits zu Features zusammengefasst, anhand denen nun ein Ensemble Learning Methode, Random Forest bzw. Gradient Boosting angewendet wird.


### Data-Mining-Prozess:

![Bild konnte nicht geladen werden! 1. Daten erfassen - 2. Daten erkunden - 3. Daten vorbereiten - 4. Modelle bilden - 5. Modelle validieren - 6. Modell testen](Prozess_Modellentwicklung_v2.png "ML Vorgehen")

### 0. Bibliotheken importieren

In [None]:
# Importiere benötigte Bibliotheken
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, f1_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

#Einstellungen für die Grafikausgabe
style = 'seaborn-whitegrid'
plt.style.use(style)
plt.rcParams.update({'font.size': 14})  # Schriftgröße aller Textzeichen im Graphen

TODO:
* Wähle eine Zahl zwischen 1 und 100 für die Generierung deiner spezifischen Zufallszahlen my_seed=

(Wähle für alle Notebooks in allen Übungen immer die gleiche Zahl (z.B. den Tag deines Geburtstags), dann sind die Ergebnisse der verschiedenen Machine-Learning-Verfahren vergleichbar da dann alle Notebooks mit der "gleichen" Folge an Zufallszahlen arbeiten)

AUSGABE:
* Gewählte Zufallszahl

In [None]:
# Erstelle eigene Zufallszahlen
my_seed = TODO

# Ausgabe gewählte Zufallszahlen
print("\nGewählte Zahl für Zufallszahlen: \t" + str(my_seed))

### 1. Daten erfassen - Daten importieren

Import der Daten mittels der read_csv-Funktion von Pandas.  
Achtung, es gibt zwei Datensätze, einen mit den Trainingsdaten und einen mit den Testdaten. 

In [None]:
# Lade Datensatz
TODO

### 2. Daten erkunden

In [None]:
# Datensatz anzeigen
TODO

In [None]:
# Datensatz beschreiben
TODO

In [None]:
# Berechnung der No Information Rate (NIR)
# also welche Genauigkeit wird erhalten, wenn immer ok vorhegesagt wird. 

NIR = len(df[df.Status=='OK'])/len(df)

print('NIR / baseline für Bewertung der Accuracy: ' + str(round(NIR, 4)))

In [None]:
# Visualisierung Klassenzugehörigkeits-Matrix für zufällige Auswahl von 200 Datenpunkten
import seaborn as sns

sns.pairplot(df.sample(n=200), hue="Status")
plt.show()

# Achtung, dies kann etwas dauern!

### 3.1 Daten vorbereiten - Encoding der Label

Die Zielspalte liegt noch im String Format vor, damit können die Verfahren nicht umgehen. Daher wird mit der Funktion LabelEncoder von sklearn die String Werte 'OK' und 'Ausfall' in Zahlenwerte 0 und 1 umgewandelt. 

In [None]:
# Encoding des Status mittels dem Label Encoder
# Import des LabelEncoder
from sklearn.preprocessing import LabelEncoder

# Initialsierung
le = LabelEncoder()

# LabelEncoder bekommt zu transformierende Labels, erstellt internes Mapping
le.fit(['OK', 'Ausfall'])

# Beispielhafte Anwendung des LabelEncoder
print('Beispiel LabelEncoder')
print('Original Labels: \t' + str(['Ausfall', 'OK', 'OK', 'Ausfall', 'OK']))
print('Transformierte Labels: \t' + str(le.transform(['Ausfall', 'OK', 'OK', 'Ausfall', 'OK'])))

# Anwendung LabelEncoder auf DataFrame
df = df.assign(status_enc = le.transform(df['Status']) )
df.head(5)

### 3.2 Daten vorbereiten - Aufteilung der Daten

Einzelne Prüflinge können spezifische Charakteristika aufweisen. Daher kann es passieren, dass der ML Algorithmus diese Charakteristika und nicht die grundlegenden Zusammenhalte lernt. Durch die Bildung eines vollständig unabhängigen Testdatensatz wird sichergestellt, dass das Modell wirklich gut auf neue Versuche generalisiert. 

In [None]:
# Daten in Trainings- und Test aufteilen

# Setting random seed for numpy
np.random.seed(my_seed)

# zufällige Auswahl von 6 Prüflingen für den Testdatensatz
test_IDs = np.random.choice(df['Pruefling_ID'].unique(),6)
print('Ausgewählte Prüflinge für Testdatensatz: ' + str(test_IDs))

# Aufteilung in Trainings und Testdatensatz
df_test = df[df['Pruefling_ID'].isin(test_IDs)]
df_train = df[~df['Pruefling_ID'].isin(test_IDs)]

# Aufteilung in X und y jeweils für Trainings- und Testdaten
X_train = df_train.drop(columns=['Messfahrt_ID', 'Pruefling_ID', 'Status', 'status_enc'])
y_train = df_train['status_enc']

X_test = df_test.drop(columns=['Messfahrt_ID', 'Pruefling_ID', 'Status', 'status_enc'])
y_test = df_test['status_enc']

# Ausgabe Datensätze und Anzahl Datenpunkte
print("\nAnzahl Traingsdaten: \t\t" + str(len(y_train)) + " / " + str(len(df)))
print("Anzahl Testdaten: \t\t" + str(len(y_test)) + " / " + str(len(df)))

### 3.3 Daten vorbereiten - Normierung der Daten
__Optional__ können die Input-Parameter normiert werden.   
Allerdings hat dies keine Auswirkungen auf die Performance der Entscheidungsbaum-basierten Verfahren. 
Daher wird hier auf diesen Schritt verzichtet.

### 4.1 Modell bilden - Modell importieren
Zuerst müssen wir das Modell importieren, damit wir es später nutzen können. 
Die Übung kann dabei mit dem Random Forest und Gradient Boosting gelöst werden. 

TODO:
- Importiere mindestens eins der beiden Modelle, Random Forest und Gradient Boosting

In [None]:
# Importiere das Modell aus der Bibliothek sklearn
TODO

Hilfe zum Import:
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble

### 4.2 Modelle bilden - Hyperparameter Tuning mittels Gittersuche

Um die optimalen Werte für die Hyperparameter zu finden, wird eine Gittersuche mit Crossvalidation __GridSearchCV__ durchgeführt:
1. Hyperparameter bestimmen\
Für die Ensemble Learning Verfahren RandomForest und GradientBoosting werden in diesem Notebook 3 Hyperparameter eingestellt:
- n_estimators: Anzahl der Bäume, Suchbereich Liste [50, 100, 150, 200, 250]
- min_samples_leaf: Minimale Anzahl der Beispiele je Blatt, Suchbereich Liste [1, 2, 3, 4]
- max_depth: Maximale Tiefe der Bäume, Suchbereich numpy Array np.linspace(2,7,6) ergibt 6 Werte gleichverteilt von 2 bis 7, also (2, 3, 4, 5, 6, 7)  
- random_state: Startwert Zufallszahlengenerator, fester Wert [my_seed].
Für das Verfahren GradientBoosting empfiehlt es sich zudem die Lernrate als Hyperparameter zu optimieren. Damit aber die vordefinierten Hyperparameter für beide Verfahren funktionieren, wurde auf die Lernrate verzichtet.\
\
Die Hyperparameter werden als Dictionary gebraucht, das ist eine Datenstruktur mit mehreren Einträgen von key-Value Paaren, d.h. eindeutige Bezeichner (keys) und den zugehörigen Werten.


2. Modell erstellen\
Wenn manche Hyperparameter kann man diese entweder als Hyperparameter in Schritt 1 mit aufnehmen oder direkt an das Modell übergeben. Da das Modell unklar ist, wurde der Hyperparameter random_state bereits in Schritt 1 der fixe Wert my_seed festgelegt. 

3. Gittersuche parameterieren\
In diesem Schritt werden Parameter für die Klasse GridSearchCV eingestellt und dann in einer Variable gespeichert.\
Parameter: 
* 1. Parameter: das ML-Modell, hier model 
* 2. Parameter: die Hyperparameter, hier hyper_parameters, diese müssen als dictionary gegeben sein (vgl. Schritt 1) 
* return_train_score=True, um die Trainingsergebnisse zu erhalten
* cv=5, Anzahl der Folds, die gebildet werden 
* n_jobs=-2 Parallelisierung der Berechnung, alle bis auf ein Prozessorkern wird genutzt

4. Modelle trainieren\
Das Training der Modelle erfolgt wieder mit dem fit Befehl. Diesem müssen die Trainingsdaten übergeben werden. 

TODO:
- Erzeuge ein Modell, Random Forest oder Gradien Boosting Model, je nach Wunsch
- Übergebe der GridSearchCV Klasse, das Modell (model) und die Hyperparameter (hyper_parameters)
- Setze die Trainingsdaten in den .fit-Befehle ein (X_train und y_train)  
- __Optional__ Ändere die Hyperparameter, um ein besseres Modell zu finden
    
AUSGABE:
- Anzahl der getesteten Hyperparameterkombinationen
- Zeitdauer für Gittersuche
- bestes Modell


In [None]:
# Werte für die Gittersuche/Hyperparameter
from sklearn.model_selection import GridSearchCV
import time

start_timer = time.monotonic()
# 1. Hyperparameter bestimmen - für die Suche und Suchbereiche 
hyper_parameters = {"n_estimators": [50, 100, 150, 200, 250], 
                    "min_samples_leaf":  [1, 2, 3, 4], 
                    "max_depth": np.linspace(2,7,6),
                    "random_state": [my_seed]}

# 2. Modell erzeugen
model = TODO

# 3. Gittersuche parametrieren
gridSearch = GridSearchCV(TODO, TODO, return_train_score=True, cv=5, n_jobs=-2)
# 4. Modelle trainieren
gridSearch = gridSearch.fit(TODO, TODO)
print("\nDie Gittersuche (" + str(len(pd.DataFrame(gridSearch.cv_results_)))
      + " Kombinationen) hat " + str("%.1f" % (time.monotonic() - start_timer))
      + " Sekunden gedauert.")

### 5.1 Modelle validieren - GridSearch Ergebnisse begutachten

In der Variablen GridSearch sind nun die Ergebnisse der Gittersuche gespeichert.  

Mit dem Befahl GridSearch.cv_results_ bekommen wir die Ergebnis-Tabelle der Gittersuche (hier: besten 5 Ergebnisse). 

TODO: 
- Ergebnisse bewerten\
Dabei gilt es in der Tabelle zu überprüfen, ob die "test_scores" also Ergebnisse der Valdierung gleichmäßig gut sind und es kein Overfitting gibt (vgl. splitxy_test_score mit splitxy_train_score)


In [None]:
# Top 5 Ergebnisse
pd.set_option('display.max_columns', None)
pd.DataFrame(gridSearch.cv_results_).sort_values("mean_test_score", ascending=False).head(5)

### 5.2 Modelle validieren - Modell auswählen 

Nach dem GridSearchCV Training interessiert uns, mit welchen Hyperparameter das beste Ergebnis bei der Crossvalidation erzielt wurde. 
TODO:
- Setze den Befehl "best_params_" ein, um die entsprechende Methode der Klasse gridsearch aufzurufen

Ausgabe:
- Hyperparameter mit dem besten Ergebnis

In [None]:
# Beste Kombination der Hyperparameter
gridSearch.TODO

Nun muss das Modell mit den optimalen Hyperparametern erstellt und dann mit den Trainingsdaten trainiert werden.  
Diese Aufgabe übernimmt bereits die GridSearch-Funktion. Somit muss das beste Modell nur noch extrahiert werden. 

TODO:
- Setze den "best_estimator_" ein, um die entsprechende Methode aufzurufen und das beste Modell zu extrahieren. 

In [None]:
# Extraktion des Modells
model = gridSearch.TODO

### 5.3 Modelle validieren - Bewertung des Trainings
Wir berechnen die Genauigkeit des Modells auf den Trainingsdaten (richtige Vorhersagen/alle Vorhersagen).

TODO:
* Vorhersage auf den Trainingsdaten
* Genaugigkeit auf den Trainingsdaten
* F1-Score der Trainigsdaten

In [None]:
# Berechnung der Vorhersage basierend auf den Trainingsdaten
y_train_pred = TODO

# Berechne Genauigkeit auf den Trainingsdaten
accuracy_train = TODO

# Berechne den F1-Score auf den Trainingsdaten
f1score_train = TODO

# Ausgabe der Modellgenauigkeit
print('Ergebnis für das Training:')
print('Accuracy: \t' + str(round(accuracy_train, 4)))
print('F1-Score: \t' + str(round(f1score_train, 4)))

### 6.1 Modell testen & anwenden - Genauigkeit auf Testdaten und Konfusionsmatrix

Um die Qualität/Güte des Modells zu bestimmen wird dieses auf den Testdaten getestet und die Konfusionsmatrix ausgegeben.

TODO:
* Vorhersage auf den Testdaten
* Genaugigkeit auf den Testdaten
* F1-Score der Testdaten

In [None]:
# Berechnung der Vorhersage basierend auf den Testdaten
y_test_pred = TODO

# Berechne Genauigkeit auf den Testdaten
accuracy_test = TODO

# Berechne den F1-Score auf den Testdaten
f1score_test = TODO

# Ausgabe der Modellgenauigkeit
print('Ergebnis für den Test:')
print('Accuracy: \t' + str(round(accuracy_test, 4)))
print('F1-Score: \t' + str(round(f1score_test, 4)))


# Visualisierung der Konfusionsmatrix
ConfusionMatrixDisplay.from_estimator(model, X_test, y_test)
plt.grid()
plt.title('Konfusionsmatrix auf Testdaten')
plt.show()

### 7. Bonus - Feature Importance

In [None]:
# Ausgabe Graph Einfluss der Input-Variablen
plt.figure(figsize=(16, 6))
plt.bar(list(X_train), model.feature_importances_, align="center")
plt.title("Feature Importance")
plt.ylabel('Importance Score')
plt.xlabel('Feature')
plt.xticks(rotation=30)
plt.show()