# Schulungsnotebook - H2O AutoML
In diesem Notebook geht es um die Anwendung vom Supervised Learning mit der H2O AutoML Bibliothek. Dafür verwenden wir den Datensatz "Titanic_train.csv".
Eine Frage, die sich hier aufdrängt, lautet:  Ob eine Person, die an Bord der RMS Titanic war, eine Überlebenschance hatte oder nicht?

# 1 Vorverarbeitung

## 1.1 Importieren der notwendingen Pandas-Bibliothek

## 1.2 Einlesen der CSV-Datei mit Pandas

## Interpretation der Attribute

*   **PassengerID:** gibt die ID aller Passagiere an.
*   **Survived:** Enthält die Werte 0 und 1. Dabei steht 0 für nicht-überlebt und 1 für überlebt.
*   **PClass:** gibt die drei verschiedenen Passagierklassen an (1,2,3).
*   **Name:** Name des Passagiers.
*   **Sex:** Geschlecht der Passagiere.
*   **Age:** Alter der Passagiere.
*   **SibSp:** Angabe, dass der Passagier Geschwister und Ehepartner hat.
*   **Parch:** Ob ein Passagier allein oder mit der Familie unterwegs ist.
*   **Ticket:** gibt die Ticketnummer der Passagiere an.
*   **Fare:** Angabe des Fahrpreises.
*   **Cabine:** Kabine der Passagiere.
*   **Embarked:** Ort der Schiffsbesteigung (C = Cherbourg, Q = Queenstown, S = Southampton).


## 1.3 Behandlung von fehlenden Werten

Lassen Sie sich fehlende Werte anzeigen und führen Sie folgende Schritte der Datensäuberung durch:

In [None]:
df.isnull().sum()

Aus dem obigen Ergebnis kann entnommen werden, dass Spalten 'Age', 'Cabin' und 'Embarked' viele fehlende Werte haben.

Im Folgenden sollen Sie bei der Spalte 'Age' diese durch den Mittelwert (mean), bei 'Embarked' durch den häufigsten Wert (mode()[0]) und bei 'Cabin' durch den Text 'Fehlender Wert' ersetzen.

Überprüfen Sie, ob alle fehlenden Werte behandelt wurden.

Es gibt Spalten, die in diesem Prozess nicht von großer Bedeutung sind. Lassen Sie uns die Spalten PassengerId, Name und Ticket entfernen. 

Es ist eine Datentransformation für die Spalten "Sex" und "Embarked" von kategorischen Werte in numerische Werte notwendig.

Ersetzen Sie dabei die Ausprägungen von Sex und Embarked durch numerische Werte (0,1,..).

# 2 H2O AutoML

## 2.1 Installation der H2O AutoML Bibliothek

Installieren Sie die H2O-Bibliothek (Die Ausführung kann hier 2-3 Minuten dauern!) 

In [None]:
!pip install h2o

Importieren von notwendigen Bibliotheken

In [None]:
import h2o
from h2o.automl import H2OAutoML

Initialisieren des H2O Clusters.
Dies ist ein notwendiger Schritt, um die in H2O verwendeten Modelle entwickeln zu können.

In [None]:
h2o.init()

## 2.2 Umwandlung des Pandas DataFrame in ein H2O DataFrame.

Wandeln Sie das Pandas DataFrame in ein H2O DataFrame um und benennen Sie das neue H2O DataFrame "titanic_h2o".

## 2.3 Erstellung der Modelle

Teilen Sie die Daten in Trainings- und Testdaten auf. 70% der Daten sollen Trainingsdaten sein und 30% Testdaten.


Ergänzt dabei die Parameter 'seed' mit dem Wert 200. Dies bewirkt, dass immer die gleiche Verteilung zwischen Trainings- und Testdaten ausgewählt wird und die Ergebnisse vergleichbar sind.

In diesem Schritt werden die zu trainierenden Features und die Zielvariable "Survived" identifiziert. Anschließend wird die Zielvariablenspalte 'Survived' aus der Auflistung der Spalten entfernt.

In [None]:
features = train.columns
target = "Survived"
features.remove(target)

Nun wird die Zielvariable als Faktor, sowohl bei den Trainings- als auch bei den Testdaten gespeichert. Bei einer binären Klassifizierung sollte die Zielvariable ein Faktor sein.

In [None]:
train[target] = train[target].asfactor()
test[target] = test[target].asfactor()

Untersuchen Sie den folgenden Code. Was bewirkt dieser?
Die Ausführung kann etwas Zeit in Anspruch nehmen.

In [None]:
aml = H2OAutoML(exclude_algos = ["StackedEnsemble"] ,max_models=10, max_runtime_secs=3000, seed=1)
aml.train(x=features, y=target, training_frame=train)

Geben Sie das Leaderboard aus und untersuchen Sie die Rangfolge der Modelle.

## 2.4 Wenden Sie das beste Modell auf die Testdaten an.

Die Verwendung der Funktion predict() mit AutoML erzeugt Vorhersagen für das führende Modell des Laufes. Die Reihenfolge der Zeilen in den Ergebnissen entspricht der Reihenfolge, in der die Daten geladen wurden, auch wenn einige Zeilen fehlschlagen (z. B. aufgrund fehlender Werte oder nicht gesehener Faktorstufen).

Spalte predict: wirkliche Spalte aus den Testdaten, die vorher gesagt werden soll

P0: vorhergesagte Wahrscheinlichkeit, dass eine 0 herauskommt

P1: vorhergesagte Wahrscheinlichkeit, dass eine 1 herauskommt

Nur die ersten 10 Zeilen werden ausgegeben. Wenn mehr Zeilen ausgegeben werden sollen, muss dies mit der Funktion .head() erfolgen.


## 2.5 Ergebnisse auswerten

Speichen Sie das beste Modell in die Variable m. Hinweis: Geben Sie den Namen des besten Modells mit dem Befehl '.algo' aus.

Verwenden Sie darauffolgend diese Variable m, um sich mittels der explain-Funktion Informationen über das Modell ausgeben zu lassen. Ergänzt dabei exclude_explanations=["PDP", "shap_summary"], da diese Visualisierungen für unsere Auswertungen nicht relevant sind.


Bewerten sie die Confusion-Matrix des besten Modells auf Basis der Testdaten.

----------------------------------------------

Als kleine Hilfestellung zur Confusion-Matrix:

Zeilen: tätsachliche Ereignisse

Spalten: vorhergesagte Ereinisse

Rate: Fehlerrate der Vorhersagen anhand der wirklichen Ereignisse

Was können Sie über die Variablen-Wichtigkeit sagen?

In welchem Zusammenhang steht die Variablenwichtigkeit und die damaligen Werte in Bezug auf das Szenario der Titanic.