# Titanic: Einstieg in Machine Learning

![](titanic_main.png)

Dr. Kristian Rother

*Dieses Tutorial ist unter den Bedingungen der Creative Commons Attribution Share-alike License 4.0 verfügbar*

## Ziel

Wir möchten die Passagierdaten der Titanic verwenden, um vorherzusagen, ob ein Passagier die Reise überlebt.

## Teil 1: An Bord gehen

![](boarding.png)

### 1.1 Python-Bibliotheken importieren
Wir importieren einige Python-Bibliotheken

In [2]:
import pandas as pd  # Tabellen
import numpy as np   # Matrizen
import pylab as plt  # Plotten
import sklearn       # Scikit-Learn für maschinelles Lernen

In [3]:
%matplotlib inline

### 1.2. Passagierdaten laden

Verwende `pandas`, um die Datei `train.csv` einzulesen.

In [None]:
df = 

Du findest den Datensatz auf [www.kaggle.com/c/titanic](https://www.kaggle.com/c/titanic).

### 1.3. Inspiziere die Daten

Zeige die Daten an und verschaffe Dir einen ersten Eindruck. Kläre, was die einzelnen Spalten bedeuten.

In [None]:
df

Zähle die Werte in einzelnen Spalten aus, etwa so:

In [None]:
df['Survived'].value_counts()

Untersuche zwei weitere Spalten mit der Funktion `value_counts()`.

## Teil 2: So blau ist das Meer..

![](journey.png)

### 2.1 Zeichne ein Histogramm
Erstelle ein Histogramm, das das Alter der Passagiere zeigt.

In [None]:
df['Age'].hist()

Ermittle die Altersverteilung für die Passagiere, die überlebt haben:

### 2.2 Zeichne ein Balkendiagramm

Gruppiere die Passagiere nach Ticketklasse und Überleben:

In [None]:
g = df.groupby(['Survived', 'Pclass'])
g = g['Name'].count()
g = g.unstack()
g.plot.bar()

Gruppiere noch nach weiteren Kriterien. Kannst Du auch nach drei Spalten gruppieren?

### 2.3 Hypothesen
Sammle Beobachtungen, welche **Merkmale** eines Passagiers für eine höhere Überlebenschance sprechen und welche dagegen.

## Teil 3: Kollisionskurs
![](titanic.png)

## 3.1 Datenklempnerei
Damit wir mit **Scikit-Learn** arbeiten können, müssen wir die Daten säubern und umgestalten.

Mit wie vielen Einträgen startest Du?

Entferne alle Spalten außer `"Pclass", "Age", "Sex" und "Survived"`.

Entferne alle Zeilen, die fehlende Werte enthalten

Wandle zwei der **Eingabemerkmale** in eine Numpy-Matrix `X` um (Um 'Sex' kümmern wir uns später):

In [None]:
X = clean_df[['Pclass', 'Age']].values

Wandle die Spalte mit den **Zielwerten** in eine **eindimensionale** Numpy-Matrix `y` um:

In [None]:
y = clean_df[['Survived']].values.ravel()

Betrachte beide Matrizen. Wie groß sind sie jeweils?

### 3.2 Erstelle einen Trainings- und einen Testdatensatz

Teile die Daten in Trainings- und Testdaten auf. Dies geht natürlich nur, wenn `X` und `y` die gleiche Anzahl Zeilen haben.

In [None]:
from sklearn.model_selection import train_test_split

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, random_state=42)

In [None]:
Xtrain.shape

### Frage

Wofür benötigen wir den Testdatensatz?

## Teil 4: Modellieren und Vorhersage
![](sinking.png)

### 4.1 Überwachte Lernmodelle
Informiere Dich über eines der folgenden Lernmodelle zur **Klassifikation** (auf Wikipedia und der Dokumentation zu Scikit-Learn):

* Logistische Regression
* Naive Bayes-Klassifikator
* Random Forest
* Support Vector Classifier (SVC)

Kläre folgende Fragen:
* Was ist die Grundidee des Verfahrens?
* Wie lässt sich das Modell in Scikit-Learn importieren?
* Welche Parameter kann man einstellen?

Passe den folgenden Code an:

In [None]:
from sklearn.MODUL_NAME import MODELL

m = MODELL()
m.fit(Xtrain, ytrain)

### 4.2 Evaluiere das Modell

Berechne die Genauigkeit des Modells für die Trainingsdaten:

In [None]:
m.score(Xtrain, ytrain)

Ist dieser Wert aus Deiner Sicht gut oder schlecht? Wie gut würde ein zufallsbasierter Klassifikator abschneiden?

Zum Vergleich können wir auch noch eine **Konfusionsmatrix** berechnen:

In [None]:
from sklearn.metrics import confusion_matrix

ypred = m.predict(Xtrain)
confusion_matrix(ytrain, ypred)

### 4.3 Testdaten
Berechne nun die Genauigkeit für die Testdaten. Deute die Unterschiede. Ist der Wert gut oder schlecht?

### 4.4 Mehr Daten
Nun können wir mehr Daten verwenden. Damit wir das Geschlecht der Passagiere berücksichtigen können, müssen wir es in Zahlen umwandeln. Dazu verwenden wir **one-hot encoding**:

In [None]:
gender = pd.get_dummies(clean_df['Sex'])
gender

Füge diese Daten als neue Spalte dem DataFrame hinzu.

Führe die Vorhersage mit den zusätzlichen Daten erneut durch.

### 4.5 Vergleich unterschiedlicher Modelle

Probiere die unterschiedlichen oben recherchierten Modelle aus. Welches schneidet am Besten ab?

### 4.6 Hyperparameter
Probiere einige der Hyperparameter der Modelle zu verändern. Wenn Du keinen Plan hast, was ein Hyperparameter ist oder Du nicht weißt, welche es gibt, verändere den Wert für `max_depth` beim **RandomForest**, z.B. `RandomForestClassifier(max_depth=2)`

Wie verändert sich die Vorhersagegüte?

## Teil 5: Vorhersage

### 5.1 Modellauswahl
Entscheide Dich für ein Modell, das Du verwenden möchtest.

### 5.2 Vorhersage
Erstelle einen Datensatz für zusätzliche Passagiere und sage vorher, ob sie überleben werden:

In [None]:
leo = np.array([[22, 3, 0]])
kate = np.array([[25, 1, 1]])

print(m.predict(leo))
print(m.predict(kate))

### 5.3 Bugs!
Es gibt im obigen Code (mindestens) einen Fehler in der Definition der Daten. Kannst Du diesen finden und beheben?

### 5.4 Fehlerabschätzung
Lasse Dir vom Dozenten einen Satz Testdaten aushändigen, den dieser bis hier geheim halten konnte (falls er es geschafft hat, die Klappe zu halten). Berechne die Genauigkeit des Modells für diese Testdaten. Dies ist der endgültige geschätzte Fehler. 