# Praktische Übung 3: ML-Workflow

## Titanic-Datensatz
Vorhersageproblem:

- Gegeben: Verschiedene Attribute zu den Passagieren auf der Titanic
- Frage: Hat der Passagier das Unglück überlebt?

Spalten des Datensatzes:
- Pclass, Passenger Class (1 = 1st, 2 = 2nd, 3 = 3rd)
- Survived, Survival (0 = no, 1 = yes)
- name, Name
- sex, Sex
- age, Age
- sibsp, Number of siblings/spouses aboard
- parch, Number of children/parents aboard
- ticket, Ticket Number
- fare, Passenger Fare (brithish pound)
- cabin, Cabin
- embarked, Port of Embarkation, C = Cherbourg, Q = Queenstown, S = Southhampton

## Aufgabe 1

1. Laden Sie den Datensatz aus `titanic.csv` in einen Pandas-DataFrame. Die Daten befinden sich im `/data` folder auf [GitHub](https://github.com/pabair/ml-kurs-ws22/).
2. Erstellen Sie einen neuen DataFrame, der nur die folgenden Spalten enthält: "Survived", "Pclass", "Age", "Fare", "Sibsp", "Parch"
3. Unterteilen Sie die Daten mit der Methode `train_test_split` in Trainings- und Testdaten. (80% Training, 20% Test). Hint: Für die ersten 3 Aufgaben können Sie von der Lösung der letzten Übung kopieren.
4. Überprüfen Sie, welche Attribute `NaN`-Werte enthalten.
5. Füllen Sie diese Werte mit dem Durchschnittswert der übrigen Werte aus der gleichen Spalte auf.

Aufgabe 1

1.

In [1]:
import pandas as pd
df = pd.read_csv("data/titanic.csv")

2.

In [2]:
features = ["Survived","Pclass","Age","Fare","SibSp","Parch"]
df_features = df[features]
df_features.head()

Unnamed: 0,Survived,Pclass,Age,Fare,SibSp,Parch
0,0,3,22.0,7.25,1,0
1,1,1,38.0,71.2833,1,0
2,1,3,26.0,7.925,0,0
3,1,1,35.0,53.1,1,0
4,0,3,35.0,8.05,0,0


3.

In [3]:
from sklearn.model_selection import train_test_split
df_features2 = df_features.drop("Survived", axis=1)
labels = df_features["Survived"]
x_train, x_test, y_train, y_test = train_test_split(df_features2, labels, test_size=0.2, random_state=0)

4.

In [113]:
import numpy as np
df_features2.isna().sum()

Pclass      0
Age       177
Fare        0
SibSp       0
Parch       0
dtype: int64

5.

In [114]:
age_mean = x_train["Age"].mean()
x_train["Age"] = x_train["Age"].fillna(age_mean)

In [115]:
x_train.isna().sum()

Pclass    0
Age       0
Fare      0
SibSp     0
Parch     0
dtype: int64

## Aufgabe 2

1. Skalieren Sie die Daten aus `x_train` mit einem `StandardScaler`.
2. Trainieren Sie eine logistische Regression auf den skalierten Daten und `y_train`.
3. Entfernen Sie alle Datenpunkte mit `NaN`-Werten aus `x_test`.
4. Entfernen Sie die genau gleichen Zeilen auch aus `y_test`.
5. Skalieren Sie die Datenpunkte `x_test` mit dem gleichen Skalierer wie in Aufgabe 2.
6. Machen Sie eine Vorhersage aus den skalierten Testdaten und berechnen Sie Accuracy, Precision und Recall.

Aufgabe 2.1

In [116]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(x_train)
x_scaled = scaler.transform(x_train)
#x_scaled

Aufgabe 2.2

In [117]:
from sklearn.linear_model import LogisticRegression

logReg = LogisticRegression(max_iter=1000) 
logReg.fit(x_scaled, y_train)

Aufgabe 2.3

In [118]:
x_test = x_test.dropna()

x_test.shape

(143, 5)

Aufgabe 2.4

In [119]:
y_test = y_test[x_test.index]
y_test.shape

(143,)

Aufgabe 2.5

In [120]:
x_test_scaled = scaler.transform(x_test)

Aufgabe 2.6

In [121]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

predictions = logReg.predict(x_test_scaled)

print("Accuracy:", accuracy_score(y_test, predictions))
print("Präzision:", precision_score(y_test, predictions))
print("Recall:",recall_score(y_test, predictions))

Accuracy: 0.7272727272727273
Präzision: 0.75
Recall: 0.5084745762711864


## Aufgabe 3

1. Fügen Sie `Embarked` und `Sex` als weitere Feature hinzu.
2. Führen Sie ein one-hot-encoding dieser Attribute durch und durchlaufen Sie die Schritte aus Aufgabe 1 und 2, um das Modell mit den Features zu trainieren.
3. Vergleichen Sie die Performance des Modells mit und ohne diese Features.

3.1

In [122]:
features = ["Survived","Pclass","Age","Fare","SibSp","Parch","Sex","Embarked" ]
df_feat = df[features]
df_feat.head()

Unnamed: 0,Survived,Pclass,Age,Fare,SibSp,Parch,Sex,Embarked
0,0,3,22.0,7.25,1,0,male,S
1,1,1,38.0,71.2833,1,0,female,C
2,1,3,26.0,7.925,0,0,female,S
3,1,1,35.0,53.1,1,0,female,S
4,0,3,35.0,8.05,0,0,male,S


3.2

In [123]:
one_hot_features_1 = pd.get_dummies(df_feat["Sex or Embarked"])
one_hot_features_1.head()

KeyError: 'Sex or Embarked'

3.3

## Bonus

Entwerfen Sie ein Feature aus dem Attribut `Cabin` und schauen Sie, ob sich das Modell dadurch verbessert.