# Praktische Übung 3: ML-Workflow

## Titanic-Datensatz
Vorhersageproblem:

- Gegeben: Verschiedene Attribute zu den Passagieren auf der Titanic
- Frage: Hat der Passagier das Unglück überlebt?

Spalten des Datensatzes:
- Pclass, Passenger Class (1 = 1st, 2 = 2nd, 3 = 3rd)
- Survived, Survival (0 = no, 1 = yes)
- name, Name
- sex, Sex
- age, Age
- sibsp, Number of siblings/spouses aboard
- parch, Number of children/parents aboard
- ticket, Ticket Number
- fare, Passenger Fare (brithish pound)
- cabin, Cabin
- embarked, Port of Embarkation, C = Cherbourg, Q = Queenstown, S = Southhampton

## Aufgabe 1

1. Laden Sie den Datensatz aus `titanic.csv` in einen Pandas-DataFrame. Die Daten befinden sich im `/data` folder auf [GitHub](https://github.com/pabair/ml-kurs-ws22/).
2. Erstellen Sie einen neuen DataFrame, der nur die folgenden Spalten enthält: "Survived", "Pclass", "Age", "Fare", "Sibsp", "Parch"
3. Unterteilen Sie die Daten mit der Methode `train_test_split` in Trainings- und Testdaten. (80% Training, 20% Test). Hint: Für die ersten 3 Aufgaben können Sie von der Lösung der letzten Übung kopieren.
4. Überprüfen Sie, welche Attribute `NaN`-Werte enthalten.
5. Füllen Sie diese Werte mit dem Durchschnittswert der übrigen Werte aus der gleichen Spalte auf.

In [38]:
import pandas as pd
dfAll = pd.read_csv("./data/titanic.csv")
dfAll.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [39]:
df = dfAll[["Survived", "Pclass","Age","Fare","SibSp","Parch"]]
df.head()

Unnamed: 0,Survived,Pclass,Age,Fare,SibSp,Parch
0,0,3,22.0,7.25,1,0
1,1,1,38.0,71.2833,1,0
2,1,3,26.0,7.925,0,0
3,1,1,35.0,53.1,1,0
4,0,3,35.0,8.05,0,0


In [50]:
from sklearn.model_selection import train_test_split
df_x = df.drop(columns=["Survived"])
df_y = dfAll["Survived"]
x_train, x_test, y_train, y_test = train_test_split(df_x, df_y, test_size=0.2, random_state=0)
x_train.head()

Unnamed: 0,Pclass,Age,Fare,SibSp,Parch
140,3,,15.2458,0,2
439,2,31.0,10.5,0,0
817,2,31.0,37.0042,1,1
378,3,20.0,4.0125,0,0
491,3,21.0,7.25,0,0


In [52]:
x_train.isna().sum()

Pclass      0
Age       141
Fare        0
SibSp       0
Parch       0
dtype: int64

In [53]:
age_mean = x_train["Age"].mean()
print(age_mean)
x_train["Age"] = x_train["Age"].fillna(age_mean)

29.745183887915935


In [54]:
x_train.isna().sum()

Pclass    0
Age       0
Fare      0
SibSp     0
Parch     0
dtype: int64

## Aufgabe 2

1. Skalieren Sie die Daten aus `x_train` mit einem `StandardScaler`.
2. Trainieren Sie eine logistische Regression auf den skalierten Daten und `y_train`.
3. Entfernen Sie alle Datenpunkte mit `NaN`-Werten aus `x_test`.
4. Entfernen Sie die genau gleichen Zeilen auch aus `y_test`.
5. Skalieren Sie die Datenpunkte `x_test` mit dem gleichen Skalierer wie in Aufgabe 2.
6. Machen Sie eine Vorhersage aus den skalierten Testdaten und berechnen Sie Accuracy, Precision und Recall.

In [55]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(x_train)
x_scaled = scaler.transform(x_train)
x_scaled

array([[ 0.81925059,  0.        , -0.33167904, -0.46445234,  1.95926403],
       [-0.38096838,  0.09593203, -0.42640542, -0.46445234, -0.47741019],
       [-0.38096838,  0.09593203,  0.10261958,  0.41270964,  0.74092692],
       ...,
       [ 0.81925059,  0.        , -0.48162887, -0.46445234, -0.47741019],
       [ 0.81925059,  0.47818735, -0.28868112,  0.41270964, -0.47741019],
       [-0.38096838,  2.31301288,  0.14245584,  0.41270964,  0.74092692]])

In [100]:
from sklearn.linear_model import LogisticRegression
reg = LogisticRegression()
reg.fit(x_scaled, y_train)


In [103]:
x_test = x_test.dropna()
x_test.shape

(143, 5)

In [66]:
y_test=y_test[x_test.index]
y_test.shape

(143,)

In [67]:
x_test_scaled = scaler.transform(x_test)

In [104]:
predictions = reg.predict(x_test_scaled)


In [105]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, predictions)

0.7272727272727273

In [106]:
from sklearn.metrics import precision_score
precision_score(y_test, predictions)

0.75

In [107]:
from sklearn.metrics import recall_score
recall_score(y_test, predictions)

0.5084745762711864

## Aufgabe 3

1. Fügen Sie `Embarked` und `Sex` als weitere Feature hinzu.
2. Führen Sie ein one-hot-encoding dieser Attribute durch und durchlaufen Sie die Schritte aus Aufgabe 1 und 2, um das Modell mit den Features zu trainieren.
3. Vergleichen Sie die Performance des Modells mit und ohne diese Features.

In [93]:
df = dfAll[["Survived", "Pclass","Age","Fare","SibSp","Parch", "Embarked", "Sex"]]
df.head()

Unnamed: 0,Survived,Pclass,Age,Fare,SibSp,Parch,Embarked,Sex
0,0,3,22.0,7.25,1,0,S,male
1,1,1,38.0,71.2833,1,0,C,female
2,1,3,26.0,7.925,0,0,S,female
3,1,1,35.0,53.1,1,0,S,female
4,0,3,35.0,8.05,0,0,S,male


In [97]:
one_hot_f1 = pd.get_dummies(df["Embarked"])
one_hot_f2 = pd.get_dummies(df["Sex"])
df = pd.concat([df, one_hot_f1, one_hot_f2], axis=1)
df.head(10)

Unnamed: 0,Survived,Pclass,Age,Fare,SibSp,Parch,Embarked,Sex,C,Q,S,female,male
0,0,3,22.0,7.25,1,0,S,male,0,0,1,0,1
1,1,1,38.0,71.2833,1,0,C,female,1,0,0,1,0
2,1,3,26.0,7.925,0,0,S,female,0,0,1,1,0
3,1,1,35.0,53.1,1,0,S,female,0,0,1,1,0
4,0,3,35.0,8.05,0,0,S,male,0,0,1,0,1
5,0,3,,8.4583,0,0,Q,male,0,1,0,0,1
6,0,1,54.0,51.8625,0,0,S,male,0,0,1,0,1
7,0,3,2.0,21.075,3,1,S,male,0,0,1,0,1
8,1,3,27.0,11.1333,0,2,S,female,0,0,1,1,0
9,1,2,14.0,30.0708,1,0,C,female,1,0,0,1,0


In [99]:
df.drop(columns=["Embarked", "Sex"])

Unnamed: 0,Survived,Pclass,Age,Fare,SibSp,Parch,C,Q,S,female,male
0,0,3,22.0,7.2500,1,0,0,0,1,0,1
1,1,1,38.0,71.2833,1,0,1,0,0,1,0
2,1,3,26.0,7.9250,0,0,0,0,1,1,0
3,1,1,35.0,53.1000,1,0,0,0,1,1,0
4,0,3,35.0,8.0500,0,0,0,0,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,27.0,13.0000,0,0,0,0,1,0,1
887,1,1,19.0,30.0000,0,0,0,0,1,1,0
888,0,3,,23.4500,1,2,0,0,1,1,0
889,1,1,26.0,30.0000,0,0,1,0,0,0,1


## Bonus

Entwerfen Sie ein Feature aus dem Attribut `Cabin` und schauen Sie, ob sich das Modell dadurch verbessert.