## Phase 5 (Evaluation): Multilayer Perceptron

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 9](https://data-science.training/kapitel-9/)
* Datum: 23.03.2023

Versionen 4 und 5

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# Pickle Paket (Package) importieren
#  Objekte serialisieren
#  https://docs.python.org/3/library/pickle.html
import pickle as pk

In [5]:
# Datenversion festlegen: 4, 5
version  = 5
# Modell-Abkürzung festlegen: mlp = Multilayer Perceptron
shortcut = 'mlp'
# Preprocessing für Version 5 festlegen: 1 = MinMaxScaler, 2 = StandardScaler
prepro   = 2

In [6]:
# Testdaten als Pandas Data Frame (df) aus Excel-Datei laden
#  (KNIME: "Excel Reader")
filename = '../../data/titanic/new/test_v' + str(version) + '.xlsx'
df_test  = pd.read_excel(filename)

In [7]:
# Modell laden
#  (KNIME: "PMML Reader")
filename = '../../models/titanic/new/' + shortcut + '_v' + str(version)
if version == 5:
    filename += '_pp_' + str(prepro)
model = pk.load(open(filename, 'rb'))

In [8]:
# Scaler laden
#  (KNIME: "PMML Reader")
if version == 5:
    filename += '_scaler'
    scaler = pk.load(open(filename, 'rb'))

In [9]:
# Testdaten: Daten ohne PassengerId extrahieren
X_test = df_test.iloc[:,1:].values

In [10]:
# Input-Werte skalieren
#  (KNIME: "Normalizer Apply (PMML)")
if version == 5:
    X_test = scaler.transform(X_test)

In [11]:
# Prognosen und Wahrscheinlichkeiten bestimmen
#  (KNIME: "XYZ Predictor")
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)

In [12]:
# Ergebnisse in das Data Frame kopieren
df_test['Survived'] = y_pred
df_test['ProbN']    = y_prob[:,0]
df_test['ProbP']    = y_prob[:,1]

In [13]:
# Relevante Ergebnisse filtern
#  (KNIME: "Column Filter")
df_res = df_test.filter(['PassengerId', 'Survived', 'ProbN', 'ProbP'])

In [14]:
# Ergebnisse als CSV-Datei speichern
#  (KNIME: "CSV Writer")
filename = '../../data/titanic/submission/' + shortcut + '_v' + str(version)
if version == 5:
    filename += '_pp_' + str(prepro)    
filename += '.csv'
df_res.to_csv(filename, index=False)

In [15]:
# Ergebnis-Datei auf Webseite hochladen
# https://data-science.training/upload/

### Ergebnisse (Gütemaße)

#### Version 4 (Boolean bzw. Int)

* Genauigkeit 	(Accuracy) 	: 	75,84 	%
* Spezifität 	(Specificity) 	: 	80,77 	%
* Sensitivität 	(Sensitivity) 	: 	67,72 	%
* Präzision 	(Precision) 	: 	68,15 	%
* Recall 	(Recall) 	: 	67,72 	%
* F-Maß 	(F1 Score) 	: 	67,94 	%
* AURC 	(AURC) 	: 	81,24 	%
* LogLoss 	(LogLoss) 	: 	0,545

#### Version 5 (Float) MinMaxScaler

* Genauigkeit 	(Accuracy) 	: 	77,99 	%
* Spezifität 	(Specificity) 	: 	86,54 	%
* Sensitivität 	(Sensitivity) 	: 	63,92 	%
* Präzision 	(Precision) 	: 	74,26 	%
* Recall 	(Recall) 	: 	63,92 	%
* F-Maß 	(F1 Score) 	: 	68,71 	%
* AURC 	(AURC) 	: 	82,60 	%
* LogLoss 	(LogLoss) 	: 	0,500

#### Version 5 (Float) StandardScaler

* Genauigkeit 	(Accuracy) 	: 	76,79 	%
* Spezifität 	(Specificity) 	: 	84,62 	%
* Sensitivität 	(Sensitivity) 	: 	63,92 	%
* Präzision 	(Precision) 	: 	71,63 	%
* Recall 	(Recall) 	: 	63,92 	%
* F-Maß 	(F1 Score) 	: 	67,56 	%
* AURC 	(AURC) 	: 	82,26 	%
* LogLoss 	(LogLoss) 	: 	0,519
