## Phase 5 (Evaluation): Multilayer Perceptron

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 21](https://data-science.training/kapitel-21/)
* Datum: 23.03.2023

Datenversion: 10

Methode: Multilayer Perceptron (MLP)

Optimierung: Ohne Optimierung (), Halving Random Search (HRS) 

Scoring: accuracy, precision, (f1, roc_auc)

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# Pickle Paket (Package) importieren
#  Objekte serialisieren
#  https://docs.python.org/3/library/pickle.html
import pickle as pk

In [5]:
# Datenversion festlegen: 10
version  = 10
# Modell-Abkürzung festlegen: mlp = Multilayer Perceptron
shortcut = 'mlp'
# Optimierungsart festlegen: '' = ohne, hrs = Halving Random Search
opt      = 'hrs'
# Scoring festlegen: accuracy, precision, (f1, roc_auc)
scoring  = 'precision'

In [6]:
# Testdaten als Pandas Data Frame (df) aus Excel-Datei laden
#  (KNIME: "Excel Reader")
filename = '../../data/titanic/new/test_v' + str(version) + '.xlsx'
df_test  = pd.read_excel(filename)

In [7]:
# Modell laden
#  (KNIME: "PMML Reader")
filename = '../../models/titanic/new/' + shortcut + '_v' + str(version) 
if opt != '':
    filename += '_' + opt + '_' + scoring
model = pk.load(open(filename, 'rb'))

In [8]:
# Scaler laden
#  (KNIME: "PMML Reader")
filename += '_scaler'
scaler = pk.load(open(filename, 'rb'))

In [9]:
# Testdaten: Daten ohne PassengerId extrahieren
X_test = df_test.iloc[:,1:].values

In [10]:
# Input-Werte skalieren
#  (KNIME: "Normalizer Apply (PMML)")
X_test = scaler.transform(X_test)

In [11]:
# Prognosen und Wahrscheinlichkeiten bestimmen
#  (KNIME: "XYZ Predictor")
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)

In [12]:
# Ergebnisse in das Data Frame kopieren
df_test['Survived'] = y_pred
df_test['ProbN']    = y_prob[:,0]
df_test['ProbP']    = y_prob[:,1]

In [13]:
# Relevante Ergebnisse filtern
#  (KNIME: "Column Filter")
df_res = df_test.filter(['PassengerId', 'Survived', 'ProbN', 'ProbP'])

In [14]:
# Ergebnisse als CSV-Datei speichern
#  (KNIME: "CSV Writer")
filename = '../../data/titanic/submission/' + shortcut + '_v' + str(version)
if opt != '':
    filename += '_' + opt + '_' + scoring
filename += '.csv'
df_res.to_csv(filename, index=False)

In [15]:
# Ergebnis-Datei auf Webseite hochladen
# https://data-science.training/upload/

### Ergebnisse (Gütemaße)

#### Version 10 & MLP & Default

* Genauigkeit 	(Accuracy) 	: 	77,75 	%
* Spezifität 	(Specificity) 	: 	81,54 	%
* Sensitivität 	(Sensitivity) 	: 	71,52 	%
* Präzision 	(Precision) 	: 	70,19 	%
* Recall 	(Recall) 	: 	71,52 	%
* F-Maß 	(F1 Score) 	: 	70,85 	%
* AURC 	(AURC) 	: 	82,19 	%
* LogLoss 	(LogLoss) 	: 	0,493

#### Version 10 & MLP &  Halving Random Search & Accuracy

* Genauigkeit 	(Accuracy) 	: 	77,75 	%
* Spezifität 	(Specificity) 	: 	84,23 	%
* Sensitivität 	(Sensitivity) 	: 	67,09 	%
* Präzision 	(Precision) 	: 	72,11 	%
* Recall 	(Recall) 	: 	67,09 	%
* F-Maß 	(F1 Score) 	: 	69,51 	%
* AURC 	(AURC) 	: 	82,28 	%
* LogLoss 	(LogLoss) 	: 	0,489

#### Version 10 & MLP &  Halving Random Search & Precision

* Genauigkeit 	(Accuracy) 	: 	77,99 	%
* Spezifität 	(Specificity) 	: 	83,08 	%
* Sensitivität 	(Sensitivity) 	: 	69,62 	%
* Präzision 	(Precision) 	: 	71,43 	%
* Recall 	(Recall) 	: 	69,62 	%
* F-Maß 	(F1 Score) 	: 	70,51 	%
* AURC 	(AURC) 	: 	81,82 	%
* LogLoss 	(LogLoss) 	: 	0,493