## Phase 5 (Evaluation): Multilayer Perceptron & Grid Search & Schwelle

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 21](https://data-science.training/kapitel-21/)
* Datum: 23.03.2023

Datenversion: 10

Methode: Multilayer Perceptron (MLP)

Optimierung: Ergebnis von Grid Search (GS)

Schwellenwerte: 0.65, 0.70, 0.75, 0.80, 0.85, 0.90

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# NumPy Paket (Package) importieren
#  Mehrdimensionale Datenstrukturen (Vektoren, Matrizen, Tensoren, Arrays), Lineare Algebra
#  https://numpy.org/doc/
import numpy as np
# Pickle Paket (Package) importieren
#  Objekte serialisieren
#  https://docs.python.org/3/library/pickle.html
import pickle as pk

In [5]:
# Datenversion festlegen: 10
version   = 10
# Modell-Abkürzung festlegen: mlp = Multilayer Perceptron
shortcut  = 'mlp'
# Optimierungsart festlegen: gs = Grid Search
opt       = 'gs'
# Optimalen Schwellenwert festlegen: 0.65, 0.70, 0.75, 0.80, 0.85, 0.90
threshold = 0.90

In [6]:
# Testdaten als Pandas Data Frame (df) aus Excel-Datei laden
#  (KNIME: "Excel Reader")
filename = '../../data/titanic/new/test_v' + str(version) + '.xlsx'
df_test  = pd.read_excel(filename)

In [7]:
# Modell laden
#  (KNIME: "PMML Reader")
filename = '../../models/titanic/new/' + shortcut + '_v' + str(version) + '_' + opt + '_thr_' + str(threshold)
model = pk.load(open(filename, 'rb'))

In [8]:
# Scaler laden
#  (KNIME: "PMML Reader")
filename += '_scaler'
scaler = pk.load(open(filename, 'rb'))

In [9]:
# Testdaten: Daten ohne PassengerId extrahieren
X_test = df_test.iloc[:,1:].values

In [10]:
# Input-Werte skalieren
#  (KNIME: "Normalizer Apply (PMML)")
X_test = scaler.transform(X_test)

In [11]:
# Wahrscheinlichkeiten bestimmen
#  (KNIME: "XYZ Predictor")
y_prob = model.predict_proba(X_test)

In [12]:
# Prognosen aus den Klassen-Wahrscheinlichkeiten mittels Schwellenwert berechnen
def dst_predictions(y_prob, threshold=0.5):
    m = len(y_prob[:,1])
    y_pred = np.zeros(m)
    for k in range(0, m):
        if y_prob[k][1] > threshold:
            y_pred[k] = 1
    return y_pred

In [13]:
# Prognosen berechnen
#  (KNIME: "XYZ Predictor")
y_pred = dst_predictions(y_prob, threshold)

In [14]:
# Ergebnisse in das Data Frame kopieren
df_test['Survived'] = y_pred
df_test['ProbN']    = y_prob[:,0]
df_test['ProbP']    = y_prob[:,1]

In [15]:
# Relevante Ergebnisse filtern
#  (KNIME: "Column Filter")
df_res = df_test.filter(['PassengerId', 'Survived', 'ProbN', 'ProbP'])

In [16]:
# Ergebnisse als CSV-Datei speichern
#  (KNIME: "CSV Writer")
filename = '../../data/titanic/submission/' + shortcut + '_v' + str(version) + '_' + opt + '_thr_' + str(threshold) + '.csv'
df_res.to_csv(filename, index=False)

In [17]:
# Ergebnis-Datei auf Webseite hochladen
# https://data-science.training/upload/

### Ergebnisse (Gütemaße)

#### Version 10 & MLP &  Grid Search & Schwelle 0,65

* Genauigkeit 	(Accuracy) 	: 	78,71 	%
* Spezifität 	(Specificity) 	: 	96,54 	%
* Sensitivität 	(Sensitivity) 	: 	49,37 	%
* Präzision 	(Precision) 	: 	89,66 	%
* Recall 	(Recall) 	: 	49,37 	%
* F-Maß 	(F1 Score) 	: 	63,67 	%
* AURC 	(AURC) 	: 	80,27 	%
* LogLoss 	(LogLoss) 	: 	0,482

#### Version 10 & MLP &  Grid Search & Schwelle 0,70

* Genauigkeit 	(Accuracy) 	: 	78,71 	%
* Spezifität 	(Specificity) 	: 	96,54 	%
* Sensitivität 	(Sensitivity) 	: 	49,37 	%
* Präzision 	(Precision) 	: 	89,66 	%
* Recall 	(Recall) 	: 	49,37 	%
* F-Maß 	(F1 Score) 	: 	63,67 	%
* AURC 	(AURC) 	: 	80,27 	%
* LogLoss 	(LogLoss) 	: 	0,482

#### Version 10 & MLP &  Grid Search & Schwelle 0,75

* Genauigkeit 	(Accuracy) 	: 	78,71 	%
* Spezifität 	(Specificity) 	: 	96,54 	%
* Sensitivität 	(Sensitivity) 	: 	49,37 	%
* Präzision 	(Precision) 	: 	89,66 	%
* Recall 	(Recall) 	: 	49,37 	%
* F-Maß 	(F1 Score) 	: 	63,67 	%
* AURC 	(AURC) 	: 	80,27 	%
* LogLoss 	(LogLoss) 	: 	0,482

#### Version 10 & MLP &  Grid Search & Schwelle 0,80

* Genauigkeit 	(Accuracy) 	: 	78,23 	%
* Spezifität 	(Specificity) 	: 	96,92 	%
* Sensitivität 	(Sensitivity) 	: 	47,47 	%
* Präzision 	(Precision) 	: 	<span style="color:red">90,36 	%</span>
* Recall 	(Recall) 	: 	47,47 	%
* F-Maß 	(F1 Score) 	: 	62,24 	%
* AURC 	(AURC) 	: 	80,27 	%
* LogLoss 	(LogLoss) 	: 	0,482

#### Version 10 & MLP &  Grid Search & Schwelle 0,85

* Genauigkeit 	(Accuracy) 	: 	77,03 	%
* Spezifität 	(Specificity) 	: 	96,92 	%
* Sensitivität 	(Sensitivity) 	: 	44,30 	%
* Präzision 	(Precision) 	: 	89,74 	%
* Recall 	(Recall) 	: 	44,30 	%
* F-Maß 	(F1 Score) 	: 	59,32 	%
* AURC 	(AURC) 	: 	80,27 	%
* LogLoss 	(LogLoss) 	: 	0,482

#### Version 10 & MLP &  Grid Search & Schwelle 0,90

* Genauigkeit 	(Accuracy) 	: 	72,97 	%
* Spezifität 	(Specificity) 	: 	97,31 	%
* Sensitivität 	(Sensitivity) 	: 	32,91 	%
* Präzision 	(Precision) 	: 	88,14 	%
* Recall 	(Recall) 	: 	32,91 	%
* F-Maß 	(F1 Score) 	: 	47,93 	%
* AURC 	(AURC) 	: 	80,27 	%
* LogLoss 	(LogLoss) 	: 	0,482
