## Phase 5 (Evaluation): Feature Selection

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 18](https://data-science.training/kapitel-18/)
* Datum: 23.03.2023

Daten: Versionen 7 und 8

Methode: Naive Bayes

Strategien: FFS, BFE

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# Pickle Paket (Package) importieren
#  Objekte serialisieren
#  https://docs.python.org/3/library/pickle.html
import pickle as pk

In [5]:
# Datenversion festlegen: 7, 8
version  = 8
# Modell-Abkürzung festlegen: nb = Naive Bayes
shortcut = 'nb'
# Feature Selection Strategie festlegen: ffs = Forward Feature Selection, bfe = Backward Feature Elimination
strategy = 'bfe'

In [6]:
# Testdaten als Pandas Data Frame (df) aus Excel-Datei laden
#  (KNIME: "Excel Reader")
filename = '../../data/titanic/new/test_v' + str(version) + '.xlsx'
df_test  = pd.read_excel(filename)

In [7]:
# Modell laden
#  (KNIME: "PMML Reader")
filename = '../../models/titanic/new/' + shortcut + '_v' + str(version) + '_' + str(strategy)
model = pk.load(open(filename, 'rb'))

In [8]:
# Features laden
filename += '_features'
columns = pk.load(open(filename, 'rb'))

In [9]:
# Features anzeigen
print(columns)

['FamilySize' 'LogFare' 'Pclass_2' 'Embarked_C' 'Title_Master'
 'Title_Miss' 'Title_Mr' 'Title_Mrs']


In [10]:
# Testdaten
X_test = df_test.filter(columns).values

In [11]:
# Prognosen und Wahrscheinlichkeiten bestimmen
#  (KNIME: "XYZ Predictor")
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)

In [12]:
# Ergebnisse in das Data Frame kopieren
df_test['Survived'] = y_pred
df_test['ProbN']    = y_prob[:,0]
df_test['ProbP']    = y_prob[:,1]

In [13]:
# Relevante Ergebnisse filtern
#  (KNIME: "Column Filter")
df_res = df_test.filter(['PassengerId', 'Survived', 'ProbN', 'ProbP'])

In [14]:
# Ergebnisse als CSV-Datei speichern
#  (KNIME: "CSV Writer")
filename = '../../data/titanic/submission/' + shortcut + '_v' + str(version) + '_' + str(strategy) + '.csv'
df_res.to_csv(filename, index=False)

In [15]:
# Ergebnis-Datei auf Webseite hochladen
# https://data-science.training/upload/

### Ergebnisse (Gütemaße)

#### Version 7 & Naive Bayes & FFS

* Genauigkeit 	(Accuracy) 	: 	77,27 	%
* Spezifität 	(Specificity) 	: 	81,92 	%
* Sensitivität 	(Sensitivity) 	: 	69,62 	%
* Präzision 	(Precision) 	: 	70,06 	%
* Recall 	(Recall) 	: 	69,62 	%
* F-Maß 	(F1 Score) 	: 	69,84 	%
* AURC 	(AURC) 	: 	75,40 	%
* LogLoss 	(LogLoss) 	: 	0,910

#### Version 7 & Naive Bayes & BFE

* Genauigkeit 	(Accuracy) 	: 	76,79 	%
* Spezifität 	(Specificity) 	: 	81,15 	%
* Sensitivität 	(Sensitivity) 	: 	69,62 	%
* Präzision 	(Precision) 	: 	69,18 	%
* Recall 	(Recall) 	: 	69,62 	%
* F-Maß 	(F1 Score) 	: 	69,40 	%
* AURC 	(AURC) 	: 	78,38 	%
* LogLoss 	(LogLoss) 	: 	1,099

*andere Hardware*

* Genauigkeit 	(Accuracy) 	: 	76,79 	%
* Spezifität 	(Specificity) 	: 	81,15 	%
* Sensitivität 	(Sensitivity) 	: 	69,62 	%
* Präzision 	(Precision) 	: 	69,18 	%
* Recall 	(Recall) 	: 	69,62 	%
* F-Maß 	(F1 Score) 	: 	69,40 	%
* AURC 	(AURC) 	: 	78,92 	%
* LogLoss 	(LogLoss) 	: 	1,077

#### Version 8 & Naive Bayes & FFS

* Genauigkeit 	(Accuracy) 	: 	77,51 	%
* Spezifität 	(Specificity) 	: 	81,92 	%
* Sensitivität 	(Sensitivity) 	: 	70,25 	%
* Präzision 	(Precision) 	: 	70,25 	%
* Recall 	(Recall) 	: 	70,25 	%
* F-Maß 	(F1 Score) 	: 	70,25 	%
* AURC 	(AURC) 	: 	77,09 	%
* LogLoss 	(LogLoss) 	: 	0,745

#### Version 8 & Naive Bayes & BFE

* Genauigkeit 	(Accuracy) 	: 	76,32 	%
* Spezifität 	(Specificity) 	: 	78,46 	%
* Sensitivität 	(Sensitivity) 	: 	72,78 	%
* Präzision 	(Precision) 	: 	67,25 	%
* Recall 	(Recall) 	: 	72,78 	%
* F-Maß 	(F1 Score) 	: 	69,91 	%
* AURC 	(AURC) 	: 	78,66 	%
* LogLoss 	(LogLoss) 	: 	1,044 	 

*andere Hardware*

* Genauigkeit 	(Accuracy) 	: 	76,32 	%
* Spezifität 	(Specificity) 	: 	78,46 	%
* Sensitivität 	(Sensitivity) 	: 	72,78 	%
* Präzision 	(Precision) 	: 	67,25 	%
* Recall 	(Recall) 	: 	72,78 	%
* F-Maß 	(F1 Score) 	: 	69,91 	%
* AURC 	(AURC) 	: 	78,51 	%
* LogLoss 	(LogLoss) 	: 	1,048 	