## Phase 5 (Evaluation): k-Nearest Neighbor

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 6](https://data-science.training/kapitel-6/)
* Datum: 23.03.2023

* Version 4: bester Parameter k = 9
* Version 5: bester Parameter k = 29

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# Klassen und Funktionen der scikit-learn Module importieren
#  Maschinelles Lernen, Algorithmen
#  https://scikit-learn.org/stable/modules/classes.html
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier

In [5]:
# Datenversion festlegen: 4, 5
version  = 5
# Modell-Abkürzung festlegen: knn = k Nearest Neighbor
shortcut = 'knn'
# Parameter: 9 (Version 4) bzw. 29 (Version 5)
k_array = [0, 0, 0, 0, 9, 29]
k = k_array[version]

In [6]:
# Trainings- und Testdaten als Pandas Data Frame (df) aus Excel-Dateien laden
#  (KNIME: "Excel Reader")
#
filename = '../../data/titanic/new/training_v' + str(version) + '.xlsx'
df_train = pd.read_excel(filename)
#
filename = '../../data/titanic/new/test_v' + str(version) + '.xlsx'
df_test  = pd.read_excel(filename)

In [7]:
# Trainingsdaten
#  Beschreibende Attribute extrahieren (ohne Survived)
X = df_train.iloc[:,1:].values
#  Klassenattribut (Survived) extrahieren
y = df_train.iloc[:,0].values
# Testdaten
#  Beschreibende Attribute extrahieren (ohne PassengerId)
X_test = df_test.iloc[:,1:].values

In [8]:
# Min-Max-Normierung für Version 5
# Daten auf das Intervall [0, 1] normieren
if version == 5:
    scaler = MinMaxScaler()
    X = scaler.fit_transform(X)
    X_test = scaler.transform(X_test)

In [9]:
# kNN-Methode auswählen und den besten Parameter einstellen
#  (KNIME: "K Nearest Neighbor")
model = KNeighborsClassifier(n_neighbors=k)
print(model.get_params())

{'algorithm': 'auto', 'leaf_size': 30, 'metric': 'minkowski', 'metric_params': None, 'n_jobs': None, 'n_neighbors': 29, 'p': 2, 'weights': 'uniform'}


In [10]:
# Modell mit Trainingsdaten trainieren
#  (KNIME: "K Nearest Neighbor")
model.fit(X, y)

In [11]:
# Prognosen und Wahrscheinlichkeiten bestimmen
#  (KNIME: "XYZ Predictor")
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)

In [12]:
# Ergebnisse in das Data Frame kopieren
df_test['Survived'] = y_pred
df_test['ProbN']    = y_prob[:,0]
df_test['ProbP']    = y_prob[:,1]

In [13]:
# Relevante Ergebnisse filtern
#  (KNIME: "Column Filter")
df_res = df_test.filter(['PassengerId', 'Survived', 'ProbN', 'ProbP'])

In [14]:
# Ergebnisse als CSV-Datei speichern
#  (KNIME: "CSV Writer")
filename = '../../data/titanic/submission/' + shortcut + '_v' + str(version) + '.csv'
df_res.to_csv(filename, index=False)

In [15]:
# Ergebnis-Datei auf Webseite hochladen
# https://data-science.training/upload/

### Ergebnisse (Gütemaße)

#### Version 4: k = 9

* Genauigkeit 	(Accuracy) 	: 	75,36 	%
* Spezifität 	(Specificity) 	: 	83,08 	%
* Sensitivität 	(Sensitivity) 	: 	62,66 	%
* Präzision 	(Precision) 	: 	69,23 	%
* Recall 	(Recall) 	: 	62,66 	%
* F-Maß 	(F1 Score) 	: 	65,78 	%
* AURC 	(AURC) 	: 	80,50 	%
* LogLoss 	(LogLoss) 	: 	1,033 	 

#### Version 5: k = 29

* Genauigkeit 	(Accuracy) 	: 	77,99 	%
* Spezifität 	(Specificity) 	: 	89,23 	%
* Sensitivität 	(Sensitivity) 	: 	59,49 	%
* Präzision 	(Precision) 	: 	77,05 	%
* Recall 	(Recall) 	: 	59,49 	%
* F-Maß 	(F1 Score) 	: 	67,14 	%
* AURC 	(AURC) 	: 	80,64 	%
* LogLoss 	(LogLoss) 	: 	0,586 	 
