## Phase 4 (Modeling): k-Nearest Neighbor

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 6](https://data-science.training/kapitel-6/)
* Datum: 23.03.2023

In [3]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# Klassen und Funktionen der scikit-learn Module importieren
#  Maschinelles Lernen, Algorithmen
#  https://scikit-learn.org/stable/modules/classes.html
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier

In [4]:
# Datenversion festlegen: 4, 5
version  = 5
# Modell-Abkürzung festlegen: knn = k Nearest Neighbor
shortcut = 'knn'

In [5]:
# Trainingsdaten als Pandas Data Frame (df) aus Excel-Dateien laden
#  (KNIME: "Excel Reader")
filename = '../../data/titanic/new/training_v' + str(version) + '.xlsx'
df_train = pd.read_excel(filename)

In [6]:
# Beschreibende Attribute extrahieren
X = df_train.iloc[:,1:].values
# Klassenattribut (Survived) extrahieren
y = df_train.iloc[:,0].values

In [7]:
# Min-Max-Normierung für Version 5
# Daten auf das Intervall [0, 1] normieren
if version == 5:
    scaler = MinMaxScaler()
    X = scaler.fit_transform(X)

In [8]:
# Stratifizierte k-fache Kreuzvalidierung (mit k=10)
skf = StratifiedKFold(n_splits=10, random_state=0, shuffle=True)

In [9]:
# Schleife über den Parameter (Anzahl der nächsten Nachbarn) 
k_best  = 0
max_acc = 0
for k in range(1, 30, 2): # Schleife über n von 1 bis 29 mit Schrittweite 2, also 1,3,5,...,29
    model = KNeighborsClassifier(n_neighbors=k) # Initialisierung des Modells (kNN)
    scores = cross_val_score(model, X, y, scoring='accuracy', cv=skf) # Berechnung der Gütemaße
    acc = 100 * scores.mean() # Mittelwert der Genauigkeiten
    print('Genauigkeit für k = %3d : %8.4f' % (k, acc))
    if acc > max_acc: # Neue beste Genauigkeit gefunden
        max_acc = acc # Speichere diese neue beste Genauigkeit
        k_best  = k   # Merke den zugehörigen Parameter

Genauigkeit für k =   1 :  74.0774
Genauigkeit für k =   3 :  81.0337
Genauigkeit für k =   5 :  81.9313
Genauigkeit für k =   7 :  81.0337
Genauigkeit für k =   9 :  81.4831
Genauigkeit für k =  11 :  81.1436
Genauigkeit für k =  13 :  81.8177
Genauigkeit für k =  15 :  81.8165
Genauigkeit für k =  17 :  80.5855
Genauigkeit für k =  19 :  80.9213
Genauigkeit für k =  21 :  80.8090
Genauigkeit für k =  23 :  81.3695
Genauigkeit für k =  25 :  81.4831
Genauigkeit für k =  27 :  81.7066
Genauigkeit für k =  29 :  82.2684


In [10]:
# kNN-Methode auswählen und besten Parameter (k = Anzahl der Nachbarn) einstellen
#  (KNIME: "K Nearest Neighbor")
print('Bester Parameter k =', k_best)
model = KNeighborsClassifier(n_neighbors=k_best)
print(model.get_params())

Bester Parameter k = 29
{'algorithm': 'auto', 'leaf_size': 30, 'metric': 'minkowski', 'metric_params': None, 'n_jobs': None, 'n_neighbors': 29, 'p': 2, 'weights': 'uniform'}


In [11]:
# Genauigkeit (Accuracy) bestimmen und ausgeben
#  (KNIME: "Scorer")
scores = cross_val_score(model, X, y, scoring='accuracy', cv=skf)
print('Genauigkeit: %6.2f %%' % (100*scores.mean()))

Genauigkeit:  82.27 %


## Ergebnis

Trainingsdaten v4

* k =  9, Genauigkeit: 82,94 %

Trainingsdaten v5

* k = 29, Genauigkeit: 82,27 %