## Phase 4 (Modeling): k-Nearest Neighbor - mit Kreuzvalidierung

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 4](https://data-science.training/kapitel-4/)
* Datum: 23.03.2023

Diesmal benutzen wir die stratifizierte k-fache Kreuzvalidierung

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# Klassen und Funktionen der scikit-learn Module importieren
#  Maschinelles Lernen, Algorithmen
#  https://scikit-learn.org/stable/modules/classes.html
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier

In [5]:
# Trainingsdaten als Pandas Data Frame (df) aus Excel-Datei laden
#  (KNIME: "Excel Reader")
df_train = pd.read_excel('../../data/titanic/new/training_v2.xlsx')

In [6]:
# Beschreibende Attribute extrahieren (ohne Survived)
X = df_train.iloc[:,1:].values
# Klassenattribut (Survived) extrahieren
y = df_train.iloc[:,0].values

In [7]:
# Stratifizierte k-fache Kreuzvalidierung (mit k = 10)
#  (KNIME: "X-Partitioner", "X-Aggregator")
skf = StratifiedKFold(n_splits=10, random_state=0, shuffle=True)

In [8]:
# Schleife über den Parameter (Anzahl der nächsten Nachbarn) 
k_best  = 0
max_acc = 0
for k in range(1, 30, 2): # Schleife über n von 1 bis 29 mit Schrittweite 2, also 1,3,5,...,29
    model = KNeighborsClassifier(n_neighbors=k) # Initialisierung des Modells (kNN)
    scores = cross_val_score(model, X, y, scoring='accuracy', cv=skf) # Berechnung der Gütemaße
    acc = 100 * scores.mean() # Mittelwert der Genauigkeiten
    print('Genauigkeit für k =', k, ': ', acc)
    if acc > max_acc: # Neue beste Genauigkeit gefunden
        max_acc = acc # Speichere diese neue beste Genauigkeit
        k_best = k    # Merke den zugehörigen Parameter

Genauigkeit für k = 1 :  62.622971285892625
Genauigkeit für k = 3 :  69.58426966292134
Genauigkeit für k = 5 :  68.91011235955055
Genauigkeit für k = 7 :  69.36204744069913
Genauigkeit für k = 9 :  70.14731585518102
Genauigkeit für k = 11 :  70.25717852684144
Genauigkeit für k = 13 :  70.47940074906366
Genauigkeit für k = 15 :  70.48439450686642
Genauigkeit für k = 17 :  70.59550561797752
Genauigkeit für k = 19 :  70.14481897627965
Genauigkeit für k = 21 :  71.15355805243446
Genauigkeit für k = 23 :  71.71535580524345
Genauigkeit für k = 25 :  71.94007490636704
Genauigkeit für k = 27 :  71.82646691635455
Genauigkeit für k = 29 :  71.71535580524345


In [9]:
# kNN-Methode auswählen und besten Parameter (k = Anzahl der Nachbarn) einstellen
#  (KNIME: "K Nearest Neighbor")
print('Bester Parameter k =', k_best)
model = KNeighborsClassifier(n_neighbors=k_best)

Bester Parameter k = 25


In [10]:
# Genauigkeit (Accuracy) bestimmen und ausgeben
#  (KNIME: "Scorer")
scores = cross_val_score(model, X, y, scoring='accuracy', cv=skf)
print('Genauigkeit: %6.2f %%' % (100*scores.mean()))

Genauigkeit:  71.94 %


## Ergebnis

Für k=25 bekommen wir eine Genauigkeit von 71,9 %.