# K-Nearest Neighbor (KNN)

Ziel der vorliegenden Aufgabe ist es einen KNN-Kassifikator zu implementieren und auf den Titanic Datensatz anzuwenden. Dabei sollen Sie insbesondere untersuchen welcher Merkmalsraum und welches Ähnlichkeitsmaß für diese Aufgabe geeignet ist. 

Der KNN-Klassifikator ist eine einfache, parameterfreie Methode, bei welcher zu jedem Testvektor $\vec x_q$ die $k$-nächsten-Nachbarn, $\{\vec {x_t^1}...\vec {x_t^k}\}$ im Trainingsbestand, unter Berücksichtigung eines frei zu definierenden Ähnlichkeitsmaß, ermittelt werden. Die Klassenzugehörigkeit wird über einen einfachen Mehrheitsentscheid der nächsten $k$-Nachbarn für $\vec x_q$ prädiziert (siehe auch https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm).

### Imports

In [1]:
import numpy as np
import csv as csv
import matplotlib.pyplot as plt
import pandas as pd
import itertools
%matplotlib inline

### Daten einlesen

In [2]:
DATA_FILE = './Data/original_titanic.csv'

### Vorbereitungen

Führen Sie hier folgende Bearbeitungsschritte durch:
* (1) Datenlücken interpolieren,
* (2) Datensatz stochastisch verändern, 
* (3) Aufteilung in Trainings- und Testdatensatz.

Sie können Ihre Implementierungen der vorherigen Arbeitsblätter nutzen.

In [3]:
# (1) Datenlücken interpolieren
def prepareData(df):
    df.loc[(df.Age.isnull()) & (df.Sex == 'male'),'Age'] = df[(df.Sex == 'male')].Age.median()
    df.loc[(df.Age.isnull()) & (df.Sex == 'female'),'Age'] = df[(df.Sex == 'female')].Age.median()
    df.loc[df.Age.isnull(),'Age']= df.Age.median()
    df.loc[(df.Fare.isnull()) & (df.Sex == 'male'),'Fare'] = df[(df.Sex == 'male')].Fare.median()
    df.loc[(df.Fare.isnull()) & (df.Sex == 'female'),'Fare'] = df[(df.Sex == 'female')].Fare.median()
    df.loc[df.Fare.isnull(),'Fare']= df.Fare.median()
    return df

df_original = pd.read_csv(DATA_FILE, header=0)

df_prepared = prepareData(df_original)

# (2) Datensatz stochastisch verändern
df_shuffled =  df_prepared.sample(frac=1)

# (3) Aufteilung in Trainings- und Testdatensatz
df_train, df_test = np.split(df_shuffled, [int(.8*len(df_shuffled))])

### Merkmale standardisieren
Die <i>Standardisierung</i> verleiht den Daten die Eigenschaften einer Standardnormalverteilung. Der Mittelwert jeder Merkmalsspalte beträgt 0, die Standardabweichung jeder Merkmalsspalte beträgt 1. Um zum Beispiel das Merkmal j zu standardiesieren, wird der Mittelwert $\mu$ der jeweiligen Stichprobe abgezogen und das Ergebnis durch die Standardabweichung $\sigma$ dividiert. Das Standardisierungsverfahren wird auf die Merkmalsspalten der Datenmenge einzeln angewendet. Siehe auch: https://en.wikipedia.org/wiki/Standard_score <br>

$x_j^{\prime(i)} = \frac{x_j^{(i)} - \mu_j}{\sigma_j}$. 

Implementieren sie die Funktion <b>normalize()</b> welche die Standardisierung (anhand Mittelwert und Standardabweichung) des Trainingsdatensatzes durchführt. Die Methoden-Parameter können Sie entsprechend Ihrer Implementierung erweitern. Überlegen Sie sich hierbei, welche Merkmale zur Standardisierung geeignet sind und welche nicht. Sie können Ihre Implementierung testen, indem Sie die Werte Mittelwert und Standardabweichung Ihrer standardisierten Merkmalsspalten prüfen. Der Mittelwert sollte 0 sein, die Standardabweichung 1. Geben Sie die Werte aus.

Speichern Sie sich hierbei die Werte für Mittelwert und Standardabweichung des Trainingsdatensatzes in einer geeigneten Datenstruktur. Führen sie die Standardisierung des Testdatensatzes anhand der Werte von Mittelwert und Standardabweichung vom Trainingsdatensatzes durch. <br>

<b>Wichtiger Hinweis</b>: Implementieren Sie die Funktion eigenständig, eine Standard-Funktion aus einem Framework ist nicht zulässig, wie bspw. *sklearn.preprocessing.StandardScaler*. Zum Testen Ihrer Implementierung können Sie diese Funktion nutzen. Standard-Numpy-Funktion zur Berechnung von *Mittelwert* und *Standardabweichung* sind selbstverständlich zugelassen. 

In [4]:
df_original.isnull().sum()

PassengerId       0
Survived          0
Pclass            0
Name              0
Sex               0
Age               0
SibSp             0
Parch             0
Ticket            0
Fare              0
Cabin          1014
Embarked          2
Home-Dest       564
dtype: int64

In [5]:
df_train.loc[(df_train.Sex == 'male'), 'Sex'] = 1
df_train.loc[(df_train.Sex == 'female'), 'Sex'] = 0
df_test.loc[(df_test.Sex == 'male'), 'Sex'] = 1
df_test.loc[(df_test.Sex == 'female'), 'Sex'] = 0

In [7]:
def normalize(df, variables, means, stds):
    result = df
    for item in result.index:
        for v in variables:
            result.at[item, v] = (result.at[item, v]-means[v])/stds[v]
    return result

def calcNormModel(df, variables):
    means = {}
    stds = {}
    for x in variables:
        means[x] = df[x].mean()  
        stds[x] = np.std(df[x])
    return means, stds



variables = ["Age", "Fare", "SibSp", "Parch", "Pclass", "Sex"]

norm_model = calcNormModel(df_train, variables)

df_train_norm = normalize(df_train, variables, norm_model[0], norm_model[1])
df_test_norm =  normalize(df_test, variables,  norm_model[0], norm_model[1])

In [None]:
#Testdatensatz anhand des Trainingsdatensatzes standardisieren

### Merkmalsraum definieren
Unabhängig von der eingesetzten Methodik zur Klassifikation ist es wichtig, dass Sie sich Gedanken über den Merkmalsraum machen. Konkret bedeutet das, dass sie definieren müssen wie ein Merkmalsvektor aussieht und mit welchem Ähnlichkeitsmaß Merkmalsvektoren verglichen werden. Sie sollten sich dabei mit den folgenden Fragen auseinander setzen:
* Welche einzelnen Attribute aus einem Objekt des Datensatzes sollen verwendet werden?
* Welche Probleme ergeben sich aufgrund von unterschiedlichen Skalenniveaus der Attribute? Wie können Sie diesen begegnen? 
* Wie gehen Sie mit kategoriellen Merkmalen um?
* Welches Ähnlichkeitsmaß setzen Sie ein? 

### Merkmalsvektor extrahieren und normalisieren bzw. standardisieren
Schreiben sie eine Methode welche aus einer gegebenen Datenreihe einen Merkmalsvektor extrahiert. D.h. der Input ist eine Reihe aus dem Datensatz, der Rückgabewert ein Vektor bestehend aus den Daten.

In [8]:
def extractFeatureVector(row):
    return np.array([row.Age, row.Pclass, row.Sex, row.SibSp, row.Parch])

Testen Sie die Funktion auf einem beliebigen Objekt des Datensatzes. Überprüfen Sie ob das Resultat Ihren Erwartungen entspricht. 

In [9]:
extractFeatureVector(df_train_norm.iloc[0])

array([ 1.45833384,  0.        , -1.37269717,  0.        ,  3.        ])

Wenn Sie einen nieder-dimensionalen Merkmalsraum, bspw. zwei-dimensional, gewählt haben, lässt sich dieser sehr komfortabel visualisieren. Zum Beispiel:

<img src="./Figures/titanic-nieder-dimensional.png" alt="drawing" style="width:400px;"/>

## Implementierung
Die Implementierung erfolgt innerhalb der Klasse <b>KNN</b>. Im folgenden werden die einzelnen Methoden und deren Funktionsweise kurz vorgestellt. <br>


### Konstruktor
Das KNN-Objekt wird mit dem Wert <b>k</b> initialisiert. Dieser bestimmt die Anzahl der zu betrachtenden Nachbarn. Wählen Sie k=3 als Wert.


### distance()-Methode:
In dieser Methode gilt es eine Funktion zu implementieren, welche die Ähnlichkeit zweier Merkmalsvektoren vergleicht. Diese Methode soll die Ähnlichkeit der zwei Merkmalsvektoren, welche als Methoden-Parameter übergeben werden, bestimmen. Wählen Sie hierbei die aus der Vorlesung bekannten Distanz-Funktionen wie bspw. *Euklidische Distanz*, *Manhatten Distanz*, *Minkovski Distanz* etc. <br>

<b>Auch hier gilt</b>: Implementieren Sie die Funktion eigenständig, eine Standard-Funktion aus einem Framework ist nicht zulässig, wie bspw. *sklearn.metrics.pairwise.euclidean_distances*. Zum Testen Ihrer Implementierung können Sie diese Funktionen nutzen.


### fit()-Methode:
Als Methoden-Parameter dient der normierte Trainingsdatensatz. In dieser Methode soll das Modell anhand der Trainingsdaten gebildet werden mit dem entsprechenden zuvor definierten Merkmalsvektor. <br>
Stellen Sie sicher, dass in der Liste <b>self.trainData</b> die Merkmalsvektoren aus dem Trainingsdatensatz enthalten sind. <br>
Stellen sie sicher, dass in der Liste <b>self.trainLabel</b> die Zielwerte des Merkmals *survived* aus dem Trainingsdatensatz enthalten sind.


### predict()-Methode:
Als Methoden-Parameter dient ein Merkmalsvektor. Implementieren Sie den in der Vorlesung besprochenen Algorithmus für den KNN-Klassifikator. Der Rückgabewert der Methode ist die entsprechende Mehrheits-Entscheidung.

In [10]:
class KNN(object):
    
    def __init__(self, k):
        self.k = k

    def euklid(self, vector1,vector2):
        sum = 0
        for item in range(len(vector1)-1):
            sum += (vector1[item] - vector2[item])**2
        return np.sqrt(sum)
    
    def cityBlock(self, vector1, vector2):
        sum=0
        for item in range(len(vector1) -1):
            sum += abs(vector1[item] - vector2[item])
        return sum
    def fit(self, df):
        self.trainData =  df
        self.trainLabel = [0,1] #Versteh den Sinn nicht so ganz. 
    
    def predict(self, x):
        distances = list()
        for row in self.trainData.itertuples():
            dst = self.cityBlock(extractFeatureVector(row), extractFeatureVector(x))
            distances.append((row, dst))
        distances.sort(key=lambda tup: tup[1])
        survivedCount = 0
        for i in range(self.k):
            survivedCount += distances[i][0].Survived
        if (survivedCount > round(self.k/2)):
            return self.trainLabel[1]
        return self.trainLabel[0]

## Training und Test des Algorithmus

Führen die Modellbildung ("Training") anhand der KNN-Klasse und der <b>fit()</b>-Methode durch. <br>
Die <b>predict()</b>-Methode soll einen Merkmalsvektor $\vec x_q$  auf die entsprechende Klassenzugehörigkeit $l \in \{0,1\}$ abbilden. <br>
Testen Sie die <b>predict()</b>-Methode mit den von ihnen gewählten Merkmalsvektoren ( _Hinweis_ : Einsatz der <b>extractFeatureVector()</b>-Methode) aus dem normierten Testdatensatz. Ermitteln sie hierzu die Korreklassifizierungsrate.

In [11]:
knn = KNN(3)
knn.fit(df_train_norm)
truePositives = 0
trueNegatives = 0
falsePositives = 0
falseNegatives = 0
for item in df_test_norm.itertuples():
    predicted = knn.predict(item)
    if (predicted == item.Survived & item.Survived == 1):
        truePositives+=1
    if (predicted == item.Survived & item.Survived == 0):
        trueNegatives+=1
    if (predicted != item.Survived & item.Survived == 1):
        falsePositives+=1
    if (predicted != item.Survived & item.Survived == 0):
        falseNegatives+=1
print((truePositives+trueNegatives)/(truePositives+trueNegatives+falsePositives+falseNegatives))

0.7251908396946565
done


## Weitere Evaluation
Untersuchen Sie wie sich die Klassifikationsleistung in Abhängigkeit von verschiedenen Änhlichkeitsmaßen bzw. Merkmalsvektoren verhält. 

In [None]:
#Euklid: k = 3, Merkmale = Age, Pclass, Sex -> ca. 63%
#Euklid: k = 3, Merkmale = Age, Pclass, Sex -> ca. 72%
#Euklid: k = 3, Merkmale = Age, Pclass, Sex, SibSp, Parch -> 75 %
#CityBlock: k = 3, Merkmale = Age, Pclass, Sex -> ca. 72 % 
#CityBlock: k = 3, Merkmale = Age, Pclass, Sex -> ca. 63 % 
#CityBlock: k = 3, Merkmale = Age, Pclass, Sex, SibSp, Parch -> 75 %