# *k*-Nearest Neighbours - fruit

In [None]:
%matplotlib notebook
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

In [None]:
# inlezen tabel met fruit gegevens
fruits = pd.read_table('knn_fruit.txt')
print('Aantal meetwaarden {0:d}'.format(len(fruits)))
fruits.head()

In [None]:
# Color_score is een waarde uit het kleuren spectrum:
# 0.45-0.65: Groen, 0.65-0.75: Geel, 0.75-0.85: Oranje, 0.85-1.00: Rood

In [None]:
# maak een dictionary van fruit_label naar fruit_name
lookup_fruit_name = dict(zip(fruits['fruit_label'].unique(),fruits['fruit_name'].unique()))
lookup_fruit_name

In [None]:
# maak de feature tabel (X) en de target tabel (Y)
X=fruits[['mass','width','height']]
y=fruits['fruit_label']   # moet nummeriek zijn

# splits in train en test set
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
print('Aantal trainwaarden {0:d}'.format(len(X_train)))
print('Aantal testwaarden {0:d}'.format(len(y_test)))


In [None]:
# maak classifier object
knn = KNeighborsClassifier(n_neighbors = 5)
# train de classifier
knn.fit(X_train,y_train)
# laat de classifier de testset berekenen
y_knn = knn.predict(X_test)
# controleer de nauwkeurigheid met de test data
knn.score(X_test,y_test)

In [None]:
# KNeighborsClassifier heeft zijn eigen score functie. Dat hebben niet alle modellen
# Daarom de nauwkeurigheid ook als volgt te bepalen
accuracy_score(y_test,y_knn)

In [None]:
# controleer met een confusion matrix
# in het ideale geval zou alleen de diagonaal gevuld moeten zijn
# we zien hier dat voor apple (bovense rij) er 3 correct zijn en er 1 als lemon wordt gezien
cm = confusion_matrix(y_test,y_knn)
cm

In [None]:
df_cm = pd.DataFrame(cm, 
                     index = [lookup_fruit_name[i+1] for i in range(4)], 
                     columns = [lookup_fruit_name[i+1] for i in range(4)])
sns.heatmap(df_cm, annot=True)

In [None]:
# voorspel voor een bepaalde vrucht met massa 150, breedte 6.5 en hoogte 7
fruit_prediction = knn.predict([[150,6.5,7.0]])
fruit_prediction

In [None]:
lookup_fruit_name[fruit_prediction[0]]

## Oefening

Bedenk verschillende varianten die mogelijk een beter resultaat zouden opleveren. Voer een variant uit en verifieer het resultaat.