In [1]:
%matplotlib notebook
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

In [2]:
# inlezen tabel met fruit gegevens
fruits = pd.read_table('knn_fruit_data.txt')
print('Aantal meetwaarden {0:d}'.format(len(fruits)))
fruits.head()

Aantal meetwaarden 59


Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192,8.4,7.3,0.55
1,1,apple,granny_smith,180,8.0,6.8,0.59
2,1,apple,granny_smith,176,7.4,7.2,0.6
3,2,mandarin,mandarin,86,6.2,4.7,0.8
4,2,mandarin,mandarin,84,6.0,4.6,0.79


In [3]:
# Color_score is een waarde uit het kleuren spectrum:
# 0.45-0.65: Groen, 0.65-0.75: Geel, 0.75-0.85: Oranje, 0.85-1.00: Rood

In [4]:
# maak een dictionary van fruit_label naar fruit_name
lookup_fruit_name = dict(zip(fruits['fruit_label'].unique(),fruits['fruit_name'].unique()))
lookup_fruit_name

{1: 'apple', 2: 'mandarin', 3: 'orange', 4: 'lemon'}

In [5]:
# maak de feature tabel (X) en de target tabel (Y)
X=fruits[['mass','width','height']]
y=fruits['fruit_label']   # moet nummeriek zijn

# splits in train en test set
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state = 0)
print('Aantal trainwaarden {0:d}'.format(len(X_train)))
print('Aantal testwaarden {0:d}'.format(len(y_test)))


Aantal trainwaarden 44
Aantal testwaarden 15


In [6]:
# maak classifier object
knn = KNeighborsClassifier(n_neighbors = 5)
# train de classifier
knn.fit(X_train,y_train)
# laat de classifier de testset berekenen
y_knn = knn.predict(X_test)
# controleer de nauwkeurigheid met de test data
knn.score(X_test,y_test)

0.5333333333333333

In [7]:
# KNeighborsClassifier heeft zijn eigen score functie. Dat hebben niet alle modellen
# Daarom de nauwkeurigheid ook als volgt te bepalen
accuracy_score(y_test,y_knn)

0.5333333333333333

In [8]:
# controleer met een confusion matrix
cm = confusion_matrix(y_test,y_knn)
cm

array([[3, 0, 0, 1],
       [0, 1, 0, 0],
       [3, 0, 3, 2],
       [0, 0, 1, 1]], dtype=int64)

In [9]:
# in het ideale geval zou alleen de diaogonaal gevuld moeten zijn
# we zien hier dat voor apple (bovense rij) er 3 correct zijn en er 1 als lemon wordt gezien

In [10]:
# voorspel voor een bepaalde vrucht
fruit_prediction = knn.predict([[150,6.5,7.0]])
fruit_prediction

array([1], dtype=int64)

In [11]:
lookup_fruit_name[fruit_prediction[0]]

'apple'