In [49]:
import pandas as pd
import numpy as np
from collections import Counter
from math import sqrt

# Normalisierung der Daten
def normalize(value, min, max):
    return (value - min) / (max - min)

# Berechnungsvorschrift der euclid distance
def euclid_distance(v1, v2):
    distance = 0.0
    for x, y in np.nditer([v1, v2]):
        distance += (y - x)**2
    return sqrt(distance)

# Berechnung der Distanz über alle Datensätze
def calc_distance(training_set,
                       labels,
                       test_instance,
                       k, distancefunc):
    distances = []
    for index in range(len(training_set)):
        dist = distancefunc(test_instance, training_set[index])
        distances.append([dist, labels[index]])
    neighbors = distances[:k]
    return neighbors

# Zusammenfssung der Gruppen
def aggregate(neighbors):
    class_counter = Counter()
    for neighbor in neighbors:
        class_counter[neighbor[1]] = class_counter[neighbor[1]] + 1      
    return class_counter.most_common(1)[0][0]

# Daten einlesen und Vorbereiten
daten = pd.read_csv("obst.csv", delimiter=";")

# Obstnamen
obstNamen = df['obst_label']

# Minimalwerte für Gewicht und Farbe einlesen
minValueMass, minValueColor = np.min(daten[["mass", "color_score"]])

# Maximalwerte für Gewicht und Farbe einlesen
maxValueMass, maxValueColor = np.max(daten[["mass", "color_score"]])

# Normalisierung der min/max Werte der Masse
massNorm = normalize(daten['mass'], minValueMass, maxValueMass)

# Normalisierung der min/max Werte der Farbe
colorNorm = normalize(daten['color_score'], minValueColor, maxValueColor)
normValues = np.column_stack((massNorm, colorNorm))

#print(massNorm,minValueMass, maxValueMass)
print(normalize(188, minValueMass, maxValueMass))

# Distanz für "neue" Werte berechnen, die nicht in CVS Datei sind.
# Das Ergebnis der Distanz wird für die Klassifizierung (ob Apfel, Orange, Zitrone oder Mandarine) benötigt.
apfel = [[normalize(158, minValueMass, maxValueMass), normalize(0.68, minValueColor, maxValueColor)]]
orange = [[normalize(205, minValueMass, maxValueMass), normalize(0.80, minValueColor, maxValueColor)]]
zitrone = [[normalize(160, minValueMass, maxValueMass), normalize(0.71, minValueColor, maxValueColor)]]

# Distanz für den neuen Beispielapfel brechnen
#obstNachbarn = calc_distance(normValues, obstNamen, apfel, 60, distancefunc=euclid_distance)

# Distanz für die neue Beispielzitrone brechnen
#obstNachbarn = calc_distance(normValues, obstNamen, zitrone, 60, distancefunc=euclid_distance)

# Distanz für die neue Beispielorange brechnen
obstNachbarn = calc_distance(normValues, obstNamen, orange, 60, distancefunc=euclid_distance)

# sortieren der Nachbarn
sortierteObstNachbarn = sorted(obstNachbarn)

# häufigster/wahrscheinlichster Nachbar?
wahrscheinlichsterNachbar = aggregate(sortierteObstNachbarn[0:20])
print(wahrscheinlichsterNachbar)

if wahrscheinlichsterNachbar == 1:
    print("wahrscheinlich ein Apfel");
    
if wahrscheinlichsterNachbar == 2:
    print("wahrscheinlich eine Mandarine");
    
if wahrscheinlichsterNachbar == 3:
    print("wahrscheinlich eine Orange");
    
if wahrscheinlichsterNachbar == 4:
    print("wahrscheinlich eine Zitrone");

0.3916083916083916
3
wahrscheinlich eine Orange
