In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import tensorflow as tf

# Učitavanje i priprema podataka
df = pd.read_csv('iris.csv')
df = df[["sepal_length", "sepal_width", "species"]].dropna()

x = df[['sepal_length', 'sepal_width']]
y = df['species']

scaler = StandardScaler()
x = scaler.fit_transform(x)
y = LabelEncoder().fit_transform(y)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, stratify=y)

# Definicija klase KNN
class KNN:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        y_pred = []
        for x in X:
            distances = tf.sqrt(tf.reduce_sum(tf.square(tf.subtract(self.X_train, x)), axis=1))
            _, indices = tf.nn.top_k(-distances, self.k)
            k_nearest_labels = tf.gather(self.y_train, indices)
            y_pred.append(np.argmax(np.bincount(k_nearest_labels)))
        return np.array(y_pred)

    def accuracy(self, X, y):
        y_pred = self.predict(X)
        return np.mean(y_pred == y)

# Ispitivanje zavisnosti tačnosti od k
acc_arr = []
for k in range(1, 16):
    knn = KNN(k)
    knn.fit(x_train, y_train)
    acc = knn.accuracy(x_test, y_test)
    acc_arr.append(acc)

# Vizualizacija zavisnosti tačnosti od k
k_values = np.arange(1, 16)
plt.plot(k_values, acc_arr, marker='o')
plt.xlabel('Number of Neighbors k')
plt.ylabel('Accuracy')
plt.title('Accuracy vs. Number of Neighbors k')
plt.xticks(k_values)
plt.grid(True)
plt.show()

# Ispisivanje k sa najvećom tačnošću
best_k = k_values[np.argmax(acc_arr)]
print(f'Best k is {best_k} with accuracy of {acc_arr[np.argmax(acc_arr)]}')

KeyboardInterrupt: 

Komentar o izboru k
Na osnovu dobijenog grafika, može se videti kako se tačnost menja sa promenom vrednosti k.
Najbolji izbor za k je onaj koji maksimizira tačnost na test skupu.
U ovom slučaju, {best_k} pokazuje se kao najbolji izbor. Za preciznu vrijednost koje k je najbolje recicemo da je sve nakon 3 ukljucujuci 3 odlicno jer uslijed random shufflovanja train i test podataka prilikom svakog pokretanja naseg koda dovodi do razlicitih rezultat tako da nakon 10 pokretanja smo sigurni u nas izbor