# Projekt - Implementace Knearst Neighbors algoritmu

In [29]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris, load_wine, load_digits
from datetime import datetime
from collections import Counter

In [27]:
# library implementation test
# Loads a sample dataset
data = load_wine()
X = data.data 
y = data.target  

# Splits the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)

start_time = datetime.now()
knn = KNeighborsClassifier(n_neighbors=3)

knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
print("--- %s seconds ---" % (datetime.now() - start_time)) 

Accuracy: 0.64
--- 0:00:00.015657 seconds ---


In [25]:
class KNearestNeighbors:
    def __init__(self, k=3):
        self.k = k
    
    def fit(self, X_train, y_train):
        # algoritmus si uloží trénovací data- ta budou použita při predikci
        self.X_train = X_train
        self.y_train = y_train
    
    def predict(self, X_test):
        predictions = [self._predict(x) for x in X_test]
        return np.array(predictions)
    
    def _predict(self, x):
        # První je spočítána vzdálenosti mezi x a všemi trénovacími daty(Je použita euklidovská vzdálenost, ale je možné použít i jiné)
        distances = [self._euclidean_distance(x, x_train) for x_train in self.X_train]
        
        # prvních k nejbližších sousedů
        k_indices = np.argsort(distances)[:self.k]
        
        # získání tříd těchto nejbližších sousedů
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        
        # Nejběžnější třída je vrácena jako predikce
        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]
    
    def _euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum((x1 - x2) ** 2))


# Test s datasetem vína
data = load_wine()
X = data.data
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)

start_time = datetime.now()
knn_custom = KNearestNeighbors(k=3)

knn_custom.fit(X_train, y_train)

y_pred_custom = knn_custom.predict(X_test)

accuracy_custom = accuracy_score(y_test, y_pred_custom)
print(f"Accuracy of custom KNN: {accuracy_custom:.2f}")
print("--- %s seconds ---" % (datetime.now() - start_time))


Accuracy of custom KNN: 0.64
--- 0:00:00.015625 seconds ---


In [30]:
# Test rychlosti na větším datasetu
data = load_digits()

X = data.data
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)

start_time = datetime.now()
knn_custom = KNearestNeighbors(k=3)

knn_custom.fit(X_train, y_train)

y_pred_custom = knn_custom.predict(X_test)

accuracy_custom = accuracy_score(y_test, y_pred_custom)

print(f"Accuracy of custom KNN: {accuracy_custom:.2f}")
print("--- %s seconds ---" % (datetime.now() - start_time))

start_time = datetime.now()
knn = KNeighborsClassifier(n_neighbors=3)

knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
print("--- %s seconds ---" % (datetime.now() - start_time))

Accuracy of custom KNN: 0.98
--- 0:00:02.895294 seconds ---
Accuracy: 0.98
--- 0:00:00.139717 seconds ---


## Shrnutí
- Vytvořená implementace KNN algoritmu dosahuje stejných výsledků jako knn z knihovny sklearn.
- Na malých datasetech trvá výpočet stejně dlouho, ale na větších datasetech(Například u datasetu digits, který má 1797 prvků) je knn z knihovny sklearn podstatně rychlejší.
- Knihovní implementace totiž používá pokročilejší datové struktury jako KD-Tree a Ball-Tree, které umožňují rychlejší vyhledávání nejbližších sousedů.
- Knihovní implementace má také některé části napsané v C, používá cache, multithreading a jiné optimalizace, které zvyšují rychlost.
