In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

### KNN from scratch

In [2]:
class KNearestNeighbors:
    def __init__(self, k=1):
        self.k = k
        self.data = None
        self.labels = None

    def fit(self, data, labels):
        self.data = data
        self.labels = labels

    def predict(self, point):
        # Tính khoảng cách Euclidean từ điểm đến tất cả các điểm trong tập huấn luyện
        distances = np.linalg.norm(self.data - point, axis=1)
        # Lấy chỉ số của k điểm gần nhất
        nearest_indices = np.argsort(distances)[:self.k]
        # Lấy nhãn của các điểm gần nhất
        nearest_labels = self.labels[nearest_indices]
        # Trả về nhãn phổ biến nhất trong số các nhãn gần nhất
        return np.bincount(nearest_labels).argmax()

    def score(self, test_data, test_labels):
        # Dự đoán nhãn cho tất cả các điểm trong tập kiểm tra
        predictions = [self.predict(point) for point in test_data]
        return np.mean(predictions == test_labels)

- dataset

In [3]:
df = pd.read_csv('data/iris.csv')
df.drop('Id', axis=1, inplace=True)
X = df.drop('Species', axis=1).values
y = df['Species'].values
y = LabelEncoder().fit_transform(y) # encode to number
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

* predict

In [4]:
model = KNearestNeighbors(k=10)
model.fit(X_train, y_train)
accuracy = model.score(X_test, y_test)
print(f"Model accuracy: {accuracy * 100:.2f}%")

Model accuracy: 100.00%


### KNN from sklearn

In [5]:
from sklearn.neighbors import KNeighborsClassifier

In [6]:
model = KNeighborsClassifier(n_neighbors=10, p = 2)
model.fit(X_train, y_train)
accuracy = model.score(X_test, y_test)
print(f"Model accuracy using sklearn: {accuracy * 100:.2f}%")

Model accuracy using sklearn: 100.00%
