# K Nearest Neighbors

K Nearest Neighbors (KNN) là một thuật toán Học máy dùng để phân loại - hay còn gọi là bộ phân loại theo cách gọi của các chuyên gia.

Phân loại là một hoạt động rất cơ bản và quan trọng mà chúng ta thực hiện với tư cách là con người. Chúng ta đã nhóm động vật, thực vật, ngôi sao, con người, âm nhạc, v.v. để giúp chúng ta hiểu rõ hơn về chúng và mối quan hệ của chúng, cùng nhiều thứ khác. Thông thường, chúng ta cần phân loại một thứ thành một trong nhiều nhóm. Tuy nhiên, hoạt động quan trọng này khá nhàm chán. Nếu máy tính có thể làm điều đó cho chúng ta thì sao?

Việc dạy máy tính phân loại mọi thứ đã rất tẻ nhạt cho đến khi Học máy ra đời. Mặc dù các quy tắc được mã hóa cứng có thể hiệu quả với một tập hợp vấn đề nhất định, nhưng mọi thứ sẽ trở nên vô nghĩa khi một vài tham số được thêm vào/thay đổi/xóa bỏ. Tệ hơn nữa, một giải pháp sẽ trở nên vô dụng khi một vấn đề mới phát sinh. Điều đó không tốt cho kinh doanh.

# Bắt Đầu

## Import Thư Viện

In [None]:
import numpy as np
from collections import Counter
import pandas as pd
import random

## Đọc Dữ Liệu

In [7]:
df = pd.read_csv("Iris.csv")
df.drop(['Id'], axis=1, inplace=True)
data_set = df.values.tolist()

In [None]:
# Xáo trộn dữ liệu
random.shuffle(data_set)

In [None]:
# Chia dữ liệu thành 2 tập train (tập huấn luyện) và test (tập kiểm tra)
train_data = {"Iris-setosa": [], "Iris-versicolor": [], "Iris-virginica": []}
test_data = {"Iris-setosa": [], "Iris-versicolor": [], "Iris-virginica": []}
# 120 mẫu đầu tiên cho training
for i in data_set[:120]:
  train_data[i[-1]].append(i[:-1])
# 30 mẫu còn lại cho testing
for i in data_set[120:]:
  test_data[i[-1]].append(i[:-1])


In [None]:
# Khởi tạo model với k=7
knn = K_Nearest_Neighbors(train_data, k=7)
# Chạy kiểm tra độ chính xác trên tập test
knn.test(test_data)

In [None]:
# Định nghĩa lớp thuật toán KNN
class K_Nearest_Neighbors:
  def __init__(self, data_set, k):
    self.ds = data_set
    self.k = k

  def predict(self, feature_set):
    distances = []
    for group in self.ds:
      for feature in self.ds[group]:
        # Tính khoảng cách euclidean
        e_d = np.linalg.norm(np.array(feature) - np.array(feature_set))
        distances.append([e_d, group])
    
    # Sắp xếp và lấy k hàng xóm gần nhất
    nearest = sorted(distances)[:self.k]
    
    # Lấy tên lớp (group) của các hàng xóm
    votes = [d[1] for d in nearest]
    
    # Đếm số phiếu bầu và chọn lớp có nhiều phiếu nhất
    nearest_group = Counter(votes).most_common(1)[0]
    feature_set_group, self.confidence = nearest_group[0], nearest_group[1] / self.k
    return feature_set_group

  def test(self, test_data):
    correct = 0
    total = 0
    for group in test_data:
      for feature_set in test_data[group]:
        group_prediction = self.predict(feature_set)
        if group_prediction == group:
          correct += 1
        total += 1
    accuracy = correct / total
    print("Accuracy=", accuracy)