# PHÂN LOẠI HOA IRIS BẰNG K-Nearest Neighbors (KNN) (THỦ CÔNG)



Bài thực hành này triển khai thuật toán K-Nearest Neighbors (KNN) hoàn toàn thủ công (không dùng hàm có sẵn) để phân loại loài hoa Iris.



**1. Nhập các thư viện cần thiết**

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

**2. Triển khai lớp K_Nearest_Neighbors**

In [18]:
import numpy as np

class KNNClassifier:
    """
    Triển khai thuật toán K-Nearest Neighbors (KNN) thủ công
    từ scratch, không sử dụng thư viện có sẵn.
    """

    def __init__(self, k=3):
        self.k = k
        self.X_train = None
        self.y_train = None

    def fit(self, X, y):
        """
        Huấn luyện KNN: chỉ cần lưu lại dữ liệu
        """
        self.X_train = X
        self.y_train = y

    def euclidean_distance(self, x1, x2):
        """
        Tính khoảng cách Euclidean giữa 2 vector
        """
        return np.sqrt(np.sum((x1 - x2) ** 2))

    def predict(self, x):
        """
        Dự đoán nhãn cho một mẫu dữ liệu đơn lẻ

        Bước thực hiện:
        1. Tính khoảng cách từ x đến tất cả mẫu train
        2. Lấy K mẫu gần nhất
        3. Bỏ phiếu số đông → trả về nhãn xuất hiện nhiều nhất
        """
        # Bước 1: tính khoảng cách đến mọi mẫu trong tập huấn luyện
        distances = []
        for i in range(len(self.X_train)):
            dist = self.euclidean_distance(x, self.X_train[i])
            distances.append((dist, self.y_train[i]))

        # Sắp xếp theo khoảng cách tăng dần
        distances.sort(key=lambda t: t[0])

        # Bước 2: lấy K láng giềng gần nhất
        k_neighbors = distances[:self.k]

        # Bước 3: Lấy nhãn xuất hiện nhiều nhất
        labels = [label for _, label in k_neighbors]
        prediction = max(set(labels), key=labels.count)

        return prediction

    def predict_batch(self, X):
        """
        Dự đoán cho nhiều mẫu
        """
        predictions = []
        for x in X:
            predictions.append(self.predict(x))
        return np.array(predictions)

    def accuracy(self, y_true, y_pred):
        """
        Tính độ chính xác
        """
        correct = np.sum(y_true == y_pred)
        return correct / len(y_true)


print("Lớp KNNClassifier đã được định nghĩa")


Lớp KNNClassifier đã được định nghĩa


**3. Tải và chuẩn bị dữ liệu Iris**

In [19]:
from google.colab import files
import pandas as pd
import numpy as np

def load_iris_data():
    """
    Tải dữ liệu Iris bằng cách chọn file (upload) trong Google Colab.
    Hỗ trợ file Iris.csv có header như chuẩn Kaggle.
    """
    print("Vui lòng chọn file dữ liệu Iris (.csv)...")
    uploaded = files.upload()

    # Lấy tên file đầu tiên
    filepath = list(uploaded.keys())[0]
    print(f"File được chọn: {filepath}")

    # Đọc file CSV có header
    data = pd.read_csv(filepath)

    # Kiểm tra tên cột để tránh lỗi file khác định dạng
    print("\n Các cột trong file CSV:")
    print(list(data.columns))

    # Lấy 4 features (bỏ cột Id nếu có)
    if "Id" in data.columns:
        data = data.drop(columns=["Id"])

    X = data.iloc[:, :4].values.astype(float)

    # Lấy nhãn (Species)
    y = data.iloc[:, 4].values.astype(str)

    return X, y


# Tải dữ liệu
X, y = load_iris_data()

print("\nTải dữ liệu thành công")
print(f"  - Tổng số mẫu: {len(X)}")
print(f"  - Số features: {X.shape[1]}")
print(f"  - Các lớp: {np.unique(y)}")

print("\nSơ bộ dữ liệu:")
print(f"X.shape = {X.shape}, y.shape = {y.shape}")

print("\nMột vài mẫu đầu tiên:")
for i in range(3):
    print(f"  Mẫu {i+1}: {X[i]} -> {y[i]}")


Vui lòng chọn file dữ liệu Iris (.csv)...


Saving Iris.csv to Iris (2).csv
File được chọn: Iris (2).csv

 Các cột trong file CSV:
['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species']

Tải dữ liệu thành công
  - Tổng số mẫu: 150
  - Số features: 4
  - Các lớp: ['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']

Sơ bộ dữ liệu:
X.shape = (150, 4), y.shape = (150,)

Một vài mẫu đầu tiên:
  Mẫu 1: [5.1 3.5 1.4 0.2] -> Iris-setosa
  Mẫu 2: [4.9 3.  1.4 0.2] -> Iris-setosa
  Mẫu 3: [4.7 3.2 1.3 0.2] -> Iris-setosa


**4. Chia tập dữ liệu thành Training và Testing**

In [21]:
# Chia tập dữ liệu: 80% training, 20% testing
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Chia tập dữ liệu hoàn tất")
print(f"  - Tập huấn luyện: {len(X_train)} mẫu ({len(X_train)/len(X)*100:.1f}%)")
print(f"  - Tập kiểm tra: {len(X_test)} mẫu ({len(X_test)/len(X)*100:.1f}%)")

print(f"\nPhân phối lớp trong tập huấn luyện:")
for cls in np.unique(y_train):
    print(f"  {cls}: {np.sum(y_train == cls)} mẫu")

print(f"\nPhân phối lớp trong tập kiểm tra:")
for cls in np.unique(y_test):
    print(f"  {cls}: {np.sum(y_test == cls)} mẫu")

Chia tập dữ liệu hoàn tất
  - Tập huấn luyện: 120 mẫu (80.0%)
  - Tập kiểm tra: 30 mẫu (20.0%)

Phân phối lớp trong tập huấn luyện:
  Iris-setosa: 40 mẫu
  Iris-versicolor: 40 mẫu
  Iris-virginica: 40 mẫu

Phân phối lớp trong tập kiểm tra:
  Iris-setosa: 10 mẫu
  Iris-versicolor: 10 mẫu
  Iris-virginica: 10 mẫu


**5. Huấn luyện mô hình**

In [22]:
# Tạo và huấn luyện mô hình KNN
knn = KNNClassifier(k=5)   # bạn có thể đổi k tùy ý
knn.fit(X_train, y_train)

print("Huấn luyện mô hình KNN hoàn tất")
print(f"\nMô hình đã học được:")
print(f"  - Số mẫu huấn luyện: {len(knn.X_train)}")
print(f"  - Số features: {knn.X_train.shape[1]}")
print(f"  - Giá trị k = {knn.k}")
print(f"  - Các lớp: {np.unique(knn.y_train)}")

Huấn luyện mô hình KNN hoàn tất

Mô hình đã học được:
  - Số mẫu huấn luyện: 120
  - Số features: 4
  - Giá trị k = 5
  - Các lớp: ['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']



**6. Đánh giá hiệu suất mô hình**

In [23]:
print("THÔNG TIN MÔ HÌNH K-NEAREST NEIGHBORS (KNN)")
# 1. Thông tin mô hình
print("\n1. THÔNG SỐ MÔ HÌNH:")
print(f"   - Giá trị k: {knn.k}")
print(f"   - Số mẫu train: {len(knn.X_train)}")
print(f"   - Số lớp: {len(np.unique(knn.y_train))}")
print(f"   - Các lớp: {np.unique(knn.y_train)}")

# 2. Tính accuracy
y_train_pred = knn.predict_batch(X_train)
train_accuracy = knn.accuracy(y_train, y_train_pred)

y_test_pred = knn.predict_batch(X_test)
test_accuracy = knn.accuracy(y_test, y_test_pred)

print(f"\n2. KẾT QUẢ ĐÁNH GIÁ:")
print(f"   Training Accuracy: {train_accuracy:.4f} ({train_accuracy*100:.2f}%)")
print(f"   Testing Accuracy:  {test_accuracy:.4f} ({test_accuracy*100:.2f}%)")

THÔNG TIN MÔ HÌNH K-NEAREST NEIGHBORS (KNN)

1. THÔNG SỐ MÔ HÌNH:
   - Giá trị k: 5
   - Số mẫu train: 120
   - Số lớp: 3
   - Các lớp: ['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']

2. KẾT QUẢ ĐÁNH GIÁ:
   Training Accuracy: 0.9667 (96.67%)
   Testing Accuracy:  1.0000 (100.00%)


**7. Hiển thị kết quả dự đoán chi tiết**

In [24]:
print("KẾT QUẢ DỰ ĐOÁN CHI TIẾT KNN")
print(f"\n{'STT':<5} {'Sepal Len':<12} {'Sepal W':<10} {'Petal Len':<12} {'Petal W':<10} "
      f"{'Actual':<18} {'Predicted':<18} {'✓/✗':<5}")

correct = 0
for idx, (features, actual) in enumerate(zip(X_test, y_test), 1):
    predicted = knn.predict(features)
    is_correct = "✓" if actual == predicted else "✗"
    if actual == predicted:
        correct += 1

    print(f"{idx:<5} "
          f"{features[0]:<12.2f} {features[1]:<10.2f} {features[2]:<12.2f} {features[3]:<10.2f} "
          f"{actual:<18} {predicted:<18} {is_correct:<5}")

accuracy = correct / len(y_test)
print(f"Tổng số đúng: {correct}/{len(y_test)} (Accuracy: {accuracy*100:.2f}%)")

KẾT QUẢ DỰ ĐOÁN CHI TIẾT KNN

STT   Sepal Len    Sepal W    Petal Len    Petal W    Actual             Predicted          ✓/✗  
1     4.40         3.00       1.30         0.20       Iris-setosa        Iris-setosa        ✓    
2     6.10         3.00       4.90         1.80       Iris-virginica     Iris-virginica     ✓    
3     4.90         2.40       3.30         1.00       Iris-versicolor    Iris-versicolor    ✓    
4     5.00         2.30       3.30         1.00       Iris-versicolor    Iris-versicolor    ✓    
5     4.40         3.20       1.30         0.20       Iris-setosa        Iris-setosa        ✓    
6     6.30         3.30       4.70         1.60       Iris-versicolor    Iris-versicolor    ✓    
7     4.60         3.60       1.00         0.20       Iris-setosa        Iris-setosa        ✓    
8     5.40         3.40       1.70         0.20       Iris-setosa        Iris-setosa        ✓    
9     6.50         3.00       5.20         2.00       Iris-virginica     Iris-virginica 

**8. Dự đoán cho các mẫu mới**

In [26]:
print("DỰ ĐOÁN CHO CÁC MẪU MỚI (KNN)")
sample_flowers = [
    np.array([5.1, 3.5, 1.4, 0.2]),  # Setosa
    np.array([6.7, 3.0, 5.0, 1.7]),  # Versicolor
    np.array([7.6, 3.0, 6.6, 2.1]),  # Virginica
]

sample_names = ["Mẫu 1 (Sample 1)", "Mẫu 2 (Sample 2)", "Mẫu 3 (Sample 3)"]

for name, sample in zip(sample_names, sample_flowers):
    predicted_class = knn.predict(sample)
    print(f"\n{name}:")
    print(f"  Features: [Sepal Length: {sample[0]:.1f}, Sepal Width: {sample[1]:.1f}, ", end="")
    print(f"Petal Length: {sample[2]:.1f}, Petal Width: {sample[3]:.1f}]")
    print(f"  → Predicted Class: {predicted_class}")

print("Hoàn thành")

DỰ ĐOÁN CHO CÁC MẪU MỚI (KNN)

Mẫu 1 (Sample 1):
  Features: [Sepal Length: 5.1, Sepal Width: 3.5, Petal Length: 1.4, Petal Width: 0.2]
  → Predicted Class: Iris-setosa

Mẫu 2 (Sample 2):
  Features: [Sepal Length: 6.7, Sepal Width: 3.0, Petal Length: 5.0, Petal Width: 1.7]
  → Predicted Class: Iris-versicolor

Mẫu 3 (Sample 3):
  Features: [Sepal Length: 7.6, Sepal Width: 3.0, Petal Length: 6.6, Petal Width: 2.1]
  → Predicted Class: Iris-virginica
Hoàn thành
