<a href="https://colab.research.google.com/github/tho071206-ther/TriTueNhanTao/blob/main/hocmayK_NN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from collections import Counter

# --- [BÀI 2] PHẦN A: CÀI ĐẶT THỦ CÔNG K-NN ---
def manual_knn_predict(X_train, y_train, X_test, k):
    y_pred = []
    for test_point in X_test:
        # 1. Tính khoảng cách Euclidean
        distances = np.linalg.norm(X_train - test_point, axis=1)
        # 2. Lấy k điểm gần nhất
        k_indices = np.argsort(distances)[:k]
        k_nearest_labels = [y_train[i] for i in k_indices]
        # 3. Bầu chọn nhãn phổ biến nhất
        most_common = Counter(k_nearest_labels).most_common(1)
        y_pred.append(most_common[0][0])
    return np.array(y_pred)

# --- [BÀI 2] PHẦN B: TÌM K TỰ ĐỘNG (GridSearchCV) ---
def find_best_k(X, y):
    print("Đang tìm k tối ưu bằng GridSearchCV...")
    params = {'n_neighbors': np.arange(1, 20)}
    knn_grid = GridSearchCV(KNeighborsClassifier(), params, cv=5)
    knn_grid.fit(X, y)
    print(f"--> k tốt nhất là: {knn_grid.best_params_['n_neighbors']}")
    return knn_grid.best_estimator_

# --- [BÀI 3] DEMO ỨNG DỤNG ---
if __name__ == "__main__":
    # Tạo dữ liệu
    X, y = make_blobs(n_samples=300, centers=4, cluster_std=1.0, random_state=42)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

    # 1. Chạy hàm thủ công
    print("\n[Demo Manual K-NN with k=5]")
    y_manual = manual_knn_predict(X_train, y_train, X_test, k=5)
    acc = np.mean(y_manual == y_test)
    print(f"Độ chính xác (Manual): {acc*100:.2f}%")

    # 2. Tìm k tối ưu và chạy sklearn
    best_model = find_best_k(X_train, y_train)
    print(f"Độ chính xác (Sklearn Best K): {best_model.score(X_test, y_test)*100:.2f}%")

    # Vẽ hình kết quả
    plt.scatter(X_test[:, 0], X_test[:, 1], c=y_manual, cmap='viridis', s=50)
    plt.title("Kết quả phân loại K-NN (Test Set)")
    plt.show()