## 🧠 I. KNN là gì?

**KNN (K-Nearest Neighbors)** là một thuật toán học có giám sát dùng cho:

* **Phân loại (classification)**
* **Hồi quy (regression)**

Khi cần dự đoán, KNN **không học trước** mà **tìm K điểm gần nhất** trong tập huấn luyện rồi quyết định dựa vào chúng.


## 🧭 II. Cách hoạt động

### 🎯 Với phân loại:

1. Tính khoảng cách từ điểm cần dự đoán đến tất cả điểm huấn luyện.
2. Chọn **K điểm gần nhất**.
3. **Bỏ phiếu đa số** → nhãn được chọn là nhãn phổ biến nhất trong K điểm.

### 📐 Với hồi quy:

* Thay vì bỏ phiếu, ta **tính trung bình giá trị đầu ra** của K hàng xóm.


## 📏 III. Các loại khoảng cách thường dùng

| Tên              | Công thức                   | Ứng dụng         |   |                 |
| ---------------- | --------------------------- | ---------------- | - | --------------- |
| Euclidean        | $\sqrt{\sum (x_i - x_j)^2}$ | Dữ liệu số       |   |                 |
| Manhattan        | ( \sum                      | x\_i - x\_j      | ) | Dữ liệu rời rạc |
| Minkowski        | Tổng quát của cả hai        | Linh hoạt        |   |                 |
| Cosine distance  | $1 - \cos(\theta)$          | Văn bản, ảnh     |   |                 |
| Hamming distance | Số bit khác nhau            | Dữ liệu nhị phân |   |                 |


## ⚙️ IV. Các tham số quan trọng

| Tham số       | Ý nghĩa                                            |
| ------------- | -------------------------------------------------- |
| **K**         | Số lượng hàng xóm gần nhất                         |
| **Metric**    | Cách tính khoảng cách                              |
| **Weight**    | Trọng số phiếu: bằng nhau hay theo khoảng cách     |
| **Algorithm** | Cách tìm hàng xóm: brute-force, KD-Tree, Ball-Tree |


## 🎯 V. Ưu & Nhược điểm

| Ưu điểm                            | Nhược điểm                               |
| ---------------------------------- | ---------------------------------------- |
| Rất đơn giản, dễ cài đặt           | Chậm nếu dữ liệu lớn                     |
| Không cần huấn luyện               | Tốn bộ nhớ (phải giữ toàn bộ data)       |
| Hoạt động tốt nếu dữ liệu phân cụm | Nhạy cảm với outlier                     |
| Không giả định phân phối dữ liệu   | Hiệu quả kém với dữ liệu nhiễu, dư chiều |


## 🧪 VI. Code ví dụ nhanh bằng `scikit-learn`

```python
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)
print(classification_report(y_test, y_pred))
```


## 🔧 VII. K chọn sao cho tốt?

1. **K quá nhỏ (ví dụ 1)**:

   * Dễ bị nhiễu, overfitting
2. **K quá lớn**:

   * Dễ bị underfitting, bỏ mất cấu trúc nhỏ
3. Dùng **Cross-Validation** để chọn K tối ưu

📌 Tip: Dùng số lẻ nếu dữ liệu phân lớp nhị phân.


## 🛡️ VIII. Biến thể và mở rộng của KNN

| Biến thể                 | Ý tưởng                                                                    |
| ------------------------ | -------------------------------------------------------------------------- |
| **Weighted KNN**         | Điểm gần hơn có trọng số lớn hơn khi bỏ phiếu                              |
| **Radius Neighbors**     | Thay vì chọn K điểm gần nhất, chọn tất cả điểm **trong bán kính R**        |
| **Approximate KNN**      | Dùng cây/tối ưu hoá để **tìm hàng xóm gần nhanh hơn** (FAISS, Annoy, HNSW) |
| **Condensed/Edited KNN** | Lọc bớt điểm huấn luyện dư thừa                                            |
| **KNN + PCA**            | Giảm chiều dữ liệu trước khi tìm hàng xóm                                  |


## 🤖 Ứng dụng thực tế

* Nhận dạng chữ viết tay (MNIST)
* Hệ thống gợi ý
* Dự đoán giá trị nhà
* Phân loại tài liệu, cảm xúc
* Chẩn đoán y học (nếu số chiều vừa phải)


## 🎓 Tổng kết

| Mục      | Nội dung                                            |
| -------- | --------------------------------------------------- |
| Học      | Không huấn luyện – lưu dữ liệu                      |
| Dự đoán  | Tìm K điểm gần nhất → bỏ phiếu hoặc tính trung bình |
| Ưu       | Đơn giản, dễ hiểu                                   |
| Nhược    | Chậm với tập lớn, tốn RAM                           |
| Biến thể | Weighted, Radius, Approximate KNN                   |
