## 🧠 I. K-Means là gì?

**K-Means** là thuật toán **Unsupervised Learning**, dùng để chia dữ liệu thành **K nhóm (clusters)** sao cho các điểm trong cùng một nhóm **gần nhau** và **khác biệt so với các nhóm khác**.


## 🔧 II. Cách hoạt động của thuật toán K-Means

1. **Chọn K** (số cụm cần phân)
2. **Khởi tạo K tâm cụm (centroids)** ngẫu nhiên
3. **Lặp lại đến hội tụ:**

   * Gán mỗi điểm dữ liệu vào cụm gần nhất (dựa vào khoảng cách Euclidean)
   * Tính lại tâm cụm mới = trung bình của các điểm trong cụm


## 📐 III. Hàm mục tiêu

Thuật toán cố gắng **giảm tổng bình phương khoảng cách** từ các điểm đến tâm cụm của chúng:

$$
\min_{C} \sum_{k=1}^{K} \sum_{x_i \in C_k} \|x_i - \mu_k\|^2
$$

* $C_k$: tập dữ liệu thuộc cụm $k$
* $\mu_k$: tâm cụm của $C_k$


## ⚠️ IV. Nhược điểm chính

| Vấn đề                                        | Gây ra bởi                      |
| --------------------------------------------- | ------------------------------- |
| Phụ thuộc vào K                               | Phải chọn trước K               |
| Nhạy cảm với khởi tạo                         | Có thể hội tụ vào nghiệm cục bộ |
| Nhạy cảm với outliers                         | Vì dùng khoảng cách Euclidean   |
| Không tốt với dữ liệu phi cầu (non-spherical) | Ví dụ hình trăng lưỡi liềm      |


## 🧪 V. Các biến thể và cải tiến K-Means

| Biến thể | Ý tưởng chính | Ưu điểm so với K-Means |
| -------- | ------------- | ---------------------- |

### 1. **K-Means++**

* 🧠 **Khởi tạo thông minh hơn** bằng cách chọn tâm cụm xa nhau nhất ngay từ đầu
* 📉 Giảm xác suất hội tụ vào nghiệm xấu

```python
KMeans(init='k-means++')
```


### 2. **Mini-Batch K-Means**

* ⛳ Thay vì dùng toàn bộ dữ liệu, chỉ dùng **một batch nhỏ mỗi lần**
* ⚡ Nhanh, phù hợp với dữ liệu lớn


### 3. **Bisecting K-Means**

* 🌳 Tách cụm lớn nhất thành 2, lặp lại cho đến khi đủ K cụm
* ✅ Giảm được lỗi tổng thể so với K-Means truyền thống
* 📌 Dùng trong văn bản (text clustering)


### 4. **Fuzzy C-Means (Soft K-Means)**

* ☁️ Mỗi điểm **có thể thuộc nhiều cụm**, với xác suất
* ❗ Mềm hơn so với gán cứng trong K-Means
* 📌 Dùng trong ảnh y tế, ảnh mờ, dữ liệu mù mờ


### 5. **K-Medoids (PAM – Partitioning Around Medoids)**

* 🧱 Thay vì trung bình (centroid), chọn một điểm thật (medoid) làm tâm
* 🛡️ Không nhạy với outlier như K-Means
* 📌 Dùng khi không thể tính trung bình (ví dụ: chuỗi DNA)


### 6. **Spectral Clustering**

* 🧠 Dùng ma trận **đồ thị** và **eigenvector** để giảm chiều trước khi clustering
* 🎯 Giải tốt được những cụm **phi tuyến** như hình trăng khuyết
* ❌ Chậm với dữ liệu lớn


### 7. **Gaussian Mixture Model (GMM)**

* 🔥 Xem mỗi cụm như một phân phối Gaussian
* 📈 Tối ưu bằng **Expectation-Maximization (EM)**, output là xác suất
* ➕ Mềm hơn K-Means, mô hình hóa tốt hơn khi cụm có hình dạng elip


### 8. **Mean Shift**

* 📍 Dò mật độ cao (mode) trong không gian
* 🚫 Không cần chỉ định số cụm K trước!
* 🐌 Chậm với dữ liệu lớn


### 9. **DBSCAN (Dạng khác nhưng thường so sánh với K-Means)**

* 🔍 Phân cụm dựa vào **mật độ**
* ✅ Tự phát hiện số cụm
* ❗ Phát hiện outlier rất tốt
* ❌ Không tốt với mật độ thay đổi


### 10. **Self-Organizing Map (SOM)** – Biến thể dùng mạng nơ-ron

* 🧠 Dùng mạng thần kinh để ánh xạ dữ liệu lên mặt phẳng 2D
* 🎨 Trực quan hoá cụm đẹp


### 11. **K-Means Tree (K-D Tree / Ball Tree kết hợp K-Means)**

* ⚡ Tăng tốc tìm cụm gần nhất bằng cấu trúc cây
* ✅ Dùng trong hệ thống truy xuất nhanh (Image retrieval)


## 📈 VI. Các cách chọn K tốt hơn

| Cách             | Ý tưởng                            |
| ---------------- | ---------------------------------- |
| Elbow Method     | Vẽ lỗi vs K, chọn điểm gấp         |
| Silhouette Score | Mức độ tách biệt giữa các cụm      |
| Gap Statistic    | So sánh lỗi với dữ liệu ngẫu nhiên |


## 🧠 VII. Kết luận

| Mô hình           | Khi nào dùng                   |
| ----------------- | ------------------------------ |
| **K-Means++**     | Mặc định khi dùng K-Means      |
| **Mini-Batch**    | Dữ liệu lớn                    |
| **Fuzzy C-Means** | Dữ liệu không chắc chắn        |
| **K-Medoids**     | Dữ liệu nhạy với outlier       |
| **GMM**           | Dữ liệu có phân phối khác nhau |
| **DBSCAN**        | Không biết K, muốn tìm outlier |
| **Spectral**      | Cụm có hình dạng phi tuyến     |
| **SOM**           | Trực quan hoá đẹp              |
| **Mean Shift**    | Không muốn đặt K sẵn           |
