## 🧠 I. Hierarchical Clustering là gì?

Là một phương pháp **phân cụm không giám sát** dựa trên **cấu trúc phân cấp** (giống như cây phả hệ), trong đó:

* Dữ liệu được nhóm theo cấp bậc
* Có thể trực quan bằng **cây phân cấp (dendrogram)**

Gồm 2 loại chính:

| Kiểu                         | Mô tả                            |
| ---------------------------- | -------------------------------- |
| **Agglomerative (tăng dần)** | Mỗi điểm là 1 cụm → gộp dần vào  |
| **Divisive (giảm dần)**      | Tất cả trong 1 cụm → tách dần ra |

🔥 `Agglomerative` là phổ biến nhất.


## 📏 II. Cách hoạt động của Agglomerative Clustering

1. Bắt đầu: mỗi điểm dữ liệu là một cụm riêng
2. Lặp:

   * Tính khoảng cách giữa các cụm
   * Gộp 2 cụm gần nhau nhất lại
3. Lặp đến khi chỉ còn 1 cụm (hoặc đạt số cụm mong muốn)


## 📐 III. Khoảng cách giữa các cụm

| Phép đo              | Công thức                             | Ghi chú          |
| -------------------- | ------------------------------------- | ---------------- |
| **Single Linkage**   | $\min d(x_i, x_j)$                    | Dễ tạo chuỗi dài |
| **Complete Linkage** | $\max d(x_i, x_j)$                    | Cụm chặt         |
| **Average Linkage**  | Trung bình khoảng cách                | Dễ hiểu          |
| **Ward’s Method**    | Tối thiểu hóa tổng phương sai nội cụm | Rất phổ biến     |


## 🔬 IV. Dendrogram – Cây phân cấp

Là biểu đồ thể hiện cách các cụm được gộp lại qua từng bước.

Dựa vào **chiều cao của nhánh**, ta có thể **chặt cây** để chọn số cụm phù hợp.


## 🧪 V. Ví dụ code với `scikit-learn` + `scipy`

```python
from sklearn.datasets import load_iris
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.cluster import AgglomerativeClustering
import matplotlib.pyplot as plt

# Load dữ liệu
X, _ = load_iris(return_X_y=True)

# Tính liên kết (linkage matrix)
Z = linkage(X, method='ward')

# Vẽ dendrogram
plt.figure(figsize=(10, 5))
dendrogram(Z)
plt.title("📊 Dendrogram - Hierarchical Clustering")
plt.xlabel("Samples")
plt.ylabel("Distance")
plt.show()

# Thực hiện phân cụm
model = AgglomerativeClustering(n_clusters=3, linkage='ward')
labels = model.fit_predict(X)
```


## 📊 VI. Ưu & Nhược điểm

| Ưu điểm                                               | Nhược điểm                                        |
| ----------------------------------------------------- | ------------------------------------------------- |
| Không cần chỉ định số cụm trước (nếu dùng dendrogram) | Chậm với dữ liệu lớn (O(n²))                      |
| Có thể biểu diễn bằng dendrogram đẹp mắt              | Không hoạt động tốt với cụm có hình dạng phức tạp |
| Kết quả có tính phân cấp, trực quan                   | Không cập nhật lại sau khi gộp cụm                |
| Không cần khởi tạo random                             | Không chống nhiễu tốt                             |


## 📦 VII. Khi nào nên dùng?

* Khi dữ liệu **nhỏ / vừa** và bạn muốn phân tích cụm theo **cấp bậc**
* Khi cần **hiểu rõ mối quan hệ giữa các điểm**
* Khi cần **chọn số cụm bằng cách trực quan hóa**


## 🔍 VIII. So sánh với KMeans

| Mục                    | Hierarchical | KMeans           |
| ---------------------- | ------------ | ---------------- |
| Cần chỉ định số cụm?   | Không (tuỳ)  | Có               |
| Có phân cấp?           | Có           | Không            |
| Phức tạp tính toán     | Cao (O(n²))  | Thấp (O(n))      |
| Hiệu suất với big data | Kém          | Tốt hơn          |
| Dễ diễn giải           | Có           | Không rõ cụm con |


## 🎓 Tổng kết

| Mục       | Nội dung                                        |
| --------- | ----------------------------------------------- |
| Tên       | Hierarchical Clustering                         |
| Kiểu      | Phân cụm không giám sát                         |
| Phổ biến  | Agglomerative                                   |
| Trực quan | Cực kỳ (dendrogram)                             |
| Phép đo   | Ward, Average, Complete...                      |
| Thích hợp | Phân tích mối quan hệ cấp bậc, số cụm linh hoạt |
