# Demo thuật toán K-Means Clustering (cơ bản)

Notebook này minh họa cách hoạt động của thuật toán **K-Means Clustering** với dữ liệu giả lập 2 chiều.

## 1. Giới thiệu K-Means

K-Means là thuật toán **phân cụm không giám sát (unsupervised learning)**, mục tiêu là chia dữ liệu thành *K cụm* sao cho:

- Các điểm trong **cùng một cụm** thì giống nhau (gần nhau)
- Các điểm ở **khác cụm** thì khác nhau (xa nhau)

Ý tưởng chính:
1. Chọn ngẫu nhiên K tâm cụm ban đầu (centroids)
2. Gán mỗi điểm dữ liệu vào cụm có tâm gần nó nhất
3. Cập nhật lại tâm cụm = trung bình các điểm trong cụm
4. Lặp lại bước 2–3 đến khi tâm cụm ổn định hoặc đạt số vòng lặp tối đa.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

%matplotlib inline
plt.rcParams['figure.figsize'] = (6, 6)
plt.rcParams['font.size'] = 12


## 2. Tạo dữ liệu giả lập 2D
Ta tạo ra một bộ dữ liệu gồm nhiều điểm trong mặt phẳng 2D, được sinh quanh 3 tâm cụm khác nhau để dễ quan sát.

In [None]:
# Tạo dữ liệu 2D gồm 3 cụm
X, y_true = make_blobs(n_samples=300,
                      centers=3,
                      cluster_std=0.7,
                      random_state=42)

print('Kích thước dữ liệu X:', X.shape)

# Vẽ dữ liệu ban đầu (chưa phân cụm)
plt.scatter(X[:, 0], X[:, 1], s=30)
plt.title('Dữ liệu ban đầu (chưa phân cụm)')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

## 3. Áp dụng K-Means với K = 3
Ta giả sử biết trước dữ liệu có 3 cụm nên sẽ chạy K-Means với `n_clusters=3`.

In [None]:
# Khởi tạo và huấn luyện mô hình K-Means
k = 3
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)

# Nhãn cụm của từng điểm
labels = kmeans.labels_

# Tâm cụm (centroids)
centers = kmeans.cluster_centers_
print('Tâm cụm:\n', centers)

# Vẽ kết quả phân cụm
plt.scatter(X[:, 0], X[:, 1], c=labels, s=30)
plt.scatter(centers[:, 0], centers[:, 1], s=200, marker='X')
plt.title('Kết quả phân cụm với K-Means (K = 3)')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

## 4. Chọn số cụm K bằng Elbow Method
Elbow Method dựa trên **Within-Cluster Sum of Squares (WCSS)** hay `inertia_` trong sklearn.
Ta chạy K-Means với nhiều giá trị K khác nhau và vẽ biểu đồ K vs. inertia để xem "khuỷu tay".

In [None]:
inertias = []
K_range = range(1, 10)

for k in K_range:
    kmeans_k = KMeans(n_clusters=k, random_state=42)
    kmeans_k.fit(X)
    inertias.append(kmeans_k.inertia_)

plt.plot(K_range, inertias, marker='o')
plt.xticks(K_range)
plt.xlabel('Số cụm K')
plt.ylabel('Inertia (WCSS)')
plt.title('Elbow Method để chọn số cụm K')
plt.grid(True)
plt.show()

## 5. Dự đoán cụm cho điểm dữ liệu mới
Sau khi đã huấn luyện K-Means, ta có thể dùng mô hình để gán cụm cho các điểm mới.

In [None]:
# Một vài điểm dữ liệu mới
new_points = np.array([
    [0, 4],
    [-6, 0],
    [5, -1]
])

pred_labels = kmeans.predict(new_points)
print('Nhãn cụm dự đoán cho điểm mới:', pred_labels)

# Vẽ lại cụm cũ + điểm mới
plt.scatter(X[:, 0], X[:, 1], c=labels, s=30, alpha=0.5)
plt.scatter(centers[:, 0], centers[:, 1], s=200, marker='X')
plt.scatter(new_points[:, 0], new_points[:, 1], s=150, marker='*')
for i, p in enumerate(new_points):
    plt.text(p[0] + 0.1, p[1] + 0.1, f'P{i}', fontsize=12)

plt.title('Dự đoán cụm cho điểm dữ liệu mới')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

## 6. Tóm tắt
Trong notebook này, bạn đã thấy:
- Cách tạo dữ liệu 2D đơn giản để thử nghiệm K-Means
- Cách huấn luyện mô hình K-Means với `sklearn`
- Cách trực quan hóa các cụm và tâm cụm
- Cách dùng Elbow Method để chọn số cụm K hợp lý
- Cách dự đoán cụm cho các điểm dữ liệu mới

Bạn có thể thay đổi tham số (số điểm, độ nhiễu, số cụm, v.v.) để hiểu rõ hơn về thuật toán K-Means.