In [None]:
##K-Means

import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cdist

means = [[2, 2], [9, 2], [4, 9]]
cov = [[2, 0], [0, 2]]
n_samples = 500
n_cluster = 3

X0 = np.random.multivariate_normal(means[0], cov, n_samples)
X1 = np.random.multivariate_normal(means[1], cov, n_samples)
X2 = np.random.multivariate_normal(means[2], cov, n_samples)
X = np.concatenate((X0, X1, X2), axis=0)

plt.xlabel('x')
plt.ylabel('y')
plt.plot(X[:, 0], X[:, 1], 'bo', markersize=5)
plt.plot()
plt.show()

def kmeans_init_centers(X, n_cluster):
    return X[np.random.choice(X.shape[0], n_cluster, replace=False)]

def kmeans_predict_labels(X, centers):
    D = cdist(X, centers)
    return np.argmin(D, axis=1)

def kmeans_update_centers(X, labels, n_cluster):
    centers = np.zeros((n_cluster, X.shape[1]))
    for k in range(n_cluster):
        Xk = X[labels == k, :]
        centers[k, :] = np.mean(Xk, axis=0)
    return centers

def kmeans_has_converged(centers, new_centers):
    return (set([tuple(a) for a in centers]) ==
            set([tuple(a) for a in new_centers]))

def kmeans_visualize(X, centers, labels, n_cluster, title):
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title(title)
    plt_colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'w']
    for i in range(n_cluster):
        data = X[labels == i]
        plt.plot(data[:, 0], data[:, 1], plt_colors[i] + '^', markersize=4,
                 label='cluster_' + str(i))
        plt.plot(centers[i][0], centers[i][1], plt_colors[i + 4] + 'o',
                 markersize=10,
                 label='center_' + str(i))
    plt.legend()
    plt.show()

def kmeans(init_centes, init_labels, X, n_cluster):
    centers = init_centes
    labels = init_labels
    times = 0
    while True:
        labels = kmeans_predict_labels(X, centers)
        kmeans_visualize(X, centers, labels, n_cluster,
                         'Assigned label for data at time = ' + str(times + 1))
        new_centers = kmeans_update_centers(X, labels, n_cluster)
        if kmeans_has_converged(centers, new_centers):
            break
        centers = new_centers
        kmeans_visualize(X, centers, labels, n_cluster,
                         'Update center possition at time = ' + str(times + 1))
        times += 1
    return (centers, labels, times)

init_centers = kmeans_init_centers(X, n_cluster)
print(init_centers)

init_labels = np.zeros(X.shape[0])

kmeans_visualize(X, init_centers, init_labels, n_cluster,
                 'Init centers in the first run. Assigned all data as cluster 0')

centers, labels, times = kmeans(init_centers, init_labels, X, n_cluster)
print('Done! Kmeans has converged after', times, 'times')
print(centers)



# Giải thích k-means
Bước 1: Import thư viện

numpy: tạo và xử lý mảng số, tính trung bình…

matplotlib: vẽ đồ thị dữ liệu và kết quả phân cụm.

cdist: tính khoảng cách giữa các điểm và các tâm cụm nhanh chóng.

Bước 2: Tạo dữ liệu giả lập

means = [[2,2],[9,2],[4,9]] là 3 tâm thật (chỉ dùng để tạo dữ liệu).

cov = [[2,0],[0,2]] là ma trận hiệp phương sai → tạo đám mây điểm có độ “loang” nhất định.

n_samples=500 → mỗi cụm có 500 điểm.

X0, X1, X2 tạo 3 cụm điểm theo phân phối chuẩn đa biến quanh 3 tâm.

X = concatenate(...) → ghép 3 cụm lại thành 1500 điểm.

Bước 3: Vẽ phân bố dữ liệu ban đầu

plt.plot(X[:,0], X[:,1], 'bo') vẽ tất cả điểm màu xanh (chưa phân cụm).

Bước 4: Khởi tạo tâm cụm (random)
return X[np.random.choice(X.shape[0], n_cluster, replace=False)]


Chọn ngẫu nhiên 3 điểm khác nhau trong tập dữ liệu làm tâm ban đầu.

Đây là lý do mỗi lần chạy có thể ra kết quả hơi khác.

Bước 5: Gán nhãn cụm cho từng điểm
D = cdist(X, centers)
return np.argmin(D, axis=1)


cdist(X, centers) tạo ma trận khoảng cách kích thước (N, k):

Mỗi hàng là 1 điểm dữ liệu

Mỗi cột là khoảng cách tới 1 tâm cụm

argmin chọn tâm gần nhất ⇒ gán nhãn cụm (0,1,2) cho mỗi điểm.

Bước 6: Cập nhật lại vị trí tâm cụm
Xk = X[labels == k, :]
centers[k,:] = np.mean(Xk, axis=0)


Lấy tất cả điểm thuộc cụm k (theo nhãn vừa gán).

Tâm mới của cụm = trung bình tọa độ các điểm trong cụm đó.

Bước 7: Kiểm tra hội tụ
set([tuple(a) for a in centers]) == set([tuple(a) for a in new_centers])


Nếu tập tâm mới giống hệt tập tâm cũ ⇒ thuật toán dừng.

Nghĩa là gán cụm & cập nhật tâm không còn thay đổi nữa.

Bước 8: Vẽ kết quả từng vòng lặp

Vẽ điểm của mỗi cụm bằng màu khác nhau.

Vẽ tâm cụm bằng ký hiệu khác (dấu o lớn).

Giúp “nhìn” quá trình cụm thay đổi qua các lần lặp.

Bước 9: Thuật toán K-means hoàn chỉnh

Trong vòng lặp while True:

Gán nhãn cho tất cả điểm dựa trên tâm hiện tại.

Vẽ trạng thái sau khi gán nhãn.

Tính tâm mới bằng trung bình.

Nếu hội tụ → break

Cập nhật centers = new_centers

Vẽ trạng thái sau khi cập nhật tâm.

Tăng biến đếm times.

Hàm trả về:

centers: tâm cuối cùng

labels: nhãn cụm của từng điểm

times: số lần lặp đến khi hội tụ

Bước 10: Chạy thuật toán

init_centers = kmeans_init_centers(...): tạo tâm ban đầu

init_labels = np.zeros(...): ban đầu gán tạm tất cả về cụm 0 để vẽ khởi tạo

centers, labels, times = kmeans(...): chạy thuật toán

In ra số lần hội tụ và tâm cụm cuối cùng

In [None]:
##K-NN
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

X, y = make_blobs(n_samples=100, n_features=2, centers=4, cluster_std=1, random_state=4)

plt.figure(figsize=(9, 6))
plt.scatter(X[:, 0], X[:, 1], c=y, marker='o', s=50)
plt.show()

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

plt.figure(figsize=(9, 6))
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, marker='o', s=40)
plt.show()

knn5 = KNeighborsClassifier(5)
knn5.fit(X_train, y_train)
y_pred_5 = knn5.predict(X_test)

plt.figure(figsize=(9, 6))
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_pred_5, marker='o', s=40)
plt.show()

knn1 = KNeighborsClassifier(1)
knn1.fit(X_train, y_train)
y_pred_1 = knn1.predict(X_test)

plt.figure(figsize=(9, 6))
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_pred_1, marker='o', s=40)
plt.show()

knn_grid = GridSearchCV(estimator=KNeighborsClassifier(),
                        param_grid={'n_neighbors': np.arange(1, 10)}, cv=5)
knn_grid.fit(X, y)
print(knn_grid.best_params_)

def KNN(X_train, X_test, y_train, k):
    num_test = X_test.shape[0]
    num_train = X_train.shape[0]
    y_pred = np.zeros((num_test, num_train))

    for i in range(num_test):
        for j in range(num_train):
            y_pred[i, j] = np.sqrt(np.sum(np.power(X_test[i, :] - X_train[j, :], 2)))

    results = []
    for i in range(len(y_pred)):
        zipped = zip(y_pred[i, :], y_train)
        res = sorted(zipped, key=lambda x: x[0])
        results_topk = res[:k]

        classes = {}
        for _, j in results_topk:
            j = int(j)
            if j not in classes:
                classes[j] = 1
            else:
                classes[j] = classes[j] + 1

        results.append(max(classes, key=classes.get))
    return np.array(results)

X, y = make_blobs(n_samples=500, n_features=2, centers=4, cluster_std=1, random_state=4)
X_test = np.array([(1, 3)])
results = KNN(X, X_test, y, 3)
print(results)




# Giải thích KNN
**Tạo dữ liệu**
X, y = make_blobs(n_samples=100, n_features=2, centers=4,
                  cluster_std=1, random_state=4)


Tạo 100 điểm dữ liệu, mỗi điểm có 2 đặc trưng.

Dữ liệu được chia thành 4 lớp (4 cụm).

y là nhãn lớp thật của từng điểm.

Dữ liệu dùng để minh họa và kiểm tra thuật toán k-NN.

**Trực quan hóa dữ liệu**
plt.scatter(X[:, 0], X[:, 1], c=y)


Vẽ dữ liệu 2D, mỗi màu tương ứng một lớp.

Giúp quan sát sự phân bố và mức độ tách biệt giữa các lớp.

**Chia tập train và test**
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)


Chia dữ liệu thành:

Training set ~75%: dùng để huấn luyện.

Test set ~25%: dùng để kiểm tra.

Vẽ tập test để so sánh với kết quả dự đoán.

**Huấn luyện và dự đoán với k = 5**
knn5 = KNeighborsClassifier(5)
knn5.fit(X_train, y_train)
y_pred_5 = knn5.predict(X_test)


Mỗi điểm test được gán nhãn dựa trên 5 láng giềng gần nhất.

Kết quả được vẽ để so sánh trực quan với nhãn thật.

**Huấn luyện và dự đoán với k = 1**
knn1 = KNeighborsClassifier(1)


Mỗi điểm test được gán nhãn theo 1 điểm gần nhất.

Dễ bị nhiễu nhưng nhạy với dữ liệu.

So sánh hình với k=5 để thấy ảnh hưởng của giá trị k.

**Nhận xét**

Với tập dữ liệu nhỏ, kết quả k=1 và k=5 khá giống nhau.

Với dữ liệu lớn hơn, sự khác biệt sẽ rõ ràng hơn (k nhỏ dễ overfitting).

**Tìm k tối ưu bằng GridSearchCV**
knn_grid = GridSearchCV(
    estimator=KNeighborsClassifier(),
    param_grid={'n_neighbors': np.arange(1,10)},
    cv=5
)


Thử các giá trị k từ 1 đến 9.

cv=5: chia dữ liệu thành 5 phần, luân phiên train/test.

best_params_ trả về k tốt nhất theo độ chính xác trung bình.

**Hàm KNN tự cài đặt**
def KNN(X_train, X_test, y_train, k):

Nguyên lý hoạt động

Tính khoảng cách Euclid từ mỗi điểm test đến tất cả điểm train.

Sắp xếp khoảng cách tăng dần.

Lấy k điểm gần nhất.

Bỏ phiếu: lớp xuất hiện nhiều nhất được chọn làm nhãn.

Ví dụ cuối
X_test = np.array([(1,3)])
results = KNN(X, X_test, y, 3)

Dự đoán nhãn cho điểm mới (1,3) dựa trên 3 láng giềng gần nhất.