In [4]:
from __future__ import print_function  # Đảm bảo sử dụng hàm print() từ Python 3
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cdist  # Để tính khoảng cách giữa các điểm
import random

np.random.seed(18)  # Đặt seed cho numpy để có kết quả tái lập
# Định nghĩa trung bình cho ba cụm
means = [[2, 2], [8, 3], [3, 6]]
cov = [[1, 0], [0, 1]]  # Ma trận hiệp phương sai
N = 500  # Số lượng điểm trong mỗi cụm

# Tạo ra ba cụm dữ liệu
X0 = np.random.multivariate_normal(means[0], cov, N)
X1 = np.random.multivariate_normal(means[1], cov, N)
X2 = np.random.multivariate_normal(means[2], cov, N)

# Kết hợp dữ liệu thành một mảng duy nhất
X = np.concatenate((X0, X1, X2), axis=0)

K = 3  # Số lượng cụm
# Nhãn gốc cho các cụm
original_label = np.asarray([0]*N + [1]*N + [2]*N).T

# Hàm khởi tạo các centroid ngẫu nhiên
def kmeans_init_centroids(X, k):
    return X[np.random.choice(X.shape[0], k, replace=False)]

# Hàm gán nhãn cho từng điểm dựa vào centroid gần nhất
def kmeans_assign_labels(X, centroids):
    D = cdist(X, centroids)  # Tính khoảng cách giữa điểm và centroid
    return np.argmin(D, axis=1)  # Trả về chỉ số của centroid gần nhất

# Hàm kiểm tra xem centroid có hội tụ hay không
def has_converged(centroids, new_centroids):
    return (set([tuple(a) for a in centroids]) ==
            set([tuple(a) for a in new_centroids]))

# Hàm cập nhật các centroid mới
def kmeans_update_centroids(X, labels, K):
    centroids = np.zeros((K, X.shape[1]))  # Khởi tạo ma trận centroid
    for k in range(K):
        Xk = X[labels == k, :]  # Lấy tất cả các điểm thuộc cụm k
        centroids[k, :] = np.mean(Xk, axis=0)  # Tính centroid mới
    return centroids

# Hàm chính thực hiện thuật toán K-Means
def kmeans(X, K):
    centroids = [kmeans_init_centroids(X, K)]  # Khởi tạo centroid ban đầu
    labels = []  # Danh sách lưu trữ nhãn
    it = 0  # Biến đếm số vòng lặp
    while True:
        labels.append(kmeans_assign_labels(X, centroids[-1]))  # Gán nhãn cho các điểm
        new_centroids = kmeans_update_centroids(X, labels[-1], K)  # Cập nhật centroid
        if has_converged(centroids[-1], new_centroids):  # Kiểm tra hội tụ
            break
        centroids.append(new_centroids)  # Lưu centroid mới
        it += 1  # Tăng số vòng lặp
    return (centroids, labels, it)  # Trả về centroid, nhãn và số vòng lặp

(centroids, labels, it) = kmeans(X, K)  # Gọi hàm K-Means
print('Centers found by our algorithm:\n', centroids[-1])  # In ra centroid cuối cùng


Centers found by our algorithm:
 [[3.02702878 5.95686115]
 [8.07476866 3.01494931]
 [1.9834967  1.96588127]]
