In [2]:
from __future__ import print_function
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cdist
import random

# Đặt hạt giống để tạo số ngẫu nhiên có thể tái tạo được
np.random.seed(18)

# Khởi tạo các tâm cụm ban đầu (means) và ma trận hiệp phương sai (cov)
means = [[2, 2], [8, 3], [3, 6]]
cov = [[1, 0], [0, 1]]

# Số lượng điểm dữ liệu trong mỗi cụm
N = 500

# Tạo dữ liệu ngẫu nhiên cho ba cụm
X0 = np.random.multivariate_normal(means[0], cov, N)
X1 = np.random.multivariate_normal(means[1], cov, N)
X2 = np.random.multivariate_normal(means[2], cov, N)

# Gộp các dữ liệu lại thành một ma trận dữ liệu duy nhất
X = np.concatenate((X0, X1, X2), axis=0)

# Số lượng cụm
K = 3  # 3 cụm

# Gán nhãn ban đầu cho dữ liệu
original_label = np.asarray([0] * N + [1] * N + [2] * N).T

# Hàm khởi tạo tâm cụm ngẫu nhiên
def kmeans_init_centroids(X, k):
    # Chọn ngẫu nhiên k hàng của X làm các tâm cụm ban đầu
    return X[np.random.choice(X.shape[0], k, replace=False)]

# Hàm gán nhãn cho các điểm dữ liệu dựa trên khoảng cách tới các tâm cụm
def kmeans_assign_labels(X, centroids):
    # Tính khoảng cách giữa các điểm dữ liệu và các tâm cụm
    D = cdist(X, centroids)
    # Trả về chỉ số của tâm cụm gần nhất
    return np.argmin(D, axis=1)

# Hàm kiểm tra hội tụ
def has_converged(centroids, new_centroids):
    # Trả về True nếu hai tập hợp các tâm cụm giống nhau
    return set([tuple(a) for a in centroids]) == set([tuple(a) for a in new_centroids])

# Hàm cập nhật các tâm cụm
    def kmeans_update_centroids(X, labels, K):
        centroids = np.zeros((K, X.shape[1]))
        for k in range(K):
            # Lấy tất cả các điểm thuộc về cụm thứ k
            Xk = X[labels == k, :]
            # Tính trung bình của các điểm trong cụm để cập nhật tâm cụm
            centroids[k, :] = np.mean(Xk, axis=0)
        return centroids

# Hàm chính của thuật toán K-Means
def kmeans(X, K):
    centroids = [kmeans_init_centroids(X, K)]
    labels = []
    it = 0
    while True:
        # Gán nhãn cho các điểm dữ liệu
        labels.append(kmeans_assign_labels(X, centroids[-1]))
        # Cập nhật các tâm cụm
        new_centroids = kmeans_update_centroids(X, labels[-1], K)
        # Kiểm tra xem thuật toán đã hội tụ chưa
        if has_converged(centroids[-1], new_centroids):
            break
        # Thêm tâm cụm mới vào danh sách
        centroids.append(new_centroids)
        it += 1
    return (centroids, labels, it)

# Chạy thuật toán K-Means
(centroids, labels, it) = kmeans(X, K)

# In ra kết quả các tâm cụm tìm được
print('Các tâm cụm được tìm thấy bởi thuật toán:\n', centroids[-1])

# Hàm hiển thị kết quả (cần viết thêm hàm kmeans_display nếu muốn hiển thị)
# kmeans_display(X, labels[-1])
#inphut của k means là các data, k cụm output là tâm cụm và cã data thuộc tâm, label
#quá trình làm: chọn ngẫu nhiên tâm điểm của K cụm 
#B2:Tính khoảng cách từ tất cả data tới k tâm
#B3: phân các đặc điểm data gần tâm vào các nhóm dữ liệu là hàng cột là vector đặc trưng
#B4:Cập nhật tâm
#B5: Quay lại 2 nếu tâm mới khác tâm cũ hoặc các điểm data bị thay đổi bởi cum. Ngược lại thì dừng

# yik chỉ nhận giá trị 0 hoặc 1 nên tổng acsc thành phần k=1 -> K Yik =1
#Có nhiều công thức tính khoảng cách giữa 2 điểm
#Các thuật toán tôi ưu gradient, bài toán đối ngẫu lagrange, cố định 1 cái và giải cái còn lại
#Thuật toán dừng lại khi các điểm cứ thay đổi từ cụm này sang cụm khác hoặc không có điểm nào chuyển sang cụm mới
#Có hàm mất mát mới sinh ra tối ưu


Các tâm cụm được tìm thấy bởi thuật toán:
 [[3.02702878 5.95686115]
 [8.07476866 3.01494931]
 [1.9834967  1.96588127]]
