<a href="https://colab.research.google.com/github/KhanhDuy211/TH_TTNT/blob/main/Kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cdist

means = [[2, 2], [9, 2], [4, 9]]
cov = [[2, 0], [0, 2]]
n_samples = 500
n_cluster = 3
X0 = np.random.multivariate_normal(means[0], cov, n_samples)
X1 = np.random.multivariate_normal(means[1], cov, n_samples)
X2 = np.random.multivariate_normal(means[2], cov, n_samples)
X  = np.concatenate((X0, X1, X2), axis = 0)

plt.xlabel('x')
plt.ylabel('y')
plt.plot(X[:, 0], X[:, 1], 'bo', markersize = 5)
plt.plot()
plt.show()

def kmeans_init_centers(X, n_cluster):
  return X[np.random.choice(X.shape[0], n_cluster, replace = False)]

def kmeans_predict_labels(X, centers):
  D = cdist(X, centers)
  return np.argmin(D, axis = 1)

def kmeans_update_centers(X, labels, n_cluster):
  centers = np.zeros((n_cluster, X.shape[1]))
  for k in range(n_cluster):
    Xk = X[labels == k, :]
    centers[k, :] = np.mean(Xk, axis = 0)
  return centers

def kmeans_has_converged(centers, new_centers):
  # Convert to set of tuples for comparison to ignore order
  return (set([tuple(a) for a in centers]) == set([tuple(a) for a in new_centers]))

def kmeans_visualize(X, centers, labels, n_cluster, title):
  plt.xlabel('x')
  plt.ylabel('y')
  plt.title(title)
  plt_colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'w']

  # Clear the current plot before drawing new one to prevent overlaying
  plt.figure()
  for u in range(n_cluster):
    data = X[labels == u] # Changed 'i' to 'u'
    plt.plot(data[:, 0], data[:, 1], plt_colors[u] + '^', markersize = 4, label = 'cluster_' + str(u))
    # Ensure center color index stays within bounds
    plt.plot(centers[u][0], centers[u][1], plt_colors[(u + 4) % len(plt_colors)] + 'o', markersize = 10, label = 'center_' +str(u))
  plt.legend()
  plt.show()

def kmeans(init_centers, init_labels, X, n_cluster):
  centers = init_centers
  labels = init_labels
  times = 0
  while True:
    labels = kmeans_predict_labels(X, centers)
    kmeans_visualize(X, centers, labels, n_cluster, 'Assigned label for data at time = ' + str(times + 1))
    new_centers = kmeans_update_centers(X, labels, n_cluster)
    if kmeans_has_converged(centers, new_centers):
      break
    centers = new_centers
    kmeans_visualize(X, centers, labels, n_cluster, 'Update center possition at time = ' + str(times + 1)) # Changed 'time' to 'times'
    times += 1
  return (centers, labels, times) # Moved return statement outside the loop

# Main execution block
init_centers = kmeans_init_centers(X, n_cluster) # Changed 'init_centes' to 'init_centers'
print(init_centers)
init_labels = np.zeros(X.shape[0])
kmeans_visualize(X, init_centers, init_labels, n_cluster, 'Initial centers in the first run. Assigned all data as cluster 0')
centers, labels, times = kmeans(init_centers, init_labels, X, n_cluster)
print('Done! Kmeans has converged after',times,'times')
print(centers)





1. K-Means là gì?
K-Means Clustering là một trong những thuật toán nổi tiếng. Phương pháp này đơn
giản nhưng đặc biệt hiệu quả trong bài toán học không giám sát, khi mà dữ liệu của bạn
chưa được phân loại. Mục tiêu của thuật toán này là chia nhỏ data của bạn thành k groups
dựa trên đặc trưng được cung cấp. Các điểm dữ liệu được xếp vào trong từng nhóm dựa trên
sự giống nhau về đặc điểm nhận dạng.
2. Ứng dụng của thuật toán K-means.
- Phân đoạn khách hàng: K-Means được sử dụng để phân loại khách hàng thành các phân khúc khác nhau dựa trên hành vi và sở thích của họ. Điều này giúp doanh nghiệp có thể áp dụng các chiến lược marketing phù hợp với từng phân khúc khách hàng.
- Nén hình ảnh: K-Means có thể được áp dụng để nén hình ảnh, giúp giảm kích thước và cải thiện hiệu suất của các ứng dụng xử lý hình ảnh.
Phát hiện bất thường: K-Means được sử dụng trong phát hiện bất thường trong dữ liệu, giúp xác định các điểm dữ liệu không hợp lệ hoặc không thường thấy trong tập dữ liệu.
- Phát hiện tế bào ung thư: K-Means có thể được áp dụng trong việc phát hiện các tế bào ung thư trong phân tích hình ảnh y tế.
