In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [20]:
dataset = pd.DataFrame({"Feature1": [2.0, 3.0, 3.5, 8.0, 8.5, 9.0, 1.0, 1.5], "Feature2": [
    3.0, 3.5, 3.0, 8.0, 8.5, 8.0, 2.0, 2.5], "Feature3": [1.5, 2.0, 2.5, 7.5, 8.0, 8.5, 1.0, 1.5]})
dataset

Unnamed: 0,Feature1,Feature2,Feature3
0,2.0,3.0,1.5
1,3.0,3.5,2.0
2,3.5,3.0,2.5
3,8.0,8.0,7.5
4,8.5,8.5,8.0
5,9.0,8.0,8.5
6,1.0,2.0,1.0
7,1.5,2.5,1.5


In [21]:
data = np.array(dataset.iloc[:, :])
print(data)

[[2.  3.  1.5]
 [3.  3.5 2. ]
 [3.5 3.  2.5]
 [8.  8.  7.5]
 [8.5 8.5 8. ]
 [9.  8.  8.5]
 [1.  2.  1. ]
 [1.5 2.5 1.5]]


In [40]:
class KMeans:
    def __init__(self, k=3, max_iters=100):
        self.k = k                   # Số cụm
        self.max_iters = max_iters   # Số vòng lặp tối đa
        self.centroids = None        # Tọa độ tâm cụm
        self.clusters = None         # Cụm của từng điểm dữ liệu

    def initialize_centroids(self, data):
        np.random.seed(42)
        self.centroids = data[np.random.choice(
            data.shape[0], self.k, replace=False)]
        print(f"{self.k} centroid khởi tạo là :\n {self.centroids}\n")

    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum(np.power(x1 - x2, 2)))

    def assign_clusters(self, data):
        # Tính toán khoảng cách giữa mỗi điểm dữ liệu (data point) và tâm (centroids) bằng cách sử dụng hàm euclidean_distance
        distances = np.array([[self.euclidean_distance(x, centroid)
                             for centroid in self.centroids] for x in data])
        print(np.argmin(distances, axis=1))
        print()

        return np.argmin(distances, axis=1)

    def update_centroids(self, data):
        return np.array([data[self.clusters == i].mean(axis=0) for i in range(self.k)])

    def fit(self, data):
        # Gọi tới phương thức khởi tạo ngẫu nhiên tâm cụm
        self.initialize_centroids(data)

        for i in range(self.max_iters):
            # Gán cụm cho các data point gần nhất
            print(f'phân cụm lần {i} ')
            self.clusters = self.assign_clusters(data)

            # Dựa vào các data point của từng cụm, dịch chuyển tâm cụm tới vị trí trung tâm (tính mean) của cụm
            print(f"centroid update lần {i}")
            new_centroids = self.update_centroids(data)
            print(new_centroids)
            print()

            # Nếu tâm cụm không di chuyển, dừng lại
            if np.all(self.centroids == new_centroids):
                break

            # Nếu tâm cụm có di chuyển, thực hiện lại vòng lặp với các giá trị tâm cụm mới
            self.centroids = new_centroids

In [41]:
kmeans = KMeans(k=3)
kmeans.fit(data)

3 centroid khởi tạo là :
 [[3.  3.5 2. ]
 [9.  8.  8.5]
 [2.  3.  1.5]]

phân cụm lần 0 
[2 0 0 1 1 1 2 2]

centroid update lần 0
[[3.25       3.25       2.25      ]
 [8.5        8.16666667 8.        ]
 [1.5        2.5        1.33333333]]

phân cụm lần 1 
[2 0 0 1 1 1 2 2]

centroid update lần 1
[[3.25       3.25       2.25      ]
 [8.5        8.16666667 8.        ]
 [1.5        2.5        1.33333333]]

