In [1]:
import numpy as np
from sklearn.cluster import KMeans
from sklearn import datasets
from scipy.spatial.distance import cdist

np.random.seed(0)

In [2]:
# Đọc dữ liệu iris từ sklearn
iris = datasets.load_iris()
X = iris.data
y = iris.target

In [3]:
# Hàm khởi tạo K centers từ tập dữ liệu vào
def InitCenters(X, K):
    assert X.ndim == 2, "Input must be 2-d array"
    assert K > 0 and K <= X.shape[0]
    return X[np.random.choice(X.shape[0], K, replace=False), :]

In [4]:
# Hàm gán nhãn cho tất cả dữ liệu vào. 
# Với mỗi điểm dữ liệu x, tính khoảng cách Euclid đến từng center và gán nhãn x bằng chỉ số của center gần x nhất
def CreateClusters(X, centers):
    """
    Input:
    X: datatpoints
    centers: current centers
    Output:
    labels (specified by center index) for each datapoint
    """
    
    labels = []
    
    for x in X:
        minDist = np.inf
        minIdx = -1
        for i in range(centers.shape[0]):
            dist = np.linalg.norm(x - centers[i])
            if dist < minDist:
                minDist = dist
                minIdx = i
        labels.append(minIdx)
        
    return np.asarray(labels)

In [5]:
def UpdateCenters(X, labels, K):
    new_centers = []
    
    for k in range(K):
        # Lọc các điểm thuộc cụm k: 
        Xk = X[labels == k, :]
        # Lấy giá trị trung bình của mỗi đặc trưng làm center mới
        new_centers.append(np.mean(Xk, axis = 0))
        
    return np.array(new_centers)

In [7]:
def IsConverged(centers, new_centers):
    # Trả về True nếu hai tập center giống nhau
    return (set([tuple(a) for a in centers]) == 
        set([tuple(a) for a in new_centers]))

In [8]:
def KMeans(X, K, max_iter=100):
    centers = InitCenters(X,K)
    i = 0
    while True:
        centerIndices = CreateClusters(X, centers)
        new_centers = UpdateCenters(X, centerIndices, K)
        if IsConverged(centers, new_centers) or i == max_iter:
            break
        centers = new_centers
        i += 1
    return(centers, centerIndices, i)

In [9]:
K = 3
MaxIter = 100

(centers, labels, it) = KMeans(X, K, MaxIter)

np.set_printoptions(precision=2)
print('Learned Centers:')
print(centers)
print('\nClusters:')
print(labels)
print('\nNumber of iterations:', it)


Learned Centers:
[[6.85 3.08 5.72 2.05]
 [5.88 2.74 4.39 1.43]
 [5.01 3.43 1.46 0.25]]

Clusters:
[2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 0 0 1 0 0 0 0
 0 0 1 1 0 0 0 0 1 0 1 0 1 0 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0
 0 1]

Number of iterations: 8
