# THUẬT TOÁN K-MEANS PHÂN NHÓM
1. Trong K-means clutering, chúng ta không biết nhãn của điểm dữ liệu, mục tiêu là phân dữ liệu thành các cụm (cluster) khác nhau sao cho dữ liệu trong một cụm có tính chất giống nhau.
2. Một định nghĩa đơn giản của nhóm/cụm là tập hợp các điểm có các vector đặc trưng gần nhau. Việc tính khoảng cách, chủ yếu dựa trên khoảng cách euclid chuẩn l2.


Phân tích:
- Đầu vào bài toán: ma trận X bao gồm N điểm dữ liệu (d chiều) và K << N là số nhóm xác định trước.
- Ta cần tìm các centroid m1, m2, ..., mk và label của điểm dữ liệu.
- Với mỗi điểm dữ liệu xi ta cần tìm label y_i = k. Thông thường người ta biểu diễn lablel có dạng one-hot coding. Mỗi label yi là vecto hàng k chiều, các phần tử đều bằng 0, ngoại trừ phần tử thứ k bằng 1.

In [1]:
import numpy as np
K = 5
label = 3
def convert_onehot(label,K):
    y = np.zeros((1,K))
    y[0,label-1] = 1
    return y
print(convert_onehot(label,K))

[[0. 0. 1. 0. 0.]]


# Sử dụng thư viện scikit-learn
# Phân lớp điểm dữ liệu
scource: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

In [2]:
# cài đặt thư viện
import numpy as np
from sklearn.cluster import KMeans

Tạo dữ liệu bằng cách lấy các điểm theo phân phối chuẩn có kỳ vọng tại (2, 2), (8, 3) và (3, 6), ma trận hiệp phương sai giống nhau và là ma trận đơn vị. Mỗi cụm có 500 điểm.

In [3]:
means = [[2, 2], [8, 3], [3, 6]]
cov = [[1, 0], [0, 1]]
N = 500
X0 = np.random.multivariate_normal(means[0], cov, N)
X1 = np.random.multivariate_normal(means[1], cov, N)
X2 = np.random.multivariate_normal(means[2], cov, N)

X = np.concatenate((X0, X1, X2), axis = 0)
K = 3

original_label = np.asarray([0]*N + [1]*N + [2]*N).T

In [4]:
print(original_label)
print(original_label.shape)
print(X)

[0 0 0 ... 2 2 2]
(1500,)
[[3.21389165 1.15427732]
 [3.73219267 2.51752804]
 [1.77850249 2.83092434]
 ...
 [1.10997035 7.14348084]
 [2.40943634 4.53761508]
 [2.89991441 8.05302379]]


In [5]:
model = KMeans(n_clusters = 3, random_state=0).fit(X)
print('Centers found by scikit-learn:')
print(model.cluster_centers_)
pred_label = model.labels_


Centers found by scikit-learn:
[[1.98381843 2.07789054]
 [7.99824711 3.00927081]
 [2.9839848  5.959687  ]]


In [6]:
print(pred_label)
print(pred_label.shape)

[0 0 0 ... 2 2 2]
(1500,)


In [7]:
# Xem cách phân loại so với original thực tế
def erro(pred_label,original_label):
    dem = 0
    for i in range(len(pred_label)):
        if pred_label[i] == original_label[i]:
            dem = dem +1
    return 100*dem/len(pred_label)

In [8]:
print("Phần trăm số điểm phân loại đúng:",erro(pred_label,original_label),"%")

Phần trăm số điểm phân loại đúng: 98.6 %


# Phân lớp điểm dữ liệu Iris.
1. iris flower datasets là một bộ dữ liệu nhỏ, bao gồm thông tin của ba loài hoa: iris setosa, iris virginica và iris versicolor.
2. Mỗi class gồm có 50 bông hoa với dữ liệu là bốn thông tin.
3. Dữ liệu không phải là ảnh mà là vector đặc trưng bốn chiều.

Cài đặt thư viện

In [9]:
import numpy as np
from sklearn.cluster import KMeans
from sklearn import datasets

Load data

In [10]:
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
print(iris_X)
print(iris_y)
print("Labels:", np.unique(iris_y))

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [17]:
model = KMeans(n_clusters = 3).fit(iris_X)
print('Centers found by scikit-learn:')
print(model.cluster_centers_)
pred_label = model.predict(iris_X)
print(pred_label)

Centers found by scikit-learn:
[[5.9016129  2.7483871  4.39354839 1.43387097]
 [5.006      3.428      1.462      0.246     ]
 [6.85       3.07368421 5.74210526 2.07105263]]
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 2 2 2 2 0 2 2 2 2
 2 2 0 0 2 2 2 2 0 2 0 2 0 2 2 0 0 2 2 2 2 2 0 2 2 2 2 0 2 2 2 0 2 2 2 0 2
 2 0]


In [33]:
unique1, counts1 = np.unique(iris_y, return_counts=True)
a = dict(zip(unique1, counts1))
unique2, counts2 = np.unique(pred_label, return_counts=True)
b = dict(zip(unique2, counts2))
print(a)
print(b)

{0: 50, 1: 50, 2: 50}
{0: 62, 1: 50, 2: 38}


Độ chính xác

In [35]:
# 12 điểm bị phân lớp lỗi -> 150 - 12 =138 điểm phân chính xác
print("Độ chính xác",100*138/150,"%")

Độ chính xác 92.0 %


# KMEAN PHÂN LOẠI CHỮ SỐ VIẾT TAY 