# K-Means Clustering 

Đây là cách mình cài đặt thuật toán K-means dựa vào các bước thực hiện như sau:

1. Đầu tiên ta khởi tạo k điểm ngẫu nhiên, được gọi là các means
2. Sau đó ta phân loại các điểm trong tập hợp điểm cần phân loại về cụm mean nào gần nó nhất.
3. Ta cập nhật laị vị trí cho các centroid của chúng ta bằng hàm tính trung bình thôi.
4. Lặp lại các bước 2 -> 3 cho đến khi một điều kiện ràng buộc được thỏa mãn

Chú thích: Điều kiện ràng buộc tại bước 4 có thể là: đạt tới số lần lặp tối đa mà mình quy định trước, có thể là khi nào mà các cụm không còn có sự thay đổi nữa <=> không còn sự dịch chuyển của các điểm từ nhóm này sang nhóm khác.

Thuật toán K-Means ở đây tất nhiên mình sẽ phục vụ cho bài toán nén ảnh sao cho chỉ dùng 8 màu thôi.

Từ những ý tưởng đó ta cho ra đoạn code bên dưới:



In [1]:
# Import các thư viện cần thiết

import numpy as np
from PIL import Image 
import os

In [8]:
# Hàm đọc ảnh --- Trả về mảng numpy array

def read_image(name):
    dir_path = os.path.dirname(os.path.realpath(__file__))
    image = Image.open(dir_path + '/' + name)
    image = np.array(image)
    return image

In [3]:
# Hàm thực hiện bước 1 - Khơỉ tạo các cụm means ---- Trả về 
# mảng chứa các điểm ảnh và các means ta chọn được 

def initialize_means(img, cluster):
    # reshape ảnh về (samples, features)
    points = np.reshape(img, (img.shape[0] * img.shape[1], img.shape[2]))
    samples, features = points.shape

    # means la mang cua mean cac centroid
    means = np.zeros((cluster, features))

    # Random khoi tao gia tri cho cac means
    for _ in range(cluster):
        rand = np.random.randint(samples)
        means[_] = points[rand]
    return points, means

In [4]:
# Hàm tính khoảng cách Euclide giữa 2 điểm p1 và p2 
def distance(p1, p2):
    '''Tinh khoảng cách euclide giữa 2 điểm p1 và p2 (thực ra mỗi điểm chỉ có 3 features thôi) '''
    dist = np.sqrt(np.sum(np.square(p1 - p2)))
    return dist

In [5]:
# Hàm k-means chính của chúng ta -- trong này thực hiện các bước 2, 3, 4

def k_means(points, means, clusters, n_iter=100):
    samples, features = points.shape

    # Gia tri index ma moi diem no thuoc vao nhom nao
    index = np.zeros(samples)

    # K-Means algorithm
    while n_iter > 0:
        # Xet khoang cach moi diem trong tap points toi tung means, thang nao nho hon thi lay chi so cua mean do
        for j in range(len(points)):
            minV = 1000000

            for k in range(clusters):
                x1 = points[j]
                x2 = means[k]

                if distance(x1, x2) < minV:
                    minV = distance(x1, x2)
                    index[j] = k

        # Cap nhat lai trong so cho moi thang means
        for k in range(clusters):
            sum = np.zeros(features)
            count = 0
            for j in range(len(points)):
                if index[j] == k:
                    count += 1
                    sum = np.add(sum, points[j])
            means[k] = sum / count
        n_iter -= 1
    return means, index


In [6]:
# Hàm thực hiện việc lấy kết quả việc phân loại để dựng hình ảnh
def compress_image(means, index, img):
    '''Dua tren nhung thong so sau khi phan loại, hinh thanh lai buc hinh'''
    imgShape = img.shape
    centroid = np.array(means)

    # Tái tạo lại 2D hình ảnh
    img_arr = [means[i] for i in(index.astype(int))]
    img_arr = np.array(img_arr)
    img_arr = img_arr.astype("uint8")

    img_rs = img_arr.reshape(imgShape)
    print('Chiều của ảnh mới ra:', img_rs.shape)
    img_end = Image.fromarray(img_rs, 'RGB')
    dir_path = os.path.dirname(os.path.realpath(__file__))
    img_end.save(dir_path + '/outCat.jpg')
    img_end.show()


Và thành quả mà mình đạt được sau 5 iteration

**INPUT**
![Cat Image](cat.jpg)

**OUTPUT**
![Cat Out](outCat.jpg)

----------------------------------------------------------------------

**INPUT**
![Fox Image](fox.jpg)

**OUTPUT**
![Fox Out](outFox.jpg)