# Image compression using K-means clustering


## Preface

Nén ảnh là một yêu cầu quan trọng trong việc lưu trữ hình ảnh và giảm thiểu kích thức lưu trữ. Trong bài viết này, mình note lại phương pháp mình đã thực hiện để nén ảnh thông qua phương pháp phân cụm K-means, là một trong số những thuật toán học không có giám sát (**unsupervised learning**) 

Trong tấm ảnh màu, mỗi điểm ảnh được biểu diễn bằng 3 bytes chứa các giá trị RGB mang nghĩa là cường độ của Red, Green và Blue trong mỗi pixel.

## Approach

K-means cluster sẽ nhóm những điểm ảnh gần nhau lại với nhau thành k cụm có màu khác nhau theo giá trị RGB (ví dụ k = 8). Do đó, mỗi center của cụm đại diện cho màu của tất cả những điểm trong cụm đó.

## Implementation



In [1]:
# import các thư viên cần thiêt

from PIL import Image
import numpy as np
from sklearn.cluster import KMeans



In [2]:
# Load anh, hien thi

image = Image.open('image2.jpg')
image.show()

![Cat Image](image2.jpg)

In [3]:
# Xu ly voi du lieu anh 

image = np.array(image)  # Chuyen sang np array
shapeRoot = image.shape

# Reshape lai matrix, ta phan cum theo so diem anh ma moi diem co gia tri RGB (3 features)

image_feed = image.reshape((shapeRoot[0] * shapeRoot[1]), shapeRoot[2])

# Ap kmeans vao de phan cum

kmeans = KMeans(n_clusters=8, max_iter=300, random_state=0).fit(image_feed)

# Xay dung lai mang hinh anh roi hien thi

rs_list = [kmeans.cluster_centers_[i] for i in (kmeans.labels_)]
rs_list = np.array(rs_list)
rs_list = rs_list.reshape(shapeRoot)

rs_list = rs_list.astype("uint8")
img_end = Image.fromarray(rs_list, 'RGB')
img_end.save('outimg2.jpg')
img_end.show()

Ảnh kết quả mà ta thu được

![Image Result](outimg2.jpg)

## Conclusion

Do số màu ảnh được giảm xuống nên là số bit được sử dụng để tạo màu giảm xuống còn 3 bit (Do có 8 màu). Vì thế kích thước của tấm ảnh được giảm đi. Khi áp dụng với tấm ảnh độ phân giải cao hơn, kích thước của tấm ảnh được giảm đi một nửa hoặc nhiều hơn.

Trong tấm hình trên những màu được sử dụng có bộ màu RGB là:

**[ 28   9  11]**
![](28911.png)

**[ 50  42  42]**
![](504242.png)

**[ 74  76  76]**
![](747676.png)

**[108 110 106]**
![](108110106.png)

**[126  80  42]**
![](1268042.png)

**[167 155 135]**
![](167155135.png)

**[203 197 178]**
![](203197178.png)

**[242 243 237]**
![](242243237.png)

Trên đây là những gì mình tìm hiểu về K-means trong việc nén ảnh. Mọi người thấy hữu ích thì cho mình 1 sao và 1 follow nhé !!!