 # <center> Image compression using K-means Clustering
 #### <center> _(Nén ảnh sử dụng thuật toán phân cụm K-means)_
 
 
 **Dữ liệu dạng ảnh**: được tạo bởi các giá trị về cường độ gọi là Pixel. Trong một ảnh màu, mỗi pixel có 3 bytes chứa các giá trị RGB(Red-Green-Blue) có giá trị cường độ đỏ sau đó là xanh lam và xanh lá. 
 
 **Sử dụng K-mean Clustering để nén ảnh**
 
Thuật toán phân cụm K-means sẽ nhóm các màu tương ứng lại với nhau thành các cụm 'k' (ví dụ k = 64) có các màu khác nhau (với giá trị RGB). Vì vậy, mỗi `centroid` đại diện của vector màu RGB của cụm tương ứng. Bây giờ, các trung tâm cụm 'k' sẽ thay thế cho tất cả các màu trong các cụm tương ứng của chúng. Do đó mà chúng ta chỉ cần luwu nhãn cho từng pixel cho đại diện cho cụm mà nó thuộc về.

**Code**

In [1]:
#Import libraries
import imageio
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as img
from scipy import misc

In [2]:
def read_image():
    
    #loading the png image as a 3d matrix
    img = imageio.imread('cat.png')
    
#     plt.imshow(A)#plotting the image
#     plt.show()
    
    #scaling it so that the values are smalk
    img = img/255
    
    return img

In [3]:
def initialize_mean(img, clusters):
    #reshaping it or flasttening it into a 2d matrix
    points = np.reshape(img, (img.shape[0]*img.shape[1], img.shape[2]))
    
    m, n = points.shape
    
    #clusters is the number of clusters
    #or the number of coloers the we choose.
    
    #means is the array of the assumed means or centroids
    means = np.zeros((clusters, n))
    
    #random initialization of means
    for i in range(clusters):
        rand1 = int(np.random.random(1)*10)
        rand2 = int(np.random.random(1)*8)
        means[i, 0] = points[rand1, 0]
        means[i, 1] = points[rand2, 1]
        
    return points, means    

In [4]:
def distance(x1, y1, x2, y2):
    
    #function to measure the euclidean distance (distance formular)
    
    dist = np.square(x1 - x2) + np.square(y1 - y2)
    dist = np.sqrt(dist)
    
    return dist

In [5]:
def k_means(points, means, clusters):
    iterations = 10 #the number of iterations
    m, n = points.shape
    
    #there arre the index values that correspond to the clusters
    #to which eanch pixel belongs to.
    index = np.zeros(m)
    
    #k-means
    while(iterations > 0):
        
        for j in range(len(points)):
            
            #initialize the minimun value to a large value
            minv = 1000
            temp = None
            
            for k in range(clusters):
                
                x1 = points[j,0]
                y1 = points[j,1]
                x2 = means[k,0]
                y2 = means[k,1]
                
                if(distance(x1, y1, x2, y2) < minv):
                    minv = distance(x1, y1, x2, y2)
                    temp = k
                    index[j] = k
                    
            
            for k in range(clusters):
                
                sumx = 0
                sumy = 0
                count = 0
                
                for j in range(len(points)):
                    
                    if (index[j] == k):
                        sumx+= points[j,0]
                        sumy+= points[j,1]
                        count+=1
                        
                if(count == 0):
                    count=1
                    
                means[k,0] = float(sumx/count)
                means[k,1] = float(sumy/count)
                
            
            iterations -= 1
        
        return means, index

In [6]:
def compress_image(means, index, img):
    
    #recovering the compreesed image by
    #assigning each oixel to its corresponding centroid.
    centroid = np.array(means)
    recovered = centroid[index.astype(int), :]
    
    #getting back the 3d matrix (row, col, rgb(3))
    recovered = np.reshape(recovered, (img.shape[0], img,shape[1], img.shape[2]))
    
    #plotting the compressed image.
    plt.imshow(recovered)
    plt.show()
    
    #saving the compressed image.
    misc.imsave('compress_'+str(clusters)+'_color.png', recovered)

In [None]:
#driver code
if __name__ == '__main__':
    
    img = read_image()
    
    clusters = 16
    clusters = int(input('Enter the number of coloers in the compressed image. default = 16\n'))
    
    points, means = initialize_mean(img, clusters)
    means, index = k_means(points, means, clusters)
    compress_image(means, index, img)

Enter the number of coloers in the compressed image. default = 16
16
