# Project 1: Color Compressing

## Yêu cầu: 

Cài đặt thuật toán K-means Clustering để giảm số lượng màu cho ảnh.

## Cài đặt thuật toán

### Import thư viện numpy

In [None]:
import numpy as np

### Khởi tạo centroids

Centroids có thể được khởi tạo bằng hai cách:
* random: Centroids có `c` kênh màu, mỗi kênh màu `c` được khởi tạo giá trị ngẫu nhiên trong khoảng [0, 255]
* in_pixels: Centroids được chọn ngẫu nhiên trong các pixel của ảnh

In [None]:
def initialize_centroids(img, k_clusters, init_type):
    if init_type == 'random':
        return np.random.randint(0, 256, size=(k_clusters, len(img[0])))
    elif init_type == 'in_pixels':
        return img[np.random.choice(img.shape[0], size=k_clusters), :]
    else:
        return None

### Dán label cho từng điểm ảnh

Label của một điểm ảnh là index của centroid mà khoảng cách từ điểm ảnh đến centroid đó là gần nhất

In [None]:
def label_pixels(img, centroids):
    # With every pixel, get minimum distance (Euclidean distance) and label that pixel      
    return np.argmin(np.linalg.norm(img - centroids[:, None], axis=2), axis=0)

### Cập nhật centroid

Centroid mới là trung bình của các điểm ảnh thuộc cluster của centroid cũ đó

In [None]:
def update_centroids(img, labels, old_centroids_shape):
    centroids = np.zeros(old_centroids_shape)
    
    # With every centroid
    for i in range(old_centroids_shape[0]):
        # Pixels in cluster i
        pixels = img[labels == i]

        # Calculate new centroid using mean on rows with each cluster
        if pixels.shape[0]: # Prevent nan values
            centroids[i] = np.mean(pixels, axis=0)
        
    return centroids

### Thuật toán K-means Clustering

Gồm 4 bước chính:
* Bước 1: Khởi tạo centroids
* Bước 2: Dán label cho từng điểm ảnh
* Bước 3: Cập nhật lại centroids
* Bước 4: Lặp lại bước 2 và 3 cho tới khi đạt điều kiện dừng

In [None]:
def kmeans(img_1d, k_clusters, max_iter, init_centroids):
    # Initialize cluster centroids and label
    centroids = initialize_centroids(img_1d, k_clusters, init_centroids)
    labels = np.full(img_1d.shape[0], -1)
    
    # Run K-means
    for i in range(max_iter): 
        # Label every pixels with a centroid
        labels = label_pixels(img_1d, centroids)

        # Save old centroids
        old_centroids = centroids 
                
        # Recompute centroids based on current clusters
        centroids = update_centroids(img_1d, labels, centroids.shape)

        # Check cenverges
        if np.allclose(old_centroids, centroids, rtol=10e-3, equal_nan=False):
            break

    return centroids, labels

## Chạy thuật toán với hình ảnh cụ thể

### Mở ảnh và tiền xử lí ảnh

In [None]:
from PIL import Image

# Input file name
input_file = 'rainbow.jpg'

# Open image
image = Image.open(input_file)

# Convert image to numpy arrays
image = np.array(image)

# Flat image to a 1D array to fit function's argument
flat_image = image.reshape(image.shape[0] * image.shape[1], image.shape[2])

### Gán các giá trị cần thiết

In [None]:
# Init number of clusters
k_clusters = 7

# Init maximum iterator for stop criterion of K-means function
max_iter = 1000

# Init centroids type
init_centroids = 'random'

### Chạy K-means Clustering với ảnh và các tham số đã được gán 

In [None]:
# Run K-means
centroids, labels = kmeans(flat_image, k_clusters, max_iter, init_centroids)

### Khôi phục ảnh

In [None]:
# With every pixel, replace that pixel with its centroid
result = centroids[labels].astype(np.uint8)

# Reshape to the original shape
result = result.reshape(image.shape)

### Hiển thị ảnh ở notebook

In [None]:
import matplotlib.pyplot as plt 

# Show image
plt.imshow(result)

### Xuất ảnh ra file

In [None]:
output_file = input_file.split('.')[0] + '_k' + str(k_clusters) + '.png'

# Export image to file
Image.fromarray(result.astype(np.uint8)).save(output_file)