# K-means
Phân cụm là một bài toán học không được giám sát, thường được sử dụng khi bạn không có nhãn dữ liệu. 

Phân cụm K-Means là một trong những thuật toán phân cụm phổ biến. Mục tiêu của thuật toán này là tìm các nhóm (các cụm) trong các dữ liệu nhất định. 

Xây dựng phân cụm KMeans được thực hiện theo ý tưởng sau:
- Chọn ra k tâm ngẫu nhiên của các cụm.
- Gán mỗi dữ liệu $x_i$ vào cụm có tâm gần nó nhất, bằng cách tính khoảng cách từ $x_i$ đến các tâm
- Chọn lại tâm cụm bằng cách tính lại tâm nhờ các điểm thuộc cụm
- Lặp lại các bước trên cho đến khi không có sự thay đổi về các điểm trong cụm.

Trong bài này chúng ta sẽ thực hiện cài đặt thuật toán phân cụm K-means từ đầu.

![title](https://i.imgur.com/k4XcapI.gif)

In [1]:
# Import một số thư viện cần thiết.
import random
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split 
import matplotlib.pyplot as plt

# Sử dụng một mẹo nhỏ để vẽ hình trên cùng một dòng thay vì mở cửa sổ mới
%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # đặt kích thước mặc định cho hình
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

# Một mẹo nhỏ để notebook tự load lại các module bên ngoài;
# xem thêm tại http://stackoverflow.com/questions/1907993/autoreload-of-modules-in-ipython
%load_ext autoreload
%autoreload 2

In [2]:
# Tải dữ liệu hoa cẩm chướng từ Scikit-learn.
iris = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, \
                                                    iris.target, test_size=0.2)

# In ra kích thước dữ liệu huấn luyện và dữ liệu kiểm tra như một 
# phép thử đơn giản.
print('Training data shape: ', X_train.shape)
print('Training labels shape: ', y_train.shape)
print('Test data shape: ', X_test.shape)
print('Test labels shape: ', y_test.shape)


Training data shape:  (120, 4)
Training labels shape:  (120,)
Test data shape:  (30, 4)
Test labels shape:  (30,)


Đầu tiên, chúng ta cần cài đặt hàm huấn luyện mô hình K-means. Trong phần này, K-means thực hiện việc học cách phân cụm dữ liệu từ dữ liệu huấn luyện.

Như đã nêu ở trên, việc học cách phân cụm được thực hiện theo 4 bước:
- Chọn ra k tâm ngẫu nhiên của các cụm.
- Gán mỗi dữ liệu $x_i$ vào cụm có tâm gần nó nhất, bằng cách tính khoảng cách từ $x_i$ đến các tâm
- Chọn lại tâm cụm bằng cách tính lại tâm nhờ các điểm thuộc cụm
- Lặp lại các bước trên cho đến khi không có sự thay đổi về các điểm trong cụm.

** Bài tập: ** Mở tệp `k_means.py` và cài đặt hàm `train()`. Trong phần này, để tiện tính toán, ta cài đặt đồng thời các hàm `compute_distances`.

*Gợi ý: Tham khảo K-Nearest Neighbor để cài đặt các hàm compute_distances.* 

In [43]:
from k_means import KMeans

# Khởi tạo bộ phân cụm KMeans. 
# Chọn số lượng các cụm cần phân ra, trong trường hợp này, ta chọn số cụm
# bằng số lượng các loại hoa cẩm chướng
cluster = KMeans(num_clusters=3)

# Mở tệp k_means.py và cài đặt hàm huấn luyện train().
cluster.train(X_train)

In [44]:
# Bây giờ, cài đặt hàm predict_labels và chạy code dưới đây:
# Chúng ta dùng k = 3 (Số lượng cụm ứng với các nhãn cần phân biệt).
from itertools import  permutations

num_test = X_test.shape[0]
dists = cluster.compute_distances_no_loops(X_test)
y_test_pred = cluster.predict_clusters(dists)

labels = [0,1,2]
best_acc = 0
y_new = np.zeros_like(y_test)

for perm in permutations(labels):
    y_new[y_test == perm[0]] = 0
    y_new[y_test == perm[1]] = 1
    y_new[y_test == perm[2]] = 2

# Tính ra in ra tỉ lệ những ví dụ dự đoán đúng
    num_correct = np.sum(y_test_pred == y_new)
    accuracy = float(num_correct) / num_test
    if accuracy > best_acc : 
        best_acc = accuracy
        true_label = perm
        
    print('Got %d / %d correct => accuracy: %f' % (num_correct, num_test, accuracy))
    
print(true_label)
print(best_acc)

Got 0 / 30 correct => accuracy: 0.000000
Got 8 / 30 correct => accuracy: 0.266667
Got 8 / 30 correct => accuracy: 0.266667
Got 25 / 30 correct => accuracy: 0.833333
Got 5 / 30 correct => accuracy: 0.166667
Got 14 / 30 correct => accuracy: 0.466667
(1, 2, 0)
0.8333333333333334


** Bài tập: ** Điều chỉnh code để sau khi phân cụm, nhãn phân cụm trả về là nhãn tương ứng với loại hoa cẩm chướng của cụm đó.