# Phân Cụm K-Means

Thời lượng ước tính: **45** phút

## Mục tiêu

Sau khi hoàn thành lab này, bạn sẽ có thể:

-   Sử dụng Phân cụm K-Means của scikit-learn để phân cụm dữ liệu


## Giới thiệu

Có rất nhiều mô hình **phân cụm** khác nhau. Trong notebook này, chúng ta sẽ tìm hiểu mô hình được coi là đơn giản nhất trong số đó. Dù đơn giản nhưng **K-means** được sử dụng rộng rãi để phân nhóm trong nhiều ứng dụng khoa học dữ liệu, và đặc biệt hữu ích nếu bạn cần nhanh chóng khám phá thông tin chi tiết từ **dữ liệu không được gắn nhãn**. Trong notebook này, bạn sẽ học cách sử dụng k-Means để phân khúc khách hàng.

Một số ứng dụng thực tế của k-means:

- Phân khúc khách hàng
- Hiểu những gì khách truy cập trang web đang cố gắng đạt được
- Nhận dạng mẫu
- Machine Learning (Học máy)
- Nén dữ liệu

Trong notebook này, chúng ta thực hành phân cụm k-mean với 2 ví dụ:

- k-means trên một tập dữ liệu được tạo ngẫu nhiên
- Sử dụng k-means để phân khúc khách hàng


<h1>Mục lục</h1>

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="#random_generated_dataset">k-Means trên một tập dữ liệu được tạo ngẫu nhiên</a></li>
            <ol>
                <li><a href="#setting_up_K_means">Thiết lập K-Means</a></li>
                <li><a href="#creating_visual_plot">Tạo một biểu đồ trực quan</a></li>
            </ol>
        <li><a href="#customer_segmentation_K_means">Phân khúc khách hàng với K-Means</a></li>
            <ol>
                <li><a href="#pre_processing">Tiền xử lý</a></li>
                <li><a href="#modeling">Mô hình hóa</a></li>
                <li><a href="#insights">Chuyên sâu</a></li>
            </ol>
    </ul>
</div>
<br>
<hr>


### Import thư viện
Trước tiên hãy import các thư viện cần thiết.
Đồng thời chạy <b>%matplotlib inline </b> vì chúng ta sẽ vẽ biểu đồ phân này.


In [None]:
import random
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
%matplotlib inline

<h1 id="random_generated_dataset">k-Means trên một tập dữ liệu được tạo ngẫu nhiên</h1>

Hãy tạo tập dữ liệu của riêng chúng ta cho lab này!


Đầu tiên chúng ta cần thiết lập một seed ngẫu nhiên. Sử dụng hàm <b>numpy's random.seed()</b>, nơi seed sẽ được đặt thành <b>0</b>


In [None]:
np.random.seed(0)

Tiếp theo, chúng ta sẽ tạo <i>random cluster</i> (cụm ngẫu nhiên) của các điểm bằng lớp <b>make_blobs</b> . Lớp <b>make_blobs</b>  có thể nhận nhiều đầu vào (input), nhưng chúng ta sẽ sử dụng vào những đầu vào cụ thể này. <br> <br>
<b> <u> Input </u> </b>

<ul>
    <li> <b>n_samples</b>: Tổng số điểm được chia đều cho các cụm. </li>
    <ul> <li> Giá trị sẽ là: 5000 </li> </ul>
    <li> <b>centers</b>: Số lượng tâm để tạo hoặc các vị trí tâm cố định. </li>
    <ul> <li> Giá trị sẽ là: [[4, 4], [-2, -1], [2, -3],[1,1]] </li> </ul>
    <li> <b>cluster_std</b>: Độ lệch chuẩn của các cụm. </li>
    <ul> <li> Giá trị sẽ là: 0.9 </li> </ul>
</ul>
<br>
<b> <u> Output </u> </b>
<ul>
    <li> <b>X</b>: Mảng có shape [n_samples, n_features]. (Ma trận Feature)</li>
    <ul> <li> Các mẫu được tạo. </li> </ul>
    <li> <b>y</b>: Mảng có shape [n_samples]. (Véc tơ phản hồi)</li>
    <ul> <li> Các nhãn số nguyên cho thành phần cụm của từng mẫu. </li> </ul>
</ul>


In [None]:
X, y = make_blobs(n_samples=5000, centers=[[4,4], [-2, -1], [2, -3], [1, 1]], cluster_std=0.9)

Hiển thị biểu đồ phân tán với dữ liệu được tạo ngẫu nhiên.


In [None]:
plt.scatter(X[:, 0], X[:, 1], marker='.')

<h2 id="setting_up_K_means">Thiết lập K-Means</h2>
Bây giờ chúng ta đã có dữ liệu ngẫu nhiên, hãy thiết lập phân cụm K-Means.


Lớp KMeans có nhiều tham số có thể dùng, nhưng chúng ta sẽ sử dụng 3 tham số sau:

<ul>
    <li> <b>init</b>: Phương thức khởi tạo của centroid. </li>
    <ul>
        <li> Giá trị sẽ là: "k-means++" </li>
        <li> k-means++: Chọn các tâm cụm ban đầu cho phân cụm k-mean theo cách thông minh để tăng tốc độ hội tụ.</li>
    </ul>
    <li> <b>n_clusters</b>: Số lượng các cụm sẽ hình thành cũng như số lượng centroid cần tạo ra. </li>
    <ul> <li> Giá trị sẽ là: 4 (vì chúng ta có 4 tâm)</li> </ul>
    <li> <b>n_init</b>: Số lần thuật toán k-mean sẽ được chạy với các seed centroid khác nhau. Kết quả cuối cùng sẽ là output tốt nhất của n_init lần chạy liên tiếp về quán tính. </li>
    <ul> <li> Giá trị sẽ là: 12 </li> </ul>
</ul>

hãy khởi tạo KMeans với các tham số này, trong đó tham số đầu ra được gọi là <b>k_means</b>.


In [None]:
k_means = KMeans(init = "k-means++", n_clusters = 4, n_init = 12)

Bây giờ, hãy điều chỉnh mô hình KMeans với ma trận đặc trưng đã tạo ở trên, <b> X </b>


In [None]:
k_means.fit(X)

Giờ hãy lấy các nhãn cho từng điểm trong mô hình bằng cách sử dụng thuộc tính <b> .labels_ </b> của KMeans và lưu nó dưới dạng <b> k_means_labels </b>


In [None]:
k_means_labels = k_means.labels_
k_means_labels

Chúng ta cũng sẽ lấy tọa độ của các tâm cụm bằng  <b>.cluster_centers_</b> của KMeans và lưu nó dưới dạng <b>k_means_cluster_centers</b>


In [None]:
k_means_cluster_centers = k_means.cluster_centers_
k_means_cluster_centers

<h2 id="creating_visual_plot">Tạo biểu đồ trực quan</h2>

Chúng ta đã tạo dữ liệu ngẫu nhiên và khởi tạo mô hình KMeans, hãy vẽ biểu đồ và xem nó trông như thế nào!


Vui lòng đọc qua code và chú thích để hiểu cách vẽ sơ đồ mô hình.


In [None]:
# Initialize the plot with the specified dimensions.
fig = plt.figure(figsize=(6, 4))

# Colors uses a color map, which will produce an array of colors based on
# the number of labels there are. We use set(k_means_labels) to get the
# unique labels.
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means_labels))))

# Create a plot
ax = fig.add_subplot(1, 1, 1)

# For loop that plots the data points and centroids.
# k will range from 0-3, which will match the possible clusters that each
# data point is in.
for k, col in zip(range(len([[4,4], [-2, -1], [2, -3], [1, 1]])), colors):

    # Create a list of all data points, where the data poitns that are
    # in the cluster (ex. cluster 0) are labeled as true, else they are
    # labeled as false.
    my_members = (k_means_labels == k)

    # Define the centroid, or cluster center.
    cluster_center = k_means_cluster_centers[k]

    # Plots the datapoints with color col.
    ax.plot(X[my_members, 0], X[my_members, 1], 'w', markerfacecolor=col, marker='.')

    # Plots the centroids with specified color, but with a darker outline
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,  markeredgecolor='k', markersize=6)

# Title of the plot
ax.set_title('KMeans')

# Remove x-axis ticks
ax.set_xticks(())

# Remove y-axis ticks
ax.set_yticks(())

# Show the plot
plt.show()


## Thực hành

Cố gắng phân cụm tập dữ liệu trên thành 3 cụm.
Lưu ý: không tạo lại dữ liệu, sử dụng cùng một tập dữ liệu như trên.


In [None]:
# Nhập code của bạn ở đây



<details><summary>Click vào đây để xem lời giải</summary>

```python
k_means3 = KMeans(init = "k-means++", n_clusters = 3, n_init = 12)
k_means3.fit(X)
fig = plt.figure(figsize=(6, 4))
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means3.labels_))))
ax = fig.add_subplot(1, 1, 1)
for k, col in zip(range(len(k_means3.cluster_centers_)), colors):
    my_members = (k_means3.labels_ == k)
    cluster_center = k_means3.cluster_centers_[k]
    ax.plot(X[my_members, 0], X[my_members, 1], 'w', markerfacecolor=col, marker='.')
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,  markeredgecolor='k', markersize=6)
plt.show()

```

</details>


<h1 id="customer_segmentation_K_means">Phân khúc khách hàng với K-Means</h1>

Hãy tưởng tượng rằng bạn có tập dữ liệu khách hàng và bạn cần áp dụng phân khúc khách hàng trên dữ liệu này.
Phân khúc khách hàng là việc thực hành phân chia cơ sở khách hàng thành các nhóm cá nhân có các đặc điểm giống nhau. Đây là một chiến lược quan trọng vì doanh nghiệp có thể nhắm mục tiêu đến những nhóm khách hàng cụ thể này và phân bổ hiệu quả các nguồn lực tiếp thị. Ví dụ: một nhóm có thể chứa những khách hàng có lợi nhuận cao và ít rủi ro, tức là có nhiều khả năng mua sản phẩm hoặc đăng ký dịch vụ hơn. Nhiệm vụ kinh doanh là giữ chân những khách hàng đó. Một nhóm khác có thể bao gồm khách hàng từ các tổ chức phi lợi nhuận...


### Load dữ liệu từ tệp CSV

Trước khi có thể làm việc với dữ liệu Cust_Segmentation.csv.


In [None]:
import pandas as pd
cust_df = pd.read_csv("Cust_Segmentation.csv")
cust_df.head()

<h2 id="pre_processing">Tiền xử lý (Pre-precessing)</h2


Như bạn có thể thấy, **Address** trong tập dữ liệu này là một biến phân loại. Thuật toán k-mean không áp dụng trực tiếp cho các biến phân loại vì hàm khoảng cách Euclide không thực sự có ý nghĩa đối với các biến rời rạc. Vì vậy, hãy bỏ tính năng này và chạy phân cụm.


In [None]:
df = cust_df.drop('Address', axis=1)
df.head()

#### Chuẩn hóa trên độ lệch chuẩn

Bây giờ hãy chuẩn hóa tập dữ liệu. Nhưng tại sao chúng ta cần chuẩn hóa ngay từ đầu? Chuẩn hóa (Normalization) là một phương pháp thống kê giúp các thuật toán dựa trên toán học giải thích các đặc trưng có quy mô và phân bố khác nhau như nhau. Chúng ta sử dụng **StandardScaler()** để chuẩn hóa tập dữ liệu.


In [None]:
from sklearn.preprocessing import StandardScaler
X = df.values[:,1:]
X = np.nan_to_num(X)
Clus_dataSet = StandardScaler().fit_transform(X)
Clus_dataSet

<h2 id="modeling">Mô hình hóa</h2>


Trong trường hợp nếu chúng ta không có quyền truy cập vào thuật toán k-means sẽ giống như việc đoán rằng mỗi nhóm khách hàng sẽ có độ tuổi, thu nhập, trình độ học vấn nhất định,..., với nhiều kiểm tra và thử nghiệm. Tuy nhiên, chúng ta có thể thực hiện tất cả quá trình này dễ dàng hơn nhiều với phân cụm K-means.

Hãy áp dụng k-means trên tập dữ liệu và xem xét các nhãn cụm.


In [None]:
clusterNum = 3
k_means = KMeans(init = "k-means++", n_clusters = clusterNum, n_init = 12)
k_means.fit(X)
labels = k_means.labels_
print(labels)

<h2 id="insights">Chuyên sâu</h2>

Hãy gán nhãn cho mỗi hàng trong khung dữ liệu.


In [None]:
df["Clus_km"] = labels
df.head(5)

Chúng ta có thể dễ dàng kiểm tra các giá trị centroid bằng cách lấy trung bình các đặc trưng trong mỗi cụm.


In [None]:
df.groupby('Clus_km').mean()

Bây giờ, hãy xem sự phân bổ khách hàng dựa trên độ tuổi và thu nhập:


In [None]:
area = np.pi * ( X[:, 1])**2
plt.scatter(X[:, 0], X[:, 3], s=area, c=labels.astype(np.float), alpha=0.5)
plt.xlabel('Age', fontsize=18)
plt.ylabel('Income', fontsize=16)

plt.show()


In [None]:
ax = plt.axes(projection='3d')

# Data for a three-dimensional line
zline = X[:, 3]
xline = X[:, 1]
yline = X[:, 0]
# ax.plot3D(xline, yline, zline, 'gray')

ax.set_xlabel('Education')
ax.set_ylabel('Age')
ax.set_zlabel('Income')




ax.scatter(X[:, 1], X[:, 0], X[:, 3],c= X[:, 3], cmap=plt.get_cmap('viridis'))



k-means sẽ phân chia khách hàng của bạn thành các nhóm loại trừ lẫn nhau, chẳng hạn, thành 3 cụm. Khách hàng trong mỗi cụm tương tự nhau về mặt nhân khẩu học.
Bây giờ chúng ta có thể tạo hồ sơ cho từng nhóm, xem xét các đặc điểm chung của từng cụm.
Ví dụ, 3 cụm có thể là:

-   AFFLUENT (THU NHẬP CAO), EDUCATED (CÓ HỌC VẤN) VÀ OLD AGED (GIÀ)
-   MIDDLE AGED (TRUNG NIÊN) VÀ MIDDLE INCOME (THU NHẬP TRUNG BÌNH)
-   YOUNG (TRẺ) VÀ LOW INCOME (THU NHẬP THẤP)


### Cảm ơn bạn đã hoàn thành lab này!

Nguồn bài Lab: **IBM**