<a href="https://colab.research.google.com/github/bnnguyen/DESLab_ML_training_2024/blob/main/Deslab_2024_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# K Means Clustering

Thuật toán $K$-means chia một tập hợp $N$ điểm dữ liệu $X$ thành $K$ cụm rời rạc $C$, mỗi cụm được mô tả bằng giá trị trung bình $\mu_j$ của các mẫu trong cụm. Phương thức xác định chính thường được gọi là **cụm “trọng tâm”**. Thuật toán K-means nhằm mục đích chọn các trọng tâm giảm thiểu quán tính hoặc tổng tiêu chí bình phương trong cụm:

$$\sum_{i=0}^{n}\min_{\mu_j \in C}(||x_j - \mu_i||^2)$$

## Cách thức hoạt động của thuật toán

Thuật toán phân cụm Κ-means sử dụng tính năng sàng lọc lặp lại để tạo ra kết quả cuối cùng. Đầu vào của thuật toán là số cụm $Κ$ và tập dữ liệu. Tập dữ liệu là tập hợp các đặc điểm cho từng điểm dữ liệu. Các thuật toán bắt đầu với ước tính ban đầu cho trọng tâm $Κ$, có thể được tạo ngẫu nhiên hoặc được chọn ngẫu nhiên từ tập dữ liệu. Thuật toán sau đó lặp lại giữa hai bước:

**Bước xác nhận dữ liệu**: Mỗi centroid xác định một trong các cụm. Trong bước này, mỗi điểm dữ liệu được gán cho trọng tâm gần nhất của nó, dựa trên khoảng cách Euclide bình phương. Cụ thể hơn, nếu $c_i$ là tập hợp các trọng tâm trong tập $C$, thì mỗi điểm dữ liệu $x$ được gán cho một cụm dựa trên

$$\underset{c_i \in C}{\arg\min} \; dist(c_i,x)^2$$
trong đó dist( · ) là khoảng cách Euclide tiêu chuẩn ($L_2$). Đặt tập các phép gán điểm dữ liệu cho mỗi trọng tâm cụm thứ i là $S_i$.

**Bước cập nhật trọng tâm**: Trong bước này, trọng tâm được tính toán lại. Điều này được thực hiện bằng cách lấy giá trị trung bình của tất cả các điểm dữ liệu được gán cho cụm của trung tâm đó.

$$c_i=\frac{1}{|S_i|}\sum_{x_i \in S_i x_i}$$

Thuật toán lặp lại giữa các bước một và hai cho đến khi đáp ứng được tiêu chí ta đưa ra (nghĩa là không có điểm dữ liệu nào thay đổi cụm, tổng khoảng cách được giảm thiểu hoặc đạt đến số lần lặp tối đa).

**Hội tụ và khởi tạo ngẫu nhiên**

Thuật toán này được đảm bảo hội tụ về một kết quả. Kết quả có thể là tối ưu cục bộ (tức là không nhất thiết phải là kết quả tốt nhất có thể), nghĩa là việc đánh giá nhiều lần chạy thuật toán với trọng tâm khởi đầu ngẫu nhiên có thể cho kết quả tốt hơn.

<img src=https://upload.wikimedia.org/wikipedia/commons/e/ea/K-means_convergence.gif style="width: 500px;"/>

Có thể xem giải thích kỹ hơn ở [đây](https://www.youtube.com/watch?v=4b5d3muPQmA&t=269s)

## Dữ liệu

Đối với dự án này, chúng ta sẽ cố gắng sử dụng Phân cụm KMeans để phân cụm các đối tượng trường Đại học thành hai nhóm, Tư và Công. Chúng ta sẽ sử dụng khung dữ liệu với 777 đối tượng trên 18 biến sau.

* Private A factor with levels No and Yes indicating private or public university
* Apps Number of applications received
* Accept Number of applications accepted
* Enroll Number of new students enrolled
* Top10perc Pct. new students from top 10% of H.S. class
* Top25perc Pct. new students from top 25% of H.S. class
* F.Undergrad Number of fulltime undergraduates
* P.Undergrad Number of parttime undergraduates
* Outstate Out-of-state tuition
* Room.Board Room and board costs
* Books Estimated book costs
* Personal Estimated personal spending
* PhD Pct. of faculty with Ph.D.’s
* Terminal Pct. of faculty with terminal degree
* S.F.Ratio Student/faculty ratio
* perc.alumni Pct. alumni who donate
* Expend Instructional expenditure per student
* Grad.Rate Graduation rate

### Import thư viện

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

## Lấy dữ liệu

**Đọc cột College_Data file sử dụng read_csv.**

In [None]:
url = "https://raw.githubusercontent.com/ChrisWoodard43/KMeans-Universities/master/College_Data"
df = pd.read_csv(url,index_col=0)

In [None]:
df.head()

In [None]:
df.info()

## Phân tích thăm dò

**Tạo biểu đồ phân tán của Grad.Rate so với Room.Board (và sự phù hợp tuyến tính của chúng) trong đó các điểm được tô màu theo cột Private.**

In [None]:
sns.lmplot(data=df, x='Room.Board', y='Grad.Rate', hue='Private', palette='coolwarm', height=6, aspect=1, fit_reg=True)

**Tạo biểu đồ phân tán của F.Undergrad so với Outstate trong đó các điểm được tô màu theo cột Private.**

**Biểu đồ cho thấy hai chiều đặc điểm này tách biệt tùy theo loại trường đại học**

In [None]:
sns.set_style('whitegrid')
sns.lmplot(data=df, x='Outstate', y='F.Undergrad', hue='Private', palette='coolwarm', height=6, aspect=1,fit_reg=True)

**Tạo boxplot thể hiện student-faculty ratio dựa trên loại trường đại học**

In [None]:
sns.boxplot(x='Private', y='S.F.Ratio', data=df)

**Tạo boxplot thể hiện phần trăm cựu sinh viên quyên góp dựa trên loại trường đại học**

In [None]:
sns.boxplot(x='Private', y='perc.alumni', data=df)

**Tạo stacked histogram thể hiện Out of State Tuition dựa trên cột Private.**

In [None]:
g = sns.FacetGrid(df, hue="Private", palette="coolwarm", height=6, aspect=2)
g = g.map(plt.hist, "Outstate", bins=20, alpha=0.7)

**Tạo một histogram tương tự cho cột Grad.Rate.**

In [None]:
g = sns.FacetGrid(df, hue="Private", palette="coolwarm", height=6, aspect=2)
g = g.map(plt.hist, "Grad.Rate", bins=20, alpha=0.7)

**Dường như có một trường tư thục có tỷ lệ tốt nghiệp cao hơn 100% mất rồi! Thật là phi lí! Hãy tìm ra trường đó nhé.**

In [None]:
df[df['Grad.Rate'] > 100]

**Gán tỉ lệ tốt nghiệp của trường đấy thành 100 để dữ liệu được hợp lý. Có thể sẽ gặp một cảnh báo (không phải lỗi) khi thực hiện hành động này, vì thế hãy sử dụng các phép toán tử của dataframe hoặc làm lại histogram để đảm bảo không hiện cảnh báo nữa.**

In [None]:
df['Grad.Rate']['Cazenovia College'] = 100

In [None]:
df[df['Grad.Rate'] > 100]

In [None]:
sns.set_style('darkgrid')
g = sns.FacetGrid(df,hue="Private",palette='coolwarm',height=6,aspect=2)
g = g.map(plt.hist,'Grad.Rate',bins=20,alpha=0.7)

In [None]:
from sklearn.cluster import KMeans

**Tạo 1 mô hình K Means model với 2 cụm.**

In [None]:
kmeans = KMeans(n_clusters=2, verbose=0,tol=1e-3,max_iter=300,n_init=20)

**Huấn luyện mô hình này với dữ liệu đang có, loại trừ cột Private.**

In [None]:
kmeans.fit(df.drop('Private', axis=1))

**Các vectơ trung tâm cụm là?**

In [None]:
clus_cent=kmeans.cluster_centers_
clus_cent

**Bây giờ hãy so sánh các trung tâm cụm này (đối với tất cả các thứ nguyên/tính năng) với các phương tiện dữ liệu được gắn nhãn đã biết**

In [None]:
df[df['Private'] == 'Yes'].describe() # Statistics for private colleges only

In [None]:
df[df['Private'] == 'No'].describe() # Statistics for public colleges only

**Tạo khung dữ liệu với tâm cụm và tên cột được mượn từ khung dữ liệu gốc**

**Trong khung dữ liệu này, có rõ nhãn nào tương ứng với trường đại học tư thục (0 hoặc 1) không?**

In [None]:
df_desc=pd.DataFrame(df.describe())
feat = list(df_desc.columns)
kmclus = pd.DataFrame(clus_cent,columns=feat)
kmclus

**Các cụm được đánh nhãn như nào ?**

In [None]:
kmeans.labels_

## Đánh giá

Không có cách nào hoàn hảo để đánh giá việc phân cụm nếu bạn không có nhãn (phân loại chính xác của các trường). Tuy nhiên vì đây chỉ là một bài tập nên chúng ta đã có sẵn phân loại của các trường học trong bộ dữ liệu. Nhưng hãy nhớ là trên thực tế, mọi việc có thể khó khăn hơn nhiều bới bộ dữ liệu có thể sẽ bị khuyết đi một số thông tin.

**Tạo một cột mới cho df có tên là 'Cluster', cột này là 1 cho trường tư thục và 0 cho trường công lập.**

In [None]:
def converter(cluster):
    if cluster=='Yes':
        return 1
    else:
        return 0

In [None]:
df1=df # Create a copy of data frame so that original data frame does not get 'corrupted' with the cluster index
df1['Cluster'] = df['Private'].apply(converter)

In [None]:
df1.head()

**Tạo ma trận nhầm lẫn (confusion matrix) để xem phân cụm Kmeans hoạt động tốt như thế nào khi không được gắn nhãn.**

In [None]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(df1['Cluster'],kmeans.labels_))

## Kiểm tra hiệu quả của việc phân cụm (e.g. distance between centroids)

**Khám phá các tham số như max_iter và n_init và tính toán khoảng cách tâm cụm**

In [None]:
def split_df_by_private(df):
    private_df = df[df['Private'] == True]
    public_df = df[df['Private'] == False]
    return private_df, public_df

df_private, df_public = split_df_by_private(df.copy())

kmeans = KMeans(n_clusters=2, verbose=0, tol=1e-3, max_iter=50, n_init=10)
kmeans.fit(df.drop('Private',axis=1))
clus_cent=kmeans.cluster_centers_

df_desc=pd.DataFrame(df.describe())
feat = list(df_desc.columns)
kmclus = pd.DataFrame(clus_cent,columns=feat)

# Check for single cluster (as suggested in previous response)
if kmclus.shape[0] > 1:
    a = np.array(kmclus.diff().iloc[1])
    centroid_diff = pd.DataFrame(a, columns=['K-means cluster centroid-distance'], index=df_desc.columns)
else:
    # Handle single cluster case
    print("K-Means resulted in a single cluster. Centroid difference calculation is not applicable.")
    centroid_diff = pd.DataFrame(columns=['K-means cluster centroid-distance'], index=df_desc.columns)  # Empty DataFrame

# Calculate distances (optional)
# distances = pdist(kmclus)  # Pairwise distances between centroids

numerical_cols = [col for col in df_private.columns if pd.api.types.is_numeric_dtype(df_private[col])]
private_means = df_private[numerical_cols].mean()  # Calculate mean only for numerical columns
public_means = df_public[numerical_cols].mean()

centroid_diff['Mean of corresponding entity (private)'] = private_means
centroid_diff['Mean of corresponding entity (public)'] = public_means

centroid_diff