In [None]:
## KMeans 分群（iris 資料集）

本範例使用 sklearn 的 KMeans 對 iris 資料集進行非監督式分群。
由於資料集中原本就有三種花類，我們設定 KMeans 分為 3 群。
並用 PCA 對結果做降維視覺化，觀察分群與原始標籤的接近程度。

# 匯入需要的套件
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# 載入 iris 資料集
iris = load_iris()
X = iris.data
y = iris.target  # 雖然 KMeans 不用 y，但我們可以後面比較用

# 建立 KMeans 模型，設定分 3 群（對應 3 類 iris）
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# 顯示分群結果
print("KMeans 預測的分群標籤：")
print(kmeans.labels_)

# 顯示每個群的中心點
print("\n群集中心（Centroids）：")
print(kmeans.cluster_centers_)

# 可視化：使用 PCA 降維讓資料可以畫出來
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

df = pd.DataFrame({
    'PCA1': X_pca[:, 0],
    'PCA2': X_pca[:, 1],
    '實際類別': y,
    '分群結果': kmeans.labels_
})

# 畫出分群圖
plt.figure(figsize=(8, 6))
plt.scatter(df['PCA1'], df['PCA2'], c=df['分群結果'], cmap='viridis')
plt.title('KMeans 分群結果（PCA降維後）')
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.colorbar(label='Cluster')
plt.grid(True)
plt.show()
