<a href="https://colab.research.google.com/github/chihchao/application-of-programming/blob/main/machine_learning_k_means.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 下載資料集並解壓縮
!gdown '1xqOapGi_kPIue0C5r4zDS1fe57tWo-2P' --output ML.zip
!unzip ML.zip

Downloading...
From (original): https://drive.google.com/uc?id=1xqOapGi_kPIue0C5r4zDS1fe57tWo-2P
From (redirected): https://drive.google.com/uc?id=1xqOapGi_kPIue0C5r4zDS1fe57tWo-2P&confirm=t&uuid=9d89698b-655a-4b1f-ab16-ba2e8e76e289
To: /content/ML.zip
100% 44.6M/44.6M [00:00<00:00, 70.2MB/s]
Archive:  ML.zip
  inflating: housePrice.csv          
  inflating: mnist500.zip            
  inflating: mnist500_png.zip        
  inflating: toutiao_cat_data.txt    
  inflating: иTиоиолм╕ъо╞└╔.csv  
  inflating: л╚дс┴p╡╕кмкp╕ъо╞└╔.csv  
  inflating: breastCancer.csv        
  inflating: customer.csv            


In [2]:
# 更改亂碼檔名
!mv иTиоиолм╕ъо╞└╔.csv 汽車車型資料檔.csv
!mv л╚дс┴p╡╕кмкp╕ъо╞└╔.csv 客戶聯絡狀況資料檔.csv

## K-means

In [18]:
import pandas as pd

df=pd.read_csv('/content/customer.csv')
df

Unnamed: 0,性別,年齡,收入（千）,消費指數（1~100）
0,女,74,38,81
1,女,51,71,91
2,女,30,65,10
3,女,88,49,17
4,女,55,48,70
...,...,...,...,...
195,男,86,84,82
196,男,59,52,30
197,女,63,29,61
198,男,67,80,9


In [19]:
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
df['性別'] = encoder.fit_transform(df['性別'])
df

Unnamed: 0,性別,年齡,收入（千）,消費指數（1~100）
0,0,74,38,81
1,0,51,71,91
2,0,30,65,10
3,0,88,49,17
4,0,55,48,70
...,...,...,...,...
195,1,86,84,82
196,1,59,52,30
197,0,63,29,61
198,1,67,80,9


In [23]:
encoder.classes_

array(['女', '男'], dtype=object)

In [24]:
from sklearn.cluster import KMeans
# 初始 kmeans 物件
kmeans = KMeans(n_clusters=3)
kmeans.fit(df)
# df['cluster'] = kmeans.fit_predict(df)

In [7]:
df['cluster'] = kmeans.labels_
df

Unnamed: 0,性別,年齡,收入（千）,消費指數（1~100）,cluster
0,0,74,38,81,0
1,0,51,71,91,0
2,0,30,65,10,1
3,0,88,49,17,1
4,0,55,48,70,0
...,...,...,...,...,...
195,1,86,84,82,0
196,1,59,52,30,1
197,0,63,29,61,0
198,1,67,80,9,1


In [9]:
df.groupby('cluster').mean()

Unnamed: 0_level_0,性別,年齡,收入（千）,消費指數（1~100）
cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,0.565217,68.449275,60.57971,72.826087
1,0.578947,55.289474,60.289474,19.578947
2,0.563636,29.763636,54.6,72.709091


In [22]:
# 評估分群效果
from sklearn.metrics import calinski_harabasz_score
for n in range(2,15):
    km = KMeans(n_clusters=n) #分n群
    km.fit(df)
    metric = calinski_harabasz_score(df, km.labels_)
    print(f'群組數量：{n}，評分：{metric}')

群組數量：2，評分：111.68583137120146
群組數量：3，評分：96.50854008592066
群組數量：4，評分：85.94453720189401
群組數量：5，評分：86.97671233765979
群組數量：6，評分：86.65233560496249
群組數量：7，評分：97.61487235850802
群組數量：8，評分：86.9505059287399
群組數量：9，評分：84.38334681578884
群組數量：10，評分：94.60373033486144
群組數量：11，評分：88.01885511120909
群組數量：12，評分：86.52707068383233
群組數量：13，評分：85.79570209612696
群組數量：14，評分：83.92965541973398


## 說明

當然可以！以下是對機器學習中 **K-means 演算法** 的簡單說明：

---

### 🔹 K-means 是什麼？
K-means 是一種**非監督式學習（unsupervised learning）**的分群（clustering）演算法，主要用途是將資料自動分成 **K 個群組（clusters）**，每一筆資料會被分到跟它「最相近」的群組裡。

---

### 🔹 運作流程
K-means 的核心概念是：**找出 K 個「中心點（centroids）」，讓每一筆資料都靠近其中一個中心點**。

具體步驟如下：

1. **初始化中心點（Initialization）**  
   隨機選出 K 個資料點當作初始的中心點。

2. **分配資料（Assignment）**  
   對於每一筆資料，計算它與所有中心點的距離，把它分到最近的那一個中心點所屬的群組。

3. **更新中心點（Update）**  
   對每個群組，計算群組中所有資料點的平均值，當作新的中心點。

4. **重複步驟 2 和 3**，直到中心點不再變動（或變動非常小），表示已經收斂（converge）。

---

### 🔹 例子
假設你有一些學生的成績資料（數學、英文），想要依成績分群：

- K = 3：你希望分成三類學生（高分、中分、低分）。
- K-means 會根據成績把學生分成三群，每群會有一個代表性中心。
- 最後你會得到三群學生，群內的學生成績彼此相似。

---

### 🔹 優點
- 簡單快速，適合大量資料。
- 易於理解與實作。

---

### 🔹 缺點
- 必須事先指定 K 的值。
- 對「初始中心點」與「離群值」很敏感。
- 只能找到**球狀群組**（適合資料分布很規則的情況）。

---

### 🔹 圖像化理解（想像）
你可以想像把很多資料點畫在平面上，然後 K-means 就像是自動把它們用顏色標示出三群（如果 K=3），每一群都有個「中心點」，像小旗子一樣。




---

### 🔧 對「初始中心點敏感」的解法

#### ✅ 1. 使用 **K-means++**
- **K-means++** 是 K-means 的改良版本，在選初始中心點時加入「策略性」的隨機：
  - 第一個中心點隨機選；
  - 之後的中心點是從「離現有中心點越遠」的資料中機率選出。
- ✅ 可以減少「分錯群」或「收斂到局部最小值」的機率。
- 幾乎所有現代的機器學習函式庫（像 scikit-learn）都預設使用 `k-means++` 了！

```python
KMeans(n_clusters=3, init='k-means++')
```

---

### 🧹 對「離群值敏感」的解法

#### ✅ 2. 先對資料做**離群值處理（outlier detection）**
- 可以用以下方式篩掉離群值：
  - 統計方法（如 Z-score、IQR）
  - 專門找異常值的演算法（如 Isolation Forest, One-Class SVM）
- 移除離群值後再進行 K-means，效果會穩定很多。

#### ✅ 3. 使用更**健壯的分群方法**
- **DBSCAN（密度式分群）**：不需要指定 K，也能自然忽略離群點。
- **Gaussian Mixture Model（GMM）**：考慮每群的機率分布，比 K-means 更靈活。

---

### 🧠 其他技巧

#### ✅ 4. 多次初始化（`n_init`）
- 設定 `n_init=10` 或更高，表示用不同的初始中心點跑多次，取最佳結果。
```python
KMeans(n_clusters=3, n_init=10)
```

#### ✅ 5. 正規化資料
- 如果各特徵尺度不同，K-means 會被「數值大」的特徵主導。
- 所以在執行前建議對資料做**標準化（StandardScaler）或正規化（MinMaxScaler）**。

---

