# k-means演算法

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 產生範例資料
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
print(X[:, 0])

# 初始化 K-means 模型
kmeans = KMeans(n_clusters=4, random_state=0)

# 訓練模型並預測群集
y_kmeans = kmeans.fit_predict(X)

# 繪製結果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')

centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75);
plt.show()

## 實作說明
- 資料產生:
    - 使用 `sklearn.datasets.make_blobs` 產生一個包含 300 個資料點、4 個群集的範例資料集。
- 模型初始化：
    - 使用 `sklearn.cluster.KMeans` 初始化 K-means 模型，並設定 `n_clusters=4`，表示將資料分成 4 個群集。
- 模型訓練與預測：
    - 使用 `kmeans.fit_predict(X)` 訓練模型並預測每個資料點所屬的群集。
- 結果繪製:
    - 使用 `matplotlib.pyplot.scatter` 繪製散佈圖，以不同的顏色標記不同的群集。
    - 繪製群集中心點。

## 實作圖表
上述程式碼會產生一個散佈圖，顯示分群結果。圖中：

- 不同顏色的點代表不同的群集。
- 紅色的大點代表每個群集的中心點。

## K-means 演算法的用途
K-means 演算法是一種常用的集群分析方法，其主要用途包括：

- 客戶分群:
    - 根據客戶的購買行為、人口統計資料等，將客戶分成不同的群體，以便進行更有針對性的行銷活動。

- 圖像分割：
    - 將圖像中的像素分組，以便識別不同的物體或區域。

- 文件分類：
    - 根據文件的內容，將其分成不同的主題或類別。 

- 異常偵測：
    - 識別與大多數資料點顯著不同的異常值。

- 資料壓縮:
    - 少數據的複雜性，在不損失過多訊息的情況下，減少數據量。

## K-means 演算法的優缺點

- 優點：
    1. 簡單易懂，容易實現。
    2. 計算效率高，適用於大型資料集。
- 缺點：
    1. 需要預先指定群集數量 K。
    2. 對初始群集中心敏感，不同的初始值可能導致不同的結果。
    3. 對雜訊和異常值敏感。
    4. 只適用於數值型數據。