In [None]:
# 用 K-means 演算法來分類鳶尾花

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score
import numpy


# 1. 先載入鳶尾花資料

iris = load_iris()

# 這邊 iris 是 sklearn 的 bunch 物件，基本上就是字典，可以用屬性或中括號呼叫值

# 字典裡的樣本資料 x , y 會是 numpy 的陣列

x = iris["data"]
y = iris["target"]


# 2. 進行 K-means 分類，用 x 即可

# 先創建物件，和同樣 sklearn 的 Linear Regression 一樣

# random_state 是隨機種子，為隨機選取的分布依據

# n_init 為試行的次數，每次都以不同中心點開始，並取最小距離平方和的結果，避免有局部最小值的可能

model = KMeans(n_clusters=3,random_state=42,n_init=10)

# 再用資料跑模型

model.fit(x)


# 3. 找到分類結果，用得到模型的 labels 屬性

y_prediction = model.labels_


# 4. 因為 K-means 分類結果的類別代碼和原本的樣本分類代碼不見得一樣，所以要重新 map 分類結果的代碼來和原本樣本一樣

# 先創建一個和原本資料分類結果一樣大小的陣列 ( zero_like 是建立一個一樣大小的陣列，裡面都放 0 )

y_map = numpy.zeros_like(y)

# 用布林遮罩來選取類別分別是 0 , 1 , 2 的模型分類結果，再用樣本資料分類結果的眾數來代表模型分類出的類別的真正代碼

# 用 scipy.stats 的 mode，會回傳一個 tuple 有兩個值，第一個是眾數，第二個是數字是眾數的次數

from scipy.stats import mode

for i in range(3) : 

    y_map[y_prediction == i] = mode(y[y_prediction==i])[0]


# 5. 把 y_prediction map 完的 y_map 作為正確分群代碼的預測值 y 來產生準確度

print(accuracy_score(y,y_map))




0.8933333333333333


