In [None]:
import matplotlib.pyplot as plt #畫圖
from sklearn.metrics import silhouette_score 
# silhouette_score is (b-a)/max(a,b),a is mean intra-cluster b is the distance between a sample and the nearest cluster that the sample is not a part of
from sklearn.cluster import KMeans
import random
import csv

def draw(k,dx,distortions,scores,classify):
    colo = ['orange','c', 'lightgreen','pink','lavender','gray', 'purple', 'k', 'm', 'y', 'g', 'b']
    # 母畫布
    fig = plt.figure()
    # 誤差平方和SSE
    fig.add_subplot(221)
    plt.title('SSE (elbow method)',fontsize=10)
    plt.plot(range(2,11),distortions) #畫曲線
    plt.plot(k+2,distortions[k],"go") #畫最佳點 green in round circle
    # 輪廓係數
    fig.add_subplot(222)
    plt.title('Silhouette scores',fontsize=10)
    plt.plot(range(2,11),scores)
    plt.plot(k+2,scores[k],"go")
    # 原始數據
    fig.add_subplot(223)
    plt.title('Original data',fontsize=10)
    for data in dx:
        plt.scatter(data[0],data[1],color='black')
    # 最好的分類結果
    fig.add_subplot(224)
    plt.title('result',fontsize=10)
    for i in range(len(dx)):
        plt.scatter(dx[i][0],dx[i][1],color=colo[classify[i]])
#    for i in range(len(dd)):
#        plt.scatter(dd[i][0],dd[i][1],color=colo[classify[i]])        
    fig.tight_layout()
    plt.show()

def k_means(dx):
    distortions = [] # SSE 分數
    scores = []    # 輪廓係數分數
    results = []   # 分群結果
    centers = []
    # 找出最好的分群數
    for k in range(2,11):
        # 分群 n_clusters=k
        kmeans = KMeans(n_clusters=k,n_init=10,max_iter=50).fit(dx)
        results.append(kmeans)
        centers.append(kmeans.cluster_centers_) # 中心
        distortions.append(kmeans.inertia_) # SSE
        scores.append(silhouette_score(dx, kmeans.predict(dx))) # 輪廓係數
    # 取結果分數最好的
    k = scores.index(max(scores))
    center = centers[k]
    classify = results[k].predict(dx)  #回傳每個資料點的分群編號
    draw(k,dx,distortions,scores,classify)

#    Kmeans最後得到的分群中心點也可以用來分群新的資料點    
#    dd = [[-39,12],[-12,38],[-40,23],[-3,37],[-28,7],[-5,-11],[12,10],[9,-11],[26,-1],[28,-5],[25,30],[17,23],[2,19],[0,10],[11,21],[-2,22],[2,25],[-5,28],[13,23]]
#    classify = results[k].predict(dd)  
#    draw(k,dx,distortions,scores,classify,dd)

def main():
    data = [[-39,32],[-22,38],[-40,23],[-33,37],[-28,37],[-5,-1],[12,1],[9,-11],[26,31],[28,25],[35,30],[37,23],[29,29],[0,0],[1,21],[2,22],[-2,25],[-5,18],[3,23]]

#    using only x-axis as single feature 同樣的資料集用不同的特徵做分群, 結果可能不同   
#    data = [[-39,1],[-22,1],[-40,1],[-33,1],[-28,1],[-5,1],[12,1],[9,1],[26,1],[28,1],[35,1],[37,1],[29,1],[0,1],[1,1],[2,1],[-2,1],[-5,1],[3,1]]
    k_means(data)

if __name__ == '__main__':
    main()


KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm=’auto’)
參數說明
n_clusters
default 8
集群數目
需事先指定集群數目是k-means限制之一
init
default k-means++ {random, k-means++}
初始質心的選擇方式
n_init
default 10
以隨機選取的質心來執行k-means演算法次數，並以最低SSE的模型來做最後的模型
max_iter
default 300
每次執行的最大迭代次數，在k-means中，如果執行結果收斂的話，是有可能提前中止，而不會執行到最大迭代次數。
tol
default 0.0001
控制集群內誤差平方和的可容許誤差，設定較大的值可有效收斂!