# kmaens実装しちゃうぞ

# kmeans法とは
## KMeans 法は、機械学習における教師なし学習のクラスタリングという問題を解くためのアルゴリズム。 教師なし学習というのは、事前に教師データというヒントが与えられないことを指している。 その上で、クラスタリングというのは未知のデータに対していくつかのまとまりを作る問題をいう。

In [None]:
from matplotlib import pyplot as plt
from sklearn import datasets
import numpy as np

class KMeans(object):
    
    
    def __init__(self, n_clusters=2, max_iter=300):
        """
        n_clusters(int): クラスタ数
        max_iter(int): 最大イテレーション数
        """
        self.n_clusters = n_clusters 
        self.max_iter = max_iter
        
        self.cluster_centers_ = None
        
    def fit_predict(self, features):
        """クラスタリングを実施する
        Args:
            features(numpy.ndarray): ラベル付けするデータ
        
        Returns:
            numpy.ndarray: ラベルデータ
        """
        # 要素の中からセントロイド(重心)の初期値となる候補をクラスタ数だけ取り出す
        feature_indexes = np.arange(len(features))
        np.random.shuffle(feature_indexes)
        initial_centroid_indexes = feature_indexes[:self.n_clusters]
        self.cluster_centers_ = features[initial_centroid_indexes]
        
        # ラベルづけした結果となる配列はゼロで初期化しておく
        pred = np.zeros(features.shape)
        
        # クラスタリングをアップデートする
        for _ in range(self.max_iter):
            # 各要素から最短距離のセントロイドを基準にラベルを更新する
            new_pred = np.array([
                np.array([
                    self._euclidiean_distance(p, centroid)
                    for centroid in self.cluster_centers_
                ] ).argmin()
                for p in features
            ])
            
            if np.all(new_pred == pred):
                # 更新前と内容が同じなら終了
                break
            
            pred = new_pred
            
            self.cluster_centers_ = np.array([features[pred == i].mean(axis=0)
                                              for i in range(self.n_clusters)])
            
            return pred
        
        def _euclidiean_distance(self, p0, p1):
            return np.sum((p0 - p1) ** 2)
        

def main():
    # クラスタ数
    N_CLUSTERS = 5
    
    # Blobデータを生成する
    dataset = datasets.make_blobs(centers=N_CLUSTERS)
    
    # 特徴データ
    features = dataset[0]
    
    # クラスタリングする
    cls = KMeans(n_clusters=N_CLUSTERS)
    pred = cls.fit_predict(features)
    
    # 各要素をラベルごとに色づけして表示する
    for i in range(N_CLUSTERS):
        labels = features[pred == i]
        plt.scatter(labels[:, 0], labels[:, 1])
        
    centers = cls.cluster_centers_
    plt.scatter(centers[:, 0], centers[:, 1], s=100,
                facecolors='none', edgecolors='black')
    
    plt.show()
    
if __name__ == "__main__":
    main()

IndexError: tuple index out of range

# 参考文献
## http://blog.amedama.jp/entry/2017/03/19/160121