# 教師なし学習
* 教師なし学習とは、回帰や分類による「予想」とは異なり、  
ラベルなし学習データから「特徴を分析」するための手法。  
* 「クラスター分析」「主成分分析」といった分析手法がある。

# クラスタリング
* クラスタリングは、大きく分けて「階層的」アルゴリズムと「非階層的」アルゴリズムに分けられ  
それぞれに複数のアルゴリズムが存在する。

# k平均法
* k平均法は、非階層型クラスタリング。  
* 非階層型クラスタリングは、あらかじめ観測データをいくつに分割するのか  
その数(クラスタ数)を指定する。  
* 例えば、クラスタ数3でクラスタリングを行うと、似た特徴を持ったグループ(クラスタ)に3分割される。  
* k平均法のアルゴリズムでは、特徴ベクトルを最も近い重心のクラスタに割り振ることで分割を行う。  
* k平均法では、次の手順で観測データをクラスタに分離する。
    1. 各データにランダムなクラスタを割り当てる。
    2. クラスタごとに重心(座標の平均)を求める。
    3. 求まった重心を仮のクラスタの重心として、一番近いデータを重心のクラスタに変更する。
    4. 再び重心を計算する。
    5. 重心に変更があった場合は、仮のクラスタの重心として一番近いデータを重心のクラスタに変更し  
    再び重心を求めるという作業を繰り返す。
    6. 重心に変化がなくなるとクラスタリングが完了する。

# k平均法を試す
* scikit-learn の cluster.KMeans クラスで、クラスタリングを実行する。
* パラメータ
    * n_clusters: クラスタ数
    * max_iter: k-means アルゴリズムの最大反復回数
    * n_init: 初期の重心を選ぶ処理の数
    * init: 初期化手法 'k-means++'、'random'、'ndarray'
    * tol: 収束判定に用いる許容可能誤差
    * precompute_distances: 距離を事前に計算するか否か
    
    KMeans の学習モデルに iris の計測データだけを渡して、うまくクラスタリングできるか試す。

In [7]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()
iris_dataset["target"]

# k-means 学習モデルの生成
from sklearn.cluster import KMeans
kme = KMeans(n_clusters=3)

# クラスタリング開始
kme.fit(iris_dataset["data"])

kme.labels_

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2,
       2, 2, 2, 1, 1, 2, 2, 2, 2, 1, 2, 1, 2, 1, 2, 2, 1, 1, 2, 2, 2, 2,
       2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 1])