# Sprint 機械学習スクラッチ　クラスタリング

教師無し学習‐クラスタリング‐K-means（重心ベース）を理解して、NumPyなどを駆使してスクラッチする。

* k個の重心を識別し、重心位置を最適化（平均値を最小化）する。
* 上記を反復的に行い、すべてのデータ点を最も近接するクラスタに割り当てる。
* クラスタ内の誤差平方和を削減することにより、すべてのデータ点が各クラスタに割り当てられる。

In [11]:
import numpy as np
import random

In [3]:
class ScratchKMeans():
    """
    K-meansのスクラッチ実装

    Parameters
    ----------
    n_clusters : int
      クラスタ数
    n_init : int
      中心点の初期値を何回変えて計算するか
    max_iter : int
      1回の計算で最大何イテレーションするか
    tol : float
      イテレーションを終了する基準となる中心点と重心の許容誤差
    verbose : bool
      学習過程を出力する場合はTrue
    """
    def __init__(self, n_clusters, n_init, max_iter, tol, verbose=False):
        # ハイパーパラメータを属性として記録
        self.n_clusters = n_clusters
        self.n_init = n_init
        self.max_iter = max_iter
        self.tol = tol
        self.verbose = verbose
    def fit(self, X):
        """
        K-meansによるクラスタリングを計算
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass
    def predict(self, X):
        """
        入力されたデータがどのクラスタに属するかを計算
        """
        pass
        return

### 人口データセット

In [5]:
from sklearn.datasets import make_blobs
X, _ = make_blobs(n_samples=100, n_features=2, centers=4, cluster_std=0.5, shuffle=True, random_state=0)

In [22]:
X.shape

(100, 2)

## 【問題1】中心点の初期値を決める

* 入力されたデータ（特徴量行列X）からK個の中心点の$\mu_1$から$\mu_K$の初期値を決めるコードを作成せよ。
    * Kは指定したクラスタ数でもあり、ハイパーパラメータとしての固定値kでもある。
    * データ点$X_n$の中からランダムにK個選ぶこと。
    * 中心点 $\mu$ の初期値の重要性から鑑み、学習時は複数個の初期値で計算する。



1. データからランダムサンプリングしたk個のデータ点をクラスタの重心とする。
    * サンプル数のインデックスに対して、kクラス分のランダムな初期ラベルを割り当てる。
    * データ点をグルーピングし、クラスタを作成する。
        1. 各重心に対し、すべてのデータ点とのユークリッド距離を計算する。
        2. 各重心との距離が最小となるデータ点群を、**その重心に帰属するクラスタとする。**
2. 「k個のクラスタ毎にデータの平均となる点を求め、新しい重心とする。」
    * 「クラスタ毎にデータ点の平均値を求め、そのクラスタの重心とする。」
3. 各データ点から見て、距離が最小となる重心のクラスタにそのデータ点を割り当てる。
4. ステップ2に戻る。
5. 収束条件を満たしたら、終了。
6. 初期値を変更しステップ1～7をn回繰り返し、SSEが最小のものを選ぶ。

# 【疑問点】


* 指定したクラスタ数Kはハイパーパラメータとしてのkなのか？
* データからランダムサンプリングしたk個のkとは、ハイパーパラメータ扱いなのか？
* 「k個のクラスタ毎にデータの平均となる点を求め、新しい重心とする。」とはどういう意味か？


In [7]:
def mu_medium(X, k):
    """""
    入力されたデータを基に、k個の中心点をランダム抽出する。
    
    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
        
    k : int
        クラスタ数
    return
    ----------
    k個分の中心点を行列で返す。
    
    """""    
    # Xからランダムにk個、選別する。
    random_choiced_k = np.random.sample(10, 3)
    random_choiced_k

In [63]:
k = 10
np.random.seed(seed=1) # シード1に設定して乱数を出力
random_choiced_k_row = np.random.randint(100, size=k).tolist()
random_choiced_k_column = np.random.randint(2, size=k).tolist()

AttributeError: 'int' object has no attribute 'tolist'

In [55]:
random_choiced_k_row

[37, 12, 72, 9, 75, 5, 79, 64, 16, 1]

In [56]:
random_choiced_k_column

[0, 1, 1, 0, 0, 1, 0, 0, 0, 1]

In [64]:
np.random.randint(2)

1

In [97]:
k = 10
for j in random_choiced_k_row:
    unique_column = np.unique(random_choiced_k_column).tolist()
    r = random.choices(unique_column)
    print(j, random_choiced_k_column[r[0]])
    

37 0
12 0
72 1
9 1
75 0
5 1
79 0
64 0
16 1
1 1


In [95]:
range(len(random_choiced_k_row))
unique_column = np.unique(random_choiced_k_column).tolist()
random.choices(unique_column)

[1]

In [93]:
l = range(0, 10)
# r = random.choices(range(len(unique_column)))
random_choiced_k_column[r[0]]


0