# Sprint
## 機械学習スクラッチ クラスタリング
スクラッチでK-meansを実装した後、それを使用しクラスタ分析を行います。

K-meansのクラスをスクラッチで作成していきます。NumPyなど最低限のライブラリのみを使いアルゴリズムを実装していきます。


以下に雛形を用意してあります。このScratchKMeansクラスにコードを書き加えていってください。

In [111]:
import numpy as np
class ScratchKMeans():
    """
    K-meansのスクラッチ実装

    Parameters
    ----------
    n_clusters : int
      クラスタ数
    n_init : int
      中心点の初期値を何回変えて計算するか
    max_iter : int
      1回の計算で最大何イテレーションするか
    tol : float
      イテレーションを終了する基準となる中心点と重心の許容誤差
    verbose : bool
      学習過程を出力する場合はTrue
    
    Attributes
    ----------
    self.mu : ndarray(n_clusters, n_features)
      クラスタの中心点
    self.r_binary : ndarray(n_samples, n_clusters)
      サンプル毎の所属クラスタをone-hot表現で表した配列
    """
    def __init__(self, n_clusters, n_init, max_iter, tol, verbose=False):
        # ハイパーパラメータを属性として記録
        self.n_clusters = n_clusters
        self.n_init = n_init
        self.max_iter = max_iter
        self.tol = tol
        self.verbose = verbose
    
    def fit(self, X):
        """
        K-meansによるクラスタリングを計算
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        """
        # preparing
        n_samples = X.shape[0]
        self.mu = X[np.random.choice(n_samples, self.n_clusters, replace=False), :]
        self.r_binary = None

        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print('start learning')
        pass
    
    def predict(self, X):
        """
        入力されたデータがどのクラスタに属するかを計算
        """
        pass
        return

    def _each_diff_norm_squared(self, A, B):
        """
        行列A,Bから一行ずつ選び出し、その差のベクトルのノルムの二乗||(A_i)-(B_j)||^2を計算する

        Parameters
        ----------
        A, B : ndarray
            行列 1行が一つのベクトルに対応している
        Return
        ----------
          ndarray(A.shape[0], B.shape(0))
        """
        A_norm = np.linalg.norm(A, axis=1)

        B_norm = np.linalg.norm(B, axis=1)

        A_dot_B = A@B.T

        norm_squared = A_norm_tile.reshape(-1, 1)**2 + B_norm_tile**2 - A_dot_B

        return norm_squared

    def _calc_SSE(self, X):
        """ 
        クラスタ内誤差平方和を計算する。

        """
        # calc sse
        _sse = np.sum(self.r_binary * self._each_diff_norm_squared(X, self.mu))

        return _sse

    def _assign_cluster(self, X):
        """
        データ点をもっとも近い中心点が属するクラスタに割り当てる
        """
        # calc norm
        _each_diff_norm = np.sqrt(self._each_diff_norm_squared(X, self.mu))

        # one-hot
        _r_binary = np.zeros((X.shape[0], self.n_clusters))
        _r_binary[range(_r_binary.shape[0]), np.argmin(_each_diff_norm, axis=1)] = 1

        return _r_binary

    def _move_mu(self, X):
        """
        クラスタの中心点の位置をクラスタの重心まで移動する
        """
        mu_new = np.concatenate([np.nanmean() for i in range(self.n_clusters)], axis=1)

In [134]:
a = np.array([1,1,1,0]).reshape(-1,1)
b = np.array([[1,2], [3,4], [5,6], [7,8]])
c = np.unique(np.nonzero(a*b)[0])
print(c)
print(b[c])
print(np.mean(b[c], axis=0))

[0 1 2]
[[1 2]
 [3 4]
 [5 6]]
[3. 4.]


## クラスタリングのための人工データセット
クラスタリングを実験するための人工データセットを作成するコードを用意しています。


この`make_blobs`関数は正解ラベルも出力してますが、今回は使用しません。使用しないことを明示するために、 \_（アンダースコア） で受け取っています。


**《シンプルデータセット3》**

In [2]:
from sklearn.datasets import make_blobs
X, _ = make_blobs(n_samples=100, n_features=2, centers=4, cluster_std=0.5, shuffle=True, random_state=0)
print(X)

[[ 0.72086751  3.71347124]
 [-1.89468423  7.96898545]
 [ 1.35678894  4.36462484]
 [ 1.05374379  4.49286859]
 [ 1.59141542  4.90497725]
 [ 0.78260667  4.15263595]
 [-1.95751686  3.87291474]
 [-0.77354537  7.87923564]
 [ 0.12313498  5.27917503]
 [-1.43284669  7.71577043]
 [-0.92819001  7.02698199]
 [-1.74836345  7.06307447]
 [-1.26789718  7.25141327]
 [-0.98661744  7.74968685]
 [-0.81984047  7.50994722]
 [ 2.99684287  0.22378413]
 [ 1.46870582  1.86947425]
 [-0.33533163  3.390122  ]
 [-1.86407034  2.93379754]
 [ 2.62496786  0.28025075]
 [ 2.11114739  3.57660449]
 [-1.8219901   7.61654999]
 [-1.91186205  3.18750686]
 [ 2.28809874  0.12954182]
 [ 0.5285368   4.49723858]
 [-1.57613028  2.58614312]
 [-0.565433    3.65813966]
 [ 0.802314    4.38196181]
 [ 2.79939362  1.84560825]
 [ 2.64465731  0.80770124]
 [ 1.7190373   0.71788708]
 [-0.93564005  7.03443119]
 [ 2.14398059  0.69677319]
 [ 2.06051753  1.79059891]
 [-1.21986433  3.3789856 ]
 [ 1.13280393  3.87673946]
 [-1.497272    8.80022604]
 

# 【問題1】
## 中心点の初期値を決める
入力されたデータから$K$個の中心点$μ_1$から$μ_K$の初期値を決めるコードを作成してください。$K$は指定したクラスタ数です。


最もシンプルな初期値の決定方法は、データ点$X_n$の中からランダムに$K$個選ぶことです。今回はこれを実装してください。


K-meansの学習結果は中心点$μ$の初期値に影響を受けます。そのため、学習時には複数個の初期値で計算を行います。

```python
n_samples = X.shape[0]
self.mu = X[np.random.randint(0, n_samples, self.n_clusters), :]
```

# 【問題2】
## SSEを求める関数の作成
クラスタ内誤差平方和（SSE, Sum of Squared Errors）を計算する関数を作成してください。


K-meansはこのSSEを最小化する$r_{nk}$と$\mu_k$を求めることが目的となります。複数個の初期値で計算したクラスタリング結果から、どれを最終的に採用するかを決める際にこのSSEを求める関数を使用します。

$$
SSE = \sum_{n=1}^N \sum_{k=1}^K r_{nk} \|X_n - \mu_k\|^2
$$

$n$ : データ点のインデックス


$k$ : クラスタのインデックス


$X_n$ : $n$番目のデータ点


$\mu_k$ : $k$番目の中心点


$r_{nk}$ : データ点$X_n$がクラスタ$k$に所属していたら1、そうでなければ0

以下の式から計算する。
$$
\|A-B\|^2 = \|A\|^2 + \|B\|^2 - 2*(A \cdot B)
$$
-> `_each_diff_norm_squared(A, B)`
```python
    def _each_diff_norm_squared(self, A, B):
        """
        行列A,Bから一行ずつ選び出し、その差のベクトルのノルムの二乗||(A_i)-(B_j)||^2を計算する

        Parameters
        ----------
        A, B : ndarray
            行列 1行が一つのベクトルに対応している
        Return
        ----------
          ndarray(A.shape[0], B.shape(0))
        """
        A_norm = np.linalg.norm(A, axis=1)

        B_norm = np.linalg.norm(B, axis=1)

        A_dot_B = A@B.T

        norm_squared = A_norm_tile.reshape(-1, 1)**2 + B_norm_tile**2 - A_dot_B

        return norm_squared

    def _calc_SSE(self, X):
        """ 
        クラスタ内誤差平方和を計算する。

        """
        # calc sse
        _sse = np.sum(self.r_binary * self._each_diff_norm_squared(X, self.mu))

        return _sse
```

## クラスタの割り当てと中心点の移動を繰り返す
K-meansの学習の基本は以下の2つのフェーズを繰り返すことです。


- 中心点$\mu_k$を固定した上で$SSE$を最小化するクラスタの割り当て$r_{nk}$を選ぶ。
- クラスタの割り当て$r_{nk}$を固定した上で$SSE$を最小化する中心点$\mu_k$を選ぶ。

最初の中心点$\mu_k$は問題1で作成した初期値です。


順番に見ていきます。

# 【問題3】
## クラスタへの割り当て
全てのデータ点$X_n$を最も近い中心点$\mu_k$に割り当てるコードを作成してください。


K-menasにおける**近い**とは点と点のユークリッド距離が小さくなることです。ユークリッド距離とはピタゴラスの定理（三平方の定理）で求められるものですが、ベクトル$p, q$に対しては以下の数式で表現できます。

$$
\|q-p\| = \sqrt{(q-p)\cdot(q-p)}
$$

NumPyにはこの関数がnp.linalg.normとして用意されているため使用してください。


[numpy.linalg.norm — NumPy v1.17 Manual](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.norm.html)


中心点$\mu_k$を固定した上でSSEを最小化していることになりますが、SSE自体を求める必要はありません。

実数空間においては$\|x\|\geq0$であるから、$\|a\|\geq\|b\|$のとき$\|a\|^2\geq\|b\|^2$もまた成り立つ。

よって、簡単のためにユークリッド距離の比較は$\|q-p\|^2$を用いて行う。 -> `_each_diff_norm_squared(A, B)`
```python
    def _assign_cluster(self, X):
        """
        データ点をもっとも近い中心点が属するクラスタに割り当てる
        """
        # calc norm
        _each_diff_norm = np.sqrt(self._each_diff_norm_squared(X, self.mu))

        # one-hot
        _r_binary = np.zeros((X.shape[0], self.n_clusters))
        _r_binary[range(_r_binary.shape[0]), np.argmin(_each_diff_norm, axis=1)] = 1

        return _r_binary
```

# 【問題4】
## 中心点の移動
中心点$\mu_k$を$k$番目のクラスタに割り当てられる全てのデータ点$X_n$の平均値（重心）に移動するコードを作成してください。


クラスタの割り当て$r_{nk}$を固定した上でSSEを最小化していることになりますが、SSE自体を求める必要はありません。