# Sprint7 クラスタリング

# ライブラリのimport

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA

# スクラッチクラスの実装

In [2]:
class ScratchKMeans():
    """KMeansクラスタリングのスクラッチ
    """
    def __init__(self, n_clusters=2,n_init=20,n_iter=100,verbose=False):
        """
        Scratch implementation of K-means

        Parameters
        ----------
        n_clusters : クラスタ数
        n_init : 何回初期化するか
        max_iter : 各初期化毎に何回学習させるか
        verbose : 学習状況を出力するか否か
        """
        self.n_clusters = n_clusters
        self.n_init = n_init
        self.n_iter = n_iter
        self.verbose = verbose
        # SSE（誤差）を小さくする方向に学習（更新）させていくため、初期値は大きいものを用意しておく
        self.best_sse = 10**20
        
    def _update_myu(self,X):
        """中心点の更新
        Parameters
        ----------
        X : 説明変数
        """
        self.pre_myu = self.myu
        # クラスタ数でループ
        for j in range(self.n_clusters):
            # ループ中のクラスタに該当する説明変数の値の平均値を新しい中心点とする
            self.myu[j] = np.mean(X[X[:,-1]==j,:-1],axis=0)
        
    def _update_cluster(self,X):
        """クラスタの更新
        Parameters
        ----------
        X : 説明変数
        """
        # データ数でループ
        for i in range(len(X)):
            # 比較のための初期値
            dist_m = 10**20
            # クラスタ数でループ
            for j in range(self.n_clusters):
                # 該当クラスタの中心点との距離を計算
                dist = np.sqrt(np.sum((X[i,:-1])-self.myu[j]**2))
                # 前回保存した（あるいは初期値）より距離が小さければ、そちらのクラスタを採用
                if dist < dist_m:
                    dist_m = dist
                    X[i,-1] = j
                    
    def calc_sse(self,X):
        """SSEの計算
        Parameters
        ----------
        X : 説明変数
        """
        # SSEの計算
        sse = 0
        # データ数でループ
        for i in range(len(X)):
            # クラスタ数でループ
            for j in range(self.n_clusters):
                # 末尾のクラスタを判定し、該当クラスタならsseに加算
                if j == X[i,-1]:
                    # ベクトルの距離（ノルム）計算＊末尾のクラスタを除いた数値を使用している点に注意
                    sse += np.sum((X[i,:-1]-self.myu[j])**2)
        # sseが改善していれば、更新
        if self.best_sse > sse:
            self.best_sse = sse
            self.record_myu = self.myu
            self.record_cluster = self.n_clusters
        
    def fit(self, X):
        """学習
        Parameters
        ----------
        X : 説明変数
        """
        # 初期化回数分ループ
        for i in range(self.n_init):
            
            # データXからクラスタ数分の初期値をランダムにとってくる(各クラスタの初期の中心点)
            self.myu = X[np.random.choice(len(X),size=self.n_clusters,replace=False)
        
            # Xベクトルにクラスタ列を追加（クラスタは0で初期化）
            cluster = np.zeros(len(X))
            X_cluster = np.concatenate([X,cluster.reshape(-1,1)],axis=1)
            
            # 最大学習回数分ループ
            for j in range(self.n_iter):
                # SSEを更新
                self.calc_sse(X_cluster)

                # クラスタ更新
                self._update_cluster(X_cluster)
                
                # クラスタの中心点の更新
                self._update_myu(X_cluster)
                
                # 学習状況の出力（グラフ）
                if self.verbose:
                    print("初期化：%s　学習回数：%s　最善のSSE：%s"%(i,j,self.best_sse))
                
            
    def predict(self, X):
        """予測
        Parameters
        ----------
        X : 説明変数
        """
        # 予測値の初期化
        y_pred = np.zeros(len(X))
        # 処理の流れ自体は、_reclustering関数と同様
        # データ数でループ
        for i in range(len(X)):
            # 比較のための初期値
            dist_m = 10**20
            # クラスタ数でループ
            for j in range(self.record_cluster):
                # 該当クラスタの中心点との距離を計算
                dist = np.sqrt(np.sum((X[i]-self.record_myu[j])**2))
                # 前回保存した（あるいは初期値）より距離が小さければ、そちらのクラスタを採用
                if dist < dist_m:
                    dist_m = dist
                    y_pred[i] = j
        return y_pred

SyntaxError: invalid syntax (<ipython-input-2-de8b4a88d979>, line 88)

# 事前準備：データ作成

In [None]:
# Simple Data Set 3
from sklearn.datasets import make_blobs

X, _ = make_blobs(n_samples=100,
                  n_features=2,
                  centers=4,
                  cluster_std=0.5,
                  shuffle=True,
                  random_state=0)

In [None]:
# Data Distribution Visualization
fig = plt.subplots(figsize=(12,8))
plt.rcParams["font.size"] = 20
plt.scatter(X[:,0],X[:,1],s=80);

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_valid = \
train_test_split(X,train_size=0.8,random_state=None)

print(X_train.shape)
print(X_valid.shape)

# 問題1

スクラッチコード86行目

`self.myu = X[np.random.choice(len(X),size=self.n_clusters,replace=False)]`

# 問題2

53行目：`def calc_sse(self,X)`

# 問題3

34行目：`def _update_cluster(self,X)`

# 問題4

22行目：`def _update_myu(self,X)`

# 問題5

83行目：`for i in range(self.n_init):`

93行目：`for j in range(self.n_iter):`

# 問題6

In [None]:
clf = ScratchKMeans(n_clusters=4,n_init=5,n_iter=100,verbose=True)
clf.fit(X_train)

# 問題7

In [None]:
pred = clf.predict(X_valid)
pred

# 問題8

In [None]:
elbow = {}
for k in range(1,8):
    model = ScratchKMeans(n_clusters=k,n_init=5,n_iter=100,verbose=False)
    model.fit(X)
    elbow[k] = model.best_sse

fig = plt.subplots(figsize=(12,8))
plt.rcParams["font.size"] = 20
plt.plot(list(elbow.keys()),list(elbow.values()),'rs--');

# 事前準備：データ作成＆PCA

In [None]:
# データ読み込み
data = pd.read_csv('Wholesale customers data.csv')
data

In [None]:
# 主成分分析結果の可視化
# サンプルコードの実行
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
pca = PCA(n_components=None)
pca = pca.fit(data)
var_exp = pca.explained_variance_ratio_
cum_var_exp = np.cumsum(var_exp)
print(cum_var_exp)
plt.bar(range(1,9), var_exp, alpha=0.5, align='center')
plt.step(range(1,9), cum_var_exp, where='mid')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')
plt.hlines(0.7, 0, 6,  "blue", linestyles='dashed')
plt.legend(loc='best')
plt.grid()
plt.show()

# 問題10,11,12に関しては、考察系のため回答例の紹介は省略します。


**卸売業者にとって有益な情報**を求めたいという目標があるため、それを前提に分析を行っていきます。

**卸売業者にとって有益な情報**を次のように設定する

顧客をいくつかのクラスターに分け、そのクラスターの特性に合ったサービスを創出していきたい

こういうビジネス的な施策を考える上での分析では、エルボー法やシルエット図のようないわゆる学問的なクラスタ数の決定方法より、ビジネスとしての実現可能性の方が重視されることが多い。


+ 任意のクラスタ数を決定(8つのクラスタに分けたところで、施策やサービスを8種類用意できると思わない)
+ クラスターに分ける
+ 各クラスターの傾向を見る
+ 施策を考える
+ 結果論的に施策が似ているクラスタは合体させる