#k-means

In [None]:
# k-means (k-平均法) - クラスタリングと呼ばれる手法に当たり,データを複数のクラスター(グループ)に分けて大まかな,データを複数のクラスター(グループ)に分けて大まかな特徴を捉える際に使用する

# 3ステップ
# 1,人間側からクラスター(グループ)の数を決める
# 2,ランダムに振られた点(重点)から近いものをクラスターとする
# 3,紐づいたクラスターとの距離を元に重心を移動させる

# コンビニの購買データを元にしてクラスリングの活用方法を理解する

In [34]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#データセットの準備 - コンビニの3ヶ月の購買データ(履歴,no=顧客)
df = pd.read_csv("/content/convinience_store.csv")
df.head()

Unnamed: 0,No,弁当・麺類,飲料,おにぎり・サンドイッチ,スイーツ,カップスープ,サラダ
0,1,25350,3650,8945,0,4867,8945
1,2,24500,0,0,1827,0,0
2,3,23050,5750,11570,0,7667,11570
3,4,22850,4100,10145,0,5467,10145
4,5,22500,0,0,0,0,0


In [35]:
# 演算する時にidはいらないため,取り除く
# axis = 1, 縦方向に消す
x = df.drop("No",axis=1).values #sklearnで実装するためにnp.array型にする

In [36]:
x

array([[25350,  3650,  8945,     0,  4867,  8945],
       [24500,     0,     0,  1827,     0,     0],
       [23050,  5750, 11570,     0,  7667, 11570],
       [22850,  4100, 10145,     0,  5467, 10145],
       [22500,     0,     0,     0,     0,     0],
       [22350,  4888, 15070,     0,  6517, 15070],
       [22000,     0,     0,  1103,     0,     0],
       [21600,  7388,  2045,  2583,  9850,  2045],
       [21150,  5525,  1195,  1503,  7367,  1195],
       [19850,  2563,  7445,     0,  3417,  7445],
       [19000,  4188,     0,  5220,  5583,     0],
       [18150,  5025,  9945,   353,  6700,  9945],
       [17400,     0,  8795,  1003,     0,  8795],
       [16800,     0,     0,     0,     0,     0],
       [15750,     0,  9020,     0,     0,  9020],
       [15700,  4625,  8070,     0,  6167,  8070],
       [15350,     0, 14970,  1823,     0, 14970],
       [14550,  6000,  7920,  2147,  8000,  7920],
       [14500,  8775,     0,  1003, 11700,     0],
       [14000,     0, 10120,   

In [37]:
from sklearn.cluster import KMeans

In [38]:
# k-平均法ではあらかじめ分割するクラスター数を決めておく必要がある。クラスター数を決定するハイパーパラメータはp_clustersになります。
# クラスター数の決定はドメイン知識を活用をする

#モデルの定義
kmeans = KMeans(n_clusters=3,random_state=0)

In [39]:
#　モデルの学習 - モデルの学習ではそれぞれのクラスターの中心座標を算出し,保持する。
# 今回取り扱ったデータセットの次元数が６次元、そしてクラスターの数を3としていたため,3行6列の値を確認することができる　
kmeans.fit(x)

KMeans(n_clusters=3, random_state=0)

In [40]:
#各クラスターの中身座標を調べる
print(kmeans.cluster_centers_.shape)
print(kmeans.cluster_centers_)

(3, 6)
[[ 5043.5483871   3486.41935484  7017.74193548  2206.
   2512.90322581  3509.12903226]
 [28681.25        5637.66666667  1298.75        1271.
   1770.875        716.95833333]
 [17266.66666667  2730.93333333 10721.66666667   590.86666667
   3447.33333333  9851.2       ]]


In [41]:
#推論
cluster = kmeans.predict(x)
cluster

# 0,1,2の結果はクラスター数(３分類)
# この結果だけではどのようにクラスタリングされているの判断が難しいため、結果の情報を元のデータフレームに追加する

array([2, 1, 2, 2, 1, 2, 1, 1, 1, 2, 1, 2, 2, 1, 2, 2, 2, 2, 0, 2, 2, 0,
       2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1], dtype=int32)

In [42]:
 # データフレームに追加
 df_cluster = df.copy()

 #新しくラベルを追加する
 df_cluster["cluster"] = cluster

In [43]:
df_cluster.head()

Unnamed: 0,No,弁当・麺類,飲料,おにぎり・サンドイッチ,スイーツ,カップスープ,サラダ,cluster
0,1,25350,3650,8945,0,4867,8945,2
1,2,24500,0,0,1827,0,0,1
2,3,23050,5750,11570,0,7667,11570,2
3,4,22850,4100,10145,0,5467,10145,2
4,5,22500,0,0,0,0,0,1


In [44]:
# クラスター結果の考察
# クラスタリングした結果,顧客を3つのクラスターに分けることができた。
# だが、教師あり学習と異なり明確な答えが存在しないため,その予測結果がどのようなもので、どのように活用する関しては人間側が考慮する必要がある

#空のデータフレームを作成する
df_results = pd.DataFrame()

#クラスターごとに平均値を算出してその値を作成した空のデータフレームに追加する
df_cluster["cluster"] == 0

#クラスターが0のもののみを抽出する
df_cluster[df_cluster["cluster"] == 0]

Unnamed: 0,No,弁当・麺類,飲料,おにぎり・サンドイッチ,スイーツ,カップスープ,サラダ,cluster
18,19,14500,8775,0,1003,11700,0,0
21,22,10750,0,0,3413,0,0,0
24,25,10600,4363,6695,1860,2908,3348,0
25,26,10200,5125,7970,1350,3417,3985,0
26,27,10000,7375,0,2360,4917,0,0
27,28,9200,7363,0,9420,4908,0,0
28,29,9050,0,8395,0,0,4198,0
29,30,8650,4650,13395,1580,3100,6698,0
30,31,8600,0,3795,0,0,1898,0
31,32,8100,0,7745,1140,0,3873,0


In [45]:
#各値の平均を確認できる
df_cluster[df_cluster["cluster"] == 0].mean

<bound method DataFrame.mean of     No  弁当・麺類    飲料  おにぎり・サンドイッチ  スイーツ  カップスープ   サラダ  cluster
18  19  14500  8775            0  1003   11700     0        0
21  22  10750     0            0  3413       0     0        0
24  25  10600  4363         6695  1860    2908  3348        0
25  26  10200  5125         7970  1350    3417  3985        0
26  27  10000  7375            0  2360    4917     0        0
27  28   9200  7363            0  9420    4908     0        0
28  29   9050     0         8395     0       0  4198        0
29  30   8650  4650        13395  1580    3100  6698        0
30  31   8600     0         3795     0       0  1898        0
31  32   8100     0         7745  1140       0  3873        0
32  33   8000  4363         8845  6940    2908  4423        0
33  34   7850  6300            0     0    4200     0        0
34  35   7850  4250        10570     0    2833  5285        0
35  36   7250  4775         7345  3590    3183  3673        0
36  37   6700     0         9370  4180

In [46]:
#各値の平均を確認できる(クラウスー0の平均値)
df_cluster[df_cluster["cluster"] == 0].mean().tolist()

[37.806451612903224,
 5043.548387096775,
 3486.4193548387098,
 7017.741935483871,
 2206.0,
 2512.9032258064517,
 3509.1290322580644,
 0.0]

In [47]:
#各値の平均を確認できる(クラウスー1の平均値)
df_cluster[df_cluster["cluster"] == 1].mean().tolist()

[46.25,
 28681.25,
 5637.666666666667,
 1298.75,
 1271.0,
 1770.875,
 716.9583333333334,
 1.0]

In [48]:
#各値の平均を確認できる(クラウスー2の平均値)
df_cluster[df_cluster["cluster"] == 2].mean().tolist()

[13.533333333333333,
 17266.666666666668,
 2730.9333333333334,
 10721.666666666666,
 590.8666666666667,
 3447.3333333333335,
 9851.2,
 2.0]

In [49]:
# df_resultsの中に上記を追加する
df_results ["cluster 0"] = df_cluster[df_cluster["cluster"] == 0].mean().tolist()
df_results ["cluster 1"] = df_cluster[df_cluster["cluster"] == 1].mean().tolist()
df_results ["cluster 2"] =df_cluster[df_cluster["cluster"] == 2].mean().tolist()

In [50]:
df_results

Unnamed: 0,cluster 0,cluster 1,cluster 2
0,37.806452,46.25,13.533333
1,5043.548387,28681.25,17266.666667
2,3486.419355,5637.666667,2730.933333
3,7017.741935,1298.75,10721.666667
4,2206.0,1271.0,590.866667
5,2512.903226,1770.875,3447.333333
6,3509.129032,716.958333,9851.2
7,0.0,1.0,2.0


In [51]:
# 行に列名を当てはめる
# 転置をして行が列になるようにする

# indexに列名を追加する
df_results = df_results.set_index(df_cluster.columns) #上書きする
df_results

Unnamed: 0,cluster 0,cluster 1,cluster 2
No,37.806452,46.25,13.533333
弁当・麺類,5043.548387,28681.25,17266.666667
飲料,3486.419355,5637.666667,2730.933333
おにぎり・サンドイッチ,7017.741935,1298.75,10721.666667
スイーツ,2206.0,1271.0,590.866667
カップスープ,2512.903226,1770.875,3447.333333
サラダ,3509.129032,716.958333,9851.2
cluster,0.0,1.0,2.0


In [52]:
# Noとclusterを削ぎ落とす
df_results = df_results.drop(["No","cluster"]).T
df_results

Unnamed: 0,弁当・麺類,飲料,おにぎり・サンドイッチ,スイーツ,カップスープ,サラダ
cluster 0,5043.548387,3486.419355,7017.741935,2206.0,2512.903226,3509.129032
cluster 1,28681.25,5637.666667,1298.75,1271.0,1770.875,716.958333
cluster 2,17266.666667,2730.933333,10721.666667,590.866667,3447.333333,9851.2


In [52]:
# 考察
# cluster 0 - 全体的に購入金額が少ないがスイーツが高い
# cluster 1 - ランチついでに食事したり飲料を買ったりする
# cluster 2 - 弁当ではなく他の食品を選ぶ人が多い