K-Means法

# ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# ファイルの読み込み

In [None]:
df = pd.read_csv('demo5_sjis.csv', encoding='shift_jis') #demo5_sjis.csvファイルを読み込み(Shift-JIS形式)
df.head() #データの確認

# K-Means法を呼び出し

In [None]:
kmeans = KMeans(n_clusters=3)            #K-means法の呼び出し（クラスタ数は3を指定）

# K-meansの適用

In [None]:
kmeans = kmeans.fit(X=df.iloc[:, 1:3])  #滞在時間と購入金額を対象データに指定して適用

# 要約の準備

In [None]:
df['クラスタ番号'] = kmeans.labels_        #元のデータフレームに、「クラスタ番号」列を追加
df.head()                               #データの確認

# クラスタの特徴を確認

In [None]:
df['クラスタ番号'].value_counts() #各クラスタに所属する個体数を出力

In [None]:
df.groupby('クラスタ番号')['滞在時間', '購入金額'].mean() #各クラスタの平均（重心）を出力
#kmeans.cluster_centers_

# クラスタの特徴を可視化する

### 滞在時間と購入金額の散布図を、クラスタ番号で色分けする

In [None]:
fig = plt.figure()                     #グラフ描画用オブジェクトを生成
ax = fig.add_subplot(1, 1, 1)          #グラフの描画位置を指定

In [None]:
#クラスタ番号別に、グラフの描写方法(パラメータの設定)と利用データを指定
df[df['クラスタ番号']==0].plot(x='滞在時間', y='購入金額', kind='scatter', ax=ax, color='r', alpha=0.5)
df[df['クラスタ番号']==1].plot(x='滞在時間', y='購入金額', kind='scatter', ax=ax, color='b', alpha=0.5)
df[df['クラスタ番号']==2].plot(x='滞在時間', y='購入金額', kind='scatter', ax=ax, color='g', alpha=0.5)

In [None]:
plt.legend([0, 1, 2]) #ラベルの指定

In [None]:
plt.show()            #グラフ描写

### 各クラスタのお客様は、どの時間帯に来店しているか、積み上げ棒グラフで確認する

In [None]:
#クラスタ番号別、時間帯別の平均購入金額を集計
bar_data = df.pivot_table('購入金額', aggfunc='mean', index='クラスタ番号', columns='時間帯')
bar_data.head()

In [None]:
fig = plt.figure()                                      #グラフ描画用オブジェクトを生成
ax = fig.add_subplot(1, 1, 1)                           #グラフの描画位置を指定

In [None]:
bar_data.plot(kind='bar', ax=ax, stacked=True)          #グラフの描写方法(パラメータの設定)と利用データを指定

In [None]:
plt.legend(bbox_to_anchor=(1.4, 1))                     #詳細な描写設定（bbox_to_anchor:凡例の表示位置の指定）

In [None]:
plt.show()                                              #グラフ描写