<a href="https://colab.research.google.com/github/yajima-yasutoshi/DataMining2024/blob/main/20241112/%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データマイニング第7回（20241112）

#本日の講義の目的

Pythonを用いたクラスタリング手法の理解

# 準備

In [None]:
# インストール
!pip install japanize-matplotlib

## 必要なライブラリーのインポート

In [None]:
# 必要なライブラリのインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

In [None]:
# Pandasの表示形式を小数点以下1桁にする

import pandas as pd
pd.options.display.float_format = '{:.1f}'.format


# クラスタリングとは

## データ準備

まず、以下のサイトより「利用回数.xlsx」を各自のPCダウンロードし、
Google Driveにアップロード、Google Colab に読み込みを行う。

https://github.com/yajima-yasutoshi/DataMining2024/tree/main/20241112



In [None]:
# 読み込むファイルを指定する
file_path = '/content/drive/MyDrive/データマイニング/利用回数.xlsx'
df = pd.read_excel(file_path)

info()
を用いて、データに関する基本的な情報を出力します。

In [None]:
df.info()

「利用回数.xlsx」には、顧客ID毎に、
**年齢**とあるサービスの**利用回数**が記録されている。

先頭の数行を表示させる。

In [None]:
df.head()

## 散布図による可視化

年齢と利用回数の関係を可視化する。
どちらも数値型の項目なので、
**散布図**を使う。

In [None]:
sns.scatterplot(x='年齢', y='利用回数', data=df)
plt.grid(True)  # グリッド線を追加
plt.title('散布図')
plt.show()

上の散布図から、全体の利用者は
 * 年齢が高く利用回数の多い利用者
 * 年齢が低く利用回数の多い利用者
 * 年齢が低く利用回数の少ない利用者

に傾向が分かれていることが観察できる。

傾向が似通っているレコード(この例では利用者)を似た性質のグループに分けて、
全体をいくつかのまとまりとして理解する手法が
**「クラスタリング」**である。

スーパーやドラッグストア、コンビニなどの小売店などでは、
顧客の属性（性別や年齢など）や
購買行動（来店回数や利用回数、購買金額など）のデータを元にして、
傾向が似ている顧客をいくつかのグループ（クラスター）に分類し、
どのような顧客が良く利用しているのか、
どのような商品を購入する顧客がいるのか、
など、顧客の行動を理解することで販促や商品開発などを行っている。

参考事例：
https://www.nikkei.com/article/DGXZQOUC132X30T10C22A9000000/

# データを標準化する

 クラスタリングを実行する事前の準備としてデータの**標準化**が必要である。
 標準化とは、データの大きさを平均 0、分散 1 に変換することである。

なお、標準偏差を二乗すると分散となることから、
分散が1であれば、標準偏差も1になっている。

アップロードしたデータの分布を確認する。
年齢と利用回数の分布は以下のようである。

In [None]:
fig, (ax1, ax2) = plt.subplots( 1, 2 , figsize=(10,4))
sns.histplot( df['年齢'], bins=10, kde=False, ax=ax1)
sns.histplot( df['利用回数'], bins=10, kde=False, ax=ax2)
plt.show()

In [None]:
df['年齢'].var()

In [None]:
df['利用回数'].var()

このように、項目によって数値の大きさや散らばり
が異なる場合には標準化が不可欠である。

##【復習】

var()以外にもデータ分析で使う主な関数には以下のものがあった。

関数  | 意味
--    |   --
sum()    | 合計
mean()   | 平均
**var()**    | **分散**
std()    | 標準偏差
median() | 中央値
min()    | 最小値
max()    | 最大値
quantile(0.25)  | 四分位点

## Pythonでの標準化の方法

Pythonでは、データを変換するためのモジュールが用意されている。
データの標準化には、
StandardScaler() を用いる。

使い方は、

1. 準備
2. 訓練（fit） ：変換に必要な情報（標準化の場合であれば平均と分散）の計算
3. 変換（transform）：実際に変換を実施する

の3ステップである。


In [None]:
# 標準化に必要なライブラリーのインポート
from sklearn.preprocessing import StandardScaler

In [None]:
# 標準化の対象となる項目を変数 X にセットする
X = df[['年齢', '利用回数']]

# 準備
scaler = StandardScaler()

# 訓練の実施
scaler.fit(X)

# 標準化の実施
# 標準化後のデータを再びXにセットする
X = scaler.transform(X)

変換に用いたパラメータ（平均や分散）を確認することもできる。


*   平均：scaler.mean_
*   リスト項目：scaler.var_



In [None]:
scaler.mean_

In [None]:
scaler.var_

変数 X には2項目のデータ（年齢と利用回数）が格納されているので、
項目ごとに平均と分散が表示される。

## 可視化して確認する

データの標準化が行われた様子を可視化して確認する。
変換後の散布図では、
縦軸と横軸の値の範囲が等しいことが分かる。

In [None]:
# 標準化の確認
X = pd.DataFrame( X, columns=['x1', 'x2'])

fig, (ax1, ax2) = plt.subplots( 1, 2 , figsize=(10,4))

ax1.set_title("変換前")
sns.scatterplot(data=df, x='年齢', y='利用回数', ax=ax1 )
ax1.grid(True)  # グリッド線を追加

ax2.set_title("変換後")
sns.scatterplot(data=X, x='x1', y='x2', ax=ax2)
ax2.grid(True)  # グリッド線を追加

plt.show()

##数値で確認する

変換後の平均と分散(標準偏差)を確認する。


In [None]:
X.describe()

# クラスタリングの実行

## K-means 法

本講義では、クラスタリングを行う代表的な手法であるK-means法を扱う。

データ分析ライブラリーの sklearn に含まれている **KMeans** を用いる。
使い方は、


1.   準備
2.   計算（fit）

の2ステップである。

準備では、いくつかのパラメータを設定する。主なものは、
*   n_clusters
*   init
*   max_iter
*   n_init

である。

中でも、もっとも重要なパラメータは
クラスタ数を指定する

n_clusters

である。



詳しい使い方は以下のリンクを参照

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html


以下のコードでは、
仮にクラスタ数を3として実行している。

In [None]:
# クラスタリングに必要なライブラリーのインポート
from sklearn.cluster import KMeans

# 標準化に必要なライブラリーのインポート
from sklearn.preprocessing import StandardScaler

# クラスタリング分析に用いる項目を選び
# 選んだ項目を変数 X にセットする
X = df[ ['年齢', '利用回数']]

# 準備の準備
scaler = StandardScaler()

# 標準化後のデータを再びXにセットする
X = scaler.fit_transform(X)

# 仮にクラスタ数を3として実行する
best_n_clusters = 3

# 準備
kmeans = KMeans(n_clusters=best_n_clusters, init='k-means++', max_iter=500, n_init='auto')

# クラスタの計算
kmeans.fit(X)

In [None]:
print(kmeans)

#クラスタ結果の可視化

クラスタリングの結果は、kmeans.labels_ に格納されている。
結果を、元データのデータフレーム変数 df に追加することで、
可視化が容易になる。

In [None]:
# クラスタラベルをデータフレームに追加
df['cluster'] = kmeans.labels_

In [None]:
df.head()

In [None]:
# 結果の可視化（seabornを使用）
sns.scatterplot(x='年齢', y='利用回数', hue='cluster', data=df, palette='Set1')
plt.show()

## クラスター平均

クラスター毎にデータを平均した点をクラスター平均
（クラスター重心）と呼ぶ。

基礎集計で説明した groupby を使って計算する。

In [None]:
# クラスタで分類して年齢と利用回数の平均を求める
# クラスタ中心と呼ぶ
df.groupby('cluster')[['年齢','利用回数']].mean()

クラスタ中心を●で可視化すると以下のようになる。

In [None]:
c = df.groupby('cluster')[['年齢','利用回数']].mean().reset_index()
sns.scatterplot(x='年齢', y='利用回数', hue='cluster', data=df, palette='Set1')
sns.scatterplot(x='年齢', y='利用回数', data=c, color='k', s=100)

## クラスタ内距離

データがそれぞれにクラスターにどの程度集中しているかを示す指標が
クラスター内距離である。これは、
クラスタ毎にクラスタ中心から各データへの距離の二乗の和である。

In [None]:
# クラスタ毎にクラスタ中心から各データへの距離の二乗の和
kmeans.inertia_

# クラスタ数の決定

クラスタ数を決定する際には、クラスタ内距離に注目する。

一般に、
クラスタ数を増やすとクラスタ内距離は減少するが、
同程度のクラスタ内距離であれば、
クラスタ数が少なくシンプルなクラスタリングが良いとされる。

In [None]:
# クラスタ数を 2 にして実行する
best_n_clusters = 2

kmeans = KMeans(n_clusters=best_n_clusters, init='k-means++', max_iter=500, n_init='auto')
kmeans.fit(X)
df['cluster'] = kmeans.labels_

# 図示する
c = df.groupby('cluster')[['年齢','利用回数']].mean().reset_index()
sns.scatterplot(x='年齢', y='利用回数', hue='cluster', data=df, palette='Set1')
sns.scatterplot(x='年齢', y='利用回数', data=c, color='k', s=100)

In [None]:
# クラスタ毎にクラスタ中心から各データへの距離の二乗の和
kmeans.inertia_

クラスタ数が2の場合では、クラスタ内距離が約35であった。
それと比べると倍以上大きくなってしまうことから、
クラスタ数を2とすることは適切でないと考えられる。

## エルボー法

クラスタ数を決める方法として、エルボー法が使われる。

クラスタ数を変化させながら、クラスタ中心からの距離の二乗の和を計算しグラフ化する。
グラフの減少度合いが変化し始めるところを、最適なクラスター数として採用する。

こういった作業はAIの開発では一般的で、**「ハイパーパラメータチューニング」**と呼ばれる。

In [None]:
# Elbow Methodによるハイパーパラメータチューニング
inertia = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init='auto')
    kmeans.fit(X)
    inertia.append(kmeans.inertia_)

In [None]:
# グリッド線を表示するスタイルに変更する
sns.set_style('whitegrid')

# エルボー図のプロット
elbow = pd.DataFrame( inertia, columns = ['Inertia'])
elbow['Num of clusters'] = range(1,11)
sns.lineplot(data = elbow, x='Num of clusters', y= 'Inertia')

上のグラフから、クラスタ数が3のところで
グラフの傾きが大きく変化しており、
最適なクラスタ数は3であると判断する。

In [None]:
# データをを変数 X にセットする
X = df[ ['年齢', '利用回数']]

# 準備の準備
scaler = StandardScaler()

# 標準化後のデータを再びXにセットする
X = scaler.fit_transform(X)

# クラスタ数を3として実行する
best_n_clusters = 3

# 準備
kmeans = KMeans(n_clusters=best_n_clusters, init='k-means++', max_iter=500, n_init='auto')

# クラスタの計算
kmeans.fit(X)

# クラスタラベルをデータフレームに追加
df['cluster'] = kmeans.labels_

# クラスタで分類して年齢と利用回数の平均を求める
c = df.groupby('cluster')[['年齢','利用回数']].mean().reset_index()
sns.scatterplot(x='年齢', y='利用回数', hue='cluster', data=df, palette='Set1')
sns.scatterplot(x='年齢', y='利用回数', data=c, color='k', s=100)



---



---

