# 階層的クラスタ分析

<img src='slides/40.png'>

In [None]:
import pandas as pd

# 上記、クラスタリング用データ
data = [
    [5, 1],
    [4, 2],
    [1, 5],
    [5, 4],
    [5, 5]
]

# pandas DataFrame に変換
df = pd.DataFrame(data, columns=['attr1', 'attr2'], index=['x1', 'x2', 'x3', 'x4', 'x5'])

# 確認
df

<hr>

### 距離の計算

In [None]:
# pdist: 2点間の距離を計算
# - スライドの例に合わせて、ユークリッド距離の二乗で計算
# - 計算結果は、データの組み合わせだけ
from scipy.spatial.distance import pdist

dist = pdist(df, lambda x, y: ((x - y) ** 2).sum())

# 確認
dist

In [None]:
# pdist で計算した距離を確認しやすいように、対称距離行列を作成
# squareform: 対称行列を作成
from scipy.spatial.distance import squareform

pd.DataFrame(squareform(dist), columns=df.index, index=df.index)

以下のスライドの表と、同じになっていることを確認。

![非類似度](slides/40_1.png)


<hr>

### 距離の計算 (2)

- ユークリッド距離
- マンハッタン距離（市街区距離）

In [None]:
# pdist のオプションでユークリッド距離を指定
# - metric='euclidean'
pd.DataFrame(squareform(pdist(df, metric='euclidean')), columns=df.index, index=df.index)

In [None]:
# マンハッタン距離（市街区距離）
# - metric='cityblock'
pd.DataFrame(squareform(pdist(df, metric='cityblock')), columns=df.index, index=df.index)

<hr>

### 樹形図の作成

pdist で作成した距離をもとに階層的凝集クラスタリングを行い、樹形図を作成。

In [None]:
# pdist: 2点間の距離を計算
# - ユークリッド距離の二乗で計算
dist = pdist(df, lambda x, y: ((x - y) ** 2).sum())
dist

In [None]:
# linkage: 階層的凝集クラスタリング
# - method='single' 最小非類似度
from scipy.cluster.hierarchy import linkage
clusters = linkage(dist, method='single')

# dendrogram: 樹形図の作成
from scipy.cluster.hierarchy import dendrogram
dendr = dendrogram(clusters, labels=df.index)

In [None]:
# 階層的凝集クラスタリング
# - method='complete' 最大非類似度
dendr = dendrogram(linkage(dist, method='complete'), labels=df.index)

In [None]:
# 階層的凝集クラスタリング
# - method='average' 平均非類似度
dendr = dendrogram(linkage(dist, method='average'), labels=df.index)

In [None]:
# 階層的凝集クラスタリング
# - method='centroid' 重心法
dendr = dendrogram(linkage(dist, method='centroid'), labels=df.index)

In [None]:
# 階層的凝集クラスタリング
# - method='ward' Ward法
dendr = dendrogram(linkage(dist, method='ward'), labels=df.index)

<hr>

### 樹形図の作成 (2)

linkage で距離の計算まで処理して階層的凝集クラスタリングを行い、樹形図を作成。

- metric に距離の計算方法を指定。

In [None]:
dendr = dendrogram(linkage(df.values, method='single',
                           metric=(lambda x, y: ((x - y) ** 2).sum())),
                   labels=df.index)

In [None]:
dendr = dendrogram(linkage(df.values, method='single', metric='euclidean'), labels=df.index)