# DBSCAN & クラスタリングの実用上の問題

In [1]:
# 表形式のデータを操作するためのライブラリ
import pandas as pd

# 行列計算をおこなうためのライブラリ
import numpy as np

# 機械学習用ライブラリsklearnのKmeansクラス
from sklearn.cluster import KMeans

# 機械学習用ライブラリsklearnのDBSCANクラス
from sklearn.cluster import DBSCAN

# グラフ描画ライブラリ
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors
import seaborn as sns;
sns.set(style='ticks')
%matplotlib inline

# ファイルの操作用
import os


# 警告文を表示させないおまじない
import warnings
warnings.filterwarnings('ignore')


---
## クイズ

(L4-Q1)=
### Q1: クラスタ内誤差平方和

[第3章で用いた人工データ](https://mlnote.hontolab.org/content/kmeans-and-hierarchical-clustering.html)（University of Eastern Finlandの計算学部が公開しているデータセット）に対して，K-meansクラスタリングを適用することを考える．
データを可視化すれば最適なクラスタ数は推測できるが，ここでは最適なクラスタ数は未知であると仮定する．

当該データをデータフレームに変換し，変数`s1_df`に格納しなさい．
さらに，クラスタ数を3（`K=3`）として`s1_df`にK-meansクラスタリングを適用し，クラスタ内誤差平方和（SSE）を計算しなさい．

※ ヒント: scikit-learnライブラリを用いた場合，SSEの値はクラスタリング実行後，モデルの`inertia_`プロパティにアクセスすれば取得できる（[参考](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)）．

In [2]:
# Write your code



(L4-Q2)=
### Q2: エルボー法によるクラスタ数の決定

Q1におけるクラスタ数`K`の値を1から20まで1ずつ変化させ，それぞれの`K`におけるクラスタ内誤差平方和を求めなさい．

In [3]:
# Write your code



(L4-Q3)=
### Q3: エルボー法によるクラスタ数の決定

Q2で計算したクラスタ内誤差平方和の値とエルボー法を用いて，Q1のデータにK-meansを適用する際の最適なクラスタ数を決めなさい．

In [4]:
# Write your code



---
## おまけクイズ

### Q4: データ間の距離

以下の関数`generate`は，各次元の定義域が$[-1, 1]$であるN次元空間に$K個のデータをランダムに生成する関数である．
`generate`関数はK行N列の行列を返す．

In [5]:
def generate(N, K):
    return np.random.uniform(-1, 1, (K, N))

例えば，$N=2$，$K=10$の場合，以下のように`generate`関数は2次元のデータを10個生成し，行列形式で返す．
各行がデータ点に対応する．

In [6]:
generate(N=2, K=10)

array([[-0.09323239, -0.30409721],
       [-0.61199521,  0.14446446],
       [ 0.33321069, -0.79592373],
       [-0.79520706, -0.00570398],
       [-0.47753729, -0.30975939],
       [ 0.9670996 , -0.86327868],
       [-0.32164156, -0.54902015],
       [ 0.59240186,  0.58864603],
       [ 0.19415688, -0.29955529],
       [ 0.84111051, -0.77630539]])

`generate`関数を使ってランダムに生成された2次元の10個のデータにについて，全データ間のユークリッド距離を計算し，その結果を変数`dist`に格納しなさい．

※ ヒント: scipyライブラリの`spatial.distance.pdist`関数を用いるとよい（[参考](https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.html#scipy.spatial.distance.pdist)）．

In [7]:
# Write your code



### Q5: データ間の距離の最小値と最大値

Q4で求めた距離の最小値と最大値を求め，その差の絶対値`max_dist_delta`を計算しなさい．
各次元の定義域がであるN次元空間においては，`max_dist_delta`の最大値は$2\sqrt{N}$となる．
このことを踏まえて，最大値が1となるよう`max_dist_delta`を正規化した`normalized_max_dist_delta`も計算しなさい．

※ ヒント: リストやnumpy.darrayの要素の最小値，最大値を計算するには`min`，`max`関数が使える．

#### 補足: 距離の差を$2\sqrt{N}$で正規化するのか？

各次元の定義域が[-1, 1]であるN次元空間における点同士のユークリッド距離がとりうる最大値は，
* 1次元空間では距離の最大値は$2=2\sqrt{1}$
* 2次元空間では距離の最大値は$2 \sqrt{1^2 + 1^2}=2\sqrt{2}$
* 3次元空間では距離の最大値は$2 \sqrt{1^2 + 1^2 + 1^2}=2\sqrt{3}$

となる．
この観察から分かるように，N次元空間における点同士の距離がとり得る最大値は$2\sqrt{N}$となり，次元数が増えるにつれてとりうる距離の最大値が大きくなる．
そのため，単純に最大距離と最小距離の差の「絶対値」を調べても，相対的に差が小さくなっているのか分からない．
そこで，距離を$2\sqrt{N}$で割ることで，最大距離と最小距離の差を正規化（最大値が1になるように変換）する．

In [8]:
# Write your code



### Q6: 関数化

Q4とQ5で行ったことを抽象化すると，以下のように書ける：
1. 各次元の定義域が$[-1, 1]$である$N$次元空間上で$K$個のデータをランダムに生成
2. 各データ間のユークリッド距離の最小値と最大値の差を計算
3. ステップ2で求めた差を$2\sqrt{N}$で正規化した値（`normalized_max_dist_delta`）を計算

ステップ1からステップ3を任意の回数だけ繰り返し，得られた`normalized_max_dist_delta`の平均値を$\bar{\delta_{dist}}$と定義する．
$\bar{\delta_{dist}}$を求める関数`calc_mean_normalized_max_dist_delta`を定義しなさい．
なお，この関数の引数は`N`，`K`，`iter`（ステップ1からステップ3まで繰り返す回数）の3つとする．

In [9]:
# Write your code



### Q7: 次元の呪い

Q6で定義した$\bar{\delta_{dist}}$について，$K=50$，$iter=100$と固定して$N$を1から1000まで1ずつ変化させたときにどのように変化するか観察しなさい．

In [10]:
# Write your code

