## DBSCAN

- Density-Based Clustering
    - 밀도 함수를 추정해서 주변에 있는 것들을 군집으로 정의

- 거리 지표를 기반으로 밀도 계산  
    => distance metric, feature scaling이 중요

- core point: eps를 반지름으로 한 반경 안에서 데이터 포인트가 min sample과 같거나 큰 데이터포인트

- eps보다 가까운 core point들은 같은 군집으로 만듦

- border point: core point는 아니지만 core point와 이웃인 데이터포인트
- noise point: core point도 border point도 아닌 데이터포인트  
    -> 노이즈 분류가 가능

<img src="../../img/dbscan1.png">

### Clustering Procedure

1. 모든 데이터 포인트들을 core, border, noise point로 분류한다

2. 서로 간의 거리가 eps 이하인 core point끼리 연결선을 긋는다

3. core point끼리 연결된 그룹을 하나의 군집으로 만든다

4. border point를 재보정

In [9]:
from sklearn.datasets import make_blobs
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import MinMaxScaler


X_train, y_train = make_blobs(random_state=1, n_samples=12)
print(f"X_train shape: {X_train.shape}")

X_train shape: (12, 2)


In [10]:
scaler = MinMaxScaler(feature_range=(-1, 1))
X_train_scaled = scaler.fit_transform(X_train)

In [11]:
dbscan = DBSCAN()
dbscan.fit(X_train_scaled)

0,1,2
,eps,0.5
,min_samples,5
,metric,'euclidean'
,metric_params,
,algorithm,'auto'
,leaf_size,30
,p,
,n_jobs,


In [12]:
assignments_X_train = dbscan.labels_
print(assignments_X_train)

[-1 -1  0  0  0  0 -1 -1  0  0  0  0]


### Evaluation

- Quantitative Evaluation with Ground Truth
    : 정답이 있는 경우에는 adjusted rand index(ARI)를 주로 사용. 잘 군집화할 수록 1에 가까워짐.  
    군집화에서는 군집 라벨이 중요한 게 아니라 같은 군집이냐 아니냐가 중요하기 때문에 accuracy를 쓰면 안됨.

- Quantitative Evaluation without Ground Truth
    : 정답이 없는 경우, silhouette coefficient를 사용함.  
    개별 데이터가 할당된 군집 내 데이터와 얼마나 가까운지, 다른 군집과는 얼마나 먼지 수치로 나타냄  
    $s(x_i) = (b(x_i) - a(x_i)) / max(a_i, b_i)$
      


In [13]:
from sklearn.metrics import adjusted_rand_score
from sklearn.metrics import silhouette_score


print(f"ARI: {adjusted_rand_score(y_train, assignments_X_train):.5f}")
print(f"Silhouette Coefficient: {silhouette_score(X_train_scaled, assignments_X_train):.5f}")

ARI: 0.52174
Silhouette Coefficient: 0.79030
