## 밀도 추정
### DBSCAN 사용
- 분할적 군집화 방식
- 밀도(데이터의 밀집) 기반 군집화 --> 미리 군집수 지정 필요 없음
- 다양한 형태의 데이터에서 군집화 가능
- 이상치 데이터 제거도 가능함
- 군집을 정하는 기준
    - 임의의 점(pt)에서 지정된 거리만큼 영역안에 저장된 데이터 수 존재 여부
    - 하이퍼파라미터: 거리, 데이터 수 
- 새로운 샘플에 대해 클러스터를 예측 X (predict대신 fit_predict 함수 지원)
    - 다른 예측기를 선택 (KNeighborsClassifier 등)

In [10]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN, k_means
from sklearn.metrics import silhouette_score, davies_bouldin_score

In [3]:
iris = load_iris()
data = iris['data']
target = iris['target']
name = iris['feature_names']

In [6]:
name

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [7]:
# 표준화 작업
st = StandardScaler()
st.fit(data)
data = st.transform(data)

### 군집화 객체 생성

In [58]:
dbs = DBSCAN(eps=0.65, min_samples=6)
dbs.fit(data)
dbs.fit_predict(data)

array([ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, -1,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, -1, -1,
        0,  0,  0,  0,  0,  0,  0, -1,  0,  0,  0,  0,  0,  0,  0,  0,  1,
        1,  1,  1,  1,  1,  1, -1,  1,  1, -1,  1, -1,  1,  1,  1,  1,  1,
       -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1,  1,  1,
        1,  1,  1,  1, -1,  1, -1, -1,  1,  1,  1,  1, -1,  1,  1, -1, -1,
       -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1, -1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
      dtype=int64)

In [67]:
print(dbs.components_.shape)
print(dbs.labels_)

(112, 4)
[ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0 -1  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0 -1 -1  0  0  0  0  0  0  0 -1  0  0  0  0  0  0
  0  0  1  1  1  1  1  1  1 -1  1  1 -1  1 -1  1  1  1  1  1 -1  1  1  1
  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1 -1  1  1
  1  1 -1  1  1  1  1  1  1  1 -1  1 -1 -1  1  1  1  1 -1  1  1 -1 -1 -1
  1  1  1  1  1  1  1  1  1  1  1 -1  1  1  1 -1  1  1  1  1  1  1  1  1
  1  1  1  1  1  1]


In [75]:
## 정답지랑 하나로 묶기
irisdf = pd.DataFrame(data, columns=name)
irisdf['dbscan'] = dbs.fit_predict(data)
irisdf['target'] = target

In [79]:
irisdf.groupby(['target'])['dbscan'].value_counts()

target  dbscan
0        0        46
        -1         4
1        1        44
        -1         6
2        1        41
        -1         9
Name: dbscan, dtype: int64

In [63]:
# silhouette 점수 - 값이 1에 가까울수록 좋음
print("실루엣 점수 : ", silhouette_score(data, dbs.fit_predict(data)))
# davies-bouldin 점수 - 값이 0에 가까울수록 좋음
print("davies-bouldin 점수 : ",davies_bouldin_score(data, dbs.fit_predict(data)) )

실루엣 점수 :  0.44796939029825905
davies-bouldin 점수 :  4.226917154562057
