# 비원형 데이터의 군집화 - DBSCAN
---
 - 분할적 군집화 방식
 - 밀도(데이터의 밀집) 기반  군집화 -> 미리 군집수 지정 필요 없음
 - 다양한 형태의 데이터에서 군집화 가능
 - 이상치 데이터 제거도 가능함
 - 군집을 정하는 기준
  - 임의의 점(Point)에서 지정된 거리만큼 영역 안에 지정된 데이터 수 존재 여부
  - 하이퍼 파라미터: 거리, 데이터수

In [2]:
from sklearn.datasets import load_iris
from sklearn.cluster import DBSCAN

## [1] 데이터 로딩

In [3]:
x, y=load_iris(return_X_y=True)

In [4]:
type(x)

numpy.ndarray

## [2] 데이터 전처리

In [5]:
# 스케일링
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()

In [6]:
scaler.fit(x)
x_scaled=scaler.transform(x)

In [7]:
x_scaled[:,2]

array([-1.34022653, -1.34022653, -1.39706395, -1.2833891 , -1.34022653,
       -1.16971425, -1.34022653, -1.2833891 , -1.34022653, -1.2833891 ,
       -1.2833891 , -1.22655167, -1.34022653, -1.51073881, -1.45390138,
       -1.2833891 , -1.39706395, -1.34022653, -1.16971425, -1.2833891 ,
       -1.16971425, -1.2833891 , -1.56757623, -1.16971425, -1.05603939,
       -1.22655167, -1.22655167, -1.2833891 , -1.34022653, -1.22655167,
       -1.22655167, -1.2833891 , -1.2833891 , -1.34022653, -1.2833891 ,
       -1.45390138, -1.39706395, -1.34022653, -1.39706395, -1.2833891 ,
       -1.39706395, -1.39706395, -1.39706395, -1.22655167, -1.05603939,
       -1.34022653, -1.22655167, -1.34022653, -1.2833891 , -1.34022653,
        0.53540856,  0.42173371,  0.64908342,  0.13754657,  0.47857113,
        0.42173371,  0.53540856, -0.26031542,  0.47857113,  0.08070915,
       -0.14664056,  0.25122143,  0.13754657,  0.53540856, -0.08980313,
        0.36489628,  0.42173371,  0.194384  ,  0.42173371,  0.08

## [3] 군집화

In [8]:
# 군집화 객체 생성
# eps=0.5 최대거리, min_samples=5 최소데이터갯수
dbscan=DBSCAN(eps=0.6, min_samples=8)

In [9]:
# 군집화(비지도학습) -> x값만
irisDBS=dbscan.fit(x_scaled)

In [10]:
irisDBS.labels_

array([ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, -1, -1,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, -1, -1,
        0,  0,  0,  0,  0,  0,  0, -1,  0,  0,  0,  0,  0,  0,  0,  0,  1,
        1,  1,  1,  1,  1, -1, -1,  1,  1, -1,  1, -1,  1,  1,  1,  1,  1,
       -1,  1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
       -1,  1, -1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1,  1,  1,
        1,  1,  1, -1, -1, -1, -1, -1,  1,  1,  1, -1, -1,  1,  1, -1, -1,
       -1,  1, -1, -1,  1,  1, -1,  1,  1,  1, -1, -1, -1,  1,  1,  1, -1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
      dtype=int64)

In [11]:
irisDBS.components_.shape

(88, 4)

In [12]:
irisDBS.fit_predict(x_scaled)

array([ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, -1, -1,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, -1, -1,
        0,  0,  0,  0,  0,  0,  0, -1,  0,  0,  0,  0,  0,  0,  0,  0,  1,
        1,  1,  1,  1,  1, -1, -1,  1,  1, -1,  1, -1,  1,  1,  1,  1,  1,
       -1,  1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
       -1,  1, -1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1,  1,  1,
        1,  1,  1, -1, -1, -1, -1, -1,  1,  1,  1, -1, -1,  1,  1, -1, -1,
       -1,  1, -1, -1,  1,  1, -1,  1,  1,  1, -1, -1, -1,  1,  1,  1, -1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
      dtype=int64)

In [13]:
# 정답지와 하나로 묶기

import pandas as pd
irisDF=pd.DataFrame(x_scaled)

In [14]:
irisDF['dbscan_cluster']=dbscan.labels_
irisDF['target']=y

In [16]:
iris_result=irisDF.groupby(['target'])['dbscan_cluster'].value_counts()

In [17]:
iris_result

target  dbscan_cluster
0        0                45
        -1                 5
1        1                40
        -1                10
2        1                33
        -1                17
Name: dbscan_cluster, dtype: int64

72.0