# DBSCAN 
- 충분히 밀집되어 있고 클러스터간 구분 잘 될 때
    - 클러스터 모양과 개수에 상관없이 감지 가능
    - 이상치에 안정적
    - 하이퍼 파라미터 2개 뿐(eps, min_samples)
- 동작방식
    - 입실론 eps내 min_samples개 샘플이 있으면 나는 핵심샘플
    - 핵심샘플의 이웃은 모두 같은 클러스터(또 다른 핵심 샘플 포함)
    - 핵심도 이웃도 아닌 샘플은 이상치
-  단점
    - 클러스터간 밀집도가 크게 다르면 모든 클러스터 감지 잘 못함
    - predict() 제공 안 함, 새로운 데이터에 대해 예측불가
        - fit_predict()만 제공, 새로 데이터 추가 후 전체 학습
        - 이전과 클러스터 개수, 인덱스 달라질 수 있음
- 계층적 DBSCAN(HDBSCAN)        

In [2]:
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000, noise=0.05)
dbscan = DBSCAN(eps=0.05, min_samples=5)
dbscan.fit(X)

# 다른 군집 알고리즘
### 병합군집
- agglomerative clustering
- 각 샘플을 리프로하여 모든 인접한 샘플과 연결하여 클러스터의 이진트리  구성
- pairwise distance, 대규모, 다양한 형태 클러스터 가능

### BIRCH
- Balanced Iterative Reducing and Clustering using Hierarchies
- 대규모 데이터셋용

### 평균-이동
- mean-shift
    - 각 샘플을 중심으로 하는 원 내 모든 샘플의 평균 구함
    - 해당 원의 중심을 평균점으로 이동시킴
    - 모든 원이 움직이지 않을 때까지 평균이동 수행
    - 원에 있는 모든 샘플은 동일 클러스터가 된다.
- 특징
    - bandwidth 하이퍼파라미터 1개
    - DBSCAN과 같이 국부적인 밀집도 추정에 의존하나 DBSCAN과 달리 클러스터내 밀집도가 불균형하면 여러개로 나눈다.
    - 대규모 불가
    
### 유사도 전파
- affinity propagation
    - 샘플마다 자신을 대표할 수 있는 샘플에 투료
    - 알고리즘 수렴 시 각 대표와 투표한 샘플이 클러스터 형성
- 특징
    - 크기 다른 클러스터 감지 가능
    - 대규모 불가
    
### 스펙트럼 군집
- spectural clustering
    - 유사도 행렬을 받아 저차원 임베딩(차원 축소)
    - 저차원 공간에서 또 다른 군집 알고리즘 사용
- 특징
    - 복잡한 클러스터 구조 감지
    - 대규모 데이터셋, 클러스터 크기 크게 다르면 잘 동작하지 않음

# 가우시안 혼합
- Gaussian mixture model
- 개념
    - 샘플이 파아미터가 알려지지않은 여러개의 가우시안 분포 합에서 생성되었다고 가정하는 확률모델
    - 1개 가우시안= 1개 클러스터
- Expectation-Maxmization 알고리즘
    - 클러스터 파아미터 랜점하게 초기화하고 수렴할 때 까지
    - 샘플을 클러스터에 소프트 할당(기댓값 단계, 각 클러스터에 속할 확률 예측)
    - 각 클러스터 모든 샘플로 업데이트(최대화 단계)
- 특징
    - 새로운 샘플을 가장 비슷한 클러스터에 할당 가능(하드 군집)
    - 특정 클러스터에 속할 확률 예측 가능(소프트 군집)
    - EM이 최적수렴하기 어려움
        - 여러번 수행
        - 학습파라미터 제한(공분산행렬에 제약추가) ex.클러스터 모양, 방향의 범위
    - 특성개수 많으면 적용 어려움    

In [4]:
from sklearn.mixture import GaussianMixture

gm = GaussianMixture(n_components=2, n_init=10)
gm.fit(X)