# **군집화(Clustering)**

## 비지도 학습
데이터의 내재된 구조를 학습하는 머신러닝 방법
- 정답 레이블이 없어 **모델의 성능을 명확히 측정 불가**
- **표현 학습**을 수행하여 **데이터의 고유 패턴을 식별**

## 군집화 
**유사성**을 기반으로 **군집**을 나누는 비지도 학습 기법

**군집화의 목표**:
- 응집도 최대화
- 분리도 최대화

## 군집화 과정
1. 피처 선택 혹은 추출
2. 군집화 알고리즘 선택
3. 군집 유효성 검증
4. 결과 해석

**고려 사항**:
- **변수 유형 이해**: 연속형/명목형, 변수 개수, 특징
- **거리/유사도 겅의와 측정**
- **차원 축소**: 유사한 변수 묶기 
<Br/><Br/>

# **군집화 알고리즘**
## 계층적 군집화
데이터가 유사성을 기반으로 Dendrogram 형성

**Dendrogram**의 수직축(높이) = **군집 간 거리(유사성)**

- **상향식(응집형 계층적 군집화)** <Br/>
  **각 샘플이 독립적인 클러스터**, 하나의 클러스터만 남을 때까지 **가까운 클러스터 병합**<Br/><Br/>
- **하향식(분리형 계층적 군집화)** <Br/>
  전체 샘플을 포함하는 **하나의 클러스터**에서 **유사성이 낮은 데이터 분할**<Br/><Br/>

1. **응집형 계층적 군집화**
   
   **거리 정의 알고리즘**
   - 단일 연결: 클러스터 쌍에서 **가장 비슷한 샘플** 간 거리가 가장 작은 두 클러스터 병합
   - 완전 연결: **가장 비슷하지 않은 샘플** 간 거리가 가장 작은 두 클러스터 병합 <Br/><Br/>
   
2. **6가지 거리 정의 방법**

   - **Single linkage**
  
     군집 간 거리의 최소값 측정
  
     고립된 군집 찾기
     
   - **Complete linkage**
  
     군집 간 거리의 최댓값 측정
  
     군집들의 내부 응집성
  
     거리 행렬 계산 - 데이터를 단일 클러스터로 표현 - 클러스터 병합 - 유사도 행렬 업데이트 - 반복
  
   - **Average linkage**
  
     모든 항목에 대한 거리 평균 측정
  
     계산량 많음, 이상치에 덜 민감
  
   - **Centroid Method**
  
     군집의 중심 간 거리 측정
  
     시간 오래 걸림
  
   - **Median**
  
     군집 내 모든 샘플의 중앙값 간 거리 측정
  
     이상치 덜 민감, 기하학적 구조 파악 어려움
  
   - **Ward's Procedure**
  
     군집의 병합 후 군집 내 오차제곱합(SSE)의 증가분 최소인 것 선택<Br/><Br/>
  
     
3. **계층적 군집화 결과 시각화** <Br/><Br/>

## k-means
데이터를 **k개의 그룹**으로 나누되, **그룹의 중심점과 가까운 데이터끼리** 묶는 알고리즘

1. **k-means 알고리즘 주요 단계**

   - 랜덤하게 k개의 중심점 선택
   - 각 표본들을 가장 가까운 중심점에 할당
   - 각 클러스터의 평균을 계산하여 중심점 이동
   - 2-3회 반복<Br/><Br/>
   
2. **구체적 계산 과정**

   - 각 데이터 포인트 $x_i$와 군집 중심 $u_j$의 거리를 최소화하는 $j$번째 군집 찾기
     
     $\sum_{i=0}^{n}argmin_{u_j \in C}(||x_i - u_j||^2)$
  
   - 중심점을 이동하며 SSE 최소화
  
     $SSE = \sum^n_{i=1} \sum^k_{j=1} w^{(i, j)} \parallel \mathbf{x}^{(i)} - {\mu}^{(j)} \parallel ^2_2$
  
   - 사용자가 직접 적절한 클러스터의 개수(k) 지정해야한다!<Br/><Br/>

3. **장단점**

   장점: 직관적, 구현이 쉬움, 대용량 데이터 적용 가능

   단점: 초기 centroid 값에 민감, k 결정 어려움, 아웃라이어 민감, 기하학적 모양의 군집 파악 어려움<Br/><Br/>

   
4. **k-means++ 알고리즘**

   초기 중심점들을 멀리 떨어진 곳에 위치

   **초기화 과정**

   - 빈 집합 $\mathbf{M}$ 초기화
   - 랜덤 선택한 중심점 $\mathbf{M}$에 할당
   - $\mathbf{M}$에 없는 샘플에 대해 $\mathbf{M}$의 중심점까지의 최소 제곱 거리 계산
   - 이를 바탕으로 가중치가 적용된 확률 분포로 다음 중심점 랜덤 선택
   - k개의 중심점 찾을 때까지 3-4회 반복
   - 기본 k-means 알고리즘 수행<Br/><Br/>

5. **엘보우 방법**

   **왜곡이 빠르게 감소**하는 지점으로 최적의 k값을 찾는다. <Br/><Br/>

## DBSCAN

1. **DBSCAN 알고리즘의 주요 단계**

   - 각 샘플을 핵심 샘플, 경계 샘플, 잡음 샘플 중 하나에 할당
   - 개별 핵심 샘플 또는 핵심 샘플 그룹을 클러스터로 만든다
   - 경계 샘플을 해당 핵심 샘플의 클러스터에 할당 <Br/><Br/>

2. **장단점**

   장점: 기하학적 분포도 잘  처리, 이상치 민감x, 잡음 샘플 구분

   단점: 속도 느림, 밀도 분포에 예민, epsilon과 min_samples 설정에 예민<Br/><Br/>


## Gaussian Mixture Model (GMM)
데이터가 여러 **가우시안 분포**로 구성되어 있다고 가정하고 각 분포를 클러스터로 인식

1. **GMM의 가정**

   - 데이터가 가우시안 확률 분포에 의해 생성됨
   - 개별 데이터는 k개의 가우시안 분포 중 우도에 따라 한가지에 속함 <Br/><Br/>

2. **GMM의 진행 과정**

   - 전체 데이터셋의 **분포 확인**
   - 전체 데이터셋이 **서로 다른 가우시안 분포**들로 구성되어 있다 가정
   - 여러 개의 **정규분포 곡선을 추출**해 각각에 **개별 데이터 할당**, 각각의 분포가 하나의 군집 <Br/><Br/>
3. **모델 파라미터의 추정**

   **기대값-최대화 알고리즘**으로 모델의 파라미터 추정

   - Initialization: 파라미터의 초기값 선정
   - E step: 파라미터를 통해 x가 특정 분포에 속할 사후 확률 계산
   - M step: 계산된 사후 확률로 다시 파라미터 추정
   - 수렴 조건까지 E,M step 반복 <Br/><Br/>

4. **GMM의 장단점**

   장점: 유연하게 다양한 데이터셋에 적용

   단점: 시간, 가우시안 분포에 맞지 않을 경우 성능 저하<Br/><Br/>


# **군집화 평가 방법**
**내부 평가 지표**: 정답이 없는 경우 군집 내부의 응집도와 분리도를 측정하여 군집 품질 판단

**외부 평가 지표**: 정답이 있는 경우, 실제 라벨과 비교해 정확성을 객관적으로 판단

## 실루엣 계수
클러스터 내 샘플들이 얼마나 조밀하게 모여 있는지 측정

1. **실루엣 계수 계산 과정**
   - 샘플과 동일 클러스터 내 포인트들의 거리 평균으로 **클러스터 응집력** 계산
   - 샘플의 최근접 클러스터 내 포인트들의 거리 평균으로 **클러스터 분리도** 계산
   - 응집력과 분리도의 차이를 둘 중 큰 값으로 나누어 **실루엣** 계산
     $s^{(i)} = \frac{b^{(i)} - a^{(i)}}{\max \left\{ b^{(i)}, a^{(i)} \right\}}$<Br/><Br/>
     
2. **실루엣 계수의 시각화**

   실루엣 계수 값의 분포가 고르고 1과 가까울수록 군집화가 잘 된 것.<Br/><Br/>

   
## Dunn Index
분리도와 응집도의 비율을 계산해 클러스터링 품질 평가

$\text{Dunn Index} = \frac{
\min\limits_{i \ne j} \; d(C_i, C_j)}{\max\limits_{1 \le k \le K} \; \delta(C_k)}$


한계: 군집수에 따라 계산 비용 증가, 이상치에 민감