# 1. 군집화 (Clustering)

## 1) 머신러닝: 비지도 학습

정답이 없는 데이터를 이용하는 머신러닝 기법
- 데이터 자체에 내재된 구조를 학습
- 패턴이 알려지지 않았거나, 계속해서 변화하는 문제 해결에 유용
- 구체적, 좁은 범위 -> 지도 학습
- 열린 문제, 지식 일반화 -> 비지도 학습
- 모델 성능의 명확한 측정 제한 (정답 레이블 부재)
- 표현 학습(representation learning or 피처 학습)을 통해 데이터셋 고유 패턴 식별 가능

## 2) 군집화란?

데이터를 비슷한 특성을 가진 그룹(cluster, 군집)으로 나누는 비지도 학습 기법
- 각 그룹의 구성을 통해, 전체 데이터 구조 파악
- '유사성'을 기반으로 개체를 그룹화

군집화의 목표
1. 응집도(Cohension) 최대화
   - 같은 군집에 속하는 데이터끼리는 최대한 비슷하도록 함
2. 분리도(Separation) 최대화
   - 서로 다른 군집은 최대한 분리되도록 함

데이터간 유사성 최대한 유지 + 서로 다른 그룹은 구분

## 3) 군집화 과정

1. 피처 선택/추출
2. 군집화 알고리즘 선택
3. 군집 유효성 검증
4. 결과 해석

주요 고려 사항
1. 변수 유형 이해 (사용되는 방법론 결정)
   - 연속형/범주형
   - 변수 개수와 특징
2. 거리 (또는 유사도) 정의와 측정
   - 거리(distance) or 유사도(similarity) 측정 방식 중요
   - 회귀 분석에서는 변수 자체가 중요했다면, 군집 분석에서는 거리를 어떻게 정의하고 측정할 것인지가 중요
3. 차원 축소
   - 유사한 변수들을 묶어서 차원 축소
4. 군집화는 one-shot 프로세스가 아님
   - 반복적 시도 요구
5. 피처와 군집화 스키마 선택 시의 명확한 기준 없음
   - 적합한 평가 기준 선정도 하나의 문제

# 2. 군집화 알고리즘

## 1) 계층적 군집화 (Hierarchical Clustering)

- 데이터 간의 유사성을 기반으로 트리 구조 형성해,\
  상향식 or 하향식으로 군집을 형성해 나가는 방법

- 덴드로그램 (Dendrogram)
    - 가까운 두 개체/군집을 점차적으로 병합해 가는 과정을 시각적으로 표현한 트리 구조
    - 해석: 수직축(높이) = 두 군집이 병합될 때의 군집 간 거리(유사성)
        - 두 그룹을 연결하는 수직축이 짧을수록, 유사도가 높음
- 군집의 개수를 사전에 설정하지 않음
    - 클러스터링 종료 후, 원하는 군집 개수 선택
- 계층적 군집화 활용
    - 소규모 데이터에 대해 군집 수 탐색
    - 클러스터링의 전반적 구조를 시각적으로 분석
    - 계산량이 많기 때문에, 대규모 데이터에 적용 비추천

1. 응집형 계층적 군집화 (Agglomerative Hierarchical Clustering, 병합 클러스터링)
   - 상향식 트리 구조
   - 작은 군집을 병합해 더 큰 군집 형성
   - 각 샘플이 독립적인 클러스터로 시작 -. 하나의 클러스터만 남을 때까지 클러스터 병합
   - 군집 간의 거리 정의에 따라 알고리즘 변화 (가까운 군집 간 병합 시 - '가깝다'의 기준)
2. 분리형 계층적 군집화 (Divisive Hierarchical Clustering, 분할 클러스터링)
   - 하향식 트리 구조
   - 하나의 군집을 분할해가며 여러 군집 형성
   - 전체 샘플을 포함하는 하나의 클러스터에서 시작 -> 유사성이 낮은 데이터들을 더 작은 클러스터로 분할

응집형 계층적 군집화의 여러 가지 정의 알고리즘
  1. 단일 연결법 (Single Linkage, 최단 연결법)
     - 클러스터 쌍에서 가장 비슷한 샘플 간 거리 계산\
       -> 이후, 이 거리가 가장 작은 두 클러스터 병합
     - 고립된 군집을 찾는데 중점
     - 이상치에 민감 (Not Robust)
       - 이상치와 가까이 있는 점은 이상치의 영향에 따른 군집 형성
  2. 완전 연결법 (Complete Linkage, 최장 연결법)
     - 클러스터 쌍에서 가장 비슷하지 않은 샘플 간 거리 계산\
       -> 이후, 가장 유사성이 큰 군집으로 병합
     - 군집들 간 내부 응집성에 중점
     - 이상치에 민감
  3. 평균 연결법 (Average Linkage)
     - 모든 항목에 대한 거리 평균 계산
     - 이상치에 1,2번 대비 상대적으로 덜 민감
     - 계산량이 불필요하게 과다해 질 수 있음
  4. 중심 연결법 (Centroid Method)
     - 두 군집의 중심 간 거리 계산
       -> 두 군집이 결합될 때 새로운 군집의 중심은 가중평균을 통해 구함
     - 군집들의 중심 계산에 시간이 오래 걸림
  5. 중앙 연결법 (Median)
     - 군집 간 거리를 군집 내 모든 샘플의 중앙값으로 정의
     - 이상치에 덜 민감
     - 기하학적 구조 파악이 어려움
  6. Ward 연결법 (Ward's Procedure)
     - 군집 병합 후, 군집 내 SSE(오차제곱합)의 증가분 최소인 것을 선택
     - 병합된 군집의 SSE 증가량이 가장 작아지는 방향으로 군집 형성

완전 연결 방식을 사용한 응집형 계층 군집화 과정
1. 모든 샘플의 거리 행렬 계산
2. 모든 데이터 포인트가 단일 클러스터로 시작
3. 가장 거리가 먼 샘플 사이 거리에 기초해, 가장 가까운 두 클러스터 병합
4. 유사도 행렬 업데이트
5. 하나의 클러스터 남을 때까지 2~4번 반복

## 2) k-means

데이터를 정해진 개수(k)의 그룹으로 나누되, 각 그룹의 중심점(centroid)과의 거리가 가장 가까운 데이터끼리 묶는 군집화 알고리즘
- 군집화에서 가장 일반적으로 사용
- 연속적인 특성을 갖는 데이터 활용

- k-means 알고리즘의 주요 단계
  1. 데이터 표본 중 랜덤하게 k개의 중심점(centroid)를 초기 클러스터 중심으로 설정
  2. 각 표본들을 가장 가까운 중심점에 할당
     - 유클리디안 거리 제곱 사용
  3. 각 클러스터에 할당된 표본들의 데이터 평균 계산 + 중심점 이동
  4. 클러스터 할당이 변하지 않거나, 사용자가 지정한 허용 오차 or 최대 반복 횟수(max_iter)에 도달할 때까지 2,3번 반복

- k-means 알고리즘의 목표
    - 클러스터 내 제곱 오차합(SSE) 최소화
- k-means 알고리즘의 장점
    1. 원형 클러스터를 구분하는 데 효과적
    2. 직관적, 구현이 쉬움
    3. 대용량 데이터에도 적용 가능
- k-means 알고리즘 단점
    1. 클러스터 개수(k) 직접 지정 필요 (하이퍼파라미터)
       - 적절한 k값을 고르지 않으면, 모델 성능 하락
         - 엘보우 방법(elbow method), 실루엣 계수(silhouette coefficient) 등 활용 가능
    2. 초기 centroid 값에 민감
    3. 아웃라이어에 민감
       - 평균 중심의 군집 구성
         - 아웃라이어가 중심 왜곡시킬 수있음
    4. 기하학적 모양의 군집 파악 어려움
       - 문제 해결을 위해 K-Median(중앙값), K-Medoids(데이터 포인트 하나 선택), Mean Shift(밀도 높은 곳으로 중심점 이동) 등의 알고리즘 고려 가능 

k-means++ 알고리즘
- 기존 k-means 알고리즘의 초기 중심점 랜덤 할당에서 비롯된 문제 해결 알고리즘
- 초기 중심점들을 서로 멀리 떨어진 곳에 위치시키기
  - 기본적 k-means 보다 일관되고 좋은 결과 도출 가능
 
- 프로세스
  1. 선택한 k개의 중심점을 저장할 빈 집합 M 초기화
  2. 입력 샘플에서 첫 번째 중심점을 랜덤하게 선택해 M에 할당
  3. M에 없는 각 샘플 x에 대해 M에 있는 중심점까지의 최소 제곱 거리 d 찾기
  4. 가중치가 적용된 확률분포를 사용해 다음 중심점 랜덤하게 선택
  5. k개의 중심점을 선택할 때까지 3,4번 반복
  6. 기본 k-means 알고리즘 수행
  - 기호, 식과 함께 이해하기 위해서 교육 자료 참고 필수

엘보우 방법 (elbow method)
- 적절한 k 값을 찾기 위한 방법
- 그래프를 활용해 최적 클러스터 개수 k를 추정
  - 그래프의 기울기에 따른 최적점 확인
- k가 증가하면, 왜곡이 줄어든다 (직관적 해석: 클러스터를 세분화 할수록 샘플이 할당된 중심점에 더 가까워 짐)
- 목표: 왜곡이 빠르게 감소하는 지점의 k값 찾기

## 3) DBSCAN (Density-Based-Clustering Analysis)

밀집도 기반 군집화
- 데이터 밀도 분포를 기반으로 고밀도 영역을 클러스터로 인식
- 밀도가 높은 지역의 데이터를 하나의 군집으로 묶고, 밀도 기준을 만족하지 못하는 점은 군집에 포함시키지 않는 군집화 알고리즘

DBSCAN 알고리즘 주요 단계
1. 다음 3가지 조건에 따라 각 샘플을 '핵심 샘플', '경계 샘플', '잡음 샘플' 중 하나에 할당
   1. 핵심 샘플: 어떤 샘플의 특정 반경 ∊(엡실론)안에 있는 이웃 샘플이 지정된 개수(MinPts) 이상
   2. 경계 샘플: ∊ 이내에 MinPts보다 이웃이 적지만 다른 핵심 샘플의 반경 ∊ 안에 있는 샘플
   3. 잡음 샘플: 1,2 모두 해당하지 않는 모든 샘플
2. 개별 핵심 샘플 또는 핵심 샘플의 그룹(∊ 이내에 있는 핵심 샘플 연결)을 클러스터로 형성
3. 경계 샘플을 해당 핵심 샘플 클러스터에 할당 

DBSCAN의 하이퍼파라미터
1. eps
   - 데이터 포인트 사이의 최대 거리
2. min_samples
   - 포인트가 군집이 되기 위해 eps 거리 내 포인트가 얼마나 많아야 하는지
   - 해당 값이 증가하면, 군집 수 감소 (군집 기준 상향)
     
=> 특정 데이터 포인트 기준으로 반경 eps 내에 자신을 포함한 데이터 포인트 개수가 min_sample 이상일 때\
-> 하나의 군집으로 인식

1. DBSCAN의 장점
    1. 임의의 기하학적 분포를 갖는 데이터도 잘 처리 가능
        - k-means처럼 클러스터 모향을 원형으로 가정 X
    2. 이상치에 민감하지 않음
       - Noise를 통한 Outlier 검출 가능
    3. 모든 샘플을 클러스터에 할당하지 않음 (잡음 샘플 구분)
       - k-means, 계층 군집과 다른 점

2. DBSCAN의 단점

    1. epsilon과 min_samples 설정에 많은 영향을 받음
    2. 적절한 epsilon 값 조절의 어려움
      - 데이터셋에 대한 도메인 지식 필요한 경우 많음
    3. 연산량이 많아 속도가 느림
    4. 다른 밀도 분포를 가진 데이터의 군집 분석을 잘 못함
        - 밀도가 높은 곳에 집중하다 보면, 밀도가 낮은 곳의 데이터 군집화 못 함 (잡음 샘플로 구분)
    5. 차원의 저주를 벗어나지 못함
       - 모든 유클리안 거리를 활용하는 알고리즘이 갖는 문제
       - 같은 양의 데이터가 고차원으로 이동할 수록, 데이터 포인트 사이의 거리가 늘어남\
         -> 데이터의 밀도가 낮아짐

## 4) Gaussian Mixture Model (GMM)

- 데이터가 여러 다른 모양의 가우시안 분포로 구성되었다고 가정하고, 각 분포를 클러스터로 인식하는 군집화 방법
- 모델 기반 군집화 (Model-Based Clusterin) 방법 중 하나
  - 데이터를 생성하는 통계적 모델 가정 후, 데이터가 해당 모델로부터 생성되었다는 전제 하에 군집화를 수행하는 접근 방식
  - 데이터 생성 메커니즘을 모델링한다는 특징 존재
- 각 군집을 확률 분포로 간주하고, 전체 데이터 분포를 이질적인 여러 개의 확률 분포 혼합으로 보고 모델링
   - K-means와 같은 거리 기반 군집화와 다름

GMM의 가정
- 관측된 데이터 포인트들이 특정 가우시안 확률 분포에 의해 생성되었음
- 전체 데이터셋에 여러 개의 (다변량) 가우시안 분포가 섞여있고, 개별 데이터는 우도(가능도)에 따라 K개의 가우시안 분포 중 한가지에 속함
  
-> 섞인 데이터 분포에서 각각의 가우시안 분포를 추출 + 각각의 분포에 기반해 군집화 수행

확률과 우도
1. 확률 (Probability)
   - 고정된 확률분포에서 어떤 관측값이 나타나는지에 대한 확률
   - 확률 분포에서, 특정 점들 사이의 확률밀도함수 (면적, 적분)
2. 우도 (Likelihood)
   - 고정된 관측값이 어떠한 확률분포에서 어느정도 확률로 나타나는지에 대한 확률
   - 확률 분포에서, 특정 x 값에 대한 y 값

GMM 프로세스
1. 주어진 전체 데이터셋 분포 확인
2. 전체 데이터 셋은 서로 다른 정규 분포 형태의 확률 분포 곡선으로 구성되어 있다고 가정 
3. 전체 데이터셋을 구성하는 여러 개의 정규분포 곡선 추출
   - 개별 데이터가 이 중 어떤 정규분포에 속하는지 결정
   - 각각의 분포가 하나의 군집으로 형성


GMM 모델 파라미터 추정 
- 기댓값-최대화 (Expectation - Maximization, EM) 알고리즘 사용
    - 각 군집의 중심, 모양, 크기, 방향 모델링 가능

- EM 알고리즘의 단계
    1. Initialization: 필요한 파라미터 θ (u, ∑, π)에 대해 초기값 선정
    2. E(Expectation) step: 현재 θ를 통해 x가 특정 분포(군집)에 속할 사후확률 계산
    3. M(Maximization) step: 계산된 사후확률을 통해 파라미터 θ (u, ∑, π)를 다시 추정
    4. 수렴 조건이 만족될때까지 2~3 반복

1. GMM의 장점
    - K-means보다 유연하게 다양한 데이터셋에 적용 가능
      - 타원형 분포, 중첩된 군집 구조
 
2. GMM의 단점
   - 군집화를 위한 수행시간 오래 걸림
   - 가정한 분포(가우시안 분포)에 맞지 않는 데이터일 경우, 계산 복잡도가 높아지고 성능 저하 가능 

# 3. 군집화 평가 방법

1. 내부 평가(Internal Evaluation)
   - 기본적인 군집 품질 평가를 위해 알고리즘 자체의 내부 평가 지표 사용
     - k-means의 경우, SSE(왜곡) 사용
    - 군집 내부 응집도와 군집 간 분리도의 정량적 측정
      - 데이터 자체의 구조를 기반으로 군집 품질 판단
    - 대표적인 지표: 실루엣 계수

2. 외부 평가 (External Evaluation)
    - 데이터셋에 정답 레이블이 존재하는 경우
      - 실제 레이블과 군집화 결과 비교 가능 (비지도 학습이라고 하더라도)
    - 군집화 정확성 객관적으로 평가
    - 대표적인 지표: ARI(Adjusted Rand Index)

# 1) 실루엣 계수

- 클러스터 내 샘플들이 얼마나 조밀하게 모여 있는지를 측정하는 도구
- 군집의 품질 확인 가능

실루엣 계수 계산 과정
1. 샘플 x(i)와 동일한 클러스터 내 모든 다른 포인트 사이의 거리를 평균해, 클러스터 응집력 a(i) 계산
2. 샘플 x(i)와 가장 가까운 클러스터의 모든 샘플 포인트 사이의 거리를 평균해, 클러스터 분리도 b(i) 계산
3. 클러스터 응집력과 분리도 사이의 차이를 둘 중 큰 값으로 나누어, 실루엣 s(i) 계산\
   s(i) = b(i) - a(i) / max{b(i), a(i)}

- 실루엣 계수는 -1~1 사이의 값 
    - a(i) = b(i) -> 실루엣 계수는 0
    - b(i) >> a(i) -> 실루엣 계수 1에 가까워짐 (이상적인 점수)
        - 클러스터 분석의 목적: 분리도(b(i)) 최대화, 응집력(a(i)) 최대화 (군집 내 거리 최소화)

## 2) Dunn Index

클러스터 간 최소 거리(분리도)와 클러스터 내 최대 거리 (응집도)의 비율을 계산해 군집화 품질 평가 지표

min d(C(i),C(j)) / max δ(C(k))
- d(C(i),C(j)): 클러스터 C(i)와 C(j) 사이의 거리
  - 일반적으로 클러스터 중심 사이 거리 / 두 클러스터 간 최소 거리
- δ(C(k)): 클러스터 C(k) 내 최대 거리
  - 해당 클러스터 안에서 가장 멀리 떨어진 두 점 간의 거리

- Dunn Index 해석
  - 값이 클수록 좋은 군집화 결과
  - 클러스터 분석의 목적: 군집 간 거리 최대화, 군집 내부 거리 최소화 

- Dunn Index 한계
  - 군집 수 증가할수록, 계산 비용 증가
  - 이상치에 민감 