# 군집분석
> Clustering에 대해 알아보자.
- toc: true
- branch: master
- badges: false
- comments: true
- author: pinkocto
- categories: [python]

## 군집화 수행 시 주요 고려사항
- 어떤 거리 척도를 사용하여 유사도를 측정할 것인가?
- 어떤 군집화 알고리즘을 사용할 것인가?
- 어떻게 최적의 군집 수를 결정할 것인가?
- 어떻게 군집화 결과를 측정/평가할 것인가?

### `#1.`어떤 거리 척도를 사용하여 유사도를 측정할 것인가?
- 유클리디안 거리 (Euclidean Distance)
- 맨하탄 거리 (Manhattan Distance)
- 마할라노비스 거리 (Mahalanobis Distance)
- 상관계수 거리 (Correlation Distance)

### `#2.` 군집화: 알고리즘

**1. 계층적 군집화**
- 개체들을 가까운 집단부터 차근차근 묶어나가는 방식
- 군집화 결과 뿐만 아니라 유사한 개체들이 결합되는 dendrogram 생성

**2. 분리형 군집화**
- 전체 데이터의 영역을 특정 기준에 의해 동시에 구분
- 각 개체들은 사전에 정의된 개수의 군집 중 하나에 속하게 됨

**3. 자기조직화 지도**
- 2차원의 격자에 각 개체들이 대응하도록 인공신경망과 유사한 학습을 통해 군집 도출

**4. 분포 기반 군집화**
- 데이터의 분포를 기반으로 높은 밀도를 갖는 세부 영역들로 전체 영역을 구분

### 계층적 군집화 (Hierarchical Clustering)
- 계층적 트리모형을 이용하여 개별 개체들을 순차적/계층적으로 유사한 개체/군집과 통합
- 덴드로그램(Dendrogram)을 통해 시각화 가능
    - 덴드로그램 : 개체들이 결합되는 순서를 나타내는 트리 형태의 구조

- 사전에 군집의 수를 정하지 않아도 수행 가능
    - 덴드로그램 생성 후 적절한 수준에서 자르면 그에 해당하는 군집화 결과 생성

#### 계층적 군집화 수행 예시
- 모든 개체들 사이의 거리에 대한 유사도 행렬 계산
- 거리가 인접한 관측치끼리 군집 형성
- 유사도 행렬 업데이트
- 위의 과정 반복

#### 핵심 수행 절차 : 두 군집 사이의 유사성/거리 측정

- Min(단일연결), max(완전연결), group average(평균연결), between centroid, Ward's, ...

<img src = './my_icons/dist.PNG'>

`-` **Ward's method** : Distance between two clusters, A and B, how much the sum of squares will increase when they are merged.

### K-평균 군집화 (K-Means Clustering)
>대표적인 분리형 군집화 알고리즘


- 각 군집은 하나의 **중심(centroid)**을 가짐
- 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 형성
- 사전에 군집의 수 K가 정해져야 알고리즘을 실행할 수 있음

$$X = C_1 \cup C_2 \dots \cup C_k, \quad  C_i \cap C_j=\emptyset, \quad i \neq j$$

$$\underset{C}{\operatorname{\arg min}} \sum_{i=1}^K \sum_{x_j \in C_i} ||x_j-c_j||^2$$