# Ch11-2 계층적 군집화

개별 샘플을 군집으로 간주하여 거리가 가장 가까운 두 군집을 순차적으로 묶는 방식으로 큰 군집을 생성. 군집이 만들어지는 과정에서, 가장 적합한 결과를 고르면 된다. 순차적으로 묶는 방식으로 군집을 만들어가는 것을 계층적 군집화라고 한다.  

## 군집 간 거리 : 
### 최단 연결법

이전 시간에 배웠던 것은 엄밀히 말하면 ‘샘플 간’ 거리를 재는 것이었고 이것은 군집간.  
결국 샘플 간 거리를 확장한 것과 같다.  

- 유독 가깝게 있는 값이 있다면 그것으로 선정될 수 있기 때문에 이상치에 민감하다.  
- 또한 계산량이 많은 이유는, 샘플이 n개와 m개가 있다면 실제로는 $n\times m$번의 거리를 계산하고 가장 짧은 것을 고르는 방식이기 때문이다.  

### 최장 연결법
- 군집 내 가장 멀리 있는 것끼리 연결하는 방법이다.  

### 평균 연결법
- 각 데이터포인트 끼리의 거리를 구하고 전체 거리의 평균을 구한다.  
- 상대적으로 이상치에는 둔감하지만 계산량은 많은 편이다.  

### 🧪평균 연결법
- 각 군집 내 평균을 구하고, 해당 평균을 중심으로 여겨 중심 간 거리를 계산하는 방식이다.  
- 이상치에 둔감하고 계산량이 적은 편이라서 굉장히 많이 쓰이는 방법이다.  

### 🧪와드 연결법
- 사이킷런에 있는 계층 군집화 함수의 default 값으로 쓰일 만큼 자주 사용되는 방식이다.  
- 계산량이 매우 많다는 단점이 있다.  
- 장점으로는 군집화가 되었을 때의 효과까지 측정할 수 있다는 것이다.  
- $r_{1,2}$ 는 $r_1$과 $r_2$가 함께 묶였을 때 중심이되는 위치이다.
- 수식: $\Sigma$ 군집별(군집 내 중심에서부터 각 샘플들로의 거리의 합) - (새 중심이 되는 r로부터의 새 군집 내 각 샘플들로의 거리의 합)
- 군집 크기를 비슷하게 만드는 효과가 있어서 자주 사용된다.
    - 군집의 크기가 작은 군집일수록 다른 군집과의 거리가 짧게 나오는 경향이 있다. 그래서 일반적으로 다른 방법으로는 군집이 비정상적으로 크게 묶이는 경우가 생기는데, 군집이라는 개념 특성상 비슷한 크기로 묶이는 것이 해석하기 좋다.

## 🧪덴드로그램
- 군집이 묶이는 과정이 그려지는 그림이다.  
- 맨 아래는 샘플(이자 군집)이 나오고, 가장 가까운 것끼리 묶인다. 그리고 왼쪽의 거리별로 어디까지 묶이는 지를 볼 수 있다. 끝까지 가면 모든 아이들이 하나로 묶인다.

- 장점1: 계층 군집화 알고리즘을 사용해서 군집이 만들어지는 과정을 한눈에 볼 수 있다.  
- 장점2: 사용자가 설정하는 기준선에 따라 군집 개수를 정할 수 있다. 기준선 C1, C2에 각각 만나는 샘플들은 같이 군집으로 묶인다.  
- 단점: 샘플 수가 많은 경우에는 해석이 불가능할 정도로 복잡해진다.      
    - 사실 군집화를 하는 경우는 샘플수가 100개 이상인 경우가 흔한데, 샘플 수가 많으면 해석이 불가능할 정도가 되어버린다. 그림은 7000개 정도 되던 고객데이터이다.  
    - 그래서 실제로 덴드로그램을 그려서 군집수를 결정하는 경우는 극히 드물다.
    

## 계층 군집화의 장단점

- 장점 1: 그러나 그마저도 쉽지 않다.
- 장점 2: 샘플들 간의 거리, 즉 위치는 몰라도 거리만 알면 군집화를 할 수 있다.
    - 예를 들면 시퀀스 데이터처럼 거리행렬만 주어지거나 데이터나 수치로 표현하기 어려운 데이터의 경우가 있다. 특징들로 표현하기 어려운 경우 군집화를 해야할 때.
- 장점 3: k-means 군집화의 경우 유클리디안 거리만 사용할 수 있다. 하지만 여기는 다양한 거리척도를 사용할 수 있다.
- 장점 4: 같은 데이터면 같은 output이 나온다. k-means는 수행할 때마다 다를 수 있다.
- 단점 1: 계산량이 상대적으로 많아서 오래 걸린다.
- 단점 2: 사용자가 직접 군집 개수를 정하기 쉽지 않다. 특히 샘플수가 많으면 더욱 힘들어진다. 또 거리가 같으면 해당 작업을 건너 뛰거나 임의로 결정될 경우도 있을 것이다. 그래서 군집개수 설정에 제약이 있다.

# 실습 : `sklearn.cluster.AgglomerativeClustering`


### 주요 입력

- `n_clusters` : 군집 개수  
- `affinity` : 거리 측정 척도 `{”Euclidean”, “manhattan”, “cosine”, “precomputed”}`
    - linkage가 `ward`로 입력되면(와드 연결법) 유클리디안만 사용가능 (와드 연결법은 각 샘플들의 중심점이 필요. 그러나 중심점 자체가 유클리드 기하에서 정의되는 개념이기 때문에 한정됨. 참고로 중심 연결법은 사이킷런에서 정의되지 않는다.)  
    - `precomputed`: 거리 혹은 유사도 행렬을 입력으로 하는 경우에 설정하는 값(데이터 값 자체가 아닌 거리를 계산한 후 넣는 데이터. 많이 씀.)  
- `linkage` : 군집 간 거리 연결법 `{”ward”, “complete”, “average”, “single”}`
    - complete : 최장 연결법  
    - average : 평균 연결법  
    - single : 최단 연결법  

### class의 메서드
- `fit(X)` : 데이터 X에 대한 군집화 모델 학습  
- `fit_predict(X)`: 데이터 X에 대한 군집화 모델 학습 및 라벨 반환 (속하는 군집 라벨)

### class 속성

- `labels_` : fitting한 데이터에 있는 샘플들이 속한 군집 정보 (ndarray형태로 반환)  