# 비지도학습(Unsupervised) 알고리즘: 군집분석

![Advanced_Algorithms_Unsupervised](./img/Advanced_Algorithms_Unsupervised.png)

#### 0) 실제 데이터분석 접근 방법: 편향과 분산 모두 최소화하기 위해 반복적으로 업데이트

<img src='./img/Bias_Variance4.png' width=400>

**"Train 데이터의 Bias가 적절(낮게)한지 확인 후, Test 데이터에 적용하여 Variance가 적절(낮게)하도록 반복적 업데이트"**

- Train의 Bias가 높다면,  빅데이터(Row & Column) 또는 알고리즘 복잡하게 또는 최적화를 통해 해결

- Test의 Variance가 높다면, 빅데이터(Row) & 스몰데이터(Column) 또는 알고리즘 덜 복잡하게 또는 최적화를 통해 해결

<img src='./img/Bias_Variance_Reduce.png' width=500>

- 딥러닝(인공지능 알고리즘): 딥러닝은 엄청나게 복잡한 모델이며 Bias-variance Trade-off를 피할 수 없음

- 스몰데이터의 딥러닝은 과대적합되어 High Variance가 우려되기에, 딥러닝으로 성능을 내기 위해선 빅데이터가 반드시 필요!

- 빅데이터를 통해 Train과 Test의 패턴 차이 감소되어 Bias & Variance를 모두 감소시키기 유리

| Clustering Algorithms | Association Rule Learning Algorithms | Dimensionality Reduction Algorithms | Ensemble Algorithms | Deep Learning Algorithms |
|------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|
| <img src='./img/Clustering-Algorithms.png' width='150'> | <img src='./img/Assoication-Rule-Learning-Algorithms.png' width='150'> | <img src='./img/Dimensional-Reduction-Algorithms.png' width='150'> | <img src='./img/Ensemble-Algorithms.png' width='150'> | <img src='./img/Deep-Learning-Algorithms.png' width='150'> |
| k-Means | Apriori algorithm | Principal Component Analysis (PCA) | Boosting | Deep Boltzmann Machine (DBM) |
| k-Medians | Eclat algorithm | Principal Component Regression (PCR) | Bootstrapped Aggregation (Bagging) | Deep Belief Networks (DBN) |
| Expectation Maximisation (EM) | - | Partial Least Squares Regression (PLSR) | AdaBoost | Convolutional Neural Network (CNN) |
| Hierarchical Clustering | - | Sammon Mapping | Stacked Generalization (blending) | Stacked Auto-Encoders |
| - | - | Multidimensional Scaling (MDS) | Gradient Boosting Machines (GBM) | - |
| - | - | Projection Pursuit | Gradient Boosted Regression Trees (GBRT) | - |
| - | - | Linear Discriminant Analysis (LDA) | Random Forest | - |
| - | - | Mixture Discriminant Analysis (MDA) | - | - |
| - | - | Quadratic Discriminant Analysis (QDA) | - | - |
| - | - | Flexible Discriminant Analysis (FDA) | - | - |

**"비지도학습(Unsupervised Learning)은 정답 레이블이 없기 때문에, 주로 데이터를 새롭게 표현하여 원래 데이터보다 쉽게 해석하거나 특성들을 추가적으로 파악하는데 주로 사용"**

- 집분석: 비지도학습 알고리즘 중 군집화를 위해 사용되는 가장 기본(Baseline) 알고리즘

    **(비수학적) "일상 속 문제들은 어떤 유형들이 있는지 파악하는 문제"**

    - 고객들의 정보를 통해 성인인지 미성년자인지 정답을 찾는 문제가 분류문제

    - 고객들의 정보를 통해 어떤 쇼핑 취향들이 있는지 성인 또는 미성년자 레이블을 할당하며 추론하는 문제가 군집문제

        - 데이터가 2차원일 경우 시각화를 통해 눈으로도 패턴, 군집, 관계를 어림짐작 가능

        - 데이터가 3차원 이상일 경우 시각화로 패턴, 군집, 관계 파악 어려움

    **(수학적) "특정 출력(종속변수)/입력(독립변수)의 구분이나 관계 추론도 없고 학습을 위한 목표값도 없이, 주어진 데이터를 유사한 그룹으로 군집화(Clustering) 하는 알고리즘"**

    - **분류문제**: 데이터 변수(Feature, Variable)들을 사용하여 특정 분류값을 예측

    - **군집문제**: 데이터 변수(Feature, Variable)들을 사용하여 여러개의 레이블을 할당하면서 특정 군집값(Cluster)을 예측

- **Target Algorithm**

    **(1) Partitional Clustering vs Hierarchical Clustering**

    - **Partitional**: 전체 데이터를 Hard Clustering 기준으로 한번에 군집형성하는 방식

    - **Hierarchical**: 각각의 데이터에서 유사성 척도(Similarity Measure)에 의해 가까운 데이터들을 Tree 형태의 계층적 군집으로 차근차근 묶어나가는 방식이며 Tree에서 어느 수준을 기준으로 하느냐에 따라 군집이 달라짐

    <img src='./img/Partitional_Hierarchical.png' width=500>

    **(2) Hierarchical Clustering**

    - **Agglomerative(Bottom-up)**: 개별 데이터에서 유사한 데이터끼리 묶어가는 방식

    - **Divisive(Top-down)**: 모든 데이터를 하나의 군집이라 가정 후 세부 군집으로 분리하는 방식

    <img src='./img/AggloDivHierarClustering.png' width=500>


| **군집특성 분류** 	| **접근방법** 	| **측정기준** 	| **알고리즘** 	|
|:---:	|:---:	|:---:	|:---:	|
| **Hard Clustering** 	| **Partitional Clustering** 	| **Distance-based** 	| `K-Means` 	|
|  	|  	|  	| `K-Median` 	|
|  	|  	|  	| `K-Mode` 	|
|  	|  	|  	| `K-Medoid` 	|
|  	|  	|  	| Fuzzy Clustering 	|
|  	|  	|  	| PAM(Partitioning Around Medoids) 	|
|  	|  	|  	| CLARA(Clustering LARge Applications) 	|
|  	|  	|  	| CLARANS(Clustering Large Applications based on RANdomized Search) 	|
| **Soft Clustering** 	| **`Hierarchical Clustering`** 	| **Agglomerative<br>     (Bottom-up)** 	| Single Linkage(Graph-based) 	|
|  	|  	|  	| Complete Linkage(Graph-based) 	|
|  	|  	|  	| Average Linkage(Graph-based) 	|
|  	|  	|  	| Centroid Linkage(Distance-based) 	|
|  	|  	|  	| Ward Linkage(Distance-based) 	|
|  	|  	|  	| AGNES(AGglomerative NESting) 	|
|  	|  	| **Divisive<br>     (Top-down)** 	| DIANA(DIvisive ANAlysis) 	|
|  	|  	|  	| BIRCH(Balanced Iterative Reducint and Clustering Using Hierarchies) 	|
|  	|  	|  	| CURE(Clustering Using Representatives) 	|
|  	|  	|  	| Chameleon 	|
|  	| **`Density-based Clustering`** 	|  	| DBSCAN(Density Based   Spatial Clustering of Applications with Noise) 	|
|  	|  	|  	| OPTICS(Ordering Points To   Identify the Clustering Structure) 	|
|  	|  	|  	| DENCLUE(DENsity-based   CLUstEring) 	|
|  	|  	|  	| Density-peaks 	|
|  	|  	|  	| Robust-DB(Density Based) 	|
|  	| **Grid-based Clustering** 	|  	| STING(Statistical   Information Grid) 	|
|  	|  	|  	| WaveCluster 	|
|  	|  	|  	| CLIQUE(CLustering In QUEst) 	|
|  	| **Model-based Clustering** 	| **Distribution-based** 	| Gaussian Mixture Algorithm 	|
|  	|  	|  	| Expectation Maximization   Algorithm 	|
|  	|  	|  	| AutoClass(Mixture of Naïve   Bayes) 	|
|  	|  	|  	| Cobweb 	|
|  	|  	| **Network-based** 	| Kohonen Clustering 	|
|  	|  	|  	| SOM(Self-Organizing Map) 	|

## 계층적 군집화(Hierarchical Clustering, HC)

#### 1) **방향** : 유사도가 높은 또는 거리가 가까운 데이터 그룹을 계층적으로 묶으면서 군집 갯수 줄이는 방법

- **(1) 소형견 vs 소 vs 중형견** : (푸들, 요크셔테리어), (물소, 젖소, 황소), (셰퍼드, 골든리트리버)

- **(2) 개 vs 소** : (푸들, 요크셔테리어, 셰퍼드, 골든리트리버), (물소, 젖소, 황소)

- **(3) 동물** : (푸들, 요크셔테리어, 셰퍼드, 골든리트리버, 물소, 젖소, 황소)

<img src='./img/Hierarchical_ExamplePlot.png' width=600>

- **결과 표현 방식** : Nested Clusters vs Dendrogram

    - 데이터가 2차원인 경우 Nested Clusters를, 일반적으로는 Dendrogram 사용

<img src='./img/Hierarchical_ResultExample.png' width=500>

- **추정 과정**

    - 데이터들의 유사성(Distance, Dissimilarity)을 추정 후 결합과정(Agglomeration)을 거쳐 Dendrogram 출력

    - 처음에 모든 군집은 하나의 데이터를 가지기에 데이터 갯수만큼 군집 존재

    - 최종적으론 군집이 합처져 군집화되면서 하나의 군집만 존재

    <img src='./img/Hierarchical_Process.png' width=500>

#### 2) 알고리즘 함수세팅: 유사성 추정 방식과 결합 과정에 따라 여러가지 방식 존재

**(1) 유사성 추정 방식(Distance Matrix)**: 두 데이터 간의 차이를 어떻게 표현할 것인가 

- 데이터 특성에 따라

| **대분류** 	| **소분류** 	| **의미/예시** 	|
|:---:	|:---:	|:---:	|
| **질적변수(Qualitative Variable)** 	| **-** 	| 내부 값이 특정 범주(Category)로 분류된 변수(색상,성별,종교) 	|
|  	| **명목형 변수(Nominal Variable)** 	| 값이 순위가 존재하지 않는 경우(혈액형) 	|
|  	| **순위형 변수(Ordinal Variable)** 	| 값이 순위가 존재하는 경우(성적) 	|
| **양적변수(Quantitative Variable)** 	| **-** 	| 내부 값이 다양한 숫자 분포로 구성된 변수(키,몸무게,소득) 	|
|  	| **이산형 변수(Discrete Variable)** 	| 값이 셀수 있는 경우(정수) 	|
|  	| **연속형 변수(Continuous Variable)** 	| 값이 셀수 없는 경우(실수) 	|

- 변수 종류에 따른 측정 방식

| **변수 종류** 	| **측정** 	| **설명** 	|
|:---:	|:---:	|:---	|
| **Continuous Variable** 	| **Manhattan Distance(Minkowski at Rank=1)** 	| 최단 루트 측정(변수들의 단위가 다르거나 상관성이 있으면 크게 변함) 	|
|  	| **Euclidean Distance(Minkowski at Rank=2)** 	| 최단 거리 측정(변수들의 단위가 다르거나 상관성이 있으면 크게 변함) 	|
|  	| **Standardized Distance** 	| 변수의 분산을 고려하여 표준화 측정 	|
|  	| **Mahalanobis Distance** 	| 변수의 표준화 및 변수들의 상관관계 측정 	|
|  	| **Weighted Euclidean Distance** 	| Euclidean & Standardized의 일반화 측정 	|
| **Continuous/Discrete Variable** 	| **Pearson's Correlation Coefficient** 	| 상관관계 측정 	|
| **Discrete(Binary)/Nominal Variable** 	| **Simple Matching Coefficient** 	| 수식 참고 	|
|  	| **Jaccard's Coefficient** 	| 수식 참고 	|
|  	| **Russell and Rao Coefficient** 	| 수식 참고 	|
| **Nominal Variable** 	| **Cosine Distance** 	| 문자 벡터들의 각도 측정 	|
|  	| **Levenshtein Metric** 	| 문자 벡터들에서 다른 단어로 변경시 필요한 편집수 측정 	|
|  	| **Tanimoto Coefficient(Expanded Jaccard's Coefficient)** 	| 문자 벡터 적용 Jaccard's Coefficient 	|
| **Ordinal Variable** 	| **Rank Correlation Coefficient** 	| 순위기반 상관관계 측정 	|
| **Continuous/Discrete/Nominal/Ordinal** 	| **Hamming Distance** 	| 같은 길이의 데이터에 같은 위치에 있는 값들의 비교 측정 	|

- 실제 데이터 값들마다 유사성을 추정하여 행렬(Matrix)로 표현

- 특정 값의 쌍에서 추정된 유사성 거리는 행렬에서 2군데에 대칭적으로 표현

- 값 자체의 유사성은 계산하지 않고 0으로 표현

<img src='./img/Hierarchical_DistanceMatrix.png'>

**(2) 결합 방식(Agglomeration)**: 두 데이터 간의 차이를 어떻게 표현할 것인가

- Agglomerative는 각 데이터로부터 군집을 만들며 키워가는 방식

- Divisive는 반대로 군집을 점차 나누면서 세부 군집으로 줄여가는 방식

<img src='./img/AggloDivHierarClustering.png' width=500>
<br/>

| **군집특성 분류** 	| **접근방법** 	| **측정기준** 	| **알고리즘** 	|
|:---:	|:---:	|:---:	|:---:	|
| **Soft Clustering** 	| **`Hierarchical Clustering`** 	| **Agglomerative<br>     (Bottom-up)** 	| Single Linkage(Graph-based) 	|
|  	|  	|  	| Complete Linkage(Graph-based) 	|
|  	|  	|  	| Average Linkage(Graph-based) 	|
|  	|  	|  	| Centroid Linkage(Distance-based) 	|
|  	|  	|  	| Ward Linkage(Distance-based) 	|
|  	|  	|  	| AGNES(AGglomerative NESting) 	|
|  	|  	| **Divisive<br>     (Top-down)** 	| DIANA(DIvisive ANAlysis) 	|
|  	|  	|  	| BIRCH(Balanced Iterative Reducint and Clustering Using Hierarchies) 	|
|  	|  	|  	| CURE(Clustering Using Representatives) 	|
|  	|  	|  	| Chameleon 	|

<img src='./img/Hierarchical_DirectionType.png' width=500>

#### 3) 비용함수: 군집과 군집간의 거리를 계산하며 Linkage라고 함

| **Linkage 방향** 	| **Linkage 종류** 	| **설명** 	| **특징** 	|
|:---:	|:---:	|:---	|:---	|
| **비계층적 방법** 	| - 	| 모든 군집화 알고리즘에 사용가능 <br>계산량 많은   단점 	|  	|
|  	| `Centroid` 	| 서로 다른 군집의 `모든 데이터의 평균 간 거리` 	| 일부 Noise / Outlier에 덜 민감하나 <br>다소 성능이 떨어짐 	|
|  	| `Single` 	| 서로 다른 군집의 `모든 데이터 간 거리 중 최소값` 	| 일부 Noise / Outlier에 민감하게 반응 	|
|  	| `Complete` 	| 서로 다른 군집의 `모든 데이터 간 거리 중 최대값` 	| 일부 Noise / Outlier에 민감하게 반응하며 <br>큰 클러스터 생성에 약함  	|
|  	| `Average` 	| 서로 다른 군집의 `모든 데이터 간 거리의 평균` 	| 일부 Noise / Outlier에 덜 민감하나 <br>편향성 존재 	|
| **계층적 방법** 	| - 	| 계층적 군집화 알고리즘에만 사용가능 <br>계산량 적어 효율적 	|  	|
|  	| `Median` 	| Centroid의 변형으로 모든 데이터 아닌 <br>`기존 군집 중심점 평균` 사용 	|  	|
|  	| `Weighted` 	| Centroid의 변형으로 모든 군집들 내부와 <br>`외부 데이터와의 거리 평균` 사용 	|  	|
|  	| `Ward` 	| Weighted의 변형으로 군집화 증가시 <br>`내부 분산을 가장 작게 증가시키는 군집` 	| 일반적으로 많이 사용하나 <br>편향성 존재 	|

<br/>

<img src='./img/Hierarchical_Linkage.jpg' width=600>


#### 4) 추정과정 예시: Agglomerative Hierarchical Clustering

**(0) 데이터 기반 Distance Matrix**

- 5개의 변수와 각 데이터간 거리는 왼쪽과 같음

<img src='./img/Hierarchical_Estimation1.png' width=600>

**(1) 군집화**

- Single Linkage기준 A & B, D & E 거리가 가장 짧으니 군집화

- Dendrogram의 높이는 군집간 거리

<img src='./img/Hierarchical_Estimation2.png' width=600>

**(2) Distance Matrix 업데이트**

- 군집화 된 변수와 그렇지 않은 변수들과의 거리 기반 Distance Matrix 업데이트

<img src='./img/Hierarchical_Estimation3.png' width=600>

**(3) 군집화**

- Single Linkage기준 AB & C 거리가 가장 짧으니 군집화

<img src='./img/Hierarchical_Estimation4.png' width=600>

**(4) Distance Matrix 업데이트 및 반복**

<img src='./img/Hierarchical_Estimation5.png' width=600>

**(5) 최종 군집 완성**

- 모든 데이터가 하나의 군집으로 합쳐짐

<img src='./img/Hierarchical_Estimation6.png' width=400>

#### 5) 이슈 및 방향: 비용함수에 따라 군집화 결과 다름

<img src='./img/Hierarchical_Issue1.png' width=500>
<br/>
<img src='./img/Hierarchical_Issue2.png' width=500>

- Hierarchical Clustering에서는 K-means와 달리 군집의 갯수를 사전에 설정하지 않음

- 최종 Dendrogram에 가상의 선을 그어 군집의 갯수 결정

<img src='./img/Hierarchical_ClusterNumber.png' width=400>

- 각 군집의 갯수에 따른 Metric을 통해 최종 갯수 결정

    - Dunn Index
    
    - Silhouette Index
    
    - ARI(Adjusted Rand Index)
    
    - NMI(Normalized Mutual Information)
    
    - AMI(Adjusted Mutual Information)

**(1) Dunn 지표(Dunn Index)**: 군집 내 데이터 간 거리 최대값 대비 군집간 거리 최소값의 비율
$$
DI(C)=\cfrac { \min _{ i\neq j }{ \{ { d }_{ c }({ C }_{ i },{ C }_{ j })\}  }  }{ \max _{ 1\le l\le k }{ \{ \triangle { C }_{ l }\}  }  }
$$

<img src='./img/Clustering_DunnIndex.png' width=600>

**(2) 실루엣 지표(Silhouette Index):** 군집 내 데이터 간 거리 평균과 가장 가까운 군집 내 데이터 간 거리 평균의 차이

$$
S(i)=\frac { b(i)-a(i) }{ \max { \{ a(i),b(i)\}  }  }
$$

**군집 내 응집도(Cohesion)**

- $a(i)$ : $i$번째 군집 내 속한 데이터들과의 거리 평균

**군집 간 분리도(Separation)**

- $b(i)$ : $i$번째 군집과 가장 가까운 군집에 속한 데이터들과의 거리 평균

<img src='./img/Clustering_Silhouette.png' width=600>

- 보통 실루엣 지표가 0.5보다 크면 군집 결과가 타당한 것으로 평가

<img src='./img/Clustering_Silhouette_BestWorst.png' width=600>

- 오히려 평가보다 군집 갯수를 결정하는데 많이 사용

- 밀집된 클러스터에선 성능이 좋으나 모양이 복잡할 때는 평가 성능 좋지 않음

**(3) Others**: 클러스터 레이블 정답을 아는 경우 군집성능 평가

- **ARI(Adjusted Rand Index)**: 얼마나 많은 클러스터들이 정답과 유사한지 측정

    ```python
    from sklearn.metric import adjusted_rand_score
    ```

- **NMI(Normalized Mutual Information)**: 상관관계 한계를 대체하기 위해 실제와 예측 클러스터 생성을 위한 정보량 분포의 유사성/의존도 측정

    ```python
    from sklearn.metrics import normalized_mutual_info_score
    ```

- **AMI(Adjusted Mutual Information)**: 정보량과 상관없이 클러스터 수가 많을 때 NMI가 높아지는 한계를 보완

    ```python
    from sklearn.metrics import adjusted_mutual_info_score
    ```

**(4) 현실 지표**

- 데이터에 잡음/변화를 주었을 때의 결과 변동성 고려

- 알고리즘 매개변수에 변화를 주었을 때의 결과 변동성 고려

- 여러가지 변화에도 결과가 일정하면(Robust) 신뢰할만한 모델링

#### 4) 사용방법

```python
from matplotlib import pyplot as plt 
from scipy.cluster.hierarchy 
import dendrogram, linkage from sklearn.cluster 
import AgglomerativeClustering
```

<br/>

```python
# Linkage 계산 및 Dendrogram 시각화
X_tr_link = linkage(X_train, method='ward') 
dendrogram(X_tr_link, orientation='top', distance_sort='ascending', show_leaf_counts=True) 
plt.show()
```

**Cluster 추정**

```python
model_aggclust = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward') 
Y_trpred = model_aggclust.fit_predict(X_train) 
Y_tepred = model_aggclust.fit_predict(X_test)

```



## 밀도기반 군집화(Density-Based Clustering, DBC)

#### 1) 방향