# 비지도학습(Unsupervised) 알고리즘: 군집분석

![Advanced_Algorithms_Unsupervised](./img/Advanced_Algorithms_Unsupervised.png)

#### 0) 실제 데이터분석 접근 방법: 편향과 분산 모두 최소화하기 위해 반복적으로 업데이트

<img src='./img/Bias_Variance4.png' width=400>

**"Train 데이터의 Bias가 적절(낮게)한지 확인 후, Test 데이터에 적용하여 Variance가 적절(낮게)하도록 반복적 업데이트"**

- Train의 Bias가 높다면,  빅데이터(Row & Column) 또는 알고리즘 복잡하게 또는 최적화를 통해 해결

- Test의 Variance가 높다면, 빅데이터(Row) & 스몰데이터(Column) 또는 알고리즘 덜 복잡하게 또는 최적화를 통해 해결

<img src='./img/Bias_Variance_Reduce.png' width=500>

- 딥러닝(인공지능 알고리즘): 딥러닝은 엄청나게 복잡한 모델이며 Bias-variance Trade-off를 피할 수 없음

- 스몰데이터의 딥러닝은 과대적합되어 High Variance가 우려되기에, 딥러닝으로 성능을 내기 위해선 빅데이터가 반드시 필요!

- 빅데이터를 통해 Train과 Test의 패턴 차이 감소되어 Bias & Variance를 모두 감소시키기 유리

| Clustering Algorithms | Association Rule Learning Algorithms | Dimensionality Reduction Algorithms | Ensemble Algorithms | Deep Learning Algorithms |
|------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|
| <img src='./img/Clustering-Algorithms.png' width='150'> | <img src='./img/Assoication-Rule-Learning-Algorithms.png' width='150'> | <img src='./img/Dimensional-Reduction-Algorithms.png' width='150'> | <img src='./img/Ensemble-Algorithms.png' width='150'> | <img src='./img/Deep-Learning-Algorithms.png' width='150'> |
| k-Means | Apriori algorithm | Principal Component Analysis (PCA) | Boosting | Deep Boltzmann Machine (DBM) |
| k-Medians | Eclat algorithm | Principal Component Regression (PCR) | Bootstrapped Aggregation (Bagging) | Deep Belief Networks (DBN) |
| Expectation Maximisation (EM) | - | Partial Least Squares Regression (PLSR) | AdaBoost | Convolutional Neural Network (CNN) |
| Hierarchical Clustering | - | Sammon Mapping | Stacked Generalization (blending) | Stacked Auto-Encoders |
| - | - | Multidimensional Scaling (MDS) | Gradient Boosting Machines (GBM) | - |
| - | - | Projection Pursuit | Gradient Boosted Regression Trees (GBRT) | - |
| - | - | Linear Discriminant Analysis (LDA) | Random Forest | - |
| - | - | Mixture Discriminant Analysis (MDA) | - | - |
| - | - | Quadratic Discriminant Analysis (QDA) | - | - |
| - | - | Flexible Discriminant Analysis (FDA) | - | - |

**"비지도학습(Unsupervised Learning)은 정답 레이블이 없기 때문에, 주로 데이터를 새롭게 표현하여 원래 데이터보다 쉽게 해석하거나 특성들을 추가적으로 파악하는데 주로 사용"**

- 집분석: 비지도학습 알고리즘 중 군집화를 위해 사용되는 가장 기본(Baseline) 알고리즘

    **(비수학적) "일상 속 문제들은 어떤 유형들이 있는지 파악하는 문제"**

    - 고객들의 정보를 통해 성인인지 미성년자인지 정답을 찾는 문제가 분류문제

    - 고객들의 정보를 통해 어떤 쇼핑 취향들이 있는지 성인 또는 미성년자 레이블을 할당하며 추론하는 문제가 군집문제

        - 데이터가 2차원일 경우 시각화를 통해 눈으로도 패턴, 군집, 관계를 어림짐작 가능

        - 데이터가 3차원 이상일 경우 시각화로 패턴, 군집, 관계 파악 어려움

    **(수학적) "특정 출력(종속변수)/입력(독립변수)의 구분이나 관계 추론도 없고 학습을 위한 목표값도 없이, 주어진 데이터를 유사한 그룹으로 군집화(Clustering) 하는 알고리즘"**

    - **분류문제**: 데이터 변수(Feature, Variable)들을 사용하여 특정 분류값을 예측

    - **군집문제**: 데이터 변수(Feature, Variable)들을 사용하여 여러개의 레이블을 할당하면서 특정 군집값(Cluster)을 예측

- **Target Algorithm**

    **(1) Partitional Clustering vs Hierarchical Clustering**

    - **Partitional**: 전체 데이터를 Hard Clustering 기준으로 한번에 군집형성하는 방식

    - **Hierarchical**: 각각의 데이터에서 유사성 척도(Similarity Measure)에 의해 가까운 데이터들을 Tree 형태의 계층적 군집으로 차근차근 묶어나가는 방식이며 Tree에서 어느 수준을 기준으로 하느냐에 따라 군집이 달라짐

    <img src='./img/Partitional_Hierarchical.png' width=500>

    **(2) Hierarchical Clustering**

    - **Agglomerative(Bottom-up)**: 개별 데이터에서 유사한 데이터끼리 묶어가는 방식

    - **Divisive(Top-down)**: 모든 데이터를 하나의 군집이라 가정 후 세부 군집으로 분리하는 방식

    <img src='./img/AggloDivHierarClustering.png' width=500>


| **군집특성 분류** 	| **접근방법** 	| **측정기준** 	| **알고리즘** 	|
|:---:	|:---:	|:---:	|:---:	|
| **Hard Clustering** 	| **Partitional Clustering** 	| **Distance-based** 	| `K-Means` 	|
|  	|  	|  	| `K-Median` 	|
|  	|  	|  	| `K-Mode` 	|
|  	|  	|  	| `K-Medoid` 	|
|  	|  	|  	| Fuzzy Clustering 	|
|  	|  	|  	| PAM(Partitioning Around Medoids) 	|
|  	|  	|  	| CLARA(Clustering LARge Applications) 	|
|  	|  	|  	| CLARANS(Clustering Large Applications based on RANdomized Search) 	|
| **Soft Clustering** 	| **`Hierarchical Clustering`** 	| **Agglomerative<br>     (Bottom-up)** 	| Single Linkage(Graph-based) 	|
|  	|  	|  	| Complete Linkage(Graph-based) 	|
|  	|  	|  	| Average Linkage(Graph-based) 	|
|  	|  	|  	| Centroid Linkage(Distance-based) 	|
|  	|  	|  	| Ward Linkage(Distance-based) 	|
|  	|  	|  	| AGNES(AGglomerative NESting) 	|
|  	|  	| **Divisive<br>     (Top-down)** 	| DIANA(DIvisive ANAlysis) 	|
|  	|  	|  	| BIRCH(Balanced Iterative Reducint and Clustering Using Hierarchies) 	|
|  	|  	|  	| CURE(Clustering Using Representatives) 	|
|  	|  	|  	| Chameleon 	|
|  	| **`Density-based Clustering`** 	|  	| DBSCAN(Density Based   Spatial Clustering of Applications with Noise) 	|
|  	|  	|  	| OPTICS(Ordering Points To   Identify the Clustering Structure) 	|
|  	|  	|  	| DENCLUE(DENsity-based   CLUstEring) 	|
|  	|  	|  	| Density-peaks 	|
|  	|  	|  	| Robust-DB(Density Based) 	|
|  	| **Grid-based Clustering** 	|  	| STING(Statistical   Information Grid) 	|
|  	|  	|  	| WaveCluster 	|
|  	|  	|  	| CLIQUE(CLustering In QUEst) 	|
|  	| **Model-based Clustering** 	| **Distribution-based** 	| Gaussian Mixture Algorithm 	|
|  	|  	|  	| Expectation Maximization   Algorithm 	|
|  	|  	|  	| AutoClass(Mixture of Naïve   Bayes) 	|
|  	|  	|  	| Cobweb 	|
|  	|  	| **Network-based** 	| Kohonen Clustering 	|
|  	|  	|  	| SOM(Self-Organizing Map) 	|

## 계층적 군집화(Hierarchical Clustering, HC)

#### 1) **방향** : 유사도가 높은 또는 거리가 가까운 데이터 그룹을 계층적으로 묶으면서 군집 갯수 줄이는 방법

- **(1) 소형견 vs 소 vs 중형견** : (푸들, 요크셔테리어), (물소, 젖소, 황소), (셰퍼드, 골든리트리버)

- **(2) 개 vs 소** : (푸들, 요크셔테리어, 셰퍼드, 골든리트리버), (물소, 젖소, 황소)

- **(3) 동물** : (푸들, 요크셔테리어, 셰퍼드, 골든리트리버, 물소, 젖소, 황소)

<img src='./img/Hierarchical_ExamplePlot.png' width=600>

- **결과 표현 방식** : Nested Clusters vs Dendrogram

    - 데이터가 2차원인 경우 Nested Clusters를, 일반적으로는 Dendrogram 사용

<img src='./img/Hierarchical_ResultExample.png' width=500>

- **추정 과정**

    - 데이터들의 유사성(Distance, Dissimilarity)을 추정 후 결합과정(Agglomeration)을 거쳐 Dendrogram 출력

    - 처음에 모든 군집은 하나의 데이터를 가지기에 데이터 갯수만큼 군집 존재

    - 최종적으론 군집이 합처져 군집화되면서 하나의 군집만 존재

    <img src='./img/Hierarchical_Process.png' width=500>

#### 2) 알고리즘 함수세팅: 유사성 추정 방식과 결합 과정에 따라 여러가지 방식 존재

**(1) 유사성 추정 방식(Distance Matrix)**: 두 데이터 간의 차이를 어떻게 표현할 것인가 

- 데이터 특성에 따라

| **대분류** 	| **소분류** 	| **의미/예시** 	|
|:---:	|:---:	|:---:	|
| **질적변수(Qualitative Variable)** 	| **-** 	| 내부 값이 특정 범주(Category)로 분류된 변수(색상,성별,종교) 	|
|  	| **명목형 변수(Nominal Variable)** 	| 값이 순위가 존재하지 않는 경우(혈액형) 	|
|  	| **순위형 변수(Ordinal Variable)** 	| 값이 순위가 존재하는 경우(성적) 	|
| **양적변수(Quantitative Variable)** 	| **-** 	| 내부 값이 다양한 숫자 분포로 구성된 변수(키,몸무게,소득) 	|
|  	| **이산형 변수(Discrete Variable)** 	| 값이 셀수 있는 경우(정수) 	|
|  	| **연속형 변수(Continuous Variable)** 	| 값이 셀수 없는 경우(실수) 	|

- 변수 종류에 따른 측정 방식

| **변수 종류** 	| **측정** 	| **설명** 	|
|:---:	|:---:	|:---	|
| **Continuous Variable** 	| **Manhattan Distance(Minkowski at Rank=1)** 	| 최단 루트 측정(변수들의 단위가 다르거나 상관성이 있으면 크게 변함) 	|
|  	| **Euclidean Distance(Minkowski at Rank=2)** 	| 최단 거리 측정(변수들의 단위가 다르거나 상관성이 있으면 크게 변함) 	|
|  	| **Standardized Distance** 	| 변수의 분산을 고려하여 표준화 측정 	|
|  	| **Mahalanobis Distance** 	| 변수의 표준화 및 변수들의 상관관계 측정 	|
|  	| **Weighted Euclidean Distance** 	| Euclidean & Standardized의 일반화 측정 	|
| **Continuous/Discrete Variable** 	| **Pearson's Correlation Coefficient** 	| 상관관계 측정 	|
| **Discrete(Binary)/Nominal Variable** 	| **Simple Matching Coefficient** 	| 수식 참고 	|
|  	| **Jaccard's Coefficient** 	| 수식 참고 	|
|  	| **Russell and Rao Coefficient** 	| 수식 참고 	|
| **Nominal Variable** 	| **Cosine Distance** 	| 문자 벡터들의 각도 측정 	|
|  	| **Levenshtein Metric** 	| 문자 벡터들에서 다른 단어로 변경시 필요한 편집수 측정 	|
|  	| **Tanimoto Coefficient(Expanded Jaccard's Coefficient)** 	| 문자 벡터 적용 Jaccard's Coefficient 	|
| **Ordinal Variable** 	| **Rank Correlation Coefficient** 	| 순위기반 상관관계 측정 	|
| **Continuous/Discrete/Nominal/Ordinal** 	| **Hamming Distance** 	| 같은 길이의 데이터에 같은 위치에 있는 값들의 비교 측정 	|

- 실제 데이터 값들마다 유사성을 추정하여 행렬(Matrix)로 표현

- 특정 값의 쌍에서 추정된 유사성 거리는 행렬에서 2군데에 대칭적으로 표현

- 값 자체의 유사성은 계산하지 않고 0으로 표현

<img src='./img/Hierarchical_DistanceMatrix.png'>

**(2) 결합 방식(Agglomeration)**: 두 데이터 간의 차이를 어떻게 표현할 것인가

- Agglomerative는 각 데이터로부터 군집을 만들며 키워가는 방식

- Divisive는 반대로 군집을 점차 나누면서 세부 군집으로 줄여가는 방식

<img src='./img/AggloDivHierarClustering.png' width=500>
<br/>

| **군집특성 분류** 	| **접근방법** 	| **측정기준** 	| **알고리즘** 	|
|:---:	|:---:	|:---:	|:---:	|
| **Soft Clustering** 	| **`Hierarchical Clustering`** 	| **Agglomerative<br>     (Bottom-up)** 	| Single Linkage(Graph-based) 	|
|  	|  	|  	| Complete Linkage(Graph-based) 	|
|  	|  	|  	| Average Linkage(Graph-based) 	|
|  	|  	|  	| Centroid Linkage(Distance-based) 	|
|  	|  	|  	| Ward Linkage(Distance-based) 	|
|  	|  	|  	| AGNES(AGglomerative NESting) 	|
|  	|  	| **Divisive<br>     (Top-down)** 	| DIANA(DIvisive ANAlysis) 	|
|  	|  	|  	| BIRCH(Balanced Iterative Reducint and Clustering Using Hierarchies) 	|
|  	|  	|  	| CURE(Clustering Using Representatives) 	|
|  	|  	|  	| Chameleon 	|

<img src='./img/Hierarchical_DirectionType.png' width=500>

#### 3) 비용함수: 군집과 군집간의 거리를 계산하며 Linkage라고 함

| **Linkage 방향** 	| **Linkage 종류** 	| **설명** 	| **특징** 	|
|:---:	|:---:	|:---	|:---	|
| **비계층적 방법** 	| - 	| 모든 군집화 알고리즘에 사용가능 <br>계산량 많은   단점 	|  	|
|  	| `Centroid` 	| 서로 다른 군집의 `모든 데이터의 평균 간 거리` 	| 일부 Noise / Outlier에 덜 민감하나 <br>다소 성능이 떨어짐 	|
|  	| `Single` 	| 서로 다른 군집의 `모든 데이터 간 거리 중 최소값` 	| 일부 Noise / Outlier에 민감하게 반응 	|
|  	| `Complete` 	| 서로 다른 군집의 `모든 데이터 간 거리 중 최대값` 	| 일부 Noise / Outlier에 민감하게 반응하며 <br>큰 클러스터 생성에 약함  	|
|  	| `Average` 	| 서로 다른 군집의 `모든 데이터 간 거리의 평균` 	| 일부 Noise / Outlier에 덜 민감하나 <br>편향성 존재 	|
| **계층적 방법** 	| - 	| 계층적 군집화 알고리즘에만 사용가능 <br>계산량 적어 효율적 	|  	|
|  	| `Median` 	| Centroid의 변형으로 모든 데이터 아닌 <br>`기존 군집 중심점 평균` 사용 	|  	|
|  	| `Weighted` 	| Centroid의 변형으로 모든 군집들 내부와 <br>`외부 데이터와의 거리 평균` 사용 	|  	|
|  	| `Ward` 	| Weighted의 변형으로 군집화 증가시 <br>`내부 분산을 가장 작게 증가시키는 군집` 	| 일반적으로 많이 사용하나 <br>편향성 존재 	|

<br/>

<img src='./img/Hierarchical_Linkage.jpg' width=600>


#### 4) 추정과정 예시: Agglomerative Hierarchical Clustering

**(0) 데이터 기반 Distance Matrix**

- 5개의 변수와 각 데이터간 거리는 왼쪽과 같음

<img src='./img/Hierarchical_Estimation1.png' width=600>

**(1) 군집화**

- Single Linkage기준 A & B, D & E 거리가 가장 짧으니 군집화

- Dendrogram의 높이는 군집간 거리

<img src='./img/Hierarchical_Estimation2.png' width=600>

**(2) Distance Matrix 업데이트**

- 군집화 된 변수와 그렇지 않은 변수들과의 거리 기반 Distance Matrix 업데이트

<img src='./img/Hierarchical_Estimation3.png' width=600>

**(3) 군집화**

- Single Linkage기준 AB & C 거리가 가장 짧으니 군집화

<img src='./img/Hierarchical_Estimation4.png' width=600>

**(4) Distance Matrix 업데이트 및 반복**

<img src='./img/Hierarchical_Estimation5.png' width=600>

**(5) 최종 군집 완성**

- 모든 데이터가 하나의 군집으로 합쳐짐

<img src='./img/Hierarchical_Estimation6.png' width=400>

#### 5) 이슈 및 방향: 비용함수에 따라 군집화 결과 다름

<img src='./img/Hierarchical_Issue1.png' width=500>
<br/>
<img src='./img/Hierarchical_Issue2.png' width=500>

- Hierarchical Clustering에서는 K-means와 달리 군집의 갯수를 사전에 설정하지 않음

- 최종 Dendrogram에 가상의 선을 그어 군집의 갯수 결정

<img src='./img/Hierarchical_ClusterNumber.png' width=400>

- 각 군집의 갯수에 따른 Metric을 통해 최종 갯수 결정

    - Dunn Index
    
    - Silhouette Index
    
    - ARI(Adjusted Rand Index)
    
    - NMI(Normalized Mutual Information)
    
    - AMI(Adjusted Mutual Information)

**(1) Dunn 지표(Dunn Index)**: 군집 내 데이터 간 거리 최대값 대비 군집간 거리 최소값의 비율
$$
DI(C)=\cfrac { \min _{ i\neq j }{ \{ { d }_{ c }({ C }_{ i },{ C }_{ j })\}  }  }{ \max _{ 1\le l\le k }{ \{ \triangle { C }_{ l }\}  }  }
$$

<img src='./img/Clustering_DunnIndex.png' width=600>

**(2) 실루엣 지표(Silhouette Index):** 군집 내 데이터 간 거리 평균과 가장 가까운 군집 내 데이터 간 거리 평균의 차이

$$
S(i)=\frac { b(i)-a(i) }{ \max { \{ a(i),b(i)\}  }  }
$$

**군집 내 응집도(Cohesion)**

- $a(i)$ : $i$번째 군집 내 속한 데이터들과의 거리 평균

**군집 간 분리도(Separation)**

- $b(i)$ : $i$번째 군집과 가장 가까운 군집에 속한 데이터들과의 거리 평균

<img src='./img/Clustering_Silhouette.png' width=600>

- 보통 실루엣 지표가 0.5보다 크면 군집 결과가 타당한 것으로 평가

<img src='./img/Clustering_Silhouette_BestWorst.png' width=600>

- 오히려 평가보다 군집 갯수를 결정하는데 많이 사용

- 밀집된 클러스터에선 성능이 좋으나 모양이 복잡할 때는 평가 성능 좋지 않음

**(3) Others**: 클러스터 레이블 정답을 아는 경우 군집성능 평가

- **ARI(Adjusted Rand Index)**: 얼마나 많은 클러스터들이 정답과 유사한지 측정

    ```python
    from sklearn.metric import adjusted_rand_score
    ```

- **NMI(Normalized Mutual Information)**: 상관관계 한계를 대체하기 위해 실제와 예측 클러스터 생성을 위한 정보량 분포의 유사성/의존도 측정

    ```python
    from sklearn.metrics import normalized_mutual_info_score
    ```

- **AMI(Adjusted Mutual Information)**: 정보량과 상관없이 클러스터 수가 많을 때 NMI가 높아지는 한계를 보완

    ```python
    from sklearn.metrics import adjusted_mutual_info_score
    ```

**(4) 현실 지표**

- 데이터에 잡음/변화를 주었을 때의 결과 변동성 고려

- 알고리즘 매개변수에 변화를 주었을 때의 결과 변동성 고려

- 여러가지 변화에도 결과가 일정하면(Robust) 신뢰할만한 모델링

#### 4) 사용방법

```python
from matplotlib import pyplot as plt 
from scipy.cluster.hierarchy 
import dendrogram, linkage from sklearn.cluster 
import AgglomerativeClustering
```

<br/>

```python
# Linkage 계산 및 Dendrogram 시각화
X_tr_link = linkage(X_train, method='ward') 
dendrogram(X_tr_link, orientation='top', distance_sort='ascending', show_leaf_counts=True) 
plt.show()
```

**Cluster 추정**

```python
model_aggclust = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward') 
Y_trpred = model_aggclust.fit_predict(X_train) 
Y_tepred = model_aggclust.fit_predict(X_test)

```



## 밀도기반 군집화(Density-Based Clustering, DBC)

#### 1) 방향

| 접근 | 가정 | 특징 | 
|:---: |:--- |:--- | 
| Distance-based | 동일 군집에 속하는 데이터들은 어떠한 중심을 기준으로 분포될 것 | 원형태 군집 | 
| Density-based | 동일 군집에 속하는 데이터들은 서로 근접하게 분포될 것 | 불특정형태 군집 |

**"빅데이터에서 군집화는 3가지 조건을 충족할 수록 좋은 알고리즘"**

- 대용량 데이터라도 파라미터 설정을 위한 최소한의 도메인 지식이 수반되어야 함

- 데이터의 형태가 구형, 타원형, 선형 등 다양한 형태이더라도 군집화 성능에 효과가 있어야

- 스몰데이터 뿐만 아니라 빅데이터에서도 효율적 군집화 가능해야

<img src='./img/Clustering_Comparison.jpg'>

#### 2) 알고리즘 함수세팅: 단순하지만 고성능 및 고효율 밀도 기반 군집화 알고리즘 DBSCAN

<img src='./img/KMeas_DBSCAN.png' width=600>

- K-means 또는 Hierarchical의 경우 거리를 이용하여 군집화를 하는 반면, 밀도가 높은 부분을 군집화 하는 방법

- K-means와 달리 클러스터의 갯수를 미리 지정할 필요 없음

- 밀도에 따라 군집화를 확장하기 때문에 다양한 기하학적 구조의 군집화에도 효과

- K-means 또는 Hierarchical 대비 다소 느리지만 비교적 큰 데이터셋에도 쉽게 적용 가능

- 특정 데이터가 군집에 속하는 경우 해당 클러스터 내 다른 많은 요소들과 가까워야 한다는 아이디어

- 컴퓨팅 알고리즘 기반 제안된 방법론이라 특별한 수식 미존재

- 용어 정리

    - **R(Radius of Neighborhood)**: Radius는 특정 값을 기준으로 반경(밀도)을 지정

    - **M(Min Number of Neighbors)**: 핵심요소 지정을 위해, 핵심 주변의 요소 갯수 지정, 최소 3이상 및 기본적으로 변수의 수 정도

- 데이터 각각을 핵심점, 경계점, 그리고 이상치로 구분

    - **핵심점(Core Point)**: 특정 데이터가 R 반경 이내에 M개의 데이터가 있는 경우 Core Point

    - **군집(Cluster)**: Core Point + 주변 M개의 데이터

    - **경계점(Border Point)**: 군집 내에서 Core Point가 아닌 데이터를 Border Point

    - **이상치(Outlier Point)**: 군집에 속하지 않는 데이터를 Outlier Point

<img src='./img/DBSCAN_Words.png' width=400>

**(1) 각 데이터 별로 핵심점들 탐색**

<img src='./img/DBSCAN_Process1.png' width=300> 
<img src='./img/DBSCAN_Process2.png' width=300>

**(2) 핵심점들 거리가 R보다 작을 경우 같은 클러스터로 군집화**

<img src='./img/DBSCAN_Process3.png' width=300>

**(3) 핵심 안에 속하지 못한 이상치 탐색**

<img src='./img/DBSCAN_Process4.png' width=300>

- 추정과정 및 정리

<img src='./img/DBSCAN_Simulation.gif' with=400>

| 장점 | 단점 | 
|:---: |:---: | 
| DBSCAN은 이상치에 민감하지 않고 Robust함 | 부분적으로 비슷한 밀도를 가진 데이터의 경우 효과 떨어짐 | 
| 이상치를 별도 추정 가능 | 터이터 처리 순서가 매번 달라 결과가 달라짐 | 
| 저밀도 군집에서도 고밀도 군집 분리 유용 | 고차원의 데이터로 갈수록 Radius 지정이 어려움 | 
| 다양한 형태의 군집도 추출 가능 | 데이터가 증가하면 계산 시간이 훨씬 증가 | 
| 군집 수를 미리 지정할 필요 없음 | 적합한 파라미터 설정 어려움 | 
| 비교적 큰 데이터셋에도 쉽게 적용 | |

#### 3) 이슈 및 방향: Radius에 따라 군집화 결과 다름

<img src='./img/DBSCAN_Issue.png' width=600>

- 다양한 밀도를 가지는 데이터에서는 성능이 떨어지며, 고차원에서 적절한 Radius 추정이 어려움

- 적절한 Radius 추정을 위해 KNN의 Distance Graph를 활용하여 변곡점으로 적절한 Raduis 선정

- M Hyperparameter 입력 필요가 없는 Hierarchical DBSCAN(HDBSCAN) 등장

#### 4) 사용방법

```python
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
```

<br>

```python
# 학습 및 예측
model_dbscan = DBSCAN(eps=0.5, min_samples=2)
Y_tepred = model_dbscan.fit_predict(X_test)
```

# 비지도학습(Unsupervised) 알고리즘: 차원변환

<img src='./img/Advanced_Algorithms_Unsupervised.png'>

| Clustering Algorithms | Association Rule Learning Algorithms | Dimensionality Reduction Algorithms | Ensemble Algorithms | Deep Learning Algorithms |
|------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|
| <img src='./img/Clustering-Algorithms.png' width='150'> | <img src='./img/Assoication-Rule-Learning-Algorithms.png' width='150'> | <img src='./img/Dimensional-Reduction-Algorithms.png' width='150'> | <img src='./img/Ensemble-Algorithms.png' width='150'> | <img src='./img/Deep-Learning-Algorithms.png' width='150'> |
| k-Means | Apriori algorithm | Principal Component Analysis (PCA) | Boosting | Deep Boltzmann Machine (DBM) |
| k-Medians | Eclat algorithm | Principal Component Regression (PCR) | Bootstrapped Aggregation (Bagging) | Deep Belief Networks (DBN) |
| Expectation Maximisation (EM) | - | Partial Least Squares Regression (PLSR) | AdaBoost | Convolutional Neural Network (CNN) |
| Hierarchical Clustering | - | Sammon Mapping | Stacked Generalization (blending) | Stacked Auto-Encoders |
| - | - | Multidimensional Scaling (MDS) | Gradient Boosting Machines (GBM) | - |
| - | - | Projection Pursuit | Gradient Boosted Regression Trees (GBRT) | - |
| - | - | Linear Discriminant Analysis (LDA) | Random Forest | - |
| - | - | Mixture Discriminant Analysis (MDA) | - | - |
| - | - | Quadratic Discriminant Analysis (QDA) | - | - |
| - | - | Flexible Discriminant Analysis (FDA) | - | - |

**"비지도학습(Unsupervised Learning)은 정답 레이블이 없기 때문에, 주로 데이터를 새롭게 표현하여 원래 데이터보다 쉽게 해석하거나 특성들을 추가적으로 파악하는데 주로 사용"**

- **차원변환**: 비지도학습 알고리즘 중 다차원 특성파악을 위해 사용되는 가장 기본(Baseline) 알고리즘

    (비수학적) "일상 속 문제의 다양한 풀이법들의 우선순위를 파악하는 문제"

    - 유사한 고객 정보를 가진 사람들의 공통된 쇼핑 취향을 파악하면서 그룹(레이블)으로 추론하는 문제가 군집문제

    - 다양한 고객 정보들에서 신규 쇼핑 취향과 같은 추가적인 특성을 파악하기 위해 고객 정보들을 차원변환하여 문제를 다각도로 살펴보는 것

    (수학적) "특정 출력(종속변수)/입력(독립변수)의 구분이나 관계 추론도 없고 학습을 위한 목표값도 없이, 주어진 데이터의 추가적인 특성확인을 위해 다른 차원으로 변환(Reduction) 하는 알고리즘"

    - 군집문제: 데이터에서 유사한 값들을 가진 군집(Cluster)을 예측하며 레이블을 할당

    - 차원변환: 데이터를 다각도로 살펴보기 위해 다른(차원) 관점으로 추가적인 변수를 예측하며 특성 확인

<img src='./img/Unsupervised_Clustering_Reduction.png'>

**How?**

**(1) 변수 선택(Feature/Variable Selection)**: 특정 변수가 다른 변수들로 생성될 수 있는 경우, 특정 변수의 종속성이 강하다고 하고 간단히 제거를 통해 중요 변수들만 구성하는 차원 축소

- 장점: 남은 변수들을 통해 중요도와 해석이 용이

- 단점: 변수들 간의 종속성/상관성을 명확하게 고려하기 어려움

- Ridge, Lasso, VIF(Variance Inflation Factor) 등


**(2) 변수 추출(Feature/Variable Extraction)**: 변수들 간의 상관관계를 고려하여 새로운 중요 변수를 생성하는 차원축소

- 장점: 변수들 간의 상관성을 고려하기 용이하고 변수들의 갯수를 많이 줄일 수 있음

- 단점: 새롭게 추출된 변수들의 의미나 해석이 어려움

- PCA(Principal Component Analysis), FA(Factor Analysis) 등        

- **종류**: 차원변환문제 해결 알고리즘은 다양하고, 데이터 특성/구조/목적에 맞는 적절한 선택 필요

    - **(Linear) Projection**: 선형기준으로 데이터를 근사하여 직관적으로 차원을 축소

    - **(Non-linear) Manifold Learning**: 직관적으로 파악이 어려운 데이터의 비선형적 관계를 반영하여 차원을 축소

| **접근방법** 	| **알고리즘** 	|
|:---:	|:---	|
| **(Linear) Projection** 	| Eigen Value Decomposition 	|
|  	| Singular Value Decomposition 	|
|  	| Truncated SVD 	|
|  	| Principal Component Analysis 	|
|  	| Factor Analysis 	|
|  	| Linear Discriminant Analysis 	|
|  	| Quadratic Discriminant Analysis 	|
| **(Non-linear) Manifold Learning** 	| Kernel Principal Component Analysis 	|
|  	| Non-Negative Matrix Factorization 	|
|  	| Locally Linear Embedding (LLE) 	|
|  	| Isomap 	|
|  	| Multi Dimensional Scaling 	|
|  	| Spectral Embedding 	|
|  	| t-distributed Stochastic Neighbor Embedding (t-SNE) 	|
|  	| Autoencoders 	|
|  	| Self Organizaing Map (SOP) 	|


- **Target Algorithm**

    - Eigen Value Decomposition

    - Singular Value Decomposition

    - Truncated SVD

    - Principal Component Analysis

    - Principal Component Regression

    - Factor Analysis

    - Linear Discriminant Analysis

    - Quadratic Discriminant Analysis

    - Mixture Discriminant Analysis

    - Non-Negative Matrix Factorization

    - Locally Linear Embedding

    - t-distributed Stochastic Neighbor Embedding

## 요인 분석(Factor Analysis, FA)

#### 0) 배경: 주성분분석?, 요인분석? 어떤 분석에 활용?

- (1) 변수들 내부에 존재하는 구조를 파악하여 정보를 요약하거나 중요도가 낮은 변수를 제거하려는 경우

- (2) 변수들에 내재하는 상관관계, 연관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터의 이해도 및 관리효율 높임

    - 사람은 1/2차원까지는 직관적 이해가 가능하지만 3차원 이상은 어려움

    - 만약 변수가 10개(10차원) 있는데 2개의 차원으로 요약 표현해도 변수가 가진 변동의 80~90%를 설명할 수 있다면 굳이 10차원의 데이터가 필요한가?

- (3) 상관성이 너무 높은 변수들을 축소된 소수의 주성분 또는 요인으로 추출하여 예측/분류 모델링을 위한 다른 알고리즘의 독립변수들로 사용하여 성능을 높임

    - 데이터의 모델링 시 입력 변수들의 상관관계가 높은 다중공선성이 존재할 경우, 모델링 성능도 떨어지고 특히 해석에 문제 발생

    - 특히 다중공선성이 있는 데이터로 결정트리 생성 시 하나의 변수가 구분되어 버리면 그 변수와 상관성이 있는 변수들은 중요하지 않은 변수로 간주되거나 모델링에 포함되지 않음

    - 요인분석 후 새로운 잠재변수를 추가하여 분석 수행시 다중공선성 문제 해결 가능

<img src='./img/FactorAnalysis_Application.png' width=600>

- (4) 레이블이 없는 군집분석에도 연산속도 개선에 기여하며 군집 레이블링도 가능

    - 요인들의 군집분석을 통해 세부군집 레이블링 가능

- (5) 기계장비에서 발생하는 다수의 데이터를 주성분/요인 분석을 통해 시계열의 분포나 추세 변화에 반영하여 기계의 고장징후 등을 사전에 파악하는데 활용

- (6) 데이터 전처리 변환 방법으로도 사용되며, 주성분/요인 분석 자체를 해석에도 활용

#### 1) 요인분석 방향: 데이터 변수들의 잠재변수를 찾아 변수의 수를 줄이는 것

- 통계학자 Spearman이 학생들의 시험성적 상관관계를 보다가 연관성 있는 변수를 묶는 내재 속성 추출 고민에서 유래

- 여러개의 변수들로 구성된 데이터에서 상관관계를 기초로 변수들을 설명할 수 있는 새로운 공통 잠재 요인 발견 또는 데이터 구조 확인이 목적인 탐색적 데이터 분석 방법론

- 잠재요인과 무관하게 FA에서는 고유요인(e)이 존재하며 각 변수들 자체와 관련있는 고유분산이기 때문에 상관행렬을 그대로 사용하지 않고 수정된 상관행렬(Adjusted Correlation Matrix) 사용

- PCA와 깊은 관계가 있지만 목적이 다르고 일반적으로 PCA $\ne$ FA

<img src='./img/PCA_FA_Comparison2D.jpg' width=600>

- **요인(Factor)**: 변수들의 연관성을 설명하는 잠재 변수

    - 요인의 갯수는 변수의 수만큼 가능

    - 모든 요인은 변수들의 공통 분산을 설명

    - 분산의 양이 가장 적은 요인은 제거

    - 잠재변수, 관측되지 않은 변수, 가상 변수 라고도 함

    <img src='./img/FactorAnalysis_Factor.png' width=500>

    <img src='./img/FactorAnalysis_FactorWeight.png'>

- **요인 추출 및 레이블링**

<img src='./img/FactorAnalysis_FactorLoading.png' width=500>

#### 2) 알고리즘 함수세팅

**(0) 데이터 수집**

- 각 변수의 값들은 정규분포를 따르고 순위나 비율로 표현되는 동일 분산 범위의 값

- 일반적으로 변수의 수 대비 10배 이상의 샘플을 권장

**(1) 요인분석 가능성 파악(Factorability)**

- **Bartlett Test**: 변수들의 상관관계를 추정하여 단위행렬보다 상관성이 높은지 여부 검정

    - 검정을 위해 카이제곱분포를 이용한 통계량을 추정하며 유의할 경우 요인분석 실행

- **Kalser-Meyer-Olkln(KMO) Test**: 변수들의 편상관관계가 얼마나 작은지 여부 검정

    - **편상관관계**: 두 변수의 상관관계 추정시, 두 변수에 영향을 미치는 공통/잠재 변수가 존재하는 경우 잠재 변수가 미치는 효과를 제외한 순수한 상관관계
        
    - 편상관관계가 작을수록 잠재 변수의 영향(존재)이 크다

    $$\text{KMO 통계량} =\frac{\text{상관계수 제곱}}{\text{상관계수 제곱}+\text{편상관계수}}$$

    - 편상관관계가 작을수록 KMO 통계량이 크고 공통된 변수를 추출하는 요인분석 적합

    - 모든 변수간 분산 비율을 추정하며 KMO 추정을 위해 최소 3개 이상의 변수 필요

    - 통계량이 0~1 사이로 움직이며, 0.5 이상이면 요인분석 하기에 적절하다고 판단하는 편

**(2) 요인 갯수 선택**: 학문적 정답은 없으며, 경험적 법칙 존재

- **상관관계 추정 및 고유벡터 추출**

    - (1) 분산의 누적기여율이 최소 0.8 이상

    - (2) 표준화 데이터 사용시 고유값이 최소 1이상인 요인 추출

    - (3) Scree Plot에서 꺽이는 Elbow 구간이 있다면, Elbow 앞까지 추출

    - (4) 다른 알고리즘 활용시 요인의 갯수와 비용함수의 관계에서 선택

**(3) 요인 추출(Factor Loading)**: 각 요인이 변수에 미치는 효과로 변수와 요인의 상관행렬

<img src='./img/FactorAnalysis_MainProcess.png'>

- **상관관계 추정 및 고유벡터 추출**

- **요인회전(Factor Rotation)**: 변수들을 요인으로 묶어주기 편리하게 또는 해석하기 쉽도록 축을 회전하는 방법론

    - **직교회전법**: 요인으로 묶을 때 독립성을 유지한 상태에서 요인구조가 가장 뚜렷할 때까지 요인을 회전

        - 회전축이 직각을 유지하기에 요인들의 상관계수가 0이 되기 때문에 요인들이 상호 독립적인 경우 사용 가능

        - 추가적 분석에 활용하려면 다중공선성을 방지하기 위한 방법으로도 유용

        - Varimax, Quartimax, Equimax, Transvarimax 등이 있으며 일반적으로 분산을 최대화하는 Varimax를 많이 사용

    - **비직교회전법**: 요인으로 묶을 때 독립성을 유지한다 보기 어려운 상태에서 요인구조가 가장 뚜렷할 때까지 요인을 회전

        - 일부 변수가 여러 요인들에 높은 요인적재량을 갖으면 요인들이 독립적이라 보기 어려움

        - 요인 회전시 서로 직각을 유지하지 않기 때문에 영향력이 높은 요인은 더 높아지도록 그렇지 않은 요인은 더 낮아지도록 추정

        - Oblimin, Covarimin, Quartimin 등이 있음

        - 사회과학에서는 독립적 변수를 인정하지 않아 주로 사용하는 회전법

- 변수들과 요인들의 상관관계 행렬 추출

- 통계적 유의성 대신 실제 의미적 유의성 관심

- Factor Loading이 0.5 이상인 값들을 중심으로 유의성 판단

- 변수가 여러개의 요인 중 하나의 요인에만 Loading이 높은 경우 변수 유지

- 변수가 여러개의 요인 중 2개 이상의 요인에 Loading이 높은 경우 변수 삭제

**(4) 요인 해석 및 레이블링**: 학문적 정답은 없으며, 경험적 법칙 존재

<img src='./img/FactorAnalysis_Decision.png'>

- Factor Loading이 0.5 이상인 값들을 중심으로 요인의 명칭 레이블링

- 연구자의 추가적인 분석/조사나 주관적으로 레이블링하며 상식적으로 의미가 일치하는지 중요

**(5) 요인 레이블링 검증**

- 레이블링된 요인 명칭으로 변수 묶음을 대체해도 될지 검증

- **Communality**: 추출된 요인들에 의해 설명되는 변수의 분산 정도로 0.5 이상인 변수들에 대해 레이블링 유의하다 판단

- **크론바흐 알파(Cronbach Alpha)**: 기준 수치가 1에 가까울수록 요인 대체 승인

**(6) 요인 활용 추가적 분석 수행**

- 요인 점수(Factor Score) 추출 및 활용 가능

- 심리검사 및 설문조사에서 대부분 사용하는 기초분석

- 소비자 만족도, 경험, 관심도 등의 특성을 확인하기 위한 기초분석

- 시장조사, 광고, 금융, 운용, 리서치, 브랜딩 등 이해도 향상을 위한 기초분석

- 예측, 분류 등의 문제에 성능 높은 변수로 반영하기 위한 전처리

#### 3) 정리

- **PCA & FA 공통점**: 데이터의 차원/변수의 갯수를 줄이는 것이며, 원래 데이터에서 새로운 변수들을 생성

- **PCA & FA 차이점**

| PCA | FA | 
|:---: |:---: | 
| 데이터 분포상 최대분산 설명 | 데이터의 공분산 설명 | 
| 주성분에 수직 거리 합의 제곱이 최소화 되도록 추정 | 변수를 설명할 수 있는 새로운 공통변수 추정 | 
| 데이터 최대보존 시각적 변환 기술 | 데이터의 가정을 검증하는 모델링적 추정 기술 | 
| 오차항 불필요 | 오차항 필요 | 
| 주성분은 변수들의 (선형)조합 | 변수들은 요인들의 (선형)조합 | 
| 주성분들이 완벽하게 독립 | 요인들은 독립일 필요 없음 | 
| 주성분들은 레이블링 및 해석 불가 (분류력이 높은 임의 변수) | 요인들은 레이블링 및 해석 가능 (의미 중심 그룹화) | 
| 주성분들의 우선순위 존재 | 요인들은 대등한 관계 | | 차원 축소 방법론 | 잠재 변수 방법론 | 
| 목표함수 기반 예측/분류력 분석 | 목표함수 없이 변수 그룹핑 | 
| Correlation 행렬 기반 대각성분 분석 | Adjusted Correlation 행렬 기반 대각성분 분석 |

- 요인은 보다 자연스러운 데이터 해석을 가능하게 함

- 요인을 식별하고 레이블링 할 때는 도메인 지식 반영 필요

- 동일한 데이터 요소에 대해 둘 이상의 해석이 가능하기 때문에 요인 분석의 결과는 논란의 여지가 있을 수 있음

- 기본적으로 상관관계가 높은 변수들끼리 그룹핑하는 것으로 상관관계 낮으면 부적합

- 변수들이 상관관계가 너무 높아 완벽한 다중공선성 상태면 추정이 어려움

- 샘플들의 갯수 > 변수/요인의 갯수 이어야 추정 가능

- 4~5개의 변수에서 요인추출을 하는 것은 의미있는 결과 도출 어려울 수 있음

- 많은 변수들 중에서 적은 일부 요인들이 많은 변수를 대표할 수 있는 구조 추천

- 빅데이터를 탐색하고 상호 연관성을 추정

- 연구자가 시장 상황을 압축하고 소비자 취향, 선호도 및 문화적 영향 간의 숨겨진 관계를 찾는 데 도움될 뿐 아니라 관련 심리학, 금융 및 운영 등에 널리 사용됨

#### 4) 사용방법
```python
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity
from factor_analyzer.factor_analyzer import calculate_kmo
from factor_analyzer import FactorAnalyzer
```

<br>

```python
# 요인분석 가능성 파악
statistics_bar, p_value = calculate_bartlett_sphericity(X_train)
kmo_each, kmo_all = calculate_kmo(X_train)
# 모델링
model_fa = FactorAnalyzer(n_factors=5, rotation='varimax')
model_fa.fit(X_train)
# 요인과 변수 상관관계 확인
model_fa.loadings_
# 분산 설명력 확인
model_fa.get_factor_variance()
# 잠재요인 추출
X_train_fa = model_fa.transform(X_train)
X_test_fa = model_fa.transform(X_test)
```

## 선형판별 분석(Linear Discriminant Analysis, LDA)