# 1. 군집화(Clustering)
## 1-1. 머신러닝: 비지도 학습
💡 머신러닝: 인공지능의 한 분야로, 컴퓨터가 스스로 학습할 수 있도록 도와주는 알고리즘이나 기술을 개발하는 분야, 크게 지도학습과 비지도학습으로 구분됨.
- 지도학습: 문제와 정답을 모두 알려주고 공부시키는 방법
- 비지도 학습: 답을 가르쳐주지 않고 공부시키는 방법(군집화 포함!)

### [비지도학습의 특징]
- 비지도학습은 데이터 자체에 내제된 구조를 파악해서 학습함
- 정답 레이블이 없으므로 에이전트가 해야 하는 작업이 명확히 정의되지 않음
    - -> 모델의 성능을 명확히 측정할 수 없다!
- 표현 학습(또는 피처 학습)을 통해 데이터셋의 고유 패턴을 식별할 수 있음

--> 목표가 명확하게 정의된 구체적이고 좁은 범위의 문제를 풀기에는 지도학습보다 불리하지만, **목표 자체가 명확하지 않고, 데이터에서 새로운 특성을 찾는 등의 목적을 수행하기에 적합함.**

### [비지도학습이 적합한 케이스]

1. 패턴이 아직 알려지지 않은 경우 -> 정답을 아직 알 수 없음
2. 패턴이 계속해서 변하는 경우 -> 정답을 익혀도 큰 의미가 없음(답이 변해버리니까)
3. 열린 문제를 해결하고 지식을 일반화해야 하는 경우
- 예시) 고객 세그먼트 분석, 이상 거래 탐지, 자연어 처리

---
## 1-2. 군집화란?
💡군집화: 데이터를 **비슷한 특성을 가진 그룹(군집)**으로 나누는 비지도 학습 기법
-> 각 그룹이 어떻게 구성되어있는지 파악하면서 전체 데이터 구조를 이해할 수 있음

### [비지도학습: 군집화]
- 지도학습은 독립변수와 종속변수 사이의 관계에서 패턴을 찾아 종속 변수를 예측하고자 하는 구조임
- 하지만 군집화는 종속변수를 설정하지 않고, 데이터 내부의 패턴을 인식해 유사성을 가진 그룹으로 나눔
- -> 사전에 정해진 목표 없이 데이터셋에 존재하는 고유한 패턴을 발견하고 추출하기 때문에 군집화는 **비지도 학습**으로 분류됨.

### [군집화의 목표]
![image.png](attachment:image.png)  
- 군집화는 유사성을 기반으로 비슷한 특징을 지닌 개체를 함께 그룹화하며, 아래의 목표를 가짐
    - 응집도 최대화: 같은 군집에 속하는 데이터끼리는 최대한 비슷하도록 함
    - 분리도 최대화: 서로 다른 군집은 최대한 분리되도록 함
- -> **데이터 간의 유사성을 최대한 잘 유지**하면서, **서로 다른 그룹은 구분**될 수 있도록 만드는 것이 군집화의 목표!
---
## 1-3. 군집화 과정
### [군집화의 기본 과정]
![image-2.png](attachment:image-2.png)  
1. 피처 선택 또는 추출: 군집화에 사용할 데이터의 피처(특징)을 선택
2. 군집화 알고리즘 선택: 데이터의 특성과 목표에 따라 적합한 군집화 알고리즘을 선택
3. 군집 유효성 검증: 군집화가 얼마나 잘 되었는지 평가
4. 결과 해석: 각 군집이 지닌 특성 분석 및 해석


# 2. 군집화를 위한 데이터 준비

## 2-1. 군집화의 주요 고려사항
💡군집화는 여러 번의 반복 시도를 통해 최적의 결과를 찾아내는 과정   
-> 효과적인 군집화를 위해 다음 3가지 주요사항을 고려해야함!

1. 변수 유형 이해
    - 군집화에 사용될 피처의 종류와 특성을 명확히 이해해야 함
    - 변수 종류가 연속형 또는 명목형인지, 그리고 변수 개수에 따라 적합한 군집화 알고리즘이 달라짐
2. 거리/유사도 정의와 측정
    - 군집화는 데이터 간의 거리 또는 유사도를 기반으로 그룹을 형성
    - 거리 측정 방법에 대한 정의가 중요 (변수 유형에 따라 적합한 거리 측정 방식의 차이가 존재하기 때문)
3. 차원 축소
    - 모델의 성능을 향상시키기 위해 유사한 변수들을 묶어 처리하는 차원 축소를 고려해야 함
    - 변수가 많아질수록 모델이 복잡해지고, 효율성과 성능이 떨어질 수 있음
    - 차원 축소를 통해 유사한 변수를 통합하거나, 필요 없는 변수를 제거하여 변수 개수를 줄일 수 있음

---

## 2-2. 변수 유형 이해
### [변수 유형별 군집화 고려사항]
💡**변수 유형**에 따라 적합한 **거리 측정 방법**과 **군집화 알고리즘**이 달라짐!

1. **연속형 변수**
- 특징: 키, 몸무게, 나이, 소득 등 수치로 측정 가능한 변수
- 거리 측정: 유클리디안 거리, 맨하탄 거리 등 사용 가능
- 적합한 알고리즘: K-means, 계층적 군집화 등
- 주의사항: 스케일링 필수!(단위가 다르면 큰 값의 변수가 지배적 영향)

2. 명목형 변수
- 특징: 성별, 지역, 직업 등 범주로 구분되는 변수
- 거리 측정: 해밍 거리(Hamming distance), 자카드 거리 등
- 적합한 알고리즘: K-modes, 계층적 군집화(특별한 거리 함수 사용)
- 처리 방법: 원-핫 인코딩 또는 더미 변수 변환

3. 혼합형 변수
- 특징: 연속형과 명목형이 섞인 데이터
- 적합한 알고리즘: K-prototypes, Gower distance 기반 계층적 군집화
- 처리 방법: 각 변수 유형에 맞는 거리 함수를 조합하여 사용

---

## 2-3. 거리 / 유사도 정의와 측정
### [데이터의 거리 측정 방법]
💡데이터의 거리 측정 방법: 군집화에서 데이터 포인트나 군집 간의 유사성/비유사성을 수치로 계산하는 방법들로, 거리가 가까울수록 유사하고, 멀수록 다르다고 판단함

1. **유클리디안 거리**
- $d(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}$
- 가장 일반적인 거리 측정 방법
- 직선거리를 의미하며, K-means에서 기본적으로 사용
2. **맨하탄 거리**
- $d(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^n |x_i - y_i|$
- 각 차원의 차이의 절댓값의 합
- 이상치에 덜 민감한 특징
3. **코사인 유사도**
- $\text{similarity} = \frac{\mathbf{x} \cdot \mathbf{y}}{||\mathbf{x}|| \times ||\mathbf{y}||}$
- 벡터 간의 각도를 측정
- 텍스트 데이터나 고차원 데이터에 효과적

### [6가지 연결 방법]
💡6가지 연결 방법: 계층적 군집화에서 두 군집 간의 거리를 계산하는 다양한 방식들임. 각 방법은 군집 간 거리 측정 기준이 달라 서로 다른 군집화 결과를 만들어냄

1. **Single linkage(단일 연결법/최단 연결법)**
- 군집 A와 B사이의 **가장 가까운 두 점 간 거리**로 군집 간 거리를 정의함
- 고립된 군집을 찾는데 중점을 둠
- 이상치에 취약함
2. **Complete linkage(완전 연결법/최장 연결법)**
- 군집 A와 B사이의 **가장 먼 두 점 간 거리**로 군집 간 거리를 정의함
- 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값으로 측정하여 가장 유사성이 큰 군집으로 병합해 나가는 방법
- 군집들의 내부 응집성에 중점을 둔 방법
- 최단 연결법과 마찬가지로 이상치에 민감함
3. **Average linkage(평균 연결법)**
- 군집 A와 B의 모든 점 쌍 사이 거리의 평균
- **모든 항목에 대한 거리 평균**을 구함
- 최단 연결법과 최장 연결법보다 이상치에 덜 민감
- 계산량이 불필요하게 많아질 수 있다는 단점이 있음
4. **Centroid Method(중심 연결법)**
- 각 군집의 중심점 간의 거리
- 두 군집의 **중심 간의 거리**를 측정
- 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구함
- 군집들의 중심을 계산해야 하기 때문에 시간이 오래 걸림
- 덴드로그램에서 거리 축이 위에서 아래로 줄어드는 inversion이 발생할 가능성이 있음
5. **Median(중앙 연결법)**
- 두 군집을 합친 뒤의 중심점과 기존 군집의 중심점 간의 거리 기반
- 군집간의 거리를 두 군집 각각의 **모든 샘플의 중앙값**으로 정의
- 극단값에 영향을 덜 받음
- 기하학적 구조를 파악하기는 어려운 단점을 가짐
6. **Ward's Procedure(Ward 연결법)**
- 군집 내 제곱합(SSE)이 증가하지 않도록 병합
- 군집의 병합 후 군집 내 SSE(오차제곱합)의 증가분이 최소인 것을 선택
- 보통 두 군집이 합해지면 병합된 군집의 SSE는 병합 이전 각 군집의 SSE의 합보다 커지는데, 그 증가량이 가장 작아지는 방향으로 군집을 형성해 나감

*`요약`*
- `Single`: 두 군집 간 가장 `가까운` 점들 사이의 거리
- `Complete`: 두 군집 간 가장 `먼` 점들 사이의 거리
- `Average`: 두 군집의 모든 점들 간 `평균` 거리
- `Centroid`: 두 군집의 `중심점` 사이의 거리
- `Median`: 두 군집의 `중앙값` 사이의 거리
- `Ward`: 군집 내 `분산을 최소화`하는 방향으로 병합

---

## 2-4. 차원 축소
### [차원의 저주]
![image.png](attachment:image.png)  
같은 양의 데이터가 고차원으로 이동할 수록 데이터 포인트 사이의 거리가 늘어나 데이터의 밀도가 낮아짐
- 군집화 기반 알고리즘은 거리 기반 알고리즘인 경우가 많음
- 거리 기반 알고리즘의 경우, 데이터의 차원이 높아질수록(피처가 많아질수록) 차원의 저주가 발생함  

💡**차원의 저주** : 피처 공간이 너무 커서 알고리즘이 데이터를 효과적/효율적으로 훈련할 수 없는 현상  

→ 고차원일수록 모든 점이 비슷하게 멀어져, 거리 기반 알고리즘의 분별력이 감소함

- 차원의 저주로 인해, 군집화 알고리즘이 데이터의 패턴을 정확히 인식하기 어려움 -> 차원 축소가 필요함!

### [차원 축소]
![image-2.png](attachment:image-2.png)  
- 차원의 저주를 해결하기 위해 차원 축소(dimensionality reduction)을 수행함
    - 차원 축소에서 차원이랑 **변수의 개수**이고 따라서 차원 축소란 **변수의 개수를 줄이는 것**임
- 차원 축소의 목표: 변수를 제거하여 차원을 낮춰, 고차원 데이터를 저차원 공간에 투영하면서도 핵심 정보는 가능한 지켜내도록 하는 것이 목표 -> 이를 통해 노이즈를 줄여 패턴 학습에 유리해짐
    - cf)차원 축소 자체가 목표가 되는 경우 예시: 비지도 학습 기반 이상치 탐지(anomaly detection) 시스템 구축
- 차원 축소의 유형
    - 선형 투영: 고차원 공간에서 저차원 공간으로 선형적으로 데이터를 투영
        - ex. **주성분 분석(PCA)**, 특잇값 분해(SVD), 랜덤 투영 등
    - 매니폴드 학습(비선형 차원 축소): 유클리드 거리가 아닌 데이터 포인트들 사이의 곡선 거리를 고려하며 학습
        - ex. t-SNE, UMAP, Isomap 등

### [PCA(Principal Component Analysis)]
💡PCA의 핵심 목적: 다차원 데이터에서 가장 정보량(분산)이 큰 방향을 찾고, 그 방향을 기준으로 데이터를 투영하여 차원을 줄이는 것
![image-3.png](attachment:image-3.png)  
- PCA(주성분 분석)는 고차원 데이터를 저차원으로 축소하는 차원축소 기법
- 데이터의 분산을 최대한 보존하면서 차원을 줄여 시각화와 분석을 용이하게 만듦
- 상관관계가 높은 피처들을 결합해 선형적인 상관관계가 없는, 더 적은 수의 피처로 데이터를 표현하길 지향함
- 원본의 고차원 데이터에서 최대 분산 방향을 찾아 상관관계를 감소시키고, 저차원 공간에 이들을 투영함
    - 이렇게 새로 파생된 성분을 주성분이라고 함!

### [PCA 사용하기]
* 코드
```python
from sklearn.decomposition import PCA
pca = PCA(n_components=주성분개수)
```
- 주요 파라미터
    1. `n_components`(주성분 개수)
        - 정수(예:3): 정확히 그 개수만큼 주성분 선택
        - 실수(예:0.95):그 비율의 분산을 설명하는 개수를 자동 계산
        - None: 모든 주성분 사용 (차원축소 없음)
    2. `whiten`(데이터 정규화)
        - True: 각 주성분을 단위분산으로 정규화
        - False(기본값): 정규화 미적용
    3. `random_state`(랜덤 시드)
        - 재현 가능한 결과를 위해 고정값 설정 권장
- 주요 메서드
    - `fit(X)`: PCA 모델 학습(주성분 계산)
    - `transform(X)`: 데이터를 주성분 공간으로 변환
    - `fit_transform(X)`: 학습과 변환을 한번에 수행
    - `inverse_transform(X)`: 원본 공간으로 역변환(근사값)
- 중요 속성들
    - `explained_variance_ratio_`
        - 각 주성분이 설명하는 분산 비율
        - 예: [0.4, 0.3, 0.2] -> PC1이 40%, PC2가 30%, PC3가 20% 분산 설명
    - `explained_variance_`
        - 각 주성분의 실제 분산값
    - `components_`
        - 주성분 벡터(원본 특성들의 가중합)
        - 어떤 원본 특성이 각 주성분에 얼마나 기여하는지 표시
    - `n_components_`
        - 실제 선택된 주성분 개수(분산 비율로 설정 시 유용)

1. 분산 비율 기준으로 자동 선택 
```python   
pca = PCA(n_components=0.95)  # 95% 분산 설명
pca.fit(data)
print(f"필요한 주성분: {pca.n_components_}개")
```
2. 고정 개수 선택
```python
pca = PCA(n_components=3)     # 3개 고정
transformed_data = pca.fit_transform(data)
print(f"설명 분산: {sum(pca.explained_variance_ratio_):.3f}")
```

* 주의사항
1. 표준화 필수: PCA 사용 전 반드시 데이터 표준화 수행
2. 결측값 처리: 결측값이 있으면 사용 불가
3. 해석의 어려움: 주성분은 원본 특성들의 조합이라 직관적 해석이 어려움
4. 정보 손실: 차원 축소 과정에서 일부 정보가 손실됨

# 3. 군집화 알고리즘
## 3-1. 계층적 군집화(Hierarchical Clustering)
💡계층적 군집화: 데이터 간의 유사성을 기반으로 트리 구조(dendrogram)를 형성하며, 상향식 또는 하향식 방식으로 군집을 형성해 나가는 방법

### [계층적 군집화의 특징]
- 계층적 군집화 알고리즘은 데이터셋의 관측치를 사용해 덴드로그램을 만듦
    - ![image.png](attachment:image.png)  
    - Dendrogram: 가까운 두 개체 또는 군집을 점차적으로 병합해가는 과정을 시각적으로 표현한 트리 구조
    - Dendrogram의 해석: Dendrogram의 수직축(높이)=두 군집이 병합될 때의 군집 간 거리(유사성)
    - 위의 Dendrogram의 예시에서 E와 F는 서로 연결되는 링크의 높이가 가장 짧은데, 분포를 보면 E와 F가 가장 가깝다는 것을 알 수 있다!
- 군집의 개수를 사전에 설정하지 않고, 클러스터링이 종료된 후에 원하는 군집의 개수를 선택할 수 있음
- 트리 구조를 상향식으로 구성하냐, 하향식으로 구성하냐에 따라 응집형과 분리형으로 구분
    - 상향식 - 응집형 계층적 군집화 (병합 클러스터링)
    - 하향식 - 분리형 계층적 군집화 (분할 클러스터링)

### [응집형/분리형 계층적 군집화]
![image-2.png](attachment:image-2.png)  
작은 군집들을 병합해가며 더 큰 군집을 만드느냐(응집형), 하나의 군집을 분할해가며 여러 군집을 만드느냐(분리형)의 차이!

- **응집형 클러스터링: 먼저 각 샘플이 독립적인 클러스터가 됨, 이후 하나의 클러스터만 남을 때까지 가장 가까운 클러스터를 병합**
- 분할형 클러스터링: 전체 샘플을 포함하는 하나의 클러스터에서 시작하여, 유사성이 낮은 데이터들을 더 작은 클러스터로 나눔
- 두 방법 모두 데이터를 proximity matrix(거리 행렬 또는 유사도 행렬)에 기반한 계층적 구조로 조직화함
- 계층적 군집화의 결과는 일반적으로 이진 트리 또는 dendrogram으로 표현
    - 예시 ![image-3.png](attachment:image-3.png)
    - 두 군집화의 진행 방향은 정반대임, 각각의 군집들은 dendrogram을 적절한 수준에서 자름으로써 얻어짐

### [응집형 계층적 군집화]
- 응집형 계층적 군집화는 모든 데이터 포인트를 각각 하나의 클러스터로 간주하고 시작하여, 점차적으로 가까운 클러스터들을 병합해 나가는 방식
- '가장 가까운 클러스터'를 어떻게 정의하느냐에 따라 다양한 알고리즘으로 나뉨
- 단일 연결(가장 가까운 두 샘플의 거리)과 **완전 연결**(가장 먼 두 샘플의 거리) 방식이 대표적

💡완전 연결을 사용한 응집형 군집화 과정  
1. 거리 행렬 계산: 모든 데이터 포인트 간의 거리를 계산하여 거리 행렬을 만듦
2. 단일 클러스터 시작: 각 데이터 포인트를 개별적인 클러스터로 초기화함
3. 가장 가까운 클러스터 병합: 정의된 기준(가장 멀리 있는 샘플 간의 거리)에 따라, 가장 가까운 두 클러스터를 병합하여 새로운 클러스터를 만듦
4. 거리 행렬 업데이트: 새로 생성된 클러스터와 나머지 클러스터들 간의 거리를 다시 계산하여 거리 행렬을 업데이트함
5. 반복: 모든 데이터 포인트가 하나의 클러스터에 속할 때까지 3,4번 과정을 반복함

### [계층적 군집화 시각화]
덴드로그램을 통해 계층적 군집화가 수행되는 동안 만들어지는 클러스터들을 요약해서 확인할 수 있음  
![image-4.png](attachment:image-4.png)  
ID_0과 ID_4, ID_1과 ID_2가 유클리디안 거리 측정을 기반으로 했을 때 가장 가까운 샘플임

계층적 군집화는 계산량이 많기 때문에 대규모 데이터에 적용하기 보다는, 소규모 데이터에 대해 군집 수를 탐색하거나 클러스터링의 전반적인 구조를 시각적으로 분석할 때 유용하다!

---

## 3-2. k-means

### [k-means]
- k-means: 데이터를 정해진 개수(K)의 그룹으로 나누되, 각 그룹의 중심점(centroid)과의 거리가 가장 가까운 데이터끼리 묶는 군집화 알고리즘
![image-5.png](attachment:image-5.png)
- 군집화에서 가장 일반적으로 사용되는 알고리즘
- 연속적인 특성을 갖는 데이터 샘플들 중에서 군집 중심점(centroid)을 선택해, 해당 중심에 가장 가까운 데이터들을 묶어나가는 군집화 기법
- 프로토타입 기반 군집화에 속함
    - 각 클러스터의 중심을 대표점(프로토타입)으로 삼아 데이터를 묶는 방식
    - 연속적인 데이터는 센트로이드(평균), 범주형 데이터는 메도이드(가장 대표되는 값or자주 등장하는 값)을 사용


### [k-means의 주요 단계]
![image-6.png](attachment:image-6.png)
1. 데이터 표본들 중에서 랜덤하게 k개의 중심점(centroid)을 초기 클러스터 중심으로 선택
2. 각 표본들을 가장 가까운 중심점에 할당(유클리디안 거리의 제곱을 사용)
3. 각 클러스터에 할당된 표본들의 데이터 평균을 계산하여 중심점(centroid)을 이동
4. 클러스터 할당이 변하지 않거나 사용자가 지정한 허용 오차 또는 최대 반복 횟수(`max_iter`)에 도달할 때까지 2, 3번을 반복

- Code - 사이킷런의 `kMeans`클래스
```python
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, # 여기서 클러스터 개수(k)를 지정!
                init='random', 
                ...,
                random_state=42)
```

📌 **특성의 스케일**  
k-means 알고리즘은 유클리디안 거리 지표를 사용  
→ 실제 데이터에 적용할 때 특성이 같은 스케일로 측정되었는지 확인해야 함  
(그렇지 않으면 큰 수치를 가진 피처에 너무 큰 영향을 받기 때문)

Z-Score 표준화나 Min-Max Scale, Standard Scale 등을 사용해 스케일을 맞춰야 한다!


### [k-means의 장단점]
- k-means의 장점
    - 직관적이고 구현이 쉬움
    - 대용량 데이터에도 적용 가능
- k-means의 단점
    - **초기 centroid 값에 민감함**: 초기 중심점을 랜덤하게 할당하는데, 초기 중심점에 따라 최종 군집화의 품질이 달라지거나 알고리즘 성능이 하락되는 문제가 있음
    - **군집 수 (k) 결정이 어려움**: 사용자가 직접 k값을 지정해야 하며, 이 k값이 결과의 질에 큰 영향을 미침  
    → 엘보우 방법(elbow method), 실루엣 계수(silhouette coefficient)를 통해 적절한 K값을 탐색함
    - **아웃라이어에 민감**: 평균 중심으로 군집을 구성하기 때문에 **아웃라이어 하나가 중심을 왜곡시킬 수 있음**
    - 기하학적인 모양의 군집은 파악하기 어려움
    - 이 문제들을 해결하기 위해 중앙값을 활용하는 K-Median, 데이터 포인트 하나를 선택하는 K-Medoids, 또는 밀도가 높은 곳으로 중심점을 이동하는 Mean Shift 알고리즘을 고려해볼 수 있음

---

### [k-means++ 알고리즘]

💡**k-means++** : k-means에서 **초기 중심점들을 서로 멀리 떨어진 곳에 위치**시켜 더 일관되고 좋은 결과를 도출하는 개선된 초기화 방법

- k-means에서는 초기 중심점을 랜덤하게 할당하기 때문에 초기 중심점에 따라 최종 군집화의 품질이 달라지거나 알고리즘 성능이 하락하는 단점이 있음
- k-means++ 알고리즘은 초기 중심점들을 서로 멀리 떨어진 곳에 위치시켜 기본적인 k-means보다 일관되고 좋은 결과를 도출할 수 있음!

💡k-means++ 알고리즘의 초기화 과정
1. 선택한 k개의 중심점을 저장할 빈 집합 $\mathbf{M}$을 초기화
2. 입력 샘플에서 첫 번째 중심점  $\mathbf{\mu}^{(i)}$을 랜덤하게 선택하고 $\mathbf{M}$에 할당
3. $\mathbf{M}$에 없는 각 샘플 $\mathbf{x}^{(i)}$에 대해 $\mathbf{M}$에 있는 중심점까지의 최소 제곱 거리 $d(\mathbf{x}^{(i)}, \mathbf{M})^2$을 찾음
4. 다음 식과 같은 가중치가 적용된 확률 분포를 사용해 다음 중심점 $\mathbf{\mu}^{(p)}$을 랜덤하게 선택  
\frac{d(\mathbf{\mu}^{(p)}, \mathbf{M})^2}{\sum_i d(\mathbf{x}^{(i)}, \mathbf{M})^2}
5. k개의 중심점을 선택할 때까지 3, 4번을 반복
6. 기본 k-means 알고리즘을 수행

사이킷런에서 k-means++를 사용하려면 `kMeans`의 `init` 파라미터를 `k-means++`로 지정하면 됨(이미 기본값이긴 함)

---

### [엘보우 방법(elbow method)]  
💡엘보우 방법: 클래스 내 SSE를 바탕으로 그래프를 활용해 최적 클러스터 개수 k를 추정하는 방법
- 엘보우 방법은 왜곡이 빠르게 감소하는 지점의 k값을 찾는 것! -> 이를 최적 클러스터의 개수로 추정
- k값을 바꾸어가며 k-means 클러스터링을 진행하고, 각 경우의 왜곡 값을 그래프로 시각화하면 아래와 같음  
![image-7.png](attachment:image-7.png)  
- 엘보우 지점 해석
    - 그래프에서 기울기가 변하는 지점(팔꿈치 모양)이 최적의 k값임
    - 이 지점 이후로는 k를 증가시켜도 SSE 감소 효과가 미미하기 때문
    - 위의 그래프에서 가장 적절한 K값은 3

|장점|단점|
|---|---|
|직관적: 시각적으로 최적의 k값을 쉽게 파악|주관적 판단: 그래프가 완만해지는 지점을 확인해 elbow 포인트를 결정하는데 주관이 개입됨
|구현이 간단: 단순한 반복문과 그래프 그리기만으로 구현 가능|모호한 경우: 데이터에 따라 엘보우 지점이 명확하지 않을 수 있음|

-> 엘보우 방법 외에도 실루엣 계수(silhouette coefficient), 갭 통계량(gap statistic) 등의 방법으로 최적의 k값을 찾을 수 있음

---

## 3-3. DBSCAN
### [DBSCAN]
💡DBSCAN: 밀도가 높은 지역의 데이터를 하나의 군집으로 묶고, 밀도 기준을 만족하지 못하는 점은 군집에 포함시키지 않는 군집화 알고리즘(density-based spatial clustering of applications with noise)  
- 밀집도 기반 군집화란?
    - 데이터의 밀도 분포를 기반으로 고밀도 영역을 클러스터로 인식
    - 밀집도: '특정 거리 내에 존재해야 하는 데이터 포인트의 최소 개수'로 정의

### [DBSCAN의 특징]
- 명시적으로 이상치를 지정하여 클러스터링에서 제외
- 다른 알고리즘 대비 이상치에서 자유로움
- 어떤 데이터가 여러 군집의 특정 거리 내에 있으면 가장 밀도가 높은 군집과 그룹화

### [DBSCAN 알고리즘의 주요 단계]
1. 샘플 분류
- 각 샘플을 다음 조건에 따라 분류함
    - 핵심 샘플(Core Point): 특정 반경 ε 안에 있는 이웃 샘플이 지정된 개수(MinPts)이상인 경우
    - 경계 샘플(Border Point): ε 이내에 MinPts보다 이웃이 적지만 다른 핵심 샘플의 반경 ε 안에 있는 경우
    - 잡음 샘플(Noise Point): 위 두 조건에 해당하지 않는 모든 샘플
    ![image-8.png](attachment:image-8.png)
2. 클러스터 생성
- 개별 핵심 샘플 또는 ε 이내에 있는 핵심 샘플을 연결한 그룹을 클러스터로 생성
3. 경계 샘플 할당
- 경계 샘플을 해당 핵심 샘플의 클러스터에 할당

---

💡DBSCAN에서 설정해야 하는 하이퍼 파라미터
- 두 포인트 사이의 최대 거리와, 그룹을 군집이라고 부르기 위한 조건인 최소 샘플 값을 설정해야 함
1. `eps`: 두 포인트가 이웃이 되기 위한 포인트 사이의 최대 거리
    - eps가 너무 낮게 설정될 경우 같은 이웃으로 고려할 포인트가 없을 수 있음 -> 너무 많은 포인트가 이상치로 간주됨!
2. `min_samples`: 한 포인트가 군집이 되기 위한 eps 거리 내 최소 포인트 개수
    - 밀접한 포인트들이 최소 샘플수 이상 존재 -> 중심점으로부터 eps거리 내에 있는 다른 포인트는 해당 군집의 일부가 됨  

-> 어느 데이터 포인트를 기준으로 반경 ε 내에 ***기준이 되는 데이터 포인트를 포함하여*** 데이터 포인터의 개수가 min_samples 이상이면 하나의 군집으로 인식

### [DBSCAN의 장단점]
- DBSCAN의 장점
    - k-means처럼 클러스터 모양을 원형으로 가정하지 않고, 밀도에 따라 클러스터를 할당 -> 임의의 기하학적 분포를 갖는 데이터도 잘 처리할 수 있음
    - **이상치에 민감하지 않음**: Noise를 통하여 Outlier 검출이 가능!
    - k-means나 계층 군집과 달리 모든 샘플을 클러스터에 할당하지 않음.(잡음 샘플을 구분해냄)
- DBSCAN의 단점
    - `epsilon`과 `min_samples` 설정에 많은 영향을 받음
    - `epsilon`을 조절하기 쉽지 않으며, 적절한 조절을 위해서는 데이터셋에 대한 도메인 지식이 필요
    - 연산량이 많아 속도가 느림
    - 다른 밀도 분포를 가진 데이터의 군집 분석을 잘 하지 못함
    ![image-9.png](attachment:image-9.png)  
    -> **밀도가 높은 곳에 집중**하다 보니 왼쪽에 밀도가 낮은 곳의 데이터를 하나의 
         군집으로 인식하지 못하고 **noise point**로 구분해버림.
    
    - ‘**차원의 저주**’의 영향을 받음 - 변수가 늘어날수록 정확도가 떨어짐

---

### [HDBSCAN]
HDBSCAN은 계층적 DBSCAN으로, DBSCAN을 계층적 군집화처럼 변환한 버전
- 작동 방식
    1. 밀도 기반으로 1차 군집화
    2. 거리 기준으로 밀도 기반 군집들을 반복적으로 연결
- 주요 파라미터
    - `min_cluster_size`: 클러스터 인정을 위한 최소 샘플 수
    - `min_samples`: DBSCAN과 동일(생략 시 min_cluster_size와 동일)
- 장점
    - 여러 밀도 기준으로 반복 수행
    - DBSCAN의 단일 밀도 기준 한계 보완

---

## 3-4. Gaussian Mixture Model(GMM)
### [Gaussian Mixture Model(GMM)]
💡데이터가 여러 다른 모양의 가우시안 분포로 구성되었다고 가정하고, 각 분포를 클러스터로 인식하는 군집화 방법
![image-12.png](attachment:image-12.png)  
- GMM의 기본 아이디어: 위와 같이 단일 분포로 표현하기 어려운 복잡한 형태의 확률 분포를 여러 개의 가우시안 분포를 합쳐서 표현하자는 것
![image-11.png](attachment:image-11.png)  
![image-10.png](attachment:image-10.png)  

- GMM의 특징
    - GMM은 모델 기반 군집화(Model-based Clustering) 방법
        - 모델 기반 군집화: 데이터를 생성하는 통계적 모델을 가정하고, 데이터가 해당 모델로부터 생성되었다는 전제 하에 군집화 수행
    - 각 군집을 확률 분포로 간주
    - 전체 데이터 분포를 여러 확률 분포의 혼합으로 모델링
    - 데이터의 생성 메커니즘까지 모델링 가능

### [GMM]의 가정
- 기본 가정
    - 관측된 데이터: 특정 가우시안 확률 분포에 의해 생성됨
    - 전체 데이터셋: 여러 개의 다변량 가우시안 분포가 섞여있음
    - 개별 데이터: 우도에 따라 K개의 가우시안 분포 중 하나에 속함  
-> 섞인 데이터 분포에서 각각의 가우시안 분포를 추출하여 각각의 분포 기반으로 군집화 수행

* 확률 vs 우도
    - 확률(Probability): 고정된 확률분포에서 어떤 관측값이 나타나는지에 대한 확률
    - 우도(Likelihood): 고정된 관측값이 어떠한 확률 분포에서 어느정도의 확률로 나타나는지에 대한 확률 -> GMM에서는 이 우도를 최대화하는 방향으로 알고리즘이 설계됨!
