### 클러스터링의 정의와 중요성

클러스터링은 비슷한 특성을 가진 데이터 포인트들을 그룹으로 분류하는 비지도 학습 방법입니다. 이 방법은 레이블이 지정되지 않은 데이터에서 숨겨진 패턴을 발견하는 데 중요한 역할을 합니다. 클러스터링을 통해 데이터의 구조와 관계를 이해하고, 인사이트를 도출할 수 있습니다.

### 클러스터링의 응용 분야

- **고객 세분화**: 마케팅 전략을 개선하기 위해 유사한 구매 패턴이나 선호도를 가진 고객 그룹을 식별합니다.
- **이미지 분류 및 세분화**: 유사한 특성을 가진 이미지를 그룹화하여, 이미지 데이터의 관리 및 분석을 용이하게 합니다.
- **유전자 분석**: 유전자 데이터에서 비슷한 패턴을 가진 유전자 그룹을 찾아내어, 생물학적 기능이나 질병과의 관련성을 연구합니다.
- **소셜 네트워크 분석**: 소셜 미디어 데이터에서 커뮤니티를 식별하거나 트렌드를 분석합니다.

### 주요 클러스터링 알고리즘

- **K-means**: 데이터 포인트를 K개의 클러스터로 분류합니다. 각 클러스터의 중심(centroid)을 기준으로 가장 가까운 데이터 포인트들을 그룹화합니다.
- **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)**: 밀도가 높은 영역의 데이터 포인트들을 클러스터로 그룹화하며, 노이즈 데이터를 구별할 수 있습니다.
- **계층적 클러스터링 (Hierarchical Clustering)**: 데이터 포인트들을 트리 구조의 클러스터로 조직화합니다. 이 방법은 덴드로그램을 통해 데이터의 계층적 구조를 시각화할 수 있습니다

![kmeans_dbscan](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbZC4X5%2Fbtqwea7bV7P%2F3BgIfKxBxV4okZDLZKpDz1%2Fimg.jpg)

### **K-means 클러스터링**

**작동 원리**:

- K-means는 주어진 데이터를 K개의 클러스터로 나누는 알고리즘입니다. 알고리즘은 먼저 데이터 포인트에서 무작위로 K개의 중심(centroid)을 선택합니다.
- 각 데이터 포인트는 가장 가까운 중심에 할당되며, 이 과정을 통해 클러스터가 형성됩니다.
- 클러스터의 중심은 클러스터에 속한 모든 데이터 포인트의 평균 위치로 업데이트됩니다.
- 이 과정은 클러스터의 할당이 변하지 않거나, 특정 반복 횟수에 도달할 때까지 반복됩니다.

**장점**:

- 계산이 비교적 단순하고 빠릅니다.
- 대규모 데이터셋에 효과적으로 적용될 수 있습니다.

**단점**:

- 클러스터의 수(K)를 미리 지정해야 합니다.
- 클러스터의 형태가 구형이라고 가정하기 때문에, 구형이 아닌 클러스터를 잘 못 다룹니다.

### **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)**

**작동 원리**:

- DBSCAN은 데이터 포인트의 밀도를 기반으로 클러스터를 형성합니다. 특정 포인트에서 주어진 거리(epsilon) 내에 충분한 수(minPts)의 포인트가 있으면, 이 포인트를 중심 포인트로 간주합니다.
- 중심 포인트에서 접근할 수 있는 모든 포인트들을 연결하여 클러스터를 형성합니다. 밀도가 충분하지 않은 포인트는 노이즈로 분류됩니다.
- 이 알고리즘은 클러스터의 형태를 가정하지 않기 때문에, 다양한 형태의 클러스터를 찾을 수 있습니다.

**장점**:

- 클러스터의 수를 미리 지정할 필요가 없습니다.
- 노이즈 데이터를 구별할 수 있습니다.
- 다양한 형태의 클러스터를 식별할 수 있습니다.

**단점**:

- 고차원 데이터에서는 성능이 저하될 수 있습니다.
- 모든 클러스터가 비슷한 밀도를 가져야 합니다.


### **계층적 클러스터링 (Hierarchical Clustering)**

**작동 원리**:

- 계층적 클러스터링은 데이터 포인트를 개별 클러스터로 간주하고 시작합니다.
- 가장 유사한 두 클러스터를 반복적으로 병합하면서, 하나의 클러스터가 남을 때까지 계속됩니다.
- 이 과정을 통해 데이터의 계층적 구조를 나타내는 덴드로그램이 생성됩니다.
- 사용자는 덴드로그램을 분석하여 원하는 수의 클러스터로 데이터를 분할할 수 있습니다.

**장점**:

- 클러스터의 수를 미리 결정할 필요가 없습니다.
- 덴드로그램을 통해 데이터의 계층적 구조를 시각적으로 이해할 수 있습니다.
- 다양한 유형의 데이터에 적용할 수 있습니다.

**단점**:

- 계산 복잡도가 높아 대규모 데이터셋에는 적합하지 않을 수 있습니다.
- 한 번 병합된 클러스터는 분할되지 않기 때문에, 결정이 최종적입니다.

![hireach](https://tyami.github.io/assets/images/post/ML/2020-11-01-hierarchical-clustering/2020-11-01-hierarchical-clustering-01-example.png)