# 비지도학습

## DBSCAN

- **Density**-Based Spatial Clustering of Applications with Noise
- 밀도 기반의 군집화 알고리즘
- 밀집된 영역은 군집으로 식별하고, 밀도가 낮은 데이터 포인트는 노이즈로 간주
- 데이터의 밀집 영역을 찾아내고, 군집의 크기나 형태에 구애받지 않는 유연한 군집화를 수행하는 것이 목표

특징
- 밀도 기반 군집화: 데이터 포인트의 밀도를 기준으로 군집을 형성
- 노이즈 처리: 밀도가 낮은 데이터 포인트를 노이즈로 간주하고, 군집에서 제외
- 유연한 군집 형성: 군집의 크기나 형태에 구애받지 않고 유연하게 군집을 형성
- 비교적 간단한 구현: 알고리즘이 비교적 간단하고, 구현이 용이

기본원리
- 밀도 기준 (Density Criteria):
  - DBSCAN은 두 개의 주요 하이퍼파라미터를 사용
  - $\epsilon$ (Eps): 데이터 포인트 간의 최대 거리, 최소 포인트 수 (MinPts): 군집을 형성하기 위해 필요한 최소 데이터 포인트 수
- 핵심 포인트 (Core Point):
  - 반경 $\epsilon$ 이내에 최소 MinPts 이상의 데이터 포인트가 있는 데이터 포인트를 핵심 포인트로 정의
  $$
  || \geq
  $$


군집형성과정
1. 초기화
   1. 모든 데이터 포인트를 방분하지 않은 상태로 초기화
2. 군집 확장
   1. 방문하지 않은 데이터 포인트를 선택하여, 해당 포인트가 핵심 포인트인지 확인
   2. 핵심 포인트인 경우, 반경 $\epsilon$ 내의 모든 데이터 포인트를 포함하여 새로운 군집을 형성
   3. 경계 포인트는 기존 군집에 포함되며, 노이즈 포인트는 군집에 포함되지 않음
3. 반복
   1. 모든 데이터 포인트가 방문될 때까지 군집 확장 과정을 반복

DBSCAN 장점:
- 군집 수 미리 지정 불필요: 군집의 수를 사전에 지정할 필욕가 없음
- 노이즈 데이터 처리: 노이즈 데이터를 효과적으로 처리하여 군집에서 제외할 수 있음
- 다양한 군집 형태: 데이터의 군집 형태가 구형(spherical)이 아니어도 유연하게 군집화 가능
- 확장성: 군집의 크기나 밀도에 관계없이 유연하게 적용 가능

DBSCAN 단점:
- 하이퍼파라미터 설정 어려움: $\epsilon$과 MinPts의 값을 설정하는 것이 어려움
- 밀도 변화에 민감: 데이터의 밀도가 균일하지 않을 경우, 군집화 성능이 저하 가능성
- 고차원 데이터에서의 성능 저하: 고차원 데이터에서는 거리 계산이 어려워 성능이 저하될 수 있음

## 주성분 분석 (PCA)

- 고차원 데이터를 저차원으로 변환하여 데이터의 주요 변동성을 보존하는 차원 축소 기법
- 데이터의 분산을 최대화하는 직교 축을 찾아 데이터를 새로운 좌표계로 변환하여 노이즈를 줄이고 시각화 및 해석 용이
- 데이터 시각화, 노이즈 제거, 데이터 압축 등의 목적을 위해 사용

특징
- 분산 최대화: PCA는 데이터의 분산을 최대화하는 방향으로 새로운 축 탐색
- 직교 축: 주성분은 서로 직교 (orthogonal)하는 축으로 구성
- 순서 중요: 첫 번째 주성분은 가장 큰 분산을 가지며, 두 번째 주성분은 그 다음으로 큰 분산을 가짐
- 데이터 변환: 고유벡터를 사용하여 데이터를 새로운 좌표계로 변환

기본원리
- 데이터 중심화 (Centering the Data)
  - 각 변수의 평균을 0, 표준편차를 1으로 설정, 중심화된 데이터 행렬 X를 만듦
- 공분산 행렬 계산 (Calculating the Covariance Matrix)
  - 중심화된 데이터의 공분산 행렬 $\Sigma$를 계산
  $$
  \Sigma = \frac{1}{n - 1}X^TX
  $$
- 