# 판별 분석 (Discriminant Analysis)

판별 분석은 주어진 데이터에 대해 각 관측치를 미리 정의된 범주 또는 클래스에 분류하는 데 사용되는 통계적 기법이다. 이 기법은 주로 데이터가 여러 클래스에 속하는 경우, 각 클래스의 특성을 기반으로 새로운 관측치를 올바른 클래스에 분류하기 위해 사용된다.

## 판별 분석이란?

판별 분석은 각 클래스가 데이터에서 어떻게 분포되어 있는지를 모델링하여, 주어진 관측치를 클래스 중 하나로 분류하는 방법을 제공한다. 주요 목적은 클래스 간의 차이를 명확히 하고, 각 관측치가 속할 클래스의 확률을 계산하여 분류하는 것이다.

## 언제 사용하나?

판별 분석은 다음과 같은 경우에 유용하게 사용된다:

- **분류 문제**: 이미 레이블이 붙어 있는 데이터를 기반으로 새로운 데이터 포인트를 분류할 때.
- **클래스 간 차이 분석**: 서로 다른 클래스 간의 차이를 이해하고자 할 때.
- **특성 선택**: 데이터의 주요 특성을 식별하여 분류 성능을 향상시키고자 할 때.

## 판별 분석의 종류

### 1. **선형 판별 분석 (LDA, Linear Discriminant Analysis)**

선형 판별 분석은 각 클래스의 데이터 분포를 모델링하고, 클래스 간의 차이를 최대화하며 클래스 내의 변동성을 최소화하는 선형 변환을 찾는다. LDA는 각 클래스가 정규 분포를 따른다고 가정하고, 클래스 간의 분산을 최대화하는 직선(또는 평면)을 찾는다.

수식으로 표현하면,

$$
\text{LDA: } \mathbf{w} = \text{argmax}_{\mathbf{w}} \frac{(\mathbf{w}^T \mathbf{S}_B \mathbf{w})}{(\mathbf{w}^T \mathbf{S}_W \mathbf{w})}
$$

여기서 $\mathbf{S}_B$는 클래스 간 분산 행렬, $\mathbf{S}_W$는 클래스 내 분산 행렬이다.

### 2. **피셔의 선형 판별 분석 (Fisher's Linear Discriminant Analysis)**

피셔의 선형 판별 분석은 LDA의 특수한 경우로, 클래스 간의 분산과 클래스 내의 분산을 이용하여 데이터의 차원을 축소하고, 가장 효과적으로 클래스 간의 차이를 극대화하는 선형 판별 함수(또는 축)를 찾는다. 이는 선형 판별 분석과 동일한 방법론을 사용하지만, 특정 클래스 간의 분리도를 최대화하는 데 중점을 둔다.

수식으로 표현하면,

$$
\text{Fisher's LDA: } \mathbf{w} = \text{argmax}_{\mathbf{w}} \frac{(\mathbf{w}^T \mathbf{S}_B \mathbf{w})}{(\mathbf{w}^T \mathbf{S}_W \mathbf{w})}
$$

여기서 $\mathbf{S}_B$는 클래스 간 분산, $\mathbf{S}_W$는 클래스 내 분산이다.

### 3. **이차 판별 분석 (QDA, Quadratic Discriminant Analysis)**

이차 판별 분석은 각 클래스가 다른 공분산 행렬을 가지며, 클래스 간의 결정 경계가 이차 곡선으로 나타날 수 있도록 한다. QDA는 LDA보다 더 유연하지만, 더 많은 파라미터를 추정해야 한다.

수식으로 표현하면,

$$
\text{QDA: } \mathbf{x} \text{ belongs to class } k \text{ if } p(\mathbf{x} | \text{class } k) \text{ is maximized}
$$

여기서 $p(\mathbf{x} | \text{class } k)$는 클래스 $k$에서의 데이터의 확률 밀도 함수이다.

## 공분산의 동질성 확인

LDA와 QDA의 주요 차이는 공분산 행렬의 동질성 여부이다. LDA는 모든 클래스가 동일한 공분산 행렬을 가진다고 가정하는 반면, QDA는 각 클래스가 서로 다른 공분산 행렬을 가질 수 있다고 가정한다. 피셔의 선형 판별 분석(Fisher's LDA)도 LDA와 유사하게 공분산의 동질성을 가정한다.

이러한 가정을 검정하기 위해 **Box's M-test**를 사용할 수 있다. Box's M-test는 여러 그룹 간의 공분산 행렬이 동일한지 검정하는 데 사용된다.

## SVM과의 차이점

판별 분석과 서포트 벡터 머신(SVM)은 모두 분류 문제를 해결하는 데 사용되지만, 그 접근 방식에는 차이가 있다:

- **모델링 방식**: LDA와 QDA는 클래스의 분포를 모델링하여 분류 경계를 찾는다. 반면, SVM은 주어진 데이터에서 결정 경계를 찾기 위해 서포트 벡터(즉, 경계에 가장 가까운 데이터 포인트)를 사용한다.

- **결정 경계**: LDA는 선형 결정 경계를 찾지만, QDA는 이차 결정을 가능하게 한다. SVM은 비선형 결정 경계를 찾기 위해 커널 함수를 사용할 수 있다.

- **클래스 간 차이**: LDA는 클래스 간의 분산을 최대화하는 방식으로 작동하며, 클래스 내의 분산을 최소화하려고 한다. SVM은 마진을 최대화하려고 하며, 클래스 간의 거리(마진)를 최대화하는 방식으로 작동한다.

## 결론

판별 분석은 데이터가 여러 클래스에 속할 때 유용하게 사용되며, 다양한 판별 기법을 통해 효과적으로 데이터 분류를 수행할 수 있다. 각 기법은 특정 문제와 데이터의 특성에 따라 적절하게 선택하여 사용할 수 있다.