# 대응분석 (Correspondence Analysis)

## 대응분석이란?
대응분석(Correspondence Analysis, CA)은 범주형 데이터의 행렬을 시각화하고 해석하는 다변량 통계 기법이다. 주로 교차표(contingency table)와 같은 빈도 데이터를 분석하는 데 사용되며, 데이터의 행과 열을 각각 포인트로 매핑하여 저차원 공간에 시각화하는 방법을 제공한다. 이 분석은 데이터를 단순화하고 해석하기 쉽게 만들어 준다.

## 언제 필요한가?
대응분석은 다음과 같은 상황에서 유용하다:
1. **범주형 데이터 시각화**: 범주형 데이터를 시각적으로 해석하고자 할 때.
2. **교차표 분석**: 행과 열 변수 간의 관계를 이해하고자 할 때.
3. **데이터 차원 축소**: 다차원 데이터를 저차원으로 축소하여 주요 패턴을 파악하고자 할 때.
4. **범주 간의 연관성 탐색**: 서로 다른 범주 간의 연관성을 탐색하고자 할 때.

## 바트 행렬이란?
바트 행렬(Burt Matrix)은 다중 대응분석(Multiple Correspondence Analysis, MCA)에서 사용되는 특수한 형태의 행렬이다. 이는 원래의 교차표를 확장하여 모든 범주 변수 간의 모든 가능한 교차표를 포함하는 대칭 행렬이다. 바트 행렬은 대응분석에서 중요한 역할을 하며, 이를 통해 변수들 간의 관계를 더 명확히 이해할 수 있다.

### 바트 행렬의 구성
바트 행렬은 각 변수의 고유 범주를 기준으로 블록 행렬을 구성한다. 예를 들어, 두 범주형 변수 $A$와 $B$가 있을 때, 바트 행렬은 다음과 같은 구조를 갖는다:
$$
\mathbf{B} = \begin{bmatrix}
\mathbf{A} & \mathbf{AB} \\
\mathbf{AB}^T & \mathbf{B}
\end{bmatrix}
$$
여기서 $\mathbf{A}$는 변수 $A$의 고유 범주 간의 교차표, $\mathbf{B}$는 변수 $B$의 고유 범주 간의 교차표, $\mathbf{AB}$는 변수 $A$와 $B$의 교차표를 나타낸다.

## 바트 행렬 분석 방법
바트 행렬이 주어졌을 때, 이를 분석하는 방법은 다음과 같다:

### 1. 행렬의 분해
바트 행렬을 특이값 분해(SVD, Singular Value Decomposition)를 통해 분해한다. 이는 행렬을 세 개의 행렬의 곱으로 표현하는 방법으로, 다음과 같이 나타낼 수 있다:
$$
\mathbf{B} = \mathbf{U} \mathbf{S} \mathbf{V}^T
$$
여기서 $\mathbf{U}$와 $\mathbf{V}$는 직교 행렬, $\mathbf{S}$는 대각 행렬이다.

### 2. 저차원 공간으로의 투영
특이값 분해를 통해 얻은 $\mathbf{U}$와 $\mathbf{S}$를 사용하여 데이터를 저차원 공간에 투영한다. 주요 특이값과 이에 대응하는 특이벡터를 선택하여 데이터의 주요 구조를 파악한다.

### 3. 시각화
투영된 데이터를 2차원 또는 3차원 공간에 시각화하여 행과 열 변수 간의 관계를 이해한다. 이 시각화는 변수 간의 연관성을 쉽게 파악할 수 있도록 도와준다.


## 대응분석의 개념
대응분석에는 몇 가지 중요한 개념이 포함된다:

### 1. 행 프로파일 (Row Profile)
행 프로파일은 각 행의 값들을 해당 행의 합으로 나눈 값이다. 이는 각 행이 데이터의 전체 구조에서 차지하는 비율을 나타낸다.

### 2. 열 프로파일 (Column Profile)
열 프로파일은 각 열의 값들을 해당 열의 합으로 나눈 값이다. 이는 각 열이 데이터의 전체 구조에서 차지하는 비율을 나타낸다.

### 3. 평균 프로파일 (Centroid)
평균 프로파일은 모든 행 또는 열 프로파일의 평균을 나타낸다. 이는 데이터의 중심을 나타내며, 중심에서 각 포인트까지의 거리를 계산하는 데 사용된다.

### 4. 카이제곱 거리 (Chi-square Distance)
카이제곱 거리는 범주형 데이터의 두 행 또는 열 간의 유사성을 측정하는 데 사용된다. 이는 다음과 같이 정의된다:
$$
d_{ij}^2 = \sum_k \frac{(f_{ik} - f_{jk})^2}{f_{k}}
$$
여기서 $f_{ik}$는 $i$행과 $k$열의 빈도, $f_{jk}$는 $j$행과 $k$열의 빈도, $f_{k}$는 $k$열의 총 빈도이다.

대응분석을 통해 범주형 데이터의 숨겨진 구조를 발견하고 시각적으로 해석할 수 있다. 이는 데이터 분석에서 중요한 통찰을 제공하며, 다양한 분야에서 널리 사용된다.