# 정준상관분석 : 소개
* 정준상관분석(Canonical Correlation Analysis, CCA)은 두 개의 다변량 변수 집합 간의 관계를 탐색하고 측정하는 통계적 기법이다. 
* 두 개의 변수 집합에서 각각의 선형 결합을 찾아 이들 간의 상관관계를 최대화하는 방법을 제공한다.

## 왜 정준상관분석을 하는가?

정준상관분석은 다음과 같은 이유로 사용된다:

1. 다변량 변수 간의 상관관계 이해:
* CCA는 두 개의 다변량 변수 집합 간의 상관관계를 이해하는 데 사용된다.
* 이는 각 변수 집합이 다른 변수 집합과 어떻게 관련되어 있는지를 파악하는 데 도움이 된다.
2. 데이터 차원 축소:
* CCA는 데이터를 선형 결합으로 축소하여 각 변수 집합에서 가장 중요한 변동성을 설명하는 정준 변수를 생성한다. 
* 이는 데이터의 차원을 줄이고, 중요한 패턴을 강조하는 데 유용하다.
3. 변수 선택:
* CCA는 두 변수 집합 간의 상관관계가 높은 변수를 식별하는 데 사용될 수 있다. 
* 이를 통해 중요한 변수를 선택하고, 덜 중요한 변수를 제거할 수 있다.

## 언제 정준상관분석을 하는가?

정준상관분석은 다음과 같은 상황에서 사용된다:

1. 두 개의 다변량 데이터 집합이 있을 때:
* CCA는 두 개의 다변량 데이터 집합 간의 관계를 분석하고자 할 때 사용된다. 
* 예를 들어, 학생들의 성적(수학, 영어, 과학)과 심리적 특성(자존감, 스트레스, 동기부여) 간의 관계를 분석할 때 유용하다.
2. 변수 집합 간의 상관관계를 탐색할 때:
* CCA는 변수 집합 간의 상관관계를 탐색하고, 각각의 선형 결합을 찾아 상관관계를 최대화하고자 할 때 사용된다.


## 어떻게 정준상관분석을 하는가?

정준상관분석은 다음의 단계로 수행된다:

1. 데이터 준비:
* 분석할 두 개의 다변량 데이터 집합 $X$와 $Y$를 준비한다.  
* 여기서 $X$는 p개의 변수로 구성된 데이터 집합이고, $Y$는 q개의 변수로 구성된 데이터 집합이다.

2. 정준 변수를 찾기 위한 선형 결합 계산:
* 각각의 데이터 집합 ${X}$와 ${Y}$에서 선형 결합을 통해 정준 변수를 찾는다.
* 이를 위해, 두 데이터 집합의 선형 결합 ${a}$와 ${b}$를 찾아야 한다:  

$$
{u} = {X} {a}, \quad {v} = {Y} {b}
$$

* 여기서 ${u}$와 ${v}$는 각각 ${X}$와 ${Y}$의 정준 변수이다.

3. 상관관계 최대화:
정준변수 ${u}$와 ${v}$ 간의 상관관계를 최대화하기 위해 ${a}$와 ${b}$를 최적화한다:

$$
\rho = \max_{{a}, {b}} \text{corr}({u}, {v}) = \max_{{a}, {b}} \text{corr}({X} {a}, {Y} {b})
$$

* 여기서 $\rho$ 는 정준 상관계수(canonical correlation coefficient)이다.

4. 반복 계산:
* 첫 번째 정준 변수 쌍을 찾은 후, 남은 변동성을 설명하기 위해 반복적으로 정준 변수를 계산한다.   
* 이 과정에서 새로운 정준 변수는 이전 정준 변수와 직교해야 한다.

5. 결과 해석:
* 최종적으로 계산된 정준 상관계수와 정준 변수를 해석한다.
* 이를 통해 두 변수 집합 간의 상관관계를 파악하고, 각 변수 집합에서 중요한 변수를 식별할 수 있다.

# 정준상관분석 : 최적화 이론

## 최적화 문제로 보기

CCA는 다음과 같은 최적화 문제로 정의된다:

1. 목표 함수:
* 두 변수 집합 $ {X} $와 $ {Y} $에서 각각의 선형 결합 $ {a} $와 $ {b} $를 찾아 정준 상관계수 $ \rho $를 최대화하는 것이 목표이다. 

* 정준 상관계수 $ \rho $는 다음과 같이 정의된다:
$$
\rho = \max_{{a}, {b}} \text{corr}({X} {a}, {Y} {b})
$$

* 여기서 $ \text{corr} $는 두 변수 간의 상관관계를 나타낸다.

2. 제약 조건:
* 선형 결합 $ {a} $와 $ {b} $는 각각 단위 분산을 가지도록 제약을 둔다. 이는 다음과 같은 수식으로 표현된다:

$$
\text{Var}({X} {a}) = {a}^T {S}_{xx}~{a} = 1
$$

$$
\text{Var}({Y} {b}) = {b}^T {S}_{yy}~{b} = 1
$$

* 여기서 $ {S}{xx} $와 $ {S}{yy} $는 각각 $ {X} $와 $ {Y} $의 공분산 행렬이다.

## 라그랑주 승수법

정준상관분석의 최적화 문제는 라그랑주 승수를 사용하여 해결할 수 있다.  
이를 통해 최적의 선형 결합 $ \mathbf{a} $와 $ \mathbf{b} $를 구하는 과정은 다음과 같다:

1. 라그랑주 함수 구성:

* 라그랑주 함수 $ L $은 목표 함수와 제약 조건을 포함하여 다음과 같이 정의된다:

$$
L({a}, {b}, \lambda_1, \lambda_2) = {a}^T {S}_{xy}~{b} - \lambda_1 ({a}^T {S}_{xx}~{a} - 1)
- \lambda_2 ({b}^T {S}_{yy}~{b} - 1)
$$

* 여기서 $ {S}_{xy} $는 $ {X} $와 $ {Y} $ 간의 공분산 행렬이며, $ \lambda_1 $과 $ \lambda_2 $는 라그랑주 승수이다.

2. 라그랑주 함수의 편미분:
* 라그랑주 함수 $ L $을 ${a} $와 ${b} $에 대해 편미분하고 이를 0으로 놓아 최적 조건을 찾는다:

$$
\begin{align*}
&\frac{\partial L}{\partial{a}} ={S}_{xy~}{b}~-~2\lambda_1~{S}_{xx}~{a} = 0 
\\[10pt]
&\frac{\partial L}{\partial{b}} ={{S}_{xy}}^{T}{a}~-~2\lambda_2~{S}_{yy}~{b} = 0
\end{align*}
$$

3. 일반화된 고유값 문제:
* 위의 편미분 방정식을 정리하면, 이는 다음과 같은 일반화된 고유값 문제로 귀결된다:

$$
{{S}_{xx}}^{-1}~{{S}_{xy}}~{{S}_{yy}}^{-1}~{{S}_{yx}}~{a} = \lambda_1 {a} 
\\[10pt]
{{S}_{yy}}^{-1}~{{S}_{yx}}~{{S}_{xx}}^{-1}~{{S}_{xy}}~{b} = \lambda_2 {b}
$$
