# Principal Component Analysis (PCA)
> Unsupervised feature extraction:주성분분석
- toc: true
- branch: master
- badges: false
- comments: true
- author: pinkocto
- categories: [python]

## 고차원 데이터

<img src = "./my_icons/high_dim_data.PNG">

- 변수의 수가 많은 $\to$ 불필요한 변수 존재
- 시각적으로 표현하기 어려움
- 계산 복잡도 증가 $\to$ 모델링 비효율적
- 중요한 변수만을 선택 $\to$ 차원축소

## 변수 선택 / 추출을 통한 차원축소

### 변수선택 (selection) : 
> 분석 목적에 부합하는 소수의 예측변수만을 선택
- 장점: 선택한 변수 해석 용이
- 단점: 변수간 상관관계 고려 어려움

### 변수추출 (extraction) : 
> 예측변수의 변환을 통해 새로운 변수 추출
- 장점: 변수 간 상관관계 고려, 일반적으로 변수의 개수를 많이 줄일 수 있음
- 단점: 추출된 변수의 해석이 어려움

<img src = "./my_icons/feature_select.PNG">

#### <font color='blue'>Supervised</font> <font color='red'>feature selection</font>: 
Information gain, Stepwise regression, LASSO, Genetic Algorithm, $\dots$
#### <font color='blue'>Supervised</font> <font color='green'>feature extraction</font>:
Partial least squares (PLS)
#### <font color='purple'>Unsupervised</font> <font color='red'>feature selection</font>: 
PCA loading
#### <font color='purple'>Unsupervised</font> <font color='green'>feature extraction:</font> 
$Y$를 이용하지 않고 $X$들의 결합으로 변수를 추출하는 방법<br>
Pincipal Component Analysis (PCA), Wavelets transformms, Autoencoder


## PCA 개요
- 고차원 데이터를 효과적으로 분석하기 위한 대표적 분석 기법
- 차원축소, 시각화, 군집화, 압축
- PCA는 $n$개의 관측치와 $p$개의 변수로 구성된 데이터를 상관관계가 없는 $k$개의 변수로 구성된 데이터 ($n$개의 관측치)로 요약하는 방식으로, 이 때 요약된 변수는 기존 변수의 선형조합으로 생성됨.

- 원래 데이터의 분산을 최대한 보존하는 새로운 축을 찾고, 그 축에 데이터를 사영 ( Projection) 시키는 기법

- 주요 목적
    - 데이터 차원 축소 ($n \times p \to n\times k, \space where \space k << p)$
    - 데이터 시각화 및 해석
    
- 일반적으로 PCA는 전체 분석 과정 충 초기에 사용

<img src = "./my_icons/pca_outline.PNG">

$Z_1,Z_2, Z_3$은 기존 변수인 $X_1, X_2, \dots X_p$의 선형 조합으로 새롭게 생성된 변수

$Z$ is linear combination (선형결합) of the original $p$ variables in $X$

$$Z_1 = a_1^TX = a_{11}X_1 + a_{12}X_2 + \dots a_{1p}X_p$$
$$Z_2 = a_2^TX = a_{21}X_1 + a_{22}X_2 + \dots a_{2p}X_p$$
$$\vdots$$

$$Z_p = a_p^TX = a_{p1}X_1 + a_{p2}X_2 + \dots a_{pp}X_p$$


- $X_1, X_2, \dots, X_p$: 원래 변수 (original variable)
- $a_i = [a_{i1}, a_{i2}, \dots, a_{ip}]$, $i$번째 기저(basis) 또는 계수(Loading)
- $Z_1, Z_2, \dots, Z_p$ 각 기저로 사영 변환 후 변수 (주성분 : Score)

### 주성분 분석
아래 2차원 데이터를 좌측과 우측 두 개의 축에 사영시킬 경우 우측 기저(basis)가 좌측 기저에 비해 손실되는 정보의 양(분산의 크기)이 적으므로 상대적으로 선호되는 기저라고 할 수 있음

<img src="./my_icons/var-img.PNG">

- 1번축과 2번축에 이 데이터를 사영시킨 후에 그 데이터의 분산을 봤을 때 1번분산이 클까? 2번분산이 클까?

**답 : 2번이 분산이 더 크다.**

<img src = "./my_icons/var.PNG">
<img src = './my_icons/var2.PNG'>

- 위의 그림의 경우 1번의 분산이 더 크다.
- 주성분 분석의 관점에서 1번 축이 더 좋다. (원래 데이터의 분산을 최대화하는 1번 축이 더 좋다.)

## PCA 수리적 배경

$\bar{X} = \begin{bmatrix}
\bar{x}_1 \\ \bar{x}_2 \\ \dots \\ \bar{x}_p
\end{bmatrix}, \quad \text{Mean Vector}$


$C_n = \begin{bmatrix}
S_{11} & \dots & S_{1p} \\ \vdots  & \ddots & \vdots\\ 
S_{p1} & \dots & S_{pp}
\end{bmatrix}, \quad \text{Covariance Matrix}$



$R = \begin{bmatrix}
1  & r_{12} & \dots  & r_{1p} \\ 
r_{21} & 1 & \dots & r_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
r_{p1} & r_{p2} & \dots & 1
\end{bmatrix}, \quad \text{Correlation Matrix}$

### 공분산(Covariance)의 성질
- $\bf{X}$를 $p$개의 변수와 $n$개의 개체로 구성된 $n \times p$행렬로 정의할 떄 $\bf{X}$의 공분산 행렬은 다음과 같음

$$Cov(\bf{X}) = \frac{1}{n}(X-\bar{X})(X-\bar{X})^\top$$

- 공분산 행렬의 대각 성분은 각 변수의 분산과 같으며, 비대각행렬은 대응하는 두 변수의 공분산과 같음 (변수 개수 : $p$)

$$ C_x = Var[x] = \begin{bmatrix} 
Var[x_1] & Cov[x_1,x_2] & \dots & Cov[x_1, x_p] \\
Cov[x_2, x_1] & Var[x_2] & \dots & Cov[x_1,x_p] \\
\vdots & \vdots & \ddots & \vdots \\
Cov[x_p,x_1] & Cov[x_p,x_2] & \dots & Var[x_p]\\
\end{bmatrix}$$

$$=\begin{bmatrix} \sigma_{11} & \sigma_{12} & \dots & \sigma_{1p} \\
\sigma_{21} & \sigma_{22} & \dots & \sigma_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{p1} & \sigma_{p2} & \dots& \sigma_{pp}
\end{bmatrix}
=\begin{bmatrix} \sigma_1^2 & \sigma_{12} & \dots & \sigma_{1p} \\
\sigma_{21} & \sigma_{2}^2 & \dots & \sigma_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{p1} & \sigma_{p2} & \dots& \sigma_{p}^2
\end{bmatrix}$$

- 데이터의 총분산은 공분산행렬의 대각성분들의 합으로 표현됨.


$$tr[Cov(X)] = Cov(X)_{11} + Cov(X)_{22} + Cov(X)_{33} + \dots Cov(X)_{pp}$$

### 고유값 및 고유벡터
- 어떤 행렬 $\bf A$에 대해 상수 $\lambda$와 벡터 $\bf{x}$가 다음 식을 만족할 때, $\lambda$와 $\bf{x}$를 각각 행렬 $\bf{A}$의 고유값 및 고유벡터라고 함.

$$ \bf{A}\bf{x} = \lambda \bf{x} \to (\bf{A} - \lambda I)\bf{x} = 0$$

- 벡터에 행렬을 곱한다는 것은 해당 벡터를 선형변환 (linear transformation)한다는 의미 $\to$ 고유벡터는 이 변환에 의해 방향이 변하지 않는 벡터를 의미

##  PCA 알고리즘 - 주성분 추출

<img src = './my_icons/var_origin.PNG'>

- Assume that we have the centered data ($\text{i.e.}, \bar{X}_i=0,\space i=1,\dots,p$)
- Let $\bf{X}$ be an p-dimensional random vector with the covariance matrix $\Sigma$
- Let $\alpha$ be an p-dimensional vector of length one ($\text{i.e.}, \alpha^\top \alpha = 1)$
- Let $Z=\alpha^\top \bf{X}$ be the projection of $\bf{X}$ onto the direction $\alpha$

**<center>The main purpose in PCA is</center>**

**<center><font color='red'>to find $\alpha$ that produces the largest variance of $Z$</font></center>**

$$\text{Max}\space Var(Z) = Var(\alpha^\top\bf{X}) = \alpha^\top Var(\bf{X})\alpha = \alpha^\top\Sigma\alpha$$

$$\text{s.t.}\space||\alpha||=\alpha^\top\alpha=1$$