### 1. Intution of PCA
- ```Aim:``` construct a new set of dimensions ($m$) to represent original data with $d$ dimensions, where $m<<d$, that is, we want to change the coordinates of every data point to the $m$ dimensions.
- ```What we need to know:```
  - New coordinate of the origin, $O$;
  - New angels of the coordinate system or the directions;
  - New coordinate of each sample point.
- ```Objective:``` reduce the dimensions while maintaining the most information
  - The information amount of a pincipal conponent $y_{1}$ is measured by the variances of points projected to its direction, information amount is greater when the variances are larger (can also be measured by the sum of distances between original points and the direction)
  - Therefore, to maintain the most information, we need to find the one with the largest variance and the smallest sum of distances (maximize the variance and minize the distances):
  <p align="center">
<img src=images/3.3.1.png width="400" height="300" alt="5" align=centering>



### 2. PCA algorithm
- Step 1: let the center of the sample data to be the new origin, subtract mean from each attribute
$$ \mathbf{x}_{i,j} = \mathbf{x}_{i,j} - \mu_{j} $$
- Step 2: compute the covariance matrix
$$ C^{'} = \frac{1}{n-1} D^{'}D^{'T} $$
We know that $ C^{'} = RLR^{-1} $ and we want to get $R$ and $L$
$$ C^{'}R = RL $$
- Step 3: find eigenvalues by $det(C^{'}-LI)=0$
- Step 4: find $i_{th}$ eigenvector by solving $C^{'} R_{i} = L_{i} R_{i}$
- Step 5: apply the principal component matrix to the original data:
$$ Y = R^{T}X $$

### 3. 数据的线性变换（补充背景知识）
- 拉伸：
<p align="center">
<img src=images/3.3.2.png width="400" height="200" alt="5" align=centering>

- 旋转：
<p align="center">
<img src=images/3.3.3.png width="400" height="200" alt="5" align=centering>

- 白数据：
<p align="center">
<img src=images/3.3.4.png width="400" height="200" alt="5" align=centering>

- 需要降维的数据可以由白数据进行拉伸以及旋转得到：
<p align="center">
<img src=images/3.3.5.png width="400" height="200" alt="5" align=centering>

- 反之，我们可以通过逆向拉伸和旋转把需要降维的数据变成白数据，其中$R^{-1}$等于$R^{T}$
<p align="center">
<img src=images/3.3.6.png width="400" height="200" alt="5" align=centering>

- 求R：R是协方差矩阵的特征向量
- 协方差：表示的是两个变量在变化过程中的联系（变化方向和程度）
$$ cov(\mathbf{x},\mathbf{y}) = \frac{\sum_{i=1}^n (x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1} $$
- 协方差矩阵：
$
 \left[
 \begin{matrix}
   cov(\mathbf{x_{1}},\mathbf{x_{1}}) & cov(\mathbf{x_{1}},\mathbf{x_{2}}) & cov\mathbf{x_{1}}\mathbf{x_{3}}) ... & cov(\mathbf{x_{1}},\mathbf{x_{m}})\\
   cov(\mathbf{x_{2}},\mathbf{x_{1}}) & cov(\mathbf{x_{2}},\mathbf{x_{2}}) & cov（\mathbf{x_{2}}\mathbf{x_{3}}) ... & cov(\mathbf{x_{2}},\mathbf{x_{m}})\\
   ...&...&...&...\\
   cov(\mathbf{x_{m}},\mathbf{x_{1}}) & cov(\mathbf{x_{m}},\mathbf{x_{2}}) & cov（\mathbf{x_{m}}\mathbf{x_{3}}) ... & cov(\mathbf{x_{m}},\mathbf{x_{m}})\\
  \end{matrix}
  \right]
$
$$ C = \frac{1}{n-1}DD^T $$
- 推导过程：
因为有：$ D^{'} = RSD $ 和 $ C^{'} = \frac{1}{n-1} D^{'} D^{'T} $
所以可得：
$$ C^{'} = \frac{1}{n-1}RSD(RSD)^T $$
$$ = \frac{1}{n-1}RSDD^TS^TR^T $$
$$ = RSCS^TR^T $$
因为D是白数据，它的协方差矩阵其实是单位矩阵，可忽略
所以：
$$ C^{'} = RSS^TR^T $$
S定义的是一个只有对角线上有数据的拉伸矩阵，所以$S = S^T$，我们令$L = SS^T$；且因为$R^{-1} = R^{T}$，所以可用$R^{-1}$替换$R^{T}$
可得：
$$ C^{'} = RLR^{-1} $$
- 特征向量与特征值：
$$C^{'}v = \lambda v$$
如果令$\mathbf{V}$和$\mathbf{\lambda}$分别代表特征向量和特征值矩阵，可以写成：
$$C^{'}\mathbf{V} = \mathbf{\lambda}\mathbf{V}$$
$$C^{'} = \mathbf{V} \mathbf{\lambda}\mathbf{V^{-1}}$$
对比以上公式$ C^{'} = RLR^{-1} $，我们可得
$$L = \mathbf{\lambda} = SS^{T}$$
即
$$
 \left[
 \begin{matrix}
   \lambda_{1} & 0 &...& 0\\
   0 & \lambda_{2} & ... & 0\\
   ...&...&...&...\\
   0 & 0 & ... & \lambda_{m}\\
  \end{matrix}
  \right]
  =
  \left[
 \begin{matrix}
   a_{1}^{2} & 0 &...& 0\\
   0 & a_{2}^{2} & ... & 0\\
   ...&...&...&...\\
   0 & 0 & ... & a_{m}^{2}\\
  \end{matrix}
  \right]
$$
- $a_{m}^{2}$就是原数据投射至第$m$个主成分上后的方差，与$\lambda_{m}$ （与第$m$个主成分，也就是第$m$个特征向量对应的特征值）相等
- 再深入研究一下$ C^{'} = RLR^{-1} $：
$ C^{'} $ 是需要降维的数据的协方差，$R$表示的它是特征向量矩阵，而$L$它是特征值矩阵，也同时是$D^{'}$在坐标系进行$R^{-1}$方向变换后的新坐标系上的协方差（此时任意两个维度上的数据都是正交的）
<p align="center">
<img src=images/3.3.7.png width="400" height="200" alt="5" align=centering>

### 4. SVD (补充)
<p align="center">
<img src=images/3.3.8.png width="400" height="200" alt="5" align=centering>

- 拓展到矩阵层面
<p align="center">
<img src=images/3.3.9.png width="400" height="200" alt="5" align=centering>

- 奇异值矩阵中的值是按从大到小排列的，可选择前几个来进行分解：
<p align="center">
<img src=images/3.3.10.png width="400" height="200" alt="5" align=centering>

- 求SVD分解
$$ M = U\Sigma V^{T} $$
$$ M^{T}M = (U\Sigma V^{T})^{T}U\Sigma V^{T} $$
$$ M^{T}M = V\Sigma U^{T}U\Sigma V^{T} $$
$$ M^{T}M = V\Sigma\Sigma V^{T} $$
令$\Sigma\Sigma = L$,
$$ M^{T}M = VLV^{T} $$
$$ M^{T}MV = VL $$
$$ MM^{T}U = UL $$
由特征向量和特征值的公式：
$$ D\mathbf{V} = \mathbf{\lambda}\mathbf{V} $$
可得：$V$是$M^{T}M$的特征向量，$U$是$MM^{T}$的特征向量, $L$均为两者的特征值，而$\Sigma$则是特征值开放构成的对角阵
<p align="center">
<img src=images/3.3.11.png width="400" height="400" alt="5" align=centering>

### 5. 联系PCA和SVD
<p align="center">
<img src=images/3.3.12.png width="400" height="200" alt="5" align=centering>

Reference:
- https://www.bilibili.com/video/BV1E5411E71z?t=1120
- 李航，2019，统计学习方法（第二版）