# 主成分分析PCA
---
主成分分析是一种常用的无监督学习方法, 这一方法利用正交变换把由**线性相关**变量表示的观测数据转换为少数几个由**线性无关**变量表示的数据, 线性无关的变量称为**主成分**.主成分的个数通常小于原始变量的个数, 所以主成分分析属于**降维**方法
> 所谓线性相关的$x_1$和$x_2$就是说知道$x_1$的值的情况下，$x_2$的预测不是完全随机的

## 总体主成分分析
### 基本想法
数据的变量之间可能存在相关性, 以致增加分析的难度.于是, 考虑由少数不相关的变量(新变量), 用来表示数据, 并且要求能保留数据中的大部分信息.
1. 对数据进行规范化: 不同变量可能有不同的量纲，直接求主成分有时会产生不合理的结果。常对各个随机变量实施规范化，使其均值为0，方差为1。
1. 正交变换: 将原来线性相关变量表示的数据,通过正交变换成若干个线性无关的新变量表示的数据. 新变量是可能的正交变换中变量的**方差的和**(信息保存)最大的

### 定义
假设m维变量$\boldsymbol x = (x_1, x_2, \cdots, x_m)^T$, 其均值向量
$$\boldsymbol\mu = E(\boldsymbol x) = (\mu_1, \mu_2, \cdots, \mu_m)$$
协方差矩阵
$$\Sigma = cov(\boldsymbol x, \boldsymbol x) = E[(\boldsymbol x - \boldsymbol \mu)(\boldsymbol x - \boldsymbol \mu)^T]$$
将$\boldsymbol x$线性变换到$\boldsymbol y = (y_1, y_2, \cdots, y_m)^T$
$$y_i = \alpha_i^T \boldsymbol x = \alpha_{1i} x_1 + \alpha_{2i} x_2 + \cdots + \alpha_{mi} x_m $$
其中$\alpha_i^T = (\alpha_{1i}, \alpha_{2i}, \cdots, \alpha_{mi}) \quad i=1, 2, \cdots, m$

由随机变量的性质可知,
$$E(y_i) = \alpha_i^T\boldsymbol x,  \\ 
var(y_i) = \alpha_i^T\Sigma\alpha_i, \\
cov(y_i, y_j) = \alpha_i^T\Sigma\alpha_j, \\
$$
总体主成分定义: 给定一个 $y_i$的线性变换, 如果他们满足条件
1. 系数向量$\alpha_i^T$是单位向量, 即$\alpha_i^T \alpha_i = 1$(正交变换), 
1. 变量$y_i$与变量$y_j$互不相关, 即$cov(y_i, y_j) = 0$,
1. 变量$y_1$是$\boldsymbol x$的所有线性变换中方差最大的(第一主成分), $y_2$是与$y_1$不相关的x的所有线性变换中方差最大的(第二主成分), ...

### 主要性质
1. $x$的第k主成分的方差是$$var(y_k) = \alpha_k^T\Sigma\alpha_k = \lambda_k$$,即协方差矩阵$\Sigma$的第k个特征值
1. y = A^Tx , A为正交矩阵($A^T = A^{-1}$)
$$A = \begin{bmatrix}\alpha_{11}& \alpha_{12}& \cdots& \alpha_{1m} \\
\alpha_{21}& \alpha_{22}& \cdots& \alpha_{2m} \\
\vdots& \vdots&  & \vdots \\
\alpha_{m1}& \alpha_{m2}& \cdots& \alpha_{mm}
\end{bmatrix}$$
1. 总体主成分y的协方差矩阵为对角矩阵$$\mathrm{cov}(\boldsymbol{y})=\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\cdots,\lambda_m)$$
1. 总体主成分y的方差之和等于随机变量x的方差之和$$\sum\limits_{i=1}^m\lambda_i=\sum\limits_{i=1}^m\sigma_{ii}$$
 $\sigma_{ii}$是随机变量$x_i$的方差, 即协方差矩阵$\Sigma$的对角元素
$$\sum\limits_{i=1}^m \mathrm{var}(x_i)=\mathrm{tr}(\mit{\Sigma}^\mathrm{T}\mathrm)=tr\mathrm(A\Lambda A^\mathrm{T}\mathrm)=\mathrm{tr}\mathrm(\Lambda\mathrm)=\sum\limits_{i=1}^m\lambda_i=\sum\limits_{i=1}^m \mathrm{var}\mathrm(y_i\mathrm)$$
1. 因子负荷量(factor loading),
$$\rho(y_k, x_i)=\frac {\sqrt{\lambda_k}\alpha_{ik}}{\sqrt{\sigma_{ii}}}$$,表示第k个主成分和变量$x_i$的相关系数.

    第k个主成分$y_k$与m个变量的因子负荷量满足
    $$\sum_{i=1}^m \sigma_{ii}\rho^2(y_k, x_i) = \lambda_k $$
    m个主成分与第i个变量的$x_i$的因子负荷量满足
    $$
    \sum_{k=1}^m \rho^2(y_k, x_i) = 1
    $$

### 主成分的个数
主成分分析的主要目的是降维, 所以一般选择$k(k << m)$个主成分(线性无关变量)来代替m个原有变量(线性相关变量)使得问题简化, 并能保留原有变量的大部分信息(方差).
将x从m维变换到q维的正交线性变化
 $$y = B^Tx$$
当B为x的前q个主成分时, 能最大限度地保留原有变量方差的信息.

**方差贡献率**: 第k主成分的方差贡献率定义为$y_k$的方差与所有方差之和的比
$$\eta_k = \frac {\lambda_k}{\sum_{i=1}^m \lambda_i}$$
**累计方差贡献率**:
$$\sum_{i=1}^k\eta_i = \frac {\sum_{i=1}^k\lambda_i}{\sum_{i=1}^m \lambda_i}$$
通常取k使得累计方差贡献率达到规定的百分比以上.

k个主成分$y_1, y_2, \cdots, y_k$对原有变量$x_i$的贡献率($x_i$保留信息的比例)
$$\nu_i = \rho^2(x_i, (y_1, y_2, \cdots, y_k)) = \sum_{j=1}^k \rho^2(x_i, y_j) = \sum_{j=1}^k \frac {\lambda_j\alpha_{ij}^2}{\sigma_{ii}}$$

### 规范化变量的总体主成分
这部分内容描述了规范化随机变量的总体主成分的性质，概括下就是：特征值，特征值的和，特征变量，特征变量按行求和; 特征变量按列求和。
1. $\Lambda^*=\mathrm{diag}(\lambda_1^*, \lambda_2^*, \cdots, \lambda_m^*)$
1. $\sum\limits_{k=1}^m \lambda_k^*=m$
1. $\rho(y_k^*, x_i^*)=\sqrt{\lambda_k^*}e_{ik}^*, k,i=1,2,\cdots,m$
1. $\sum\limits_{i=1}^m\rho^2(y_k^*,x_i^*)=\sum\limits_{i=1}^m\lambda_k^*e_{ik}^{*2}=\lambda_k^*,k=1,2,\cdots,m$
1. $\sum\limits_{k=1}^m\rho^2(y_k^*,x_i^*)=\sum\limits_{k=1}^m\lambda_k^*e_{ik}^{*2}=1,i=1,2,\cdots,m$

## 样本主成分分析
在观测数据上进行主成分分析就是样本主成分分析.
- 样本矩阵
$$X = \begin{bmatrix} \boldsymbol x_1 & \boldsymbol x_2&  \cdots& \boldsymbol x_n\end{bmatrix}$$
其中$\boldsymbol x_j = (x_{1j}, x_{2j}, \cdots, x_{mj})^T$表示第$j$个观测样本.

- 样本均值向量
$$\bar x = \frac 1 n \sum_{j=1}^n \boldsymbol x_j$$
- 样本协方差矩阵
$$S = [s_{ij}]_{m \times m} \\ 
s_{ij} = \frac 1 {n-1}\sum_{k=1}^n(x_{ik} - \bar x_i)(x_{jk} - \bar x_j)
$$
其中$\bar x_i = \frac 1 n sum_{k=1}^n x_{ik}$为第i个变量的样本均值.
- 样本相关矩阵$R$为
$$R = [r_{ij}]_{m\times m}, \quad r_{ij} = \frac {s_{ij}} {\sqrt{s_{ii}s_{jj}}}, \quad i,j= 1, 2, \cdots, m$$
- 线性变换后的m维向量$\boldsymbol y$ 
$$ y_i = \alpha_i^T\boldsymbol x$$
$y_i$的样本均值为
$$\bar y_i = \frac 1 n \sum_{j=1}\alpha_i^T\boldsymbol x_j = \alpha_i^T \bar x$$
- $y_i$的样本方差
$$var(y_i) = \frac 1{n-1}\sum_{j=1}^n(\alpha_i^Tx_j - \alpha_i^T\bar x)^2 = \alpha_i^TS\alpha_i$$

- 任意两个线性变换$y_i$和$y_k$的样本协方差
$$cov(y_i, y_k)=\alpha_i^TS\alpha_k$$

In [11]:
import numpy as np

In [3]:
a = np.arange(9).reshape(3, 3)
a[1] = [3, 6, 9]
np.cov(a)

array([[1., 3., 1.],
       [3., 9., 3.],
       [1., 3., 1.]])

In [8]:
b = np.array([[2, 1, 0], [1, 2, 0], [0, 1, 2]])
b * b.T

array([[4, 1, 0],
       [1, 4, 0],
       [0, 0, 4]])