## 降维

降维的主要目的就是减少冗余。

降维给我们提供了一种可视化数据的途径，通过对数据的降维可以达到可视化的结果。

### PCA 主成分分析法

PCA会寻找投影误差最小的投影平面进行投影，所谓投影误差是指投影的点到投影平面的距离。

因此如果要应用PCA算法最好把各个特征标准化，这样就能更好的使用算法衡量投影结果。

#### PCA算法步骤

Principal Component Analysis （PCA） algorithm

Reduce data from n-dimensions to k-dimensions

1. Compute “covariance matrix”
$$\Sigma = \frac{1}{m}\sum_{i=1}^{n}(x^{(i)})(x^{(i)})^T$$
In this method, Finally $\Sigma \in \mathbb{R^n}$

2. Compute "eigenvectors" of matrix $\Sigma$:
Octive: $[U, S, V] = svd(\Sigma)$

3. From [U, S, V], We get:
$$U = \begin{bmatrix} |      & |      &      &    |   \\ 
                     u^{(1)}& u^{(2)}&\cdots& u^{(n)}\\ 
                     |      & |      &      &    |   \end{bmatrix}\in \mathbb{R}^{n\times n}$$
                     
4. From U We get: $U_K = [u^{(1)}, u^{(2)}, \cdots, u^{(k)}] \in \mathbb{R}^{(n \times k)}$

5. And then, we have $z = (U_K)^Tx \in \mathbb{R^{(k \times 1)}}$

#### Octave 代码

```octave
Sigma = 1/m*sum(x(i)*x(i)');

[U, S, V] = svd(Sigma);

Ureduce = U(:, 1:k);

z = Ureduce' * x
```

#### 怎么选择PCA降维维度？

这里有一个度量维度即

$$\frac{\frac{1}{m}\sum_{i=1}^{m}\|x^{(i)}-x_{approx}^{(i)}\|^2}{\frac{1}{m}\sum_{i=1}^{m}\|x^{(i)}\|^2} \le 0.01$$

使用上面的奇异值分解中就是：
因为 S 是一个对角矩阵，除了对角线上面的值不为零外其他值都为零，并且 $S \in \mathbb{R}^{n \times n}$, 因此，记S对角线上的值为 $s_1, s_2, ..., s_n$。

上面的度量标准就相当于：
$$1- \frac{\sum_{i=1}^ks_i}{\sum_{i=1}^ns_i} \le 0.01$$

其实上面的标准的意思就是，降维后的数据要依旧能代表元数据，也就是说他们的偏差不能超过 1%.

也就是说要保证特征之间99%的差异性。


#### 怎么将数据还原

首先，从 $x\rightarrow z$ 的转换过程是 $z = (U_K)^Tx$, 因此就有，再变回 x 的公式如下： $$x = z·U_K$$