# 利用 PCA 来简化数据

内容安排：
1. 降维技术
2. PCA
3. 示例
4. 协方差矩阵

## 1. 降维技术

**3 种降维技术**：
1. PCA(主成分分析，最流行的)
2. 因子分析
3. 独立成分分析

**降维的好处**：
1. 使得数据集更易使用
2. 降低很多算法的计算开销
3. 去除数据中的噪声

## 2. PAC

> PS ：一个数据由 n 个特征组成特征向量来表示。每个特征可看成一个坐标轴。那么，一个数据相当于是 n 维空间中的一个点。

**运用场景**：常用于预处理步骤，再数据应用到其他算法之前清理数据，使得数据变得更易使用且往往能够去除数据中的噪声。

**PCA 及其实现降维的原理**：将数据从原来的坐标系转换到了新的坐标系，新坐标系的选择是由数据本身决定的。1) 第一个新坐标轴选择是原始数据中方差最大的方向; 2) 第二个新坐标轴的选择和上一个坐标轴（即第一个新坐标轴）正交且具有最大方差的方向; 3) 该过程已知重复，重复次数等于原始数据坐标轴数目（即原始数据的特征数目）。我们会发现，大部分方差都包含再最前面几个新坐标轴中。因此我们可以忽略余下的坐标轴，即实现了对数据进行了降维处理。

**数据的最大方差方向**：给出了数据的最重要的信息。更形象地描述，该方向的坐标轴覆盖最多的数据。如下图直线 B 就是数据的最大方差方向。

![image.png](attachment:image.png)

**PCA 实现降维的过程**：根据上面 PCA 的原理描述，实现降维的过程分为 2 个步骤：
1. 坐标轴的旋转，这一步并没有减少数据的维度
2. 按照坐标轴的方差值从大到小排序，取前 N 个坐标轴作为数据的新表示。

**坐标轴的旋转和取 topN 个坐标轴的实现方法**：协方差矩阵。方差值用协方差矩阵的特征值表示

**PCA 伪代码**：
```
去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值从大到小排序
保留最大的 N 个特征向量
将数据表示转换到上述 N 个特征向量
```

**缺点**:（TODO:不懂）
1. 需要一次性将所有的数据集都调入内存。如果无法做到，就需要格外的方法实现。

In [1]:
import numpy as np

def pca(dataset, N=9999):
    '''
    PCA 实现降维算法，将数据维度为 n 降至 N 维
    当 N > n 时，返回的数据集维度(m,n) 但坐标轴变了
    :param dataset: [np.array(m,n)] 待降维的数据集
    :parm N: [int] 降维后的维度
    :return : [np.array(m,N)] lowdim_dataset 降维后的数据集
              [np.array(m,n)] recon_matrix 反向重构原始数据集，用于调试
    '''
    features_mean = np.mean(dataset, axis=0)  # 计算每个特征的平均值
    # 1. 去除平均值
    nonmean_dataset = dataset - features_mean
    # 2. 计算协方差矩阵
    cov_matrix = np.cov(nonmean_dataset, rowvar=0)
    # 3. 计算协方差矩阵的特征值和特征向量
    eig_vals, eig_vecs = np.linalg.eig(cov_matrix)  # (n,) (n,n)
    # 4. 将特征值从大到小排序
    sort_eig_vals_indexs = np.argsort(-eig_vals)
    # 5. 保留最大的 N 个特征向量
    topN_eig_vecs = eig_vecs[:, sort_eig_vals_indexs[:N]]  # (n,N)
    # 6. 将数据表示转换到上述 N 个特征向量
    lowdim_dataset = np.dot(nonmean_dataset, topN_eig_vecs)
    recon_matrix = (np.dot(lowdim_dataset, topN_eig_vecs.T)) + features_mean  # 反向重构原始数据集，用于调试
    return lowdim_dataset, recon_matrix

def load_data(filename, split_label='\t'):
    fr = open(filename)
    dataset = []
    for line in fr.readlines():
        line = line.strip().split(split_label)
        dataset.append(list(map(float, line)))
    
    return np.array(dataset)
    
dataset = load_data('./dataset/testSet.txt')
print('原始数据矩阵 ：', dataset.shape)
lowdim_dataset, recon_matrix = pca(dataset, 1)
print(lowdim_dataset.shape, recon_matrix.shape)

原始数据矩阵 ： (1000, 2)
(1000, 1) (1000, 2)


## 3. 示例：利用 PCA 对数据的降维

示例部分就是用更接近真实的数据测试上述的代码

**细节**：
1. 真实数据包含大量的缺失值，一般以 NaN 标识的。我们应该计算那些非 NaN 的平均值来代替缺失值。
2. 观察特征值(第 22 行代码),会发现其中有很多值为 0。这意味着这些特征都是其他特征的副本，也就是说，它们可以通过其他特征来表示，而本身并没有提供额外的信息。

In [14]:
def replace_nan2mean(dataset):
    '''
    将数据集中的缺失值用平均值代替
    :param dataset: [np.array(m,n)] 数据集
    :return : [np.array(m,n)] 
    '''
    n = dataset.shape[1]
    for i in range(n):
        mean_val = np.mean(dataset[np.nonzero(~np.isnan(dataset[:,i])),i])
        dataset[np.nonzero(np.isnan(dataset[:,i])),i] = mean_val
    return dataset

dataset = load_data('./dataset/secom.data', ' ')
dataset = replace_nan2mean(dataset)
print(dataset.shape)

# 进行 PCA 降维

features_mean = np.mean(dataset, axis=0)  # 计算每个特征的平均值
# 1. 去除平均值
nonmean_dataset = dataset - features_mean
# 2. 计算协方差矩阵
cov_matrix = np.cov(nonmean_dataset, rowvar=0)
# 3. 计算协方差矩阵的特征值和特征向量
eig_vals, eig_vecs = np.linalg.eig(cov_matrix)  # (n,) (n,n)
# print(eig_vals[:5])
# 4. 将特征值从小到大排序
sorted_eig_vals = sorted(eig_vals, reverse=True)
total_eig_val = float(np.sum(eig_vals))

# top 20 主成分所占的方差百分比
print('主成分\t方差百分比\t累积方差百分比')
sum_prop = 0.0
for i in range(20):
    cur_prop = sorted_eig_vals[i] / total_eig_val
    sum_prop += cur_prop
    if i <= 6 or i == 19:
        print(i+1,'\t',round(cur_prop*100,2), '\t', round(sum_prop*100,2))


(1567, 590)
主成分	方差百分比	累积方差百分比
1 	 59.25 	 59.25
2 	 24.12 	 83.38
3 	 9.15 	 92.53
4 	 2.3 	 94.83
5 	 1.46 	 96.29
6 	 0.52 	 96.81
7 	 0.32 	 97.13
20 	 0.09 	 99.27


观察运行结果，发现前 6 个主成分（即新特征）覆盖了数据 96.81% 的方差，而前 20 个主成分覆盖了 99.27% 的方差。这说明前 6 个主成分就能包含数据的 96.81% 信息，我们就可以选择将数据降维到 6 个特征来表示，从 590 维到 6 维，同时包含了 96.81% 的信息。 如果你的应用要求更高，可以选择降维至 20 维，能够包含 99.27% 的信息

**如何选择所需的主成分数目 N**：就通过上述的表格，根据特征值对主成分降序排序，计算方差百分比和累积方差百分比。根据应用需求，通过累积方差百分比选择主成分数目 N。