# 特征工程三：数据的降维

## <mark style=background-color:pink>什么是数据降维<mark>
    
降维：**减少特征的个数**
    
进行数据降维的原因：
- **冗余**：部分特征的**相关度高**，容易消耗计算性能
- **噪声**：部分特征对预测结果有影响

## <mark style=background-color:pink>sklearn中数据降维的API<mark>
    
- **sklearn.feature_selection**
- **sklearn.decomposition**

## <mark style=background-color:pink>数据降维的两种方法<mark>
    
方法一：**特征选择**
    
    特征选择是什么：
    - 特征选择就是单纯地从提取到的所有特征中，选择部分特征，作为训练接特征
    - 特征在选择前和选择后可以改变对应的特征值，也可以不改变对应的特征值
    - 但是选择后的特征的维数，肯定比选择前小，毕竟只选择了其中的一部分特征
    
    主要方法：
    - Filter（过滤式）：VarianceThreshold
    - Embedded（嵌入式）：正则化、决策树
    - Wrapper（包裹式） ※基本不会用
    
    这里主要是过滤式中的方差选择(VarianceThreshold)
    
方法二：**主成分分析(PCA)**
    
    主成分分析(PCA)是什么：
    - 本质：PCA是一种分析、简化数据集的技术
    - 目的：是数据特征维数压缩，尽可能降低元数据的特征维数(复杂度)，会损失少量信息
    - 作用：可以削减回归分析或者聚类分析中特征的数量

## <mark style=background-color:pink>数据降维的方法一：特征选择之过滤式-方差选择<mark>
    
- 类：**sklearn.feature_selection.VarianceThreshold**
- 作用：减少特征的个数
- 实例化语法：**vt=VarianceThreshold(threshold=0.0)**

In [1]:
#导入方差选择的类
from sklearn.feature_selection import VarianceThreshold

### <mark>实例化方法一：**vt.fit_transform(X)**<mark>

其中X为**numpy array格式的数据(n_samples,n_features)**，返回值：**训练集差异低于threshold的特征将被删除**，默认值是保留所有非零方差特征，即删除样本中所有特征值都相同的特征

In [2]:
#实例化方差选择的类
vt = VarianceThreshold(threshold=0.0)

In [3]:
#需要进行方差选择减少特征的数据X
X = [[0,2,0,3],[0,1,4,3],[0,1,1,3]]

In [4]:
#通过实例化方法vt.fit_transform()对X的特征进行选择
data = vt.fit_transform(X)

In [5]:
#打印data看看方差选择后特征减少的数据
print(data)

[[2 0]
 [1 4]
 [1 1]]


## <mark style=background-color:pink>数据降维的方法二：主成分分析(PCA)<mark>
    
- 类：**sklearn.decomposition.PCA**
- 作用：减少特征的个数，尽量减小信息量的损失
- 实例化语法：**pca=PCA(n_components=None)**
     其中**n_components**为**小数**时其常用范围为0.9-0.95，**n_components**为整数时指减少特征后剩余特征的数量，


In [6]:
#导入PCA的类
from sklearn.decomposition import PCA

### <mark>实例化方法一：**pca.fit_transform(X)**<mark>

其中X为**numpy array格式的数据(n_samples,n_features)**，返回值：**转换后指定维度的array**

In [7]:
#实例化PCA的类
pca = PCA(n_components=0.9)

In [8]:
#需要进行PCA选择减少特征的数据X
X = [[0,2,0,3],[0,1,4,3],[0,1,1,3]]

In [9]:
#通过实例化方法pca.fit_transform()对X的特征进行选择
data = pca.fit_transform(X)

In [10]:
#打印data看看方差选择后特征减少的数据
print(data)

[[-1.76504522]
 [ 2.35339362]
 [-0.58834841]]


### <mark>主成分分析(PCA)的特点总结<mark>
    
- 特征数量达到上百个时才会使用
- 在对数据进行主成分分析后，特征的数量会减少，但同时特征数值也在改变，特征意义也逐渐变得不可读，存在信息量损失
- 有些算法是必须使用PCA的