## Dimensionality reduction 降维
降维是降低随机变量（特征）的个数，得到一组“不相关”主编量的过程  
### 主要方法
- 特征选择
- 主成分分析
### 特征选择
在原有特征中找出主要特征
#### 方法
Filter 过滤法
- 方差选择法：低方差特征过滤
             特征方差小：某个特征的样本值大多相近
             特征方差大：某个特征的样本值差别较大
- 相关系数：特征与特征之间的相关程度
Embedded 嵌入法
- 决策树
- 正则化
- 深度学习

In [29]:
# VarianceThreshold 方差阈值
from sklearn.feature_selection import VarianceThreshold
import pandas as pd

data = pd.read_csv(r"..\datasets\factor_returns.csv")
data_iloc = data.iloc[:,1:-2] 
print(data.shape)
tf = VarianceThreshold(threshold=0.5) # 默认方差的 Threshold（阈值）为 0
data_new = tf.fit_transform(data_iloc)
data_new.shape

(2318, 12)


(2318, 8)

#### 相关系数
#### 皮尔逊相关系数 pearson correlation coefficient
相关系数的值为-1<=r<=+1  

当r>0时，表示两变量正相关，r<0时两变量负相关  
当|r|=1时，两变量完全相关，r=0时，两变量无相关关系  
当0<|r|<1时，两变量存在一定程度的相关，且|r|越接近1，两变量间线性关系越密切,|r|越接近0，两变量的线性相关越弱  

一般可按三级划分：  
- |r|<0.4 低相关  
- 0.4<=|r|<=0.7显著相关
- 0.7<=|r|<=1 高度线性相关  
  
特征与特征之间相关性很高:
- 选取其中一个
- 加权求和
- 主成分分析

In [31]:
from scipy.stats import pearsonr

# 计算两特征间的相关性
r1 = pearsonr(data["pe_ratio"],data["pb_ratio"])
r

(-0.004389322779936271, 0.8327205496564927)

In [33]:
r2 = pearsonr(data["revenue"],data["total_expense"])
r2

(0.9958450413136115, 0.0)

#### PCA 主成分分析
定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量

作用：数据维度压缩，尽可能降低元数据的维度（复杂度），损失少量信息

应用：回归分析或聚类分析中

类似于线性回归

In [55]:
from sklearn.decomposition import PCA

# PCA 降维
# pca 构造函数接受 n_components 传参
# n_components：
# 小数：表示保留百分之多少的信息
# 整数：减少到多少的特征
# mle: 根据特征的方差分布情况自己去选择一定数量的主成分特征来降维

tf = PCA(n_components="mle")
data_new = tf.fit_transform(data_iloc)
print("原shape",data_iloc.shape)
print("降维后shape",data_new.shape)

原shape (2318, 9)
降维后shape (2318, 8)
