## 特征降维

    学习目标
        了解降维的定义
        知道通过低方差过滤实现降维过程
        知道相关系数实现降维的过程
        知道主成分分析法实现过程

# 1.降维

    1.1 定义
    降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程

    降低随机变量的个数
![jupyter](../Sources/Pictures/Clustering_Algorithms/降维-1.png)

    相关特征(correlated feature)
        相对湿度与降雨量之间的相关
        等等
    正是因为在进行训练的时候，我们都是使用特征进行学习。如果特征本身存在问题或者特征之
    间相关性较强，对于算法学习预测会影响较大

    1.2 降维的两种方式
        （1）特征选择
        （2）主成分分析（可以理解一种特征提取的方式）

# 2.特征选择

    2.1 定义
    数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。
![jupyter](../Sources/Pictures/Clustering_Algorithms/鸟类特征选择.png)

    2.2 方法
    Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
        方差选择法：低方差特征过滤
        相关系数
    Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
        决策树:信息熵、信息增益
        正则化：L1、L2
        深度学习：卷积等

    2.3 低方差特征过滤
    删除低方差的一些特征，前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。
        特征方差小：某个特征大多样本的值比较相近
        特征方差大：某个特征很多样本的值都有差别
    
    2.3.1 API
    sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
        （1）作用：删除所有低方差特征
        （2）方法：Variance.fit_transform(X)
            参数：X:numpy array格式的数据[n_samples,n_features]
            返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方
                   差特征，即删除所有样本中具有相同值的特征。

    举例：
    我们对某些股票的指标特征之间进行一个筛选，除去'index,'date','return'列不考虑
    （这些类型不匹配，也不是所需要指标）

    pe_ratio,pb_ratio,market_cap,return_on_asset_net_profit,
    du_return_on_equity,ev,earnings_per_share,revenue,total_expense

    分析：
        （1）初始化VarianceThreshold，指定阈值方差
        （2）调用fit_transform

In [None]:
import pandas as pd
from sklearn.feature_selection import VarianceThreshold 

def variance_demo():
    """
    :function:降低方差特征——特征选择
    :return: None
    """
    data = pd.read_csv()
    print(data)
    # 1.实例化一个转换器类
    transfer = VarianceThreshold(threshold=1)
    # 2.调用fit_transform
    data = transfer.fit_transform(data.iloc[:, 1:10])
    print("删除低方差特征的结果：\n",data)
    print("形状：\n", data.shape)

# 2.4.相关系数

    主要实现方式：
        皮尔逊相关系数
        斯皮尔曼相关系数

    2.4.1 皮尔逊相关系数(Pearson Correlation Coefficient)
        1.作用：反映变量之间相关关系密切程度的统计指标
        2.公式计算案例(了解，不用记忆)
        公式
![jupyter](../Sources/Pictures/Clustering_Algorithms/pearson_fromula.png)

        举例：比如说我们计算年广告费投入与月均销售额度
![jupyter](../Sources/Pictures/Clustering_Algorithms/pearson_fromula案例数据.png)

    那么之间的相关系数怎么计算
![jupyter](../Sources/Pictures/Clustering_Algorithms/pearson_fromula案例计算.png)

    最终计算：
![jupyter](../Sources/Pictures/Clustering_Algorithms/pearson_fromula最终计算.png)

    所以我们最终得出结论是广告投入费与月平均销售额之间有高度的正相关关系。

            3.特点
                相关系数的值介于–1与+1之间，即–1≤ r ≤+1。其性质如下：
                （1）当r>0时，表示两变量正相关，r<0时，两变量为负相关
                （2）当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系
                （3）当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两
                变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱
                （4）一般可按三级划分：|r|<0.4为低度相关；0.4≤|r|<0.7为显著性
                相关；0.7≤|r|<1为高度线性相关
            4.API
            from scipy.stats import pearsonr
                x : (N,) array_like
                y : (N,) array_like 
                Returns: (Pearson’s correlation coefficient, p-value)

    2.4.2 斯皮尔曼相关系数(Rank IC)
        1.作用：反映变量之间相关关系密切程度的统计指标
        2.公式计算案例(了解，不用记忆)
    公式:
        n为等级个数，d为二列成对变量的等级差数
![jupyter](../Sources/Pictures/Clustering_Algorithms/Rank%20IC公式.png)

        Rank_IC举例：
![jupyter](../Sources/Pictures/Clustering_Algorithms/Rank_IC举例数据.png)

        3.特点：
            （1）斯皮尔曼相关系数表明 X (自变量) 和 Y (因变量)的相关方向。 如果当
            X增加时， Y 趋向于增加, 斯皮尔曼相关系数则为正.
            （2）与之前的皮尔逊相关系数大小性质一样，取值 [-1, 1]之间

        4.API
        from scipy.stats import spearmanr

In [1]:
# 5.案例
from scipy.stats import spearmanr

x1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]
x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]

spearmanr(x1, x2)

SignificanceResult(statistic=np.float64(0.9999999999999999), pvalue=np.float64(6.646897422032013e-64))

## 3.主成分分析

    3.1.什么是主成分分析（PCA）
        （1）定义：高维数据转换为低维数据的过程，在此过程中，可能会舍弃原有数据、创造新的变量
        （2）作用：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息
        （3）应用：回归分析或者聚类分析当中
        对于信息一词，在决策树中回进行介绍

    那么更好的理解这个过程？我们来看这样一张图
![jupyter](../Sources/Pictures/Clustering_Algorithms/PCA解释图.png)

    3.2 API
    sklearn.decomposition.PCA(n_components=None)
        （1）作用：将数据分解为较低维数空间
        （2）参数：
                n_components:
                    小数：表示保留百分之多少的信息
                    整数：减少到多少特征
        （3）方法：PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
        （4）返回值：转换后指定维度的array

# 4.小结

    降维的定义【了解】
        （1）就是改变特征值，选择哪列保留，哪列删除
        （2）目标是得到一组”不相关“的主变量
    降维的两种方式【了解】
        （1）特征选择
        （2）主成分分析（可以理解一种特征提取的方式）
    特征选择【知道】
        （1）定义：提出数据中的冗余变量
        （2）方法：
            Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
                方差选择法：低方差特征过滤
                相关系数
            Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
                决策树:信息熵、信息增益
                正则化：L1、L2
    低方差特征过滤【知道】
        把方差比较小的某一列进行剔除
        api:sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
            删除所有低方差特征
            注意，参数threshold一定要进行值的指定
    相关系数【掌握】
        主要实现方式：
            皮尔逊相关系数
            斯皮尔曼相关系数
    皮尔逊相关系数
        通过具体值的大小进行计算
        相对复杂
        api:from scipy.stats import pearsonr
            返回值，越接近|1|，相关性越强；越接近0，相关性越弱
    斯皮尔曼相关系数
        通过等级差进行计算
        比上一个简单
        api:from scipy.stats import spearmanr
            返回值，越接近|1|，相关性越强；越接近0，相关性越弱
    pca【知道】
        定义：高维数据转换为低维数据，然后产生了新的变量
        api:sklearn.decomposition.PCA(n_components=None)
            n_components
                整数 -- 表示降低到几维
                小数 -- 保留百之多少的信息