## 特征预处理，通过转换函数将特征数据转换为更适合算法处理的特征数据
    1、归一化：
    2、标准化：
    目的：使特征数据达到无量纲化，使不同数据达到统一规格，
    用于：特征的单位和大小相差较大，或者某个特征的方差相比其他的特征要大出几个数量级，容易支配或影响到目标结果，使得算法影响到其他特征数据的学习结果。

### 归一化
    通过对原始数据进行变换，把数据映射到某个区间内，默认为（0，1）
    计算公式：
    x1 = (x - min)/(max - min)
    x2 = x1 * (mx - mi) + mi
    x2 -- 目标值
    x -- 特征值，
    min -- 该特征的最小值
    max -- 该特征的最大值
    mx, mi -- 需要映射的区间

## sklearn中的数据归一化处理
    sklearn.preprocessing.MinMaxScaler
    接受一个二维数组 numpy_array，样本数的行数，特征数的列数
    返回一个相同形状的数组
    会受到缺失值的影响，适合小规模较精确的数据

In [3]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

In [15]:
data = np.array(
    [[43231, 7.31, 1.4],
    [23124, 5.61, 2.3],
    [14232, 12.43, 2.1],
    [42342, 10.31, 0.8],
    [12312, 11.33, 0.7]]
)

In [17]:
# 默认区间是0，1， 可通过feature_range修改
transfer = MinMaxScaler(feature_range=[1, 10])
new_data = transfer.fit_transform(data)
print(new_data)

[[10.          3.24340176  4.9375    ]
 [ 4.14719105  1.         10.        ]
 [ 1.55887965 10.          8.875     ]
 [ 9.74122708  7.20234604  1.5625    ]
 [ 1.          8.5483871   1.        ]]


## 标准化
    将原始数据进行变化，将数据变化到均值为0，标准差为1的
    公式：
    (x - mean)/std(标准差）
    如果出现异常点，在数据量较大时不会有太大影响,
    应用场景：

In [18]:
from sklearn.preprocessing import StandardScaler

In [20]:
tran = StandardScaler()
new_data2 = tran.fit_transform(data)
print(new_data2)

[[ 1.21118886 -0.8194087  -0.09188458]
 [-0.29370364 -1.48655179  1.28638417]
 [-0.95921835  1.18986933  0.98010223]
 [ 1.14465236  0.35790265 -1.01073042]
 [-1.10291923  0.75818851 -1.16387139]]


# 特征降维

## 维度：指数据嵌套的层数
    0维：标量
    1维：向量
    2维：矩阵
    ……
    处理对象：二维数组
    概念：在某些特定条件下，降低随机变量（特征）的个数，得到一组不相关的主变量的过程

## 降维方法
    1、特征选择：去除冗余特征
        方法一：Filter过滤式
            低方差选择法：过滤掉方差较低的特征
            相关系数法：衡量特征与特征之间的相关程度
         方法二：Embeded嵌入式
             决策树
             正则化
    2、主成分分析

### 低方差特征过滤
特征方差小：某个特征大多样本的值比较接近，需要去除
特征方差大：需要保存


In [21]:
# 使用库,接受一个ndarray数组
from sklearn.feature_selection import VarianceThreshold

In [23]:
# 实例化对象，设立方差阈值, 阈值某人为0
transfer = VarianceThreshold(threshold=5)
# 调用fit_transform方法处理数据
new_data = transfer.fit_transform(data)
print(new_data)

[[4.3231e+04 7.3100e+00]
 [2.3124e+04 5.6100e+00]
 [1.4232e+04 1.2430e+01]
 [4.2342e+04 1.0310e+01]
 [1.2312e+04 1.1330e+01]]


### 特征相关系数r
    皮尔逊相关系数，计算公式可百度

    取值范围 大于-1，小于1
    当r大于0则两个特征正相关，一个增大另一个也增大，趋近于1，正相关性越强
    当r小于0则两个特征负相关，一个增大另一个减小，趋近于-1，负相关性越强
    接近于0时，特征之间相关性越弱
    一般分位3级：|r| < 0.4,弱相关， 0.4<=|r|<=0.7 显著性相关，|r| >0.7 高度线性相关
    
    相关性很高的特征的处理方式：1.选取其中一个；2.加权求和，作为一个新的特征；3.主成分分析

In [26]:
# python的皮尔逊相关系数计算
from scipy.stats import pearsonr
x = [i for i in range(1, 6)]
y = [i for i in range(3, 8)]
r = pearsonr(x, y)
print(r)

(1.0, 0.0)


## 主成分分析（PCA）
    定义：高维数据转换为低维数据的过程，在此过程中可能舍弃原有变量，创造新的变量
    作用:使数据维数压缩，尽可能降低数据的维数，减少数据的损失量
    应用：回归分析和聚类分析中
    使用sklearn.decomposition.PCA(n_components=None)
    --n_components 为浮点数，保留百分之多少的信息
              为整数，减少到多少特征

In [1]:
from sklearn.decomposition import PCA

In [7]:
data = [
    [2, 8, 4, 5],
    [6, 3, 0, 8],
    [5, 4, 9 ,1]
]
# 实例化PCA类
transfer = PCA(n_components=2)
new_data = transfer.fit_transform(data)
transfer = PCA(n_components=0.99)
new_data1 = transfer.fit_transform(data)
print(new_data)
print(new_data1)

[[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]
[[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]
