特征工程-特征预处理

    1 什么是特征预处理

    1.1 特征预处理定义：通过一些缓缓函数将特征数据转换成更加适合算法模型的特征数据的过程
![jupyter](../Sources/Pictures/k-近邻算法/特征预处理-归一化.png)

        （1）归一化/标准化原因
            特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量
            级，容易影响（支配）目标结果，使得一些算法无法学习到其他的特征。
        （2）归一化方法：无量纲化，是不同规格的数据转换到统一规格

    1.2 包含内容（数值数据的无量纲化）
        （1）归一化
        （2）标准化
    1.3 特征预处理API
        sklearn.preprocessing

    2. 归一化

        2.1 定义：铜鼓对原始数据进行变换把数据映射到（默认为[0,1]）之间

    2.2 公式
            X' = (x-min)/(max-min)
            X'' = X' * (mx - mi) + mi
        解释：公式作用域每一列特征值
             max：一列的最大值
             min：一列的最小值
             X''：最终结果
             mx、mi：分别为指定区间的默认值，mx为1，mi为0
![jupyter](../Sources/Pictures/k-近邻算法/归一化公式-解释.png)

        2.3 API
        sklearn.preprocessing.MinMaxScaier(feature_range=(0,1)……)
            MinMaxScalar.fit_transform(X)
                X:numpy.array格式数据[n_samples, n_features]
            返回值：准换后的形状相同的array

        2.4 数据计算
            流程：（1）实例化MinMaxScalar
                 （2）通过fit-transform转换

        2.5 归一化总结
            注意最大最小值是变化的，另外，最大值与最小值非常容易受到异常点的影响（鲁
            棒性，说人话就是确定性），所以这种方法选择性较差，传统只适合精确小数据场
            景。
![jupyter](../Sources/Pictures/k-近邻算法/归一化图.png)

In [10]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

def minmax_demo(in_data):
    """
    归一化演示
    :return: 
    """
    print(in_data)
    
    # 1.实例化一个转换器类型
    transform = MinMaxScaler(feature_range=(0,1))
    # 2.调用fit_transform
    data = transform.fit_transform(in_data[["milage","Liters","Consumption"]])
    # 3.数据输出
    return data

In [11]:
# 数据准备
test_data = pd.DataFrame({
    "milage":[np.random.randint(1000,100000) for i in range(1000)],
    "Liters":[np.random.uniform(5.00000,20.00000) for j in range(1000)],
    "Consumption":[np.random.uniform(0.00000,10.00000) for k in range(1000)],
    "target":[np.random.randint(1,3) for l in range(1000)]
})

test_data

Unnamed: 0,milage,Liters,Consumption,target
0,15954,12.832335,9.633145,2
1,5026,15.011248,6.132834,2
2,47369,17.672280,3.992464,2
3,40534,5.513159,8.597601,2
4,15924,15.385771,4.293040,1
...,...,...,...,...
995,99226,13.172669,2.440185,2
996,7727,6.442512,3.082203,1
997,97754,19.122873,1.198194,1
998,83862,6.667132,1.413561,1


In [None]:
# 数据归一化处理
print("数据最大值最小值归一化结果：\n{}".format(minmax_demo(test_data)))

3.标准化

    3.1 定义：通过对原始数据进行变换，把数据变换到均值为0，标准差为1范围内

    3.2 公式：
            X' = (x - mean) / σ
        解释：公式作用域每一列，
             mean：平均值
             σ：标准差

![jupyter](../Sources/Pictures/k-近邻算法/标准化图.png)

        对于归一化：如果出现异常点，影响了最大值和最小值，那么结果显示会发生改变
        对于标准化：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响
                 并不大，从而方差改变较小

    3.3 标准化API
        sklearn.preprocessing.StandardScaler()
            （1）功能：处理之后每列来说所有数据都聚焦在均值0附近，标准差为1
            （2）StandardScaler.fit_transdorm(X)
                X:numpy.array格式的数据[n_samples, n_features]
            （3）返回值：转换后的形状相同的array

    3.4 数据计算流程
        （1）实例化StandardScaler
        （2）通过fit_transform转换

In [14]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler

def stand_demo(in_data):
    """
    标准化演示
    :param in_data: DataFrame
    :return: data:标准化结果
             transfer.mean_:每一列的平均值
             transfer.ver_:每一列特征的方差
    """
    # 1.实例化一个转换器类
    transfer = StandardScaler()
    # 2. 调用fit_transform
    data = transfer.fit_transform(in_data[["milage","Liters","Consumption"]])
    # 3.返回结果
    return data, transfer.mean_, transfer.var_

In [15]:
# 数据准备
test_data = pd.DataFrame({
    "milage":[np.random.randint(1000,100000) for si in range(1000)],
    "Liters":[np.random.uniform(5.00000,20.00000) for sj in range(1000)],
    "Consumption":[np.random.uniform(0.00000,10.00000) for sk in range(1000)],
    "target":[np.random.randint(1,3) for sl in range(1000)]
})

test_data

Unnamed: 0,milage,Liters,Consumption,target
0,94616,15.947958,2.210823,1
1,46572,14.746397,8.314498,2
2,84644,9.809696,6.252575,2
3,54279,17.111537,9.713287,2
4,73487,11.150529,8.134254,2
...,...,...,...,...
995,92964,15.590437,4.798144,1
996,66911,5.165299,6.893869,1
997,61103,10.181520,6.169872,1
998,20156,14.667379,1.430757,1


In [16]:
stand_result =stand_demo(test_data)
# 标准化结果
result = stand_result[0]
# 每一列特征的平均值
result_mean = stand_result[1]
# 每一列特征的方差
result_var = stand_result[2]

In [17]:
result

array([[ 1.5279653 ,  0.77926771, -1.00557172],
       [-0.14909642,  0.49365448,  1.11904037],
       [ 1.17987481, -0.6798078 ,  0.40131108],
       ...,
       [ 0.35813412, -0.59142462,  0.37252314],
       [-1.07119413,  0.47487186, -1.27710275],
       [ 0.48111073, -1.22464621, -1.72570399]])

In [18]:
result_mean

array([5.08432730e+04, 1.26696155e+01, 5.09967162e+00])

In [19]:
result_var

array([8.20692044e+08, 1.76984519e+01, 8.25322190e+00])