# 特征工程二：数据的特征预处理

## <mark style=background-color:pink>sklearn中数据的特征预处理的API<mark>
    
- **sklearn.preprocessing**

## <mark style=background-color:pink>归一化<mark>

- 类：**sklearn.feature_extraction.MinMaxScaler**
- 目的：使得某一个特征对最终结果不会造成过大的影响
- 公式：**x-min/(max-min)** 这里的最大值最小值是针对每一个特征的，也就是每一列
- 实例化语法：**minmax=MinMaxScaler(feature_range=(0,1),...)** 每个特征缩放到给定范围(默认[0,1])

In [7]:
#导入归一化的类
from sklearn.preprocessing import MinMaxScaler

### <mark>实例化方法一：**minmax.fit_transform(X)**<mark>

其中X为**numpy array格式的数据(n_samples,n_features)**，返回值：返回**转换后的每列分布范围相同的array**

In [8]:
#实例化归一化的类
minmax = MinMaxScaler(feature_range=(0,1))

In [10]:
#需要进行归一化处理的数据X
X = [[90,2,10,40],[60,4,15,45],[75,3,13,46]]

In [12]:
#通过实例化方法minmax.fit_transform()对X的每一列数据(每一特征对应的特征值)进行归一化处理
data = minmax.fit_transform(X)

In [13]:
#打印data看看归一化后的数据
print(data)

[[1.         0.         0.         0.        ]
 [0.         1.         1.         0.83333333]
 [0.5        0.5        0.6        1.        ]]


## <mark style=background-color:pink>标准化<mark>
    
- 类：**sklearn.feature_extraction.StandardScaler**
- 目的：通过对原始数据进行变换把数据变换到均值为0，方差为1的范围内
- 公式：**x-平均值/标准差** 这里的平均值和标准差是针对每一个特征的，也就是每一列
- 实例化语法：**standard=StandardScaler()** 处理之后每列来说均值为0，方差为1

In [14]:
#导入标准化的类
from sklearn.preprocessing import StandardScaler

### <mark>实例化方法一：**standard.fit_transform(X)**<mark>

其中X为**numpy array格式的数据(n_samples,n_features)**，返回值：返回**转换后的每列均值为0，方差为1的array**

In [15]:
#实例化标准化的类
standard = StandardScaler()

In [17]:
#需要进行标准化处理的数据X
X = [[90,2,10,40],[60,4,15,45],[75,3,13,46]]

In [18]:
#通过实例化方法standard.fit_transform()对X的每一列数据(每一特征对应的特征值)进行归一化处理
data = standard.fit_transform(X)

In [19]:
#打印data看看标准化后的数据
print(data)

[[ 1.22474487 -1.22474487 -1.29777137 -1.3970014 ]
 [-1.22474487  1.22474487  1.13554995  0.50800051]
 [ 0.          0.          0.16222142  0.88900089]]


## <mark style=background-color:pink>归一化&标准化有关异常值的对比<mark>

归一化总结：
- 注意在特定场景下最大值和最小值是变化的
- 最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性比较差（稳定性差）
- 只适合传统精确小数据场景

标准化化总结：    
- 在已有样本足够多的情况下比较稳定
- 适合现代嘈杂大数据场景
    
归一化和标准化有关异常值的对比：
- 归一化：如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变
- 标准化：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小