# 特征预处理 

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

特征预处理包含的内容：
- 数值型数据的无量纲化：
  - 归一化
  - 标准化

>特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征

## 归一化

通过对原始数据进行变换把数据映射到(默认为[0,1])之间

### 公式

$
x^{'} = \frac{x-min}{max-min}
$

$
x^{''} = x^{'} \times (mx - mi) + mi
$

>作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0

### API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )
- feature_range：归一化的范围

- MinMaxScalar.fit_transform(X)
  - X: numpy array格式的数据[n_samples,n_features]
  - 返回值：转换后的形状相同的array

### 示例

In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

In [2]:
# 读取文件
data = pd.read_csv('./datingTestSet2.csv')
data

Unnamed: 0,milage,Liters,Consumtime,target
0,40920,8.326976,0.953952,3
1,14488,7.153469,1.673904,2
2,26052,1.441871,0.805124,1
3,75136,13.147394,0.428964,1
4,38344,1.669788,0.134296,1
...,...,...,...,...
995,11145,3.410627,0.631838,2
996,68846,9.974715,0.669787,1
997,26575,10.650102,0.866627,3
998,48111,9.134528,0.728045,3


In [3]:
# 取出前三列
data = data.iloc[:, :3]
data

Unnamed: 0,milage,Liters,Consumtime
0,40920,8.326976,0.953952
1,14488,7.153469,1.673904
2,26052,1.441871,0.805124
3,75136,13.147394,0.428964
4,38344,1.669788,0.134296
...,...,...,...
995,11145,3.410627,0.631838
996,68846,9.974715,0.669787
997,26575,10.650102,0.866627
998,48111,9.134528,0.728045


In [4]:
# 归一化处理
transfer = MinMaxScaler(feature_range=[2, 3])
data_new = transfer.fit_transform(data)
data_new

array([[2.44832535, 2.39805139, 2.56233353],
       [2.15873259, 2.34195467, 2.98724416],
       [2.28542943, 2.06892523, 2.47449629],
       ...,
       [2.29115949, 2.50910294, 2.51079493],
       [2.52711097, 2.43665451, 2.4290048 ],
       [2.47940793, 2.3768091 , 2.78571804]])

## 标准化

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

### 公式

$
x^{'} = \frac{x-mean}{\sigma}
$

>作用于每一列，mean为平均值，σ为标准差

- 对于归一化来说：如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变
- 对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。

sklearn.preprocessing.StandardScaler( )

- 处理之后每列来说所有数据都聚集在均值0附近标准差为1
- StandardScaler.fit_transform(X)
  - X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后的形状相同的array

In [5]:
from sklearn.preprocessing import StandardScaler

In [6]:
data = pd.read_csv('./datingTestSet2.csv')
data = data.iloc[:, :3]
transfer = StandardScaler()
data_new = transfer.fit_transform(data)
data_new

array([[ 0.33193158,  0.41660188,  0.24523407],
       [-0.87247784,  0.13992897,  1.69385734],
       [-0.34554872, -1.20667094, -0.05422437],
       ...,
       [-0.32171752,  0.96431572,  0.06952649],
       [ 0.65959911,  0.60699509, -0.20931587],
       [ 0.46120328,  0.31183342,  1.00680598]])