无量纲化：线性/非线性。<br>
>线性：中心化/缩放处理。<br>
>>**中心化**：让所有记录减去一个固定值。<br>
>>**缩放处理**：让所有记录除以一个固定值，或取对数。

**1.无量纲化-归一化**：sklearn.preprocessing.MinMaxScaler

数据归一化：数据按照最小值**中心化**后，再按极差**缩放**。归一化之后的数据服从正态分布。

In [1]:
from sklearn.preprocessing import MinMaxScaler

In [2]:
data=[[-1,2],[-0.5,6],[0,10],[1,18]]

In [3]:
import pandas as pd
pd.DataFrame(data)

Unnamed: 0,0,1
0,-1.0,2
1,-0.5,6
2,0.0,10
3,1.0,18


（1）使用sklearn.preprocessing.MinMaxScaler实现归一化，范围[0,1]。

In [4]:
scaler = MinMaxScaler() #实例化，默认参数[0,1]之间
scaler = scaler.fit(data) #通过接口fit生成min(x)和max(x)
result = scaler.transform(data) #通过接口transform导出结果
result

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [5]:
result_ = scaler.fit_transform(data) #训练和导出结果一部达成
result_

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [6]:
#将归一化的结果逆转
scaler.inverse_transform(result)

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

（2）使用sklearn.preprocessing.MinMaxScaler实现归一化，范围[5,10]。

In [7]:
scaler = MinMaxScaler(feature_range=[5,10]) #实例化，使用参数[5,10]之间
scaler = scaler.fit(data) #通过接口fit生成min(x)和max(x)
result = scaler.transform(data) #通过接口transform导出结果
result

array([[ 5.  ,  5.  ],
       [ 6.25,  6.25],
       [ 7.5 ,  7.5 ],
       [10.  , 10.  ]])

当X中的特征数量非常多时，fit会报错（因为数据量太大），此时使用partial_fit作为训练接口，scaler = scaler.partial_fit(data)

（3）使用numpy实现归一化。

In [8]:
import numpy as np
X = np.array([[-1,2],[-0.5,6],[0,10],[1,18]])
X

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

(X-最小值)/(最大值-最小值)

In [9]:
#归一化，axis=0返回列的最小值（返回2个值），axis=1返回行的最小值（返回4个值）
X_nor = (X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))
X_nor

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [10]:
#逆转归一化
X_returned = X_nor*(X.max(axis=0)-X.min(axis=0))+X.min(axis=0)
X_returned

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

**2.无量纲化-标准化**：sklearn.preprocessing.StandardScaler

数据标准化：数据按照均值**中心化**后，再按标准差**缩放**。标准化之后的数据服从标准正态分布。

In [11]:
from sklearn.preprocessing import StandardScaler

In [12]:
data=[[-1,2],[-0.5,6],[0,10],[1,18]]

In [13]:
#实现标准化
scaler = StandardScaler() #实例化
scaler = scaler.fit(data) #通过接口fit生成均值和方差

In [14]:
scaler.mean_ #查看均值的属性mean_

array([-0.125,  9.   ])

In [15]:
scaler.var_ #查看方差的属性var_

array([ 0.546875, 35.      ])

In [16]:
x_std = scaler.transform(data) #通过接口导出结果

In [17]:
x_std

array([[-1.18321596, -1.18321596],
       [-0.50709255, -0.50709255],
       [ 0.16903085,  0.16903085],
       [ 1.52127766,  1.52127766]])

In [18]:
x_std.mean()

0.0

In [19]:
x_std.std()

1.0

In [20]:
#将标准化的结果逆转
scaler.inverse_transform(x_std)

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

**3.说明**

对于MinMaxScaler和StandardScaler来说，空值NaN会被当做缺失值，再fit的时候忽略，在transform的时候保持缺失NaN的状态显示。<br>
在fit接口中，依然只允许导入至少二维数组，一维数组导入会报错。

**4.MinMaxScaler和StandardScaler选哪个？**

大多数机器学习算法中，会选择**StandardScaler**进行特征缩放，因为MinMaxScaler对异常值非常敏感。<br>
在PCA、聚类、逻辑回归、支持向量机和神经网络中，StandardScaler往往是最好的选择。<br>
MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛，比如数字图像处理中量化像素强度时，都会使用MinMaxScaler将数据压缩于[0,1]。

**5.其他无量纲化**

无量纲化|功能|中心化|缩放
-|-|-|-
.StandardScaler|标准化|均值|方差
.MinMaxScaler|归一化|最小值|极差
.MaxAbsScaler|缩放|N/A|最大值
.RobustScaler|无量纲化|中位数|四分位数范围
.Normalizer|无量纲化|N/A|依范数原理
.PowerTransformer|非线性无量纲化|N/A|N/A
.QuantileTransformer|非线性无量纲化|N/A|N/A
.KernelCenterer|中心化|均值|N/A