在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经网络，无量纲化可以加快求解速度；而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（一个特例是决策树和树的集成算法们，对决策树我们不需要无量纲化，决策树可以把任意数据都处理得很好。）
数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化（Zero-centered或者Meansubtraction）处理和缩放处理（Scale）。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算一种缩放处理

In [8]:
#归一化操作：X-min(x)/max(x)-min(x)
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
data=[[-1,2],[-0.5,6],[0,10],[1,18]]
pd.DataFrame(data)

Unnamed: 0,0,1
0,-1.0,2
1,-0.5,6
2,0.0,10
3,1.0,18


In [10]:
#第一步：获取MinMaxScaler的实例
scaler=MinMaxScaler()
#第二步：将数据进行训练
scaler=scaler.fit(data)
#第三步：将数据导出到data中去
result=scaler.transform(data)
#或者可以将第二步和第三步合并
result_=scaler.fit_transform(data)
result_

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [11]:
#将结果逆转，就是回到原先data的值
scaler.inverse_transform(result_)

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

In [12]:
#使用MinMaxScaler的参数feature_range归一化到[0,1]以外的范围中去
data=[[-1,2],[-0.5,6],[0,10],[1,18]]
scaler=MinMaxScaler(feature_range=[5,10])
result_2=scaler.fit_transform(data)

In [13]:
result_2

array([[ 5.  ,  5.  ],
       [ 6.25,  6.25],
       [ 7.5 ,  7.5 ],
       [10.  , 10.  ]])

In [14]:
#使用numpy进行归一化操作
import numpy as np
data=[[-1,2],[-0.5,6],[0,10],[1,18]]
X=np.array(data)
X

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

In [16]:
X.min(axis=0)

array([-1.,  2.])

In [17]:
#进行归一化操作
X_nor=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))
X_nor

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [18]:
#将其逆转
X_inverse=X_nor*(X.max(axis=0)-X.min(axis=0))+X.min(axis=0)
X_inverse

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])