# 数据规范化的方式

## 1.Min-max 规范
* 将原始数据变换到[0,1]的空间中
* 新数值 = （原数值-极小值）/（极大值-极小值）

In [1]:
from sklearn import preprocessing
import numpy as np
x = np.array([[0.,-3.,1.],[3.,1.,2.],[0.,1.,-1.]])
# 0-1规范化
min_max_scaler = preprocessing.MinMaxScaler()
minmax_x = min_max_scaler.fit_transform(x)
print(minmax_x)

[[0.         0.         0.66666667]
 [1.         1.         1.        ]
 [0.         1.         0.        ]]


## 2.Z-score规范化
* 新数值 = (原数值-均值)/标准差

In [2]:
from sklearn import preprocessing
import numpy as np
# 初始化数据
x = np.array([[ 0., -3., 1.], [ 3., 1., 2.], [ 0., 1., -1.]])

# Z-Score规范化
scaled_x = preprocessing.scale(x)
print(scaled_x)

[[-0.70710678 -1.41421356  0.26726124]
 [ 1.41421356  0.70710678  1.06904497]
 [-0.70710678  0.70710678 -1.33630621]]


## 3.小数定标规范化

In [3]:
from sklearn import preprocessing
import numpy as np

# 初始化数据
x = np.array([[ 0., -3., 1.], [ 3., 1., 2.], [ 0., 1., -1.]])

# 小数定标规范化
j = np.ceil(np.log10(np.max(abs(x))))
scaled_x = x/(10**j)
print(scaled_x)

[[ 0.  -0.3  0.1]
 [ 0.3  0.1  0.2]
 [ 0.   0.1 -0.1]]


## 思考题
* 假设属性 income 的最小值和最大值分别是 5000 元和 58000 元。
* 利用 Min-Max 规范化的方法将属性的值映射到 0 至 1 的范围内，那么属性 income 的 16000 元将被转化为多少？

In [5]:
(16000 - 5000)/(58000 - 5000)

0.20754716981132076

In [8]:
from sklearn import preprocessing
import numpy as np
x = np.array([[5000],[58000],[16000]])
# 0-1规范化
min_max_scaler = preprocessing.MinMaxScaler()
minmax_x = min_max_scaler.fit_transform(x)
print(minmax_x)

[[0.        ]
 [1.        ]
 [0.20754717]]
