In [1]:
import pandas as pd
import numpy as np

# preprocessing

In [3]:
from sklearn import preprocessing

In [5]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
X_test = [[-1., 1., 0.]]

## scale
- 为数组形状的数据集的标准化提供了一个快捷实现，经过缩放后的数据具有零均值以及标准方差
- 缺点: 无法快速对测试集做同样的转换，也无法便捷地将标准化后的数据转回原数据

In [6]:
X_scaled = preprocessing.scale(X_train)

In [7]:
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [8]:
print(X_scaled.mean(), X_scaled.std())

4.93432455389e-17 1.0


## StandardScaler 
- 它实现了转化器的API来计算训练集上的平均值和标准偏差，以便以后能够在测试集上重新应用相同的变换

In [9]:
scaler = preprocessing.StandardScaler().fit(X_train) # 这里直接训练了数据
scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

In [11]:
scaler.mean_  # 每一列的均值

array([ 1.        ,  0.        ,  0.33333333])

In [13]:
scaler.scale_  # 每一列的标准差

array([ 0.81649658,  0.81649658,  1.24721913])

In [14]:
scaler.transform(X_train) # 在训练集上应用转换 与直接利用scale结果一样

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [15]:
scaler.transform(X_test) # 在测试集上应用同样转换 基于的是训练集上的均值和标准差

array([[-2.44948974,  1.22474487, -0.26726124]])

In [17]:
# 将标准化后的数据还原
x_scaled = scaler.transform(X_train)
scaler.inverse_transform(x_scaled)

array([[  1.00000000e+00,  -1.00000000e+00,   2.00000000e+00],
       [  2.00000000e+00,   0.00000000e+00,   0.00000000e+00],
       [  1.11022302e-16,   1.00000000e+00,  -1.00000000e+00]])