# [教程](http://sklearn.apachecn.org/cn/0.19.0/modules/preprocessing.html#preprocessing)
`sklearn.preprocessing` 包提供了几个常见的实用功能和变换器类型，用来将原始特征向量更改为更适合机器学习模型的形式。

一般来说，机器学习算法受益于数据集的标准化。如果数据集中存在一些离群值，那么稳定的缩放或转换更合适。不同缩放、转换以及归一在一个包含边缘离群值的数据集中的表现在 [Compare the effect of different scalers on data with outliers](http://sklearn.apachecn.org/cn/0.19.0/auto_examples/preprocessing/plot_all_scaling.html#sphx-glr-auto-examples-preprocessing-plot-all-scaling-py) 中有着重说明。

# 标准化，也称去均值和方差按比例缩放

函数 `scale` 为数组形状的数据集的标准化提供了一个快捷实现:

In [2]:
%doctest_mode

Exception reporting mode: Plain
Doctest mode is: ON


In [3]:
>>> from sklearn import preprocessing
>>> import numpy as np
>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
>>> X_scaled = preprocessing.scale(X_train)

>>> X_scaled 

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [4]:
X_scaled.mean(axis=0)

array([0., 0., 0.])

In [5]:
X_scaled.std(axis=0)

array([1., 1., 1.])

预处理 模块还提供了一个实用类 `StandardScaler` ，它实现了转化器的 API 来计算训练集上的平均值和标准偏差，以便以后能够在测试集上重新应用相同的变换。因此，这个类适用于 [`sklearn.pipeline.Pipeline`](http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline) 的早期步骤:

In [7]:
scaler = preprocessing.StandardScaler().fit(X_train)
scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

In [8]:
scaler.mean_

array([1.        , 0.        , 0.33333333])

In [9]:
scaler.scale_

array([0.81649658, 0.81649658, 1.24721913])

In [10]:
scaler.transform(X_train)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

缩放类对象可以在新的数据上实现和训练集相同缩放操作:

In [11]:
X_test = [[-1., 1., 0.]]
scaler.transform(X_test)  

array([[-2.44948974,  1.22474487, -0.26726124]])

你也可以通过在构造函数 :class:StandardScaler 中传入参数 `with_mean=False` 或者`with_std=False` 来取消中心化或缩放操作。