### 标准化（Z-Score），或者去除均值和方差缩放
公式为：(X-X_mean)/X_std 计算时对每个属性/每列分别进行.将数据按其属性(按列进行)减去其均值，然后除以其方差。最后得到的结果是，对每个属性/每列来说所有数据都聚集在0附近，方差值为1。


#### 方法一：使用sklearn.preprocessing.scale()函数

`sklearn.preprocessing.scale(X, axis=0, with_mean=True,with_std=True,copy=True)`  
方法说明：

- X.mean(axis=0)用来计算数据X每个特征的均值；
- X.std(axis=0)用来计算数据X每个特征的方差；
- preprocessing.scale(X)直接标准化数据X。

In [2]:
from sklearn import preprocessing 
import numpy as np

X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])
# calculate mean
X_mean = X.mean(axis=0)
# calculate variance 
X_std = X.std(axis=0)
# standardize X
X1 = (X-X_mean)/X_std

# use function preprocessing.scale to standardize X
X_scale = preprocessing.scale(X)
X_scale

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [3]:
X1

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

X_scale的值和X1的值是一样的。

##### 方法2：sklearn.preprocessing.StandardScaler类

使用该类的好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据。

In [9]:
from sklearn import preprocessing 
import numpy as np

X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])

scaler = preprocessing.StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [10]:
from sklearn import preprocessing 
import numpy as np

X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])

scaler = preprocessing.StandardScaler().fit(X)
scaler.transform(X)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [11]:
scaler.mean_

array([ 1.        ,  0.        ,  0.33333333])

In [15]:
# scaler.std_
scaler.scale_

array([ 0.81649658,  0.81649658,  1.24721913])

### 将特征的取值缩小到一个特定范围（如0到1）

常用的方法是将属性缩放到一个指定的最大值和最小值(通常是1-0)之间，通过`preprocessing.MinMaxScaler`类来实现。

使用这种方法的目的包括：

1、对于方差非常小的属性可以增强其稳定性；
2、维持稀疏矩阵中为0的条目。

In [17]:
from sklearn import preprocessing 
import numpy as np
X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])

min_max_scaler = preprocessing.MinMaxScaler()
X_minMax = min_max_scaler.fit_transform(X)
X_minMax

array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])

In [19]:
min_max_scaler.min_

array([ 0.        ,  0.5       ,  0.33333333])

In [21]:
min_max_scaler.scale_

array([ 0.5       ,  0.5       ,  0.33333333])

当然，在构造类对象的时候也可以直接指定最大最小值的范围：feature_range=(min, max)，此时应用的公式变为：

`X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))`  
`X_minmax=X_std/(X.max(axis=0)-X.min(axis=0))+X.min(axis=0))`

### 正则化(Normalization)

正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1)，如果要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。

该方法是文本分类和聚类分析中经常使用的向量空间模型（Vector Space Model)的基础.

Normalization主要是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。

#### 方法1：使用sklearn.preprocessing.normalize()函数

对指定数据进行转换

In [22]:
X_normalized = preprocessing.normalize(X, norm='l2')
X_normalized 

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

#### 方法2：sklearn.preprocessing.StandardScaler类
对训练集和测试集的拟合和转换

In [23]:
normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
normalizer

Normalizer(copy=True, norm='l2')

In [24]:
normalizer.transform(X)

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

### 二值化(Binarization)

特征的二值化主要是为了将数据特征转变成boolean变量。`sklearn.preprocessing.Binarizer`

In [25]:
binarizer = preprocessing.Binarizer().fit(X)  
binarizer

Binarizer(copy=True, threshold=0.0)

In [26]:
binarizer.transform(X)

array([[ 1.,  0.,  1.],
       [ 1.,  0.,  0.],
       [ 0.,  1.,  0.]])

Binarizer函数也可以设定一个阈值，结果数据值大于阈值的为1，小于阈值的为0

In [27]:
binarizer = preprocessing.Binarizer(threshold=1.1)
binarizer.transform(X)

array([[ 0.,  0.,  1.],
       [ 1.,  0.,  0.],
       [ 0.,  0.,  0.]])

### 缺失值处理
许多现实中的数据集都包含有缺失值，要么是空白的，要么使用NaNs或者其它的符号替代。这些数据无法直接使用scikit-learn分类器直接训练，所以需要进行处理。

In [28]:
import numpy as np
from sklearn.preprocessing import Imputer

imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]]) 

Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)

In [29]:
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))   

[[ 4.          2.        ]
 [ 6.          3.66666667]
 [ 7.          6.        ]]


In [30]:
import scipy.sparse as sp

X = sp.csc_matrix([[1, 2], [0, 3], [7, 6]])
imp = Imputer(missing_values=0, strategy='mean', axis=0)
imp.fit(X)  

Imputer(axis=0, copy=True, missing_values=0, strategy='mean', verbose=0)

In [31]:
X_test = sp.csc_matrix([[0, 2], [6, 0], [7, 6]])
print(imp.transform(X_test))  

[[ 4.          2.        ]
 [ 6.          3.66666667]
 [ 7.          6.        ]]
