# 主要写一下sklearn.preprocessing的用法

在这里主要讨论两种归一化方法：

1、线性函数归一化(Min-Max scaling)
线性函数将原始数据线性化的方法转换到[0 1]的范围，归一化公式如下：


该方法实现对原始数据的等比例缩放，其中Xnorm为归一化后的数据，X为原始数据，Xmax、Xmin分别为原始数据集的最大值和最小值。

2、0均值标准化(Z-score standardization)
0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集，归一化公式如下：

其中，μ、σ分别为原始数据集的均值和方法。该种归一化方式要求原始数据的分布可以近似为高斯分布，否则归一化的效果会变得很糟糕。

以上为两种比较普通但是常用的归一化技术，那这两种归一化的应用场景是怎么样的呢？什么时候第一种方法比较好、什么时候第二种方法比较好呢？下面做一个简要的分析概括：

1、在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，第二种方法(Z-score standardization)表现更好。

2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

In [None]:
import numpy as np
from sklearn.preprocessing import scale,StandardScaler


X = np.array([[ 1., -1.,  2.], 
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])
scaler = StandardScaler().fit(X)
print(scaler)

StandardScaler(copy=True, with_mean=True, with_std=True)

print(scaler.transform(X))
[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]


In [None]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler
X_train = np.array([[ 1., -1.,  2.], 
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
min_max_scaler = MinMaxScaler()

print(min_max_scaler)

X_train_minmax = min_max_scaler.fit_transform(X_train)

print(X_train_minmax)

origin_data = min_max_scaler.inverse_transform(X_train_minmax)

print(origin_data)


#将相同的缩放应用到测试集数据中
X_test = np.array([-3., -1., 4.])
X_test_minmax = min_max_scaler.transform(X_test.reshape(1,-1))

print(X_test_minmax)

MinMaxScaler(copy=True, feature_range=(0, 1))
[[0.5        0.         1.        ]
 [1.         0.5        0.33333333]
 [0.         1.         0.        ]]
[[ 1. -1.  2.]
 [ 2.  0.  0.]
 [ 0.  1. -1.]]
[[-1.5         0.          1.66666667]]
