In [4]:
# 特征处理——归一化/标准化/正则化

from sklearn import preprocessing
import numpy as np

In [9]:
# 一、z-score：x = (x-mean)/std

# 1、通过scale方法直接标准化特征值
X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])

X_scaled = preprocessing.scale(X)

print(X_scaled)

print(X_scaled.mean(axis=0))                            # 打印标准化的特征均值

print(X_scaled.std(axis=0))                             # 打印标准化的特征方差


[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]
[ 0.  0.  0.]
[ 1.  1.  1.]


In [15]:
# 2、通过StandardScaler类：该类的好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据。

scaler = preprocessing.StandardScaler().fit(X)

print(scaler.mean_)
print(scaler.transform(X))

# 可以直接对测试集进行标准化，
# test_X = xxx
# scaler.transform(test_X)

[ 1.          0.          0.33333333]
[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]


In [33]:
# 二、max-min : x = (x-min)/(max-min)

min_max_scaler = preprocessing.MinMaxScaler()                  # 参数feature_range可指定缩放特征的区间

min_max = min_max_scaler.fit_transform(X)

print(min_max)

# 测试集中使用
test_X = np.array([[ -3., -1.,  4.]], dtype='float')
min_max_scaler.transform(test_X)

# print(min_max_scaler.data_min_)                              # 打印最小最大值
# print(min_max_scaler.data_max_)

[[ 0.5         0.          1.        ]
 [ 1.          0.5         0.33333333]
 [ 0.          1.          0.        ]]


array([[-1.5       ,  0.        ,  1.66666667]])

In [39]:
# 三、正则化：x = x / ||x||

normalizer = preprocessing.Normalizer()

nt = normalizer.fit_transform(X)

print(nt)

# 可以直接对测试集进行正则化，
# test_X = xxx
# normalizer.transform(test_X)

# 使用normalize()函数

normalizer2 = preprocessing.normalize(X)
print(normalizer2)

[[ 0.40824829 -0.40824829  0.81649658]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]
[[ 0.40824829 -0.40824829  0.81649658]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]
