In [11]:
import numpy as np
from sklearn import preprocessing

In [21]:
data = np.array([[ 3, -1.5,  2, -5.4],
                 [ 0,  4,  -0.3, 2.1],
                 [ 1,  3.3, -1.9, -4.3]])
data.shape

(3, 4)

In [27]:
# 1.均值移除：通常我们会把每个特征的平均值移除,以保证特征均值为0(即标准化处理)。这样做可以消
# 除特征彼此间的偏差(bias)

# 使用preprocessing.scale()对数据进行标准化处理：把每个特征的平均值移除,以保证特征均值为0
data_standardized = preprocessing.scale(data,axis=1)

array([[ 1.05366545, -0.31079341,  0.75045237, -1.49332442],
       [-0.8340361 ,  1.46675314, -1.00659529,  0.37387825],
       [ 0.51284962,  1.31254733, -0.49546489, -1.32993207]])

In [33]:
# 2. 范围缩放(Scaling)
# 数据点中每个特征的数值范围可能变化很大,因此,有时将特征的数值范围缩放到合理的大小是非常重要的
data_scaler = preprocessing.MinMaxScaler(feature_range=(0,1))# 生成数据scaler转换器
data_scaled = data_scaler.fit_transform(data)# 将scaler作用于data
data_scaled

array([[ 1.        ,  0.        ,  1.        ,  0.        ],
       [ 0.        ,  1.        ,  0.41025641,  1.        ],
       [ 0.33333333,  0.87272727,  0.        ,  0.14666667]])

In [37]:
# 3. 归一化(Normalization) 非常重要
# 数据归一化用于需要对特征向量的值进行调整时,以保证每个特征向量的值都缩放到相同的数值范围。机器学习中最常用的归一化形式就是将特征向量调整为L1范数,使特征向量的数值之
# 和为1，数值范围一般为[0,1]或者[-1,1]
# 确保数据处于同一数量级,提高不同特征数据的可比性
data_normalized = preprocessing.normalize(data,norm='l1')
data_normalized

array([[ 0.25210084, -0.12605042,  0.16806723, -0.45378151],
       [ 0.        ,  0.625     , -0.046875  ,  0.328125  ],
       [ 0.0952381 ,  0.31428571, -0.18095238, -0.40952381]])

In [43]:
# 4.二值化(Binarization)
# 二值化用于将数值特征向量转换为布尔类型向量
data_binarized = preprocessing.binarize(data,threshold=0)# 解释一下threshold参数：Feature values below or equal to this are replaced by 0, above it by
data_binarized

array([[ 1.,  0.,  1.,  0.],
       [ 0.,  1.,  0.,  1.],
       [ 1.,  1.,  0.,  0.]])

In [48]:
# 5.独热编码(one-hot编码)
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
encoded_vector

array([[ 0.,  0.,  1.,  0.,  1.,  0.,  0.,  0.,  1.,  1.,  0.]])