In [None]:
# 第一节：特征标准化

In [1]:

# 数据预处理一般都是在 preprocessing包下
from sklearn import preprocessing
import numpy as np

X = np.array([[ 1., -1., 2.],
              [ 2., 0., 0.],
              [ 0., 1., -1.]])

# 使用preprocessing.scale来标准化
X_scaled = preprocessing.scale(X)
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [2]:
# 结果缩放的数据集具有零均值和标准方差

# 求均值
print X_scaled.mean(axis=0)
# 求标准方差 (方差定义：统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数)
print X_scaled.std(axis=0)

[ 0.  0.  0.]
[ 1.  1.  1.]


In [5]:
# 使用类 StandardScaler 来进行特征标准化
scaler = preprocessing.StandardScaler().fit(X)

# StandardScaler有三个参数，with_mean是否中心化，with_std是否缩放
print scaler

#print scaler.mean_

#print scaler.scale_

# 类似preprocessing.scale(X) 操作
print scaler.transform(X)

StandardScaler(copy=True, with_mean=True, with_std=True)
[ 1.          0.          0.33333333]
[ 0.81649658  0.81649658  1.24721913]
[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]


In [7]:
# 特征缩放到特定范围，一般是[0,1]，或者也可以将每个特征的最大绝对值转换至单位大小，这两类操作分别通过使用 MinMaxScaler , MaxAbsScaler实现
# 下面展示讲一个简单的矩阵缩放至 [0,1] 范围， 当然，同样的缩放操作也应该用于测试数据

X_train = np.array([[ 1., -1., 2.],
                    [ 2., 0., 0.],
                    [ 0., 1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax

array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])

In [8]:
# MaxAbsScaler 与 MinMaxScaler工作原理非常类似，每个特征通过除以每列特征的最大值将训练数据缩放至 [-1,1] ,同样的缩放操作也应该用于测试数据

X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
X_train_maxabs

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

In [None]:
# 第二节： 特征规范化

In [9]:
# 规范化是使每个样本具有党委范数的缩放操作，在计算点积衡量样本之间的相似性的时候是非常有用的
# 规范化是向量空间模型的基本假设，经常在文本分类和聚类中使用
# 方法 normalize 为在数组类型的数据集提供了规范化的快速实现，可以选择 L1 或者L2范数

X = np.array([[ 1., -1., 2.],
                    [ 2., 0., 0.],
                    [ 0., 1., -1.]])

X_normalized = preprocessing.normalize(X, norm='l2')
X_normalized

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

In [11]:
# 也可以使用Normalizer类来实现规范化
normalizer = preprocessing.Normalizer().fit(X)  # fit函数没有任何效果
print normalizer

normalizer.transform([[-1.,  1., 0.]])

Normalizer(copy=True, norm='l2')


array([[-0.70710678,  0.70710678,  0.        ]])

In [None]:


# 第三节，特征二值化



In [12]:
# 特征二值化是将数值型特征变成布尔型特征
X = np.array([[ 1., -1., 2.],
                    [ 2., 0., 0.],
                    [ 0., 1., -1.]])

binarizer = preprocessing.Binarizer().fit(X) # fit dose nothion
print binarizer

print binarizer.transform(X)


Binarizer(copy=True, threshold=0.0)
[[ 1.  0.  1.]
 [ 1.  0.  0.]
 [ 0.  1.  0.]]


In [13]:
# 可以改变二值器的阈值
binarizer = preprocessing.Binarizer(threshold=1.1)
binarizer.transform(X)

array([[ 0.,  0.,  1.],
       [ 1.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [None]:


# 第四节，分类特征编码



In [15]:
# 特征更多时候是分类特征，比如一个人的性别特征可以是 ['female', 'male']，如果这个时候我们直接转换成数字，
# female为0，male为1的话，这个是不能直接在sklearn中的估计器直接使用的，因为这样的联系输入，估计器会认为类别之间是有序的，
# 但是实际却是无序的，在sklearn中有两种方法转换，1.one-of-K, 2.one-hot

enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])

enc.transform([[0, 1, 3]]).toarray()

array([[ 1.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  1.]])

In [16]:


# 第五节，缺失值处理



In [19]:
# 处理缺失数值的一个更好的策略就是从已有的数据推断出缺失的数值
# 替换缺失值的一个示例，使用列的均值来替换缺失值
import numpy as np
from sklearn.preprocessing import Imputer

imp = Imputer(missing_values='NaN' , strategy='mean', axis = 0)
haha = imp.fit([[1, 2],
                [np.nan, 3],
                [7, 6]])
print haha
X = [[np.nan, 2], 
     [6, np.nan], 
     [7, 6]]
print imp.transform(X)

Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)
[[ 4.          2.        ]
 [ 6.          3.66666667]
 [ 7.          6.        ]]


In [20]:
# Imputer类也支持稀疏矩阵，注意，下面这个例子缺失值被编码为0
import scipy.sparse as sp
X = sp.csc_matrix([[1, 2],[0, 3],[7, 6]])
imp = Imputer(missing_values=0, strategy='mean', axis = 0)
imp.fit(X)
X_test = sp.csc_matrix([[0, 2],[6, 0],[7, 6]])
print imp.transform(X_test)

[[ 4.          2.        ]
 [ 6.          3.66666675]
 [ 7.          6.        ]]


In [21]:


# 多项式特征生成



In [23]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

X = np.arange(6).reshape(3, 2)
print X

poly = PolynomialFeatures(2)
poly.fit_transform(X)

#特征向量X从:math:(X_1, X_2) 被转换成:math:(1, X_1, X_2, X_1^2, X_1X_2, X_2^2)。

[[0 1]
 [2 3]
 [4 5]]


array([[  1.,   0.,   1.,   0.,   0.,   1.],
       [  1.,   2.,   3.,   4.,   6.,   9.],
       [  1.,   4.,   5.,  16.,  20.,  25.]])