# 特征工程

## 数据预处理

#### 引入模块和数据

In [9]:
import numpy as np
from sklearn import preprocessing

# 初始数据
data = np.array([[3, -1.2, 2],
                [0, 5, 0.3],
                [1, 2.1, -2.1]])
print('初始化数据=\n', data)
print('数据大小:',data.shape)

初始化数据=
 [[ 3.  -1.2  2. ]
 [ 0.   5.   0.3]
 [ 1.   2.1 -2.1]]
数据大小: (3, 3)


### 特征缩放

#### 归一化处理

数据标准化主要功能就是消除变量间的量纲关系，从而使数据具有可比性。

##### 线性函数归一化

它对原始数据进行线性变换，使得结果映射到[0,1]的范围，实现对原始数据的等比缩放。

In [6]:
data_scaler=preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled=data_scaler.fit_transform(data)
print ("原始：\n",data)
print("\n经过范围缩放：\n",data_scaled)

原始：
 [[ 3.  -1.2  2. ]
 [ 0.   5.   0.3]
 [ 1.   2.1 -2.1]]

经过范围缩放：
 [[ 1.          0.          1.        ]
 [ 0.          1.          0.58536585]
 [ 0.33333333  0.53225806  0.        ]]


##### 零均值归一化

它会将原始数据映射到均值为 0，标准差为 1 的分布上

In [2]:
data_standardized=preprocessing.scale(data)
print("原始数据\n", data)
print("经过标准化处理的数据\n", data_standardized)

原始数据
 [[ 3.  -1.2  2. ]
 [ 0.   5.   0.3]
 [ 1.   2.1 -2.1]]
经过标准化处理的数据
 [[ 1.33630621 -1.25021647  1.14947305]
 [-1.06904497  1.19757578  0.13872951]
 [-0.26726124  0.05264069 -1.28820256]]


In [3]:
print('原始均值=',data.mean(axis=0))
print('标准化后均值=',data_standardized.mean(axis=0))

原始均值= [ 1.33333333  1.96666667  0.06666667]
标准化后均值= [  5.55111512e-17  -3.70074342e-17   0.00000000e+00]


In [5]:
print('原始方差=', data.std(axis=0))
print('标准化后方差=', data_standardized.std(axis=0))

原始方差= [ 1.24721913  2.5328947   1.68193011]
标准化后方差= [ 1.  1.  1.]


#### 正则化

正则化是将样本或者特征的某个范数（如 L1、L2 范数）缩放到单位 1。

In [10]:
data_normalized_l1=preprocessing.normalize(data,norm='l1')
print("原始：\n",data)
print("L1正则化后：\n",data_normalized_l1)

原始：
 [[ 3.  -1.2  2. ]
 [ 0.   5.   0.3]
 [ 1.   2.1 -2.1]]
L1正则化后：
 [[ 0.48387097 -0.19354839  0.32258065]
 [ 0.          0.94339623  0.05660377]
 [ 0.19230769  0.40384615 -0.40384615]]


In [11]:
data_normalized_l2=preprocessing.normalize(data,norm='l2')
print("原始：\n",data)
print("L1正则化后：\n",data_normalized_l2)

原始：
 [[ 3.  -1.2  2. ]
 [ 0.   5.   0.3]
 [ 1.   2.1 -2.1]]
L1正则化后：
 [[ 0.78947368 -0.31578947  0.52631579]
 [ 0.          0.99820485  0.05989229]
 [ 0.31911282  0.67013693 -0.67013693]]


### 特征编码

#### 序号编码

序号编码一般用于处理类别间具有大小关系的数据。

In [13]:
#（1）.创建标记编码器
label_encoder=preprocessing.LabelEncoder()

In [24]:
#（2） 用数据训练编码器
category_data=['name','id','health','weight','high','grade']
label_encoder.fit(category_data)
# 创建一个类别映射表
for i,item in enumerate(label_encoder.classes_):
    print("%7s--->%d"%(item,i))

  grade--->0
 health--->1
   high--->2
     id--->3
   name--->4
 weight--->5


In [25]:
labels=['name','grade']
encoded_labels=label_encoder.transform(labels)
print('例子1：')
print("labels = ",labels)
print("encoded labels = ",encoded_labels)

例子1：
labels =  ['name', 'grade']
encoded labels =  [4 0]


In [26]:
encoded_labels=[1,2,5,3]
labels=label_encoder.inverse_transform(encoded_labels)
print('例子2：')
print("labels",labels)
print("encoded labels",encoded_labels)

例子2：
labels ['health' 'high' 'weight' 'id']
encoded labels [1, 2, 5, 3]


#### 独热编码

独热编码是采用 N 位状态位来对 N 个可能的取值进行编码。

In [27]:
encoder=preprocessing.OneHotEncoder()
encoder.fit([[0,2,1,12],[1,3,5,3],[2,3,2,12],[1,2,4,3]])
encoded_vector=encoder.transform([[2,3,5,3]])   #注意是[[  ]]
print(type(encoded_vector))
print ("encoded_vector =\n ",encoded_vector)
print ("encoded_vector = ",encoded_vector.toarray())

<class 'scipy.sparse.csr.csr_matrix'>
encoded_vector =
    (0, 9)	1.0
  (0, 8)	1.0
  (0, 4)	1.0
  (0, 2)	1.0
encoded_vector =  [[ 0.  0.  1.  0.  1.  0.  0.  0.  1.  1.  0.]]


#### 二值化

将数值型转换为布尔类型

In [28]:
# 小于等于1.4的为0，其余为1
data = np.array([[3, -1.2, 2],
                [0, 5, 0.3],
                [1, 2.1, -2.1]])
data_binarized=preprocessing.Binarizer(threshold=1.4).transform(data)
print("原始：\n",data)
print("二值化：\n",data_binarized)

原始：
 [[ 3.  -1.2  2. ]
 [ 0.   5.   0.3]
 [ 1.   2.1 -2.1]]
二值化：
 [[ 1.  0.  1.]
 [ 0.  1.  0.]
 [ 0.  1.  0.]]
