# 使用特征工程对数据进行加工

In [1]:
%%html
<img src='E:\Grade3_1\智能信息系统（实验）\week3\实验三_机器学习与分类课件\code\feature_engineering_tree.png', width=500, height=300>

## 原始数据读取

In [2]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split  # 用于拆分训练集和测试集
from sklearn import preprocessing  # 数据标准化处理
from sklearn import svm   # 支持向量机

iris_data = load_iris()
iris_features = iris_data.data
iris_labels = iris_data.target

print('鸢尾花数据集特征集的特征向量前十条为：\n', iris_features[:10])
print('鸢尾花数据集特征集的标签前十条为：\n', iris_labels[:10])

鸢尾花数据集特征集的特征向量前十条为：
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]
鸢尾花数据集特征集的标签前十条为：
 [0 0 0 0 0 0 0 0 0 0]


# 数据标准化处理
在数据集中存在部分值特别大或特别小的情况，以及数据集本身的分布很不规律的情况下，可以采用数据标准化处理，将数据缩放到某一个区间内。主要的方式包括归一化、标准化、区间缩放法等。

In [3]:
# 数据归一化处理，对列进行操作，将数据放缩到一个特定的范围
min_max_means = preprocessing.MinMaxScaler()
iris_features_min_max = min_max_means.fit_transform(iris_features)

print('归一化处理转化后的鸢尾花数据集特征集的特征向量前十条为：\n', iris_features_min_max[:10])

归一化处理转化后的鸢尾花数据集特征集的特征向量前十条为：
 [[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 [0.11111111 0.5        0.05084746 0.04166667]
 [0.08333333 0.45833333 0.08474576 0.04166667]
 [0.19444444 0.66666667 0.06779661 0.04166667]
 [0.30555556 0.79166667 0.11864407 0.125     ]
 [0.08333333 0.58333333 0.06779661 0.08333333]
 [0.19444444 0.58333333 0.08474576 0.04166667]
 [0.02777778 0.375      0.06779661 0.04166667]
 [0.16666667 0.45833333 0.08474576 0.        ]]


In [4]:
# 数据标准化处理，对列进行操作，将数据放缩到一个特定的范围
stand_means = preprocessing.StandardScaler()
iris_features_standard = stand_means.fit_transform(iris_features)

print('标准化处理转化后的鸢尾花数据集特征集的特征向量前十条为：\n', iris_features_standard[:10])

标准化处理转化后的鸢尾花数据集特征集的特征向量前十条为：
 [[-0.90068117  1.03205722 -1.3412724  -1.31297673]
 [-1.14301691 -0.1249576  -1.3412724  -1.31297673]
 [-1.38535265  0.33784833 -1.39813811 -1.31297673]
 [-1.50652052  0.10644536 -1.2844067  -1.31297673]
 [-1.02184904  1.26346019 -1.3412724  -1.31297673]
 [-0.53717756  1.95766909 -1.17067529 -1.05003079]
 [-1.50652052  0.80065426 -1.3412724  -1.18150376]
 [-1.02184904  0.80065426 -1.2844067  -1.31297673]
 [-1.74885626 -0.35636057 -1.3412724  -1.31297673]
 [-1.14301691  0.10644536 -1.2844067  -1.4444497 ]]


# 衍生变量

In [6]:
# 对花瓣长宽、萼片长宽分别进行加工，构建新的特征（新特征的实验在标准化前的数据集上进行）
sepal_area = np.array([iris_features[index][0] * iris_features[index][1] for index in range(len(iris_features))])
petal_area = np.array([iris_features[index][2] * iris_features[index][3] for index in range(len(iris_features))])

# 将新构建的矩阵进行转置，以和原数据在记录数的形状上相同，方便后续拼接
new_features = np.array([sepal_area, petal_area]).T

iris_features_added_new = np.column_stack((iris_features, new_features))
print('添加特征后的鸢尾花数据集特征集的特征向量前十条为：\n', iris_features_added_new[:10])

添加特征后的鸢尾花数据集特征集的特征向量前十条为：
 [[ 5.1   3.5   1.4   0.2  17.85  0.28]
 [ 4.9   3.    1.4   0.2  14.7   0.28]
 [ 4.7   3.2   1.3   0.2  15.04  0.26]
 [ 4.6   3.1   1.5   0.2  14.26  0.3 ]
 [ 5.    3.6   1.4   0.2  18.    0.28]
 [ 5.4   3.9   1.7   0.4  21.06  0.68]
 [ 4.6   3.4   1.4   0.3  15.64  0.42]
 [ 5.    3.4   1.5   0.2  17.    0.3 ]
 [ 4.4   2.9   1.4   0.2  12.76  0.28]
 [ 4.9   3.1   1.5   0.1  15.19  0.15]]


### 使用新创建特征的特征集合与后构建的特征集合，分别构建svm分类器，验证特征工程的效果

In [8]:
X_train, X_test, Y_train, Y_test = train_test_split(iris_features, iris_labels, test_size = 0.3, random_state = 21)

# 训练模型
svm_classifier = svm.SVC(C=1.0, kernel='rbf', decision_function_shape='ovr', gamma=0.01)
svm_classifier.fit(X_train, Y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [9]:
print('基础数据特征条件下的SVM训练集得分为：', svm_classifier.score(X_train, Y_train))
print('基础数据特征条件下的SVM测试集得分为：', svm_classifier.score(X_test, Y_test))

基础数据特征条件下的SVM训练集得分为： 0.9714285714285714
基础数据特征条件下的SVM测试集得分为： 0.8888888888888888


In [10]:
X_train, X_test, Y_train, Y_test = train_test_split(iris_features_added_new,\
                                                   iris_labels,\
                                                   test_size=0.3,\
                                                   random_state=21)
# 训练模型
svm_classifier = svm.SVC(C=1.0, kernel='rbf', decision_function_shape='ovr', gamma=0.01)
svm_classifier.fit(X_train, Y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [11]:
print("添加新特征后的SVM训练集得分为：", svm_classifier.score(X_train, Y_train))
print("添加新特征后的SVM测试集得分为：", svm_classifier.score(X_test, Y_test))

添加新特征后的SVM训练集得分为： 0.9619047619047619
添加新特征后的SVM测试集得分为： 0.9333333333333333
