## 数据特征选定

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已    
特征工程目的是最大限度地从原始数据中提取合适的特征，以供算法和模型使用，sklearn提供较为完整的特征处理方法，包括数据预处理、特征选择、降维等    
四个数据特征选择方法：
- 单变量特征选定
- 递归特征消除
- 主要成分分析
- 特征的重要性

### 特征选定
有助于提高预测结果准确度的特征数据，或者有助于发现我们感兴趣的输出结果的特征数据    
在开始建模前，执行特征选定有助于：
- 降低数据的拟合度：较少的冗余数据，使得算法得出结论的机会更大
- 提高算法精度：较少的误导数据，能够提高算法的准确度
- 减少训练时间：越少的数据，训练模型所需要的时间越少

In [1]:
# 单变量特征选定
# 卡方检验选择四个对结果影响最大的数据特征

import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest,chi2

filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
# 特征选定
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
np.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features)

[ 111.52  1411.887   17.605   53.108 2175.565  127.669    5.393  181.304]
[[148.    0.   33.6  50. ]
 [ 85.    0.   26.6  31. ]
 [183.    0.   23.3  32. ]
 ...
 [121.  112.   26.2  30. ]
 [126.    0.   30.1  47. ]
 [ 93.    0.   30.4  23. ]]


In [2]:
# 递归特征消除：使用一个基模型来进行多轮训练
# 每轮训练后消除若干权值稀疏的特征，在基于新的特征集进行下一轮训练
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
import warnings
warnings.filterwarnings("ignore")#忽略警告

# 特征选定
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print('特征个数： ', fit.n_features_)
print('被选定的特征： ', fit.support_)
print('特征排名： ', fit.ranking_)

特征个数：  3
被选定的特征：  [ True False False False False  True  True False]
特征排名：  [1 2 3 5 6 1 1 4]


In [3]:
# PAC 主要成分分析： 使用线性代数来压缩数据，通常被称作数据降维
# 除了PCA还有LDA线性判别分析
from sklearn.decomposition import PCA

pca = PCA(n_components=3)
fit = pca.fit(X)
print("解释方差： %s" % fit.explained_variance_ratio_)
print(fit.components_)

解释方差： [0.889 0.062 0.026]
[[-2.022e-03  9.781e-02  1.609e-02  6.076e-02  9.931e-01  1.401e-02
   5.372e-04 -3.565e-03]
 [-2.265e-02 -9.722e-01 -1.419e-01  5.786e-02  9.463e-02 -4.697e-02
  -8.168e-04 -1.402e-01]
 [-2.246e-02  1.434e-01 -9.225e-01 -3.070e-01  2.098e-02 -1.324e-01
  -6.400e-04 -1.255e-01]]


In [4]:
# 特征重要性
# 袋装决策树算法BDT，随机森林算法和极端随机森林算法都是用来计算数据特征重要性的算法

# 通过决策树计算特征的重要性
from sklearn.ensemble import ExtraTreesClassifier

model = ExtraTreesClassifier()
fit = model.fit(X, Y)
fit.feature_importances_

array([0.108, 0.238, 0.093, 0.069, 0.076, 0.144, 0.121, 0.151])