# 特征选择

## 1. 去掉取值变化小的特征

- 每列是一个特征

- 如何衡量“一列的变化小”：设置一个分布，设定保留多少百分比的向量，计算它的方差。
VarianceThreshold():

In [3]:
from sklearn.feature_selection import VarianceThreshold

# 6个样本，3维的特征向量
X = [[0, 0, 1], 
     [0, 1, 0], 
     [1, 0, 0], 
     [0, 1, 1], 
     [0, 1, 0], 
     [0, 1, 1]]

# 根据方差保留80%的向量
# 由于特征是伯努利随机变量(两个取值)，方差计算公式：var_thresh = p(1-p)
sel = VarianceThreshold(threshold=(.6 * (1 - .6)))
sel.fit_transform(X)

array([[1],
       [0],
       [0],
       [1],
       [0],
       [1]])

## 2. 基于单变量统计特征选择

In [2]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

print('原始特征：')
print(X.shape)
print(X[:10, :])

print()

# 使用卡方分布选择2个维度的变量
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
print('选取的特征：')
print(X_new.shape)
print(X_new[:10, :])

原始特征：
(150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]

选取的特征：
(150, 2)
[[1.4 0.2]
 [1.4 0.2]
 [1.3 0.2]
 [1.5 0.2]
 [1.4 0.2]
 [1.7 0.4]
 [1.4 0.3]
 [1.5 0.2]
 [1.4 0.2]
 [1.5 0.1]]


## 3. 基于模型的特征选择

给每个特征打分，通过模型自带的feature_importances_属性

In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel

iris = load_iris()
X, y = iris.data, iris.target
print('原始特征：')
print(X.shape)
print(X[:10, :])

clf = DecisionTreeClassifier()
clf = clf.fit(X, y)
print('特征得分：')
print(clf.feature_importances_  )

# 基于决策树选择特征
model = SelectFromModel(clf, prefit=True, threshold=0.3)
X_new = model.transform(X)
print('选取的特征：')
print(X_new.shape)
print(X_new[:10, :])

原始特征：
(150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]
特征得分：
[0.01333333 0.01333333 0.55072262 0.42261071]
选取的特征：
(150, 2)
[[1.4 0.2]
 [1.4 0.2]
 [1.3 0.2]
 [1.5 0.2]
 [1.4 0.2]
 [1.7 0.4]
 [1.4 0.3]
 [1.5 0.2]
 [1.4 0.2]
 [1.5 0.1]]
