## 特征选择
sklearn.feature_selection模块中的类可以用于样本集中的特征选择/维数降低，以提高估计器的准确度分数或提高其在非常高维数据集上的性能。

## 删除低方差特征
VarianceThreshold是特征选择的简单基线方法。它删除方差不符合某个阈值的所有特征。默认情况下，它会删除所有零差异特征，即所有样本中具有相同值的特征。
例如，假设我们有一个具有布尔特征的数据集，并且我们要删除超过80％的样本中的一个或零（开或关）的所有特征。布尔特征是伯努利随机变量，这些变量的方差由下式给出

所以我们可以选择使用阈值：.8 * (1 - .8)

In [1]:
from sklearn.feature_selection import VarianceThreshold
X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
sel.fit_transform(X)

array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

## 单变量特征选择
通过选择基于单变量统计测试的最佳特征来进行单变量特征选择。它可以被看作是估计器的预处理步骤。Scikit学习将特征选择例程公开为实现该transform方法的对象：
* SelectKBest除去ķ最高得分功能之外的所有功能
* SelectPercentile 删除除用户指定的最高得分百分比的功能之外的所有内容
* 对每个特征使用常见的单变量统计检验：假阳性率SelectFpr，假发现率 SelectFdr或家族误差SelectFwe。
* GenericUnivariateSelect允许使用可配置策略执行单变量特征选择。这允许使用超参数搜索估计器来选择最佳的单变量选择策略。
例如，我们可以对样本执行测试，以仅检索两个最佳特征，如下所示：

In [1]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
iris = load_iris()
X, y = iris.data, iris.target
print(X.shape)
print(X)
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
X_new.shape
print(X_new)

(150, 4)
[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]
 [ 5.4  3.9  1.7  0.4]
 [ 4.6  3.4  1.4  0.3]
 [ 5.   3.4  1.5  0.2]
 [ 4.4  2.9  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.4  3.7  1.5  0.2]
 [ 4.8  3.4  1.6  0.2]
 [ 4.8  3.   1.4  0.1]
 [ 4.3  3.   1.1  0.1]
 [ 5.8  4.   1.2  0.2]
 [ 5.7  4.4  1.5  0.4]
 [ 5.4  3.9  1.3  0.4]
 [ 5.1  3.5  1.4  0.3]
 [ 5.7  3.8  1.7  0.3]
 [ 5.1  3.8  1.5  0.3]
 [ 5.4  3.4  1.7  0.2]
 [ 5.1  3.7  1.5  0.4]
 [ 4.6  3.6  1.   0.2]
 [ 5.1  3.3  1.7  0.5]
 [ 4.8  3.4  1.9  0.2]
 [ 5.   3.   1.6  0.2]
 [ 5.   3.4  1.6  0.4]
 [ 5.2  3.5  1.5  0.2]
 [ 5.2  3.4  1.4  0.2]
 [ 4.7  3.2  1.6  0.2]
 [ 4.8  3.1  1.6  0.2]
 [ 5.4  3.4  1.5  0.4]
 [ 5.2  4.1  1.5  0.1]
 [ 5.5  4.2  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.   3.2  1.2  0.2]
 [ 5.5  3.5  1.3  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 4.4  3.   1.3  0.2]
 [ 5.1  3.4  1.5  0.2]
 [ 5.   3.5  1.3  0.3]
 [ 4.5  2.3  1.3  0.3]
 [ 4.4  3.2  1.3  0.2]
 [

这些对象将输入一个评分函数作为输入，该函数返回单变量分数和p值（或仅用于SelectKBest和的 分数SelectPercentile）：
* 对于回归：f_regression，mutual_info_regression
* 对于分类：chi2，f_classif，mutual_info_classif
基于F检验的方法估计两个随机变量之间的线性依赖程度。另一方面，互信息方法可以捕获任何种类的统计依赖，但是非参数化，它们需要更多的样本进行准确的估计。
特征选择与稀疏数据
如果你使用稀疏数据（即表示为稀疏矩阵数据） chi2，mutual_info_regression，mutual_info_classif 将处理数据，而使其密集。
警告:<br>
 **小心不要使用具有分类问题的回归计分功能，您将获得无用的结果。**

## 使用SelectFromModel功能选择
SelectFromModel是一种元变压器，可以与任何在拟合后具有coef_或feature_importances_属性的估计器一起使用。如果相应的coef_或feature_importances_值低于提供的 threshold参数，则这些特征被认为是不重要和被去除的 。除了在数值上指定阈值之外，还有内置的启发式方法用于使用字符串参数来查找阈值。可用的启发式是“平均值”，“中位数”和浮点倍数，如“0.1 * mean”。

In [None]:
from sklearn.svm import LinearSVC
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel
iris = load_iris()
X, y = iris.data, iris.target
print(X)
print(X.shape)
lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
model = SelectFromModel(lsvc, prefit=True)
X_new = model.transform(X)
print(X_new)
X_new.shape