In [1]:
# 导入sklearn库中feature_select模块的VarianceThreshold类，创建一个二维列表X。
from sklearn.feature_selection import VarianceThreshold
X=[[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
X

[[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]

## 去掉取值变化小的特征

In [2]:
# 使用VarianceThreshold函数创建一个方差选择对象sel，设置阀值参数threshold=(0.8*(1-0.8))，
# 使用sel对象的fit_transform方法，删除X中每个特征值的方差小于阀值的特征。
sel=VarianceThreshold(threshold=(0.8*(1-0.8)))
sel.fit_transform(X)

array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

## 单变量特征选择

In [3]:
# 导入sklearn库中feature_select模块的SelectKBest、chi2，
# 导入sklearn库中datasets模块的load_iris，
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

In [4]:
# 使用load_iris类创建一个iris数据的实例化对象iris，将iris对象的数据与标签分别赋值给X,y，并查看X的形状。
iris=load_iris()
X,y=iris.data,iris.target
X.shape

(150, 4)

In [5]:
# 使用SelectKBase函数创建一个自定义特征评分选择对象，
# 设置评分参数score_func=chi2，选择评分最高特征数量参数k=2，
# 然后使用fir_transform方法，通过卡方检验选择法选择X,y数据中评分最高的2的特征，并检查返回数据的形状。
X_new=SelectKBest(chi2,k=2).fit_transform(X,y)
X_new.shape

(150, 2)

## 基于树的特征选择(Tree-based Feature Selection)

In [6]:
# 导入sklearn库中ensemble模块的ExtraTreesClassifier
from sklearn.ensemble import ExtraTreesClassifier

In [7]:
# 使用ExtraTreesClassifier函数创建一个基于树的特征选择对象clf，
# 使用clf对象的fit方法通过X,y数据创建基于树的特征选择模型，查看每个特征的重要性.
clf=ExtraTreesClassifier()
X_new=clf.fit(X,y)
clf.feature_importances_

array([0.09330055, 0.06052559, 0.39970508, 0.44646878])

## 递归特征消除

In [8]:
# 导入sklearn库中feature_selection模块的RFE，
# 导入sklearn库中datasets模块的 make_friedman1，
# 导入sklearn库中svm模块的 SVR，
from sklearn.datasets import make_friedman1
from sklearn.feature_selection import RFE
from sklearn.svm import SVR

In [9]:
# 使用make_friendman1函数创建训练数据X，标签数据y，
# 设置样本个数参数n_samples=50，特征个数参数n_features=10，随机状态参数random_state=42。
X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)

In [10]:
# 使用SVR函数创建一个支持向量机回归模型实例对象，设置核函数参数为kernel=linear，
estimator=SVR(kernel='linear')

In [11]:
# 使用RFE函数创建一个递归消除对象selector，设置 估计量参数estimator=estimator，n_features_to_select=5，
# 使用对象的fit方法通过X,y数据创建递归特征消除模型。
selector = RFE(estimator=estimator, n_features_to_select=5, step=1)
selector=selector.fit(X,y)

In [12]:
# 使用support_获取训练数据X中特征是否被选择的布尔值。
selector.support_

array([ True,  True,  True,  True,  True, False, False, False, False,
       False])

## 自定义模型训练选择法

In [13]:
# 导入sklearn库中feature_selection模块的SelectFromModel，
# 导入sklearn库中datasets模块的 load_iris，
# 导入sklearn库中svm模块的LinearSVC，
# 使用load_iris类创建一个iris数据的实例化对象iris，将iris对象的数据与标签分别赋值给X,y，并查看X的形状。
from sklearn.svm import LinearSVC
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel
iris = load_iris()
X, y = iris.data, iris.target
X.shape

(150, 4)

In [14]:
# 使用LinearSVC函数创建一个实例对象，设置误差项的惩罚参数C=0.01，正则化参数penalty='l1'，对偶参数dual=False，
# 然后使用fit方法通过训练数据X，y
# 创建线性支持向量机模型lsvc，然后使用SelectFromModel函数，设置自定义函数参数为lsvc，预适应模型是否会直接传递到构造函数中的参数prefit=True，
# 创建自定义选择模型model，然后使用transform方法将X数据进行特征选择，返回结果X_new，并查看X_new的形状。
# 说明：解决 ConvergenceWarning: Liblinear failed to converge, increase the number of iterations. 错误
# 问题原因： Liblinear 无法收敛，请增加迭代次数。
# 问题解决： 
# 还未收敛
#    规范化数据。利用sklearn中的StandScaler函数规范化特征，这不仅可能可以使得结果更好，更可能可以加快训练速度。但需要注意的是，若有离散数据，需要确保它们被正确转换
#    确保C等其他参数设置正确，可以调用Optimize等包来调整参数。
#    如果特征数大于样本数，则需要设置dual=True
#    设置max_iter为更大的值，默认为1000。
# lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
lsvc = LinearSVC(C=0.01, penalty="l1", dual=False, max_iter=5000).fit(X, y)
# 或者：此例不适合~~
# lsvc = LinearSVC(C=0.01, penalty="l1", dual=True).fit(X, y)
model = SelectFromModel(lsvc, prefit=True)
X_new = model.transform(X)
X_new.shape

(150, 3)

# 以上！