# 过滤式特征选择

过滤式特征选择即单变量选择法，单变量选择法的主要思路是根据某些统计检验的方法分别对每个变量进行检验，得到一组分数、p-value数据，然后我们排序选择分数最高(或p-value最小等)的那些特征。

In [8]:
from sklearn.model_selection import train_test_split
import pandas as pd

In [9]:
#读取数据
data = pd.read_csv("../data/breast_cancer.csv")
print(data.head())

#准备数据
data = data.dropna()
y = data['label']
x = data.drop(['label'],axis=1).astype('float64')

# 训练集、测试集划分
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state= 42)

       0      1       2       3        4        5       6        7       8  \
0  17.99  10.38  122.80  1001.0  0.11840  0.27760  0.3001  0.14710  0.2419   
1  20.57  17.77  132.90  1326.0  0.08474  0.07864  0.0869  0.07017  0.1812   
2  19.69  21.25  130.00  1203.0  0.10960  0.15990  0.1974  0.12790  0.2069   
3  11.42  20.38   77.58   386.1  0.14250  0.28390  0.2414  0.10520  0.2597   
4  20.29  14.34  135.10  1297.0  0.10030  0.13280  0.1980  0.10430  0.1809   

         9  ...     21      22      23      24      25      26      27  \
0  0.07871  ...  17.33  184.60  2019.0  0.1622  0.6656  0.7119  0.2654   
1  0.05667  ...  23.41  158.80  1956.0  0.1238  0.1866  0.2416  0.1860   
2  0.05999  ...  25.53  152.50  1709.0  0.1444  0.4245  0.4504  0.2430   
3  0.09744  ...  26.50   98.87   567.7  0.2098  0.8663  0.6869  0.2575   
4  0.05883  ...  16.67  152.20  1575.0  0.1374  0.2050  0.4000  0.1625   

       28       29  label  
0  0.4601  0.11890      0  
1  0.2750  0.08902      0  
2 

## SelectPercentile

In [10]:
from sklearn.feature_selection import SelectPercentile

SelectPercentile在给定一个0到1之间的百分比x%的情况下，选择最好的x%的特征。比如10个特征，前20%的特征就是最好的两个特征，以此类推。

In [11]:
# 选择前50%好的特征
select = SelectPercentile(percentile=50)
select.fit(x_train,y_train)
x_train_selected = select.transform(x_train)
x_train_selected.shape

(426, 15)

# 包裹式特征选择

包裹式选择与过滤式选择不考虑后续学习器不同，直接把最终使用的学习器的性能作为特征子集的评价准则。换言之，包裹式选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集。

# 嵌入式特征选择

嵌入式特征选择，就是通过一些特殊的模型拟合数据然后根据模型自身的某些对于特征的评价的属性来作为评价指标，最后再使用包裹式的特征选择方法来选择，当然，很多时候我们还是仅停留在计算出评价指标的阶段，因为包裹式特征选择的最大问题就是计算量和时间是三者之中最大的。

最常用的进行嵌入式特征选择的模型：树模型和带正则项的模型（线性回归、逻辑回归、svm、svr、神经网络等）。