In [1]:
#scikit-learn中有构建机器学习流水线的方法，这个流水线可以包括预处理、特征选择、监督学习、非监督学习等函数，
#以便输入特征向量、选择最好的k个特征、用随机森林分类器进行分类
#选择k个最好的特征，好处在于可以处理较小纬度的数据，可以减小计算的复杂度

In [15]:
from sklearn.datasets import samples_generator
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectKBest,f_regression
from sklearn.pipeline import Pipeline
import pandas as pd
import numpy as np

#生成样本数据,100*20
x,y=samples_generator.make_classification(n_informative=4,n_features=20,n_redundant=0,random_state=5)

#建立流水线第一步，特征选择，选出K个最好的特征
selector_k_best=SelectKBest(f_regression,k=10)

#流水线第二步，用随机森林分类器分类数据
classifier=RandomForestClassifier(n_estimators=50,max_depth=4)
#构建机器学习流水线,将特征选择器命名为selector，把随机森林分类器命名为rf
pipeline_classifier=Pipeline([('selector',selector_k_best),('rf',classifier)])
#可以更改参数
#pipeline_classifier.set_params(selector_k=6,rf_n_estimators=25)

#训练分类器
pipeline_classifier.fit(x,y)
#预测
prediction=pipeline_classifier.predict(x)
#打印分类器评分
print(pipeline_classifier.score(x,y))

#查看被分类器选中的特征
feature_status=pipeline_classifier.named_steps['selector'].get_support()
print(feature_status)
feature_selected=np.where(feature_status==True)
print(feature_selected)

0.98
[ True False False False False  True False  True False  True  True  True
 False  True False  True  True False  True False]
(array([ 0,  5,  7,  9, 10, 11, 13, 15, 16, 18], dtype=int64),)
