In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
np.random.seed(37) # 使得每次运行得到的随机数都一样

In [2]:
# 第一步：准备数据集
from sklearn.datasets import samples_generator
# 使用这个函数产生示例数据
X,y=samples_generator.make_classification(n_informative=4,
                                          n_features=20,
                                          n_redundant=0,
                                          random_state=5)
# 产生一个分类数据集，包含有100个样本，20个features，2个类别，没有冗余特征。
# print(X.shape) # (100, 20)
# print(y.shape)  # (100,)
# print(X[:3]) # 查看没有问题

In [3]:
# 第二步：建立特征选择器
from sklearn.feature_selection import SelectKBest, f_regression
feature_selector=SelectKBest(f_regression,k=10) 
# 一共20个特征向量，我们从中选择最重要的10个特征向量


In [4]:
# 第三步：建立分类器
from sklearn.ensemble import RandomForestClassifier
classifier=RandomForestClassifier(n_estimators=50,max_depth=4)
# 此处构建随机森林分类器作为例子，参数随便指定

In [5]:
# 第四步：组装完整流水线
from sklearn.pipeline import Pipeline
pipeline=Pipeline([('selector',feature_selector),
                   ('rf_classifier',classifier)])
# 修改流水线中参数设置
# 假如我们希望特征选择器不是选择10个特征，而是5个特征，
# 同时分类器中的参数n_estimators也要修改一下，可以采用：
pipeline.set_params(selector__k=5,
                    rf_classifier__n_estimators=25)


Pipeline(memory=None,
     steps=[('selector', SelectKBest(k=5, score_func=<function f_regression at 0x000000001890B950>)), ('rf_classifier', RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=4, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min...n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False))])

In [6]:
# 将数据输入到流水线中
pipeline.fit(X,y) # 对流水线进行训练

predict_y=pipeline.predict(X) #用训练好的流水线预测样本
# print(predict_y)

# 评估该流水线的模型性能
print('pipeline model score: {:.3f}'.format(pipeline.score(X,y)))

pipeline model score: 0.930


In [7]:
# 查看特征选择器选择的特征：
feature_status=pipeline.named_steps['selector'].get_support()
# get_support()会返回true/false，如果支持该feature，则为true.
selected_features=[]
for count,item in enumerate(feature_status):
    if item: selected_features.append(count)
print('selected features by pipeline, (0-indexed): \n{}'.format(
        selected_features))

selected features by pipeline, (0-indexed): 
[5, 9, 10, 11, 15]
