## 自动流程

sklearn中通过Pipeline来定义和自动化运行标准流程实现对机器学习问题的自动化处理
- 使用Pipeline最小化数据缺失
- 构建数据准备和生成模型的Pipeline
- 构建数据特征选择和生产模型的Pipeline
    
机器学习实践最常见的一个错误，是训练数据集与评估数据集之间的数据泄露，会影响到评估的准确度。要避免该问题，需要有一个合适的方式把数据分离成训练数据集和评估数据集，Pipeline能够很好地处理泄露问题，如正态化处理
    


In [4]:
# 数据准备和生成模型的Pipeline
# 利用Pipeline处理数据分为以下两个步骤
# 正态化数据；训练一个线性判别分析模型
import pandas as pd
from sklearn.model_selection import KFold,cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
import warnings
warnings.filterwarnings('ignore', 'RuntimeWarning')

filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed)

steps = []
steps.append(('Standardize', StandardScaler()))
steps.append(('lda', LinearDiscriminantAnalysis()))
model = Pipeline(steps)
result = cross_val_score(model, X, Y, cv=kfold)
print(result.mean())

0.773462064251538


In [5]:
# 特征选择和生成模型的Pipeline：在特征选择时保持数据稳固性
# 四个步骤：1、通过PAC进行特征选择；2、通过统计进行特征选择；3、特征集合；4、生成一个逻辑回归模型

from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

# 生成 FeatureUnion
features = []
features.append(('pca', PCA()))
features.append(('select_best', SelectKBest(k=6)))

# 生成 Pipeline
steps = []
steps.append(('feature_union', FeatureUnion(features)))
steps.append(('logistic', LogisticRegression()))
model = Pipeline(steps)
result = cross_val_score(model, X, Y, cv=kfold)
print(result.mean())

0.7799555707450445
