# 本章简介
本章，我们将通过对算法进行调优来构建性能良好的机器学习模型，并对模型性能进行评估：
+ 模型性能的无偏估计
+ 处理机器学习中的常见问题
+ 机器学习模型调优
+ 使用不同的性能指标评估预测模型 5

# 6.1 基于流水线的工作流
> 介绍了如何使用sklearn中的工具类pipline使得工作更加高效  

sklearn中的pipline类使得我们可以拟合出包含任意多个处理步骤的模型，并将模型用于新数据的预测 5  
## 6.1.1 加载威斯康星乳腺癌数据集
> 介绍了如何加载威斯康星乳腺癌数据集并进行预处理  

第一步：加载数据集

In [None]:
'''
python	sklearn	Datasets	load_breast_cancer()
python	sklearn	Datasets	load_*() as_frame
python	sklearn	Datasets	load_*() frame
'''
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer(as_frame=True)
df = bc.frame
df.head()

第二步：对类标编码，此时恶性肿瘤和良性肿瘤分别被标识为类1和类0  

In [None]:
'''
5
'''
import numpy as np
X = df.iloc[:, :-2].values
y = df.iloc[:, -1].values
np.unique(y)

第三步：我们将数据集划分为训练数据集(80%)和单独的测试数据集(20%)  

In [None]:
'''
5
python	sklearn	Model Selection	train_test_split()
'''
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=0.20, random_state=1)

## 6.1.2 在流水线中集成数据转换及评估操作
> 介绍了如何通过pipeline实现预处理、训练等一系列操作以及pipeline的工作方式  

我们需要对数据特征列做标准化处理，此外，我们还想通过第5章介绍过的主成分分析降维到二维子空间，最后我们使用逻辑斯蒂回归模型分析数据  

In [None]:
'''
python	sklearn	Preprocessing and Normalization	StandardScaler()
python	sklearn	Matrix Decomposition	PCA()
python	sklearn	pipeline	Pipeline()
'''
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
pipe_lr = Pipeline([('scl', StandardScaler()),
                   ('pca', PCA(n_components=2)),
                   ('clf', LogisticRegression(random_state=1))])
pipe_lr.fit(X_train, y_train)
print('Test Accuracy: {:.3f}'.format(pipe_lr.score(X_test, y_test)))