# Lessono 6.2 Scikit-Learn常用功能介绍

在对sklearn整体情况有了一定的了解之后，接下来我们来介绍sklearn中机器学习建模过程常用的一些功能。

In [35]:
# 科学计算模块
import numpy as np
import pandas as pd

# 画图模块
import matplotlib.pyplot as plt

# 机器学习模块
from ML_basic_function import *

## 三、Scikit-Learn的常用功能介绍

接下来，我们进一步构建功能实现更加完整与复杂的建模过程，并练习使用更多的sklearn中的相关功能。

### 1.sklearn中的数据集读取

sklearn提供了非常多的内置数据集，并且还提供了一些创建数据集的方法。

sklearn中的数据集相关功能都在datasets模块下，我们可以通过API文档中的datasets模块所包含的内容对所有的数据集和创建数据集的方法进行概览。不难发现，sklearn中提供了结构化数据集（如经典的鸢尾花数据集、波士顿房价数据集、乳腺癌数据集等），同时也提供了一些如图片数据、文本数据等数据集，可以使用load函数来进行读取；此外，sklearn中还提供了许多能够创建不同数据分布的数据生成器(用make函数创建)，和我们此前定义的数据生成器类似，都是可以用于创建测试评估器性能的数据生成器。

首先是鸢尾花数据的读取，我们可借助load_iris:来进行数据的读取。简单读取方法如下：

In [36]:
from sklearn import datasets
iris = datasets.load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

注意，在默认情况下，数据读取结果的类型是Buch类型，是一个类似字典类型的对象：

In [37]:
type(iris)

sklearn.utils._bunch.Bunch

![Alt text](image-106.png)

当然，如果希望只返回特征矩阵和标签数组这两个对象，则可以通过在读取数据集时设置参数return._Xy为True来实现。

In [38]:
X, y = datasets.load_iris(return_X_y=True)

In [39]:
X[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [40]:
y[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

而如果想创建DataFrame对象，则可以通过在读取数据集时设置参数as_frame为True来实现

In [41]:
iris_dataframe = datasets.load_iris(as_frame=True)
iris_dataframe.frame

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


更多信息，可以通过查阅AP或者帮助文档获得。当然不仅鸢尾花数据的读取过程如此，sklearn中其他数据的读取过程也是类似。接下来，我们借助上述创建的X和y带入进行后续建模。

### 2.sklearn中数据集切分方法

在sklearn中，我们可以通过调用train_test_split函数来完成数据集切分，当然数据集切分的目的是为了更好的进行模型性能评估，而更好的进行模型性能评估则是为了更好的进行模型挑选，因此train._test_split函数实际上是在model_.selection模块下。

In [42]:
from sklearn.model_selection import train_test_split

该函数和此前我们定义的数据集切分函数在功能和使用上都基本一致，我们可以直接通过查阅该函数的帮助文档来了解核心信息：

In [43]:
# 查阅该函数的帮助文档
train_test_split?

[1;31mSignature:[0m
[0mtrain_test_split[0m[1;33m([0m[1;33m
[0m    [1;33m*[0m[0marrays[0m[1;33m,[0m[1;33m
[0m    [0mtest_size[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mtrain_size[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mrandom_state[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mshuffle[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mstratify[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Split arrays or matrices into random train and test subsets.

Quick utility that wraps input validation,
``next(ShuffleSplit().split(X, y))``, and application to input data
into a single call for splitting (and optionally subsampling) data into a
one-liner.

Read more in the :ref:`User Guide <cross_validation>`.

Parameters
----------
*arrays : sequence of indexables with same length / shape[0]
    Allowed inputs are lists, numpy arrays, scipy-sparse

此处有两个地方需要注意，其一是随机数种子的设置，和此前手动定义的数据集切分函数一样，random._state取值不同，切分结果就会各有不同：

In [44]:
X = np.arange(12).reshape((6, 2))
X

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [45]:
y = np.array([0, 0, 1, 1, 1, 1])

In [46]:
train_test_split(X, y, random_state=42)

[array([[10, 11],
        [ 4,  5],
        [ 8,  9],
        [ 6,  7]]),
 array([[0, 1],
        [2, 3]]),
 array([1, 1, 1, 1]),
 array([0, 0])]

而stratify参数则是控制训练集和测试集不同类别样本所占比例的参数，若希望切分后的训练集和测试集中0、1两类的比例和原始数据相同(1:1)，则可另stratify=y,则有结果如下：

In [47]:
train_test_split(X, y, stratify=y, random_state=42)

[array([[6, 7],
        [4, 5],
        [2, 3],
        [8, 9]]),
 array([[10, 11],
        [ 0,  1]]),
 array([1, 1, 0, 1]),
 array([1, 0])]

### 3.sklearn中的数据标准化与归一化

正如此前介绍的，很多时候我们需要对数据进行归一化处理。而在sklearn中，则包含了非常多关于数据归一化的函数和评估器，接下来我们对其进行逐一介绍，然后从中挑选合适的函数或者评估器带入进行建模。

从功能上划分，sklearn中的归一化其实是分为标准化(Standardization)和归一化(Normalization)两类。其中，此前所介绍的Z-Score标准化和0-1标准化，都属于Standardization的范畴，而在sklearn中，Normalization.则特指针对单个样本（一行数据）利用其范数进行放缩的过程。不过二者都属于数据预处理范畴，都在sklearn中的Preprocessing data模块下。

In [48]:
from sklearn import preprocessing

> 需要注意的是，此前我们介绍数据归一化时有讨论过标准化和归一化名称上的区别，在大多数场景下其实我们并不会对其进行特意的区分，但sklearn中标准化和归一化则各指代一类数据处理方法，此处需要注意。

#### 3.1 标准化Standardization

sklearn的标准化过程，即包括Z-Score标准化，也包括0-1标准化，并且即可以通过实用函数来进行标准化处理，同时也可以利用评估器来执行标准化过程。接下来我们分不同功能以的不同实现形式来进行讨论：

* Z-score标准化的函数实现方法

我们可以通过preprocessing模块下的scale函数进行快速的Z-Score标准化处理。

In [49]:
X = np.arange(9).reshape((3, 3))
X

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [50]:
preprocessing.scale(X)

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

* Z-score标准化的评估器实现方法

实用函数进行标准化处理，尽管从代码实现角度来看清晰易懂，但却不适用于许多实际的机器学习建模场景。其一是因为在进行数据集的训练集和测试集切分后，我们首先要在训练集进行标准化、然后统计训练集上统计均值和方差再对测试集进行标准化处理，因此其实还需要一个统计训练集相关统计量的过程；其二则是因为相l比实用函数，sklearn中的评估器其实会有一个非常便捷的串联的功能，sklearn中提供了Pipeline.工具能够对多个评估器进行串联进而组成一个机器学习流，从而简化模型在重复调用时候所需代码量，因此通过评估器的方法进行数据标准化，其实是一种更加通用的选择。

既然是实用评估器进行数据标准化，那就需要遵照评估器的一般使用过程：

首先是评估器导入：

In [51]:
from sklearn.preprocessing import StandardScaler

然后是查阅评估器参数，然后进行评估器的实例化：

In [52]:
# 查阅该函数的帮助文档
StandardScaler?

[1;31mInit signature:[0m [0mStandardScaler[0m[1;33m([0m[1;33m*[0m[1;33m,[0m [0mcopy[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m [0mwith_mean[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m [0mwith_std[0m[1;33m=[0m[1;32mTrue[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
Standardize features by removing the mean and scaling to unit variance.

The standard score of a sample `x` is calculated as:

    z = (x - u) / s

where `u` is the mean of the training samples or zero if `with_mean=False`,
and `s` is the standard deviation of the training samples or one if
`with_std=False`.

Centering and scaling happen independently on each feature by computing
the relevant statistics on the samples in the training set. Mean and
standard deviation are then stored to be used on later data using
:meth:`transform`.

Standardization of a dataset is a common requirement for many
machine learning estimators: they might behave badly if the
individual features do not more or l

In [53]:
scaler = StandardScaler()  

然后导入数据，进行训练，此处也是使用fit函数进行训练：

In [54]:
x = np.arange(15).reshape((5, 3))
x

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [60]:
x_train, x_test = train_test_split(x)
x_train, x_test

(array([[ 9, 10, 11],
        [ 0,  1,  2],
        [12, 13, 14]]),
 array([[6, 7, 8],
        [3, 4, 5]]))

In [61]:
scaler.fit(x_train)

虽然同样是输入数据，但标准化的评估器和训练模型的评估器实际上是不同的计算过程。此前我们介绍的线性方程的评估器，输入数据进行训练的过程(t过程)实际上是计算线性方程的参数，而此处标准化的评估器的训练结果实际上是对输入数据的相关统计量进行了汇总计算，也就是计算了输入数据的均值、标准差等统计量，后续将用这些统计量对各数据进行标准化计算。不过无论计算过程是否相同，评估器最终计算结果都可以通过相关属性进行调用和查看：

In [62]:
# 查看训练数据各列的标准差
scaler.scale_

array([5.09901951, 5.09901951, 5.09901951])

In [63]:
# 查看训练数据各列的均值
scaler.mean_

array([7., 8., 9.])

In [64]:
# 查看训练数据各列的方差
scaler.var_

array([26., 26., 26.])

当然，截止目前，我们只保留了训练数据的统计量，但尚未对任何数据进行修改，输入的训练数据也是如此

In [65]:
x_train

array([[ 9, 10, 11],
       [ 0,  1,  2],
       [12, 13, 14]])

接下来，我们可以通过评估器中的transform方法来进行数据标准化处理。注意，算法模型的评估器是利用predict方法进行数值预测，而标准化评估器则是利用transform方法进行数据的数值转化。

In [66]:
# 利用训练数据的均值和标准差对训练数据进行标准化
scaler.transform(x_train)

array([[ 0.39223227,  0.39223227,  0.39223227],
       [-1.37281295, -1.37281295, -1.37281295],
       [ 0.98058068,  0.98058068,  0.98058068]])

In [67]:
# 利用训练数据的均值和标准差对测试数据进行标准化
scaler.transform(x_test)

array([[-0.19611614, -0.19611614, -0.19611614],
       [-0.78446454, -0.78446454, -0.78446454]])

此外，我们还可以使用fit_transformi对输入数据进行直接转化：

In [68]:
scaler.fit_transform(x_train)

array([[ 0.39223227,  0.39223227,  0.39223227],
       [-1.37281295, -1.37281295, -1.37281295],
       [ 0.98058068,  0.98058068,  0.98058068]])

In [69]:
scaler.transform(x_test)

array([[-0.19611614, -0.19611614, -0.19611614],
       [-0.78446454, -0.78446454, -0.78446454]])

接下来，我们就能直接带入标准化后的数据进行建模了。

* 0-1标准化的函数实现方法

和Z-Score标准化类似，0-1标准化也有函数实现和评估器实现两种，先看0-1标准化的函数实现过程：

In [70]:
# 查阅该函数的帮助文档
preprocessing.MinMaxScaler?

[1;31mInit signature:[0m [0mpreprocessing[0m[1;33m.[0m[0mMinMaxScaler[0m[1;33m([0m[0mfeature_range[0m[1;33m=[0m[1;33m([0m[1;36m0[0m[1;33m,[0m [1;36m1[0m[1;33m)[0m[1;33m,[0m [1;33m*[0m[1;33m,[0m [0mcopy[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m [0mclip[0m[1;33m=[0m[1;32mFalse[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
Transform features by scaling each feature to a given range.

This estimator scales and translates each feature individually such
that it is in the given range on the training set, e.g. between
zero and one.

The transformation is given by::

    X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
    X_scaled = X_std * (max - min) + min

where min, max = feature_range.

This transformation is often used as an alternative to zero mean,
unit variance scaling.

`MinMaxScaler` doesn't reduce the effect of outliers, but it linearly
scales them down into a fixed range, where the largest occurring data poin

In [71]:
x

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [72]:
preprocessing.minmax_scale(x)

array([[0.  , 0.  , 0.  ],
       [0.25, 0.25, 0.25],
       [0.5 , 0.5 , 0.5 ],
       [0.75, 0.75, 0.75],
       [1.  , 1.  , 1.  ]])

* 0-1标准化的评估器实现方法

类似的，我们可以调用评估器进行0-1标准化。

In [73]:
from sklearn.preprocessing import MinMaxScaler

In [74]:
scaler = MinMaxScaler()
scaler.fit_transform(X)

array([[0. , 0. , 0. ],
       [0.5, 0.5, 0.5],
       [1. , 1. , 1. ]])

> 此外，sklearn中还有针对稀疏矩阵的标准化(MaxAbsScaler)、针对存在异常值点特征矩阵的标准化(RobustScaler)、以及非线性变化的标准化(Non-linear transformation)等方法，相关内容待后续进行介绍。

#### 3.2 归一化Normalization

和标准化不同，sklearn中的归一化特指将单个样本（一行数据）放缩为单位范数（1范数或者2范数为单位范数）的过程，该操作常见于核方法或者衡量样本之间相似性的过程中。这些内容此前我们并未进行介绍，但出于为后续内容做铺垫的考虑，此处先介绍关于归一化的相关方法。同样，归一化也有函数实现和评估器实现两种方法。

* 归一化的函数实现方法

先查看函数相关说明文档：

In [75]:
preprocessing.normalize?

[1;31mSignature:[0m
[0mpreprocessing[0m[1;33m.[0m[0mnormalize[0m[1;33m([0m[1;33m
[0m    [0mX[0m[1;33m,[0m[1;33m
[0m    [0mnorm[0m[1;33m=[0m[1;34m'l2'[0m[1;33m,[0m[1;33m
[0m    [1;33m*[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m=[0m[1;36m1[0m[1;33m,[0m[1;33m
[0m    [0mcopy[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mreturn_norm[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Scale input vectors individually to unit norm (vector length).

Read more in the :ref:`User Guide <preprocessing_normalization>`.

Parameters
----------
X : {array-like, sparse matrix} of shape (n_samples, n_features)
    The data to normalize, element by element.
    scipy.sparse matrices should be in CSR format to avoid an
    un-necessary copy.

norm : {'l1', 'l2', 'max'}, default='l2'
    The norm to use to normalize each non zero sample (or each non-zero
    feature if axis is 0).

a

而sklearn中的Normalization过程，实际上就是将每一行数据视作一个向量，然后用每一行数据去除以该行数据的1-范数或者2-范数。具体除以哪个范数，以preprocessing.normalize函数中输入的norm参数为准。

In [76]:
x

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [77]:
# 1-范数单位化过程
preprocessing.normalize(x, norm='l1')

array([[0.        , 0.33333333, 0.66666667],
       [0.25      , 0.33333333, 0.41666667],
       [0.28571429, 0.33333333, 0.38095238],
       [0.3       , 0.33333333, 0.36666667],
       [0.30769231, 0.33333333, 0.35897436]])

> 值得注意，除了标准化和归一化之外，还有一个正则化(Regularization)的概念，所谓正则化，往往指的是通过在损失函数上加入参数的1-范数或者2-范数的过程，该过程能够有效避免模型过拟合。

>关于评估器、解释器、转化器等名词的辨析：
其实这一组概念广泛存在于不同的算法库和算法框架中，但不同的算法库对其的定义各有不同，并且sklearn对其定义也并不清晰。因此，为了统一概念，课上称所有的sklearn中类的调用为评估器的调用，而不区分评估器与转化器。

### 4.尝试使用逻辑回归评估器

接下来，我们尝试对上述鸢尾花数据进行逻辑回归模型多分类预测，需要注意的是，sklearn中的逻辑回归在默认参数下就支持进行多分类问题判别，并且采用的方法是此前介绍的MM策略。首先我们先尝试使用逻辑回归评估器进行建模：

In [78]:
# 导入逻辑回归评估器
from sklearn.linear_model import LogisticRegression

In [79]:
# 数据准备
X, y = datasets.load_iris(return_X_y=True)

In [80]:
# 实例化模型，使用默认参数
clf_test = LogisticRegression(max_iter=1000)

In [81]:
# 带入数据进行训练
clf_test.fit(X, y)

In [82]:
# 查看模型参数
clf_test.coef_

array([[-0.42474374,  0.96686307, -2.51501535, -1.08167714],
       [ 0.5351857 , -0.32018995, -0.2066333 , -0.94412605],
       [-0.11044197, -0.64667312,  2.72164865,  2.02580319]])

In [83]:
# 在全部数据上进行预测
clf_test.predict(X)[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [84]:
# 查看概率预测结果
clf_test.predict_proba(X)[:10]

array([[9.81546673e-01, 1.84533121e-02, 1.45529369e-08],
       [9.71316881e-01, 2.86830883e-02, 3.03023045e-08],
       [9.85263460e-01, 1.47365280e-02, 1.23820283e-08],
       [9.76065046e-01, 2.39349141e-02, 3.98101731e-08],
       [9.85205330e-01, 1.47946576e-02, 1.20459625e-08],
       [9.70133631e-01, 2.98662950e-02, 7.42522739e-08],
       [9.86762667e-01, 1.32373126e-02, 2.00462796e-08],
       [9.76115098e-01, 2.38848742e-02, 2.78221818e-08],
       [9.79639801e-01, 2.03601685e-02, 3.06906699e-08],
       [9.68749366e-01, 3.12506024e-02, 3.18214846e-08]])

上述过程在我们尚未了解逻辑回归评估器细节时、仅仅将其视作一个评估器、并采用评估器通用方法就完成了建模的全过程，足以看出sklearn的易用性。不过需要知道是，sklearn中的逻辑回归实际上是一个使用方法非常多样的模型，我们将在下一小节介绍详细解释逻辑回归模型参数，并借此详细讨论正则化和特征衍生等重要概念。

接下来，我们对模型预测结果进行准确率计算，首先我们可以直接调用评估器的score方法来进行准确率的查看：

In [85]:
clf_test.score(X, y)

0.9733333333333334

当然，我们也可以在metrics模块中找到准确率计算函数进行准确率计算：

In [86]:
# 进行准确率计算
from sklearn.metrics import accuracy_score
accuracy_score(y, clf_test.predict(X))

0.9733333333333334

### 5.sklearn中的构建机器学习流

所谓机器学习流，其实就指的是将多个机器学习的步骤串联在一起，形成一个完整的模型训练流程。在sklearn中，我们可以借助其make_pipline类的相关功能来实现，当然需要注意的是，sklearn中只能将评估器类进行串联形成机器学习流，而不能串联实用函数，并且最终串联的结果其实也等价于一个评估器。当然，这也从侧面说明sklearn评估器内部接口的一致性。接下来，我们就利用sklearn中构建机器学习流的方法将上述数据归一化、逻辑回归进行多分类建模等过程串联在一起，并提前进行数据切分，即执行一个更加完整的机器学习建模流程。

In [87]:
from sklearn.pipeline import  make_pipeline
make_pipeline?

[1;31mSignature:[0m [0mmake_pipeline[0m[1;33m([0m[1;33m*[0m[0msteps[0m[1;33m,[0m [0mmemory[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mverbose[0m[1;33m=[0m[1;32mFalse[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Construct a :class:`Pipeline` from the given estimators.

This is a shorthand for the :class:`Pipeline` constructor; it does not
require, and does not permit, naming the estimators. Instead, their names
will be set to the lowercase of their types automatically.

Parameters
----------
*steps : list of Estimator objects
    List of the scikit-learn estimators that are chained together.

memory : str or object with the joblib.Memory interface, default=None
    Used to cache the fitted transformers of the pipeline. The last step
    will never be cached, even if it is a transformer. By default, no
    caching is performed. If a string is given, it is the path to the
    caching directory. Enabling caching triggers a clone of the transformers
 

接下来，可以通过如下方式将模型类进行机器学习流的集成。需要注意的是，只有模型类才能参与构建机器学习流，而实用函数不行。

In [88]:
# 在make_pipline中输入评估器的过程同时对评估类进行参数设置
pipe = make_pipeline(StandardScaler(), LogisticRegression(max_iter=1000))

然后进行数据集的切分

In [89]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

接下来，我们将pipe对象看成是一个完整的模型类（一个可以先执行Z-Score标准化再进行逻辑回归建模的模型），直接使用fit对其进行训练：

In [90]:
pipe.fit(X_train, y_train)

该过程就相当于两个评估器都进行了训练，然后我们即可使用predict方法，利用pipe对数据集进行预测，当然实际过程是先（借助训练数据的统计量）进行归一化，然后再进行逻辑回归模型预测。

In [91]:
pipe.predict(X_test)[:10]

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1])

In [92]:
pipe.score(X_test, y_test)

1.0

In [93]:
pipe.score(X_train, y_train)

0.9642857142857143

### 6.Sklearn模型的保存

当模型构建完毕之后，我们即可借助joblib包来进行sklearr的模型存储和读取，相关功能非常简单，我们可以使用dump函数进行模型保存，使用Ioad函数进行模型读取：

In [94]:
import joblib

In [95]:
joblib.dump(pipe, 'pipe.pkl')

['pipe.pkl']

In [96]:
pipe1 = joblib.load('pipe.pkl')

In [97]:
pipe1.predict(X_test)[:10]  

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1])

以上就是关于sklearn建模的常用功能，基于这些功能，在下一小节开始，我们将从逻辑回归出发，讨论关于正则化、过拟合、特征衍生、特征筛选等非常重要的机器学习相关概念。