# Lesson 6.2 Scikit-Learn常用功能介绍

&emsp;&emsp;在对sklearn整体情况有了一定的了解之后，接下来我们来介绍sklearn中机器学习建模过程常用的一些功能。

In [28]:
# 科学计算模块
import numpy as np
import pandas as pd

# 绘图模块
import matplotlib as mpl
import matplotlib.pyplot as plt

# 自定义模块
from ML_basic_function import *

## 三、Scikit-Learn的常用功能介绍

&emsp;&emsp;接下来，我们进一步构建功能实现更加完整与复杂的建模过程，并练习使用更多的sklearn中的相关功能。

### 1.sklearn中的数据集读取

&emsp;&emsp;sklearn提供了非常多的内置数据集，并且还提供了一些创建数据集的方法。

&emsp;&emsp;sklearn中的数据集相关功能都在datasets模块下，我们可以通过API文档中的datasets模块所包含的内容对所有的数据集和创建数据集的方法进行概览。不难发现，sklearn中提供了结构化数据集（如经典的鸢尾花数据集、波士顿房价数据集、乳腺癌数据集等），同时也提供了一些如图片数据、文本数据等数据集，可以使用load函数来进行读取；此外，sklearn中还提供了许多能够创建不同数据分布的数据生成器（用make函数创建），和我们此前定义的数据生成器类似，都是可以用于创建测试评估器性能的数据生成器。

<center><img src="https://tva1.sinaimg.cn/large/008i3skNly1gs2xlkc7nej315y0u0e81.jpg" alt="1" style="zoom:33%;" />

<center><img src="https://tva1.sinaimg.cn/large/008i3skNly1gs2xln04w1j31g10u0b29.jpg" alt="1" style="zoom:33%;" />

&emsp;&emsp;首先是鸢尾花数据的读取，我们可借助load_iris来进行数据的读取。简单读取方法如下：

In [6]:
from sklearn.datasets import load_iris
iris_data = load_iris()

In [30]:
# 查看读取结果
iris_data

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

注意，在默认情况下，数据读取结果的类型是Bunch类型，是一个类似字典类型的对象：

In [32]:
type(iris_data)

sklearn.utils.Bunch

而该对象（字典）有如下属性（键值对）：

|Name|Description|      
|:--:|:--:|      
|data|数据集特征矩阵|      
|target|数据集标签数组|	      
|feature_names|各列名称|
|target_names|各类别名称|
|frame|当生成对象是DataFrame时，返回完整的DataFrame|

In [89]:
# 返回特征
iris_data.data[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [90]:
# 返回标签
iris_data.target[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [93]:
# 返回各列名称
iris_data.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [95]:
# 返回标签各类别名称
iris_data.target_names[:10]

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

&emsp;&emsp;当然，如果希望只返回特征矩阵和标签数组这两个对象，则可以通过在读取数据集时设置参数return_X_y为True来实现

In [78]:
X, y = load_iris(return_X_y=True)

In [96]:
X[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [97]:
y[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

&emsp;&emsp;而如果想创建DataFrame对象，则可以通过在读取数据集时设置参数as_frame为True来实现

In [100]:
iris_dataFrame = load_iris(as_frame=True)
iris_dataFrame.frame

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


&emsp;&emsp;更多信息，可以通过查阅API或者帮助文档获得。当然不仅鸢尾花数据的读取过程如此，sklearn中其他数据的读取过程也是类似。接下来，我们借助上述创建的X和y带入进行后续建模。

### 2.sklearn中的数据集切分方法

&emsp;&emsp;在sklearn中，我们可以通过调用`train_test_split`函数来完成数据集切分，当然数据集切分的目的是为了更好的进行模型性能评估，而更好的进行模型性能评估则是为了更好的进行模型挑选，因此train_test_split函数实际上是在model_selection模块下。

In [5]:
from sklearn.model_selection import train_test_split

该函数和此前我们定义的数据集切分函数在功能和使用上都基本一致，我们可以直接通过查阅该函数的帮助文档来了解核心信息：

In [106]:
# 查阅该函数的帮助文档
train_test_split?

[0;31mSignature:[0m [0mtrain_test_split[0m[0;34m([0m[0;34m*[0m[0marrays[0m[0;34m,[0m [0;34m**[0m[0moptions[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Split arrays or matrices into random train and test subsets

Quick utility that wraps input validation and
``next(ShuffleSplit().split(X, y))`` and application to input data
into a single call for splitting (and optionally subsampling) data in a
oneliner.

Read more in the :ref:`User Guide <cross_validation>`.

Parameters
----------
*arrays : sequence of indexables with same length / shape[0]
    Allowed inputs are lists, numpy arrays, scipy-sparse
    matrices or pandas dataframes.

test_size : float or int, default=None
    If float, should be between 0.0 and 1.0 and represent the proportion
    of the dataset to include in the test split. If int, represents the
    absolute number of test samples. If None, the value is set to the
    complement of the train size. If ``train_size`` is also None, it wi

&emsp;&emsp;此处有两个地方需要注意，其一是随机数种子的设置，和此前手动定义的数据集切分函数一样，random_state取值不同，切分结果就会各有不同：

In [126]:
X = np.arange(12).reshape((6, 2))
X

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [127]:
y = np.array([0, 0, 0, 1, 1, 1])

In [128]:
train_test_split(X, y, random_state=42)

[array([[10, 11],
        [ 4,  5],
        [ 8,  9],
        [ 6,  7]]),
 array([[0, 1],
        [2, 3]]),
 array([1, 0, 1, 1]),
 array([0, 0])]

In [129]:
train_test_split(X, y, random_state=24)

[array([[2, 3],
        [0, 1],
        [6, 7],
        [4, 5]]),
 array([[ 8,  9],
        [10, 11]]),
 array([0, 0, 1, 0]),
 array([1, 1])]

而`stratify`参数则是控制训练集和测试集不同类别样本所占比例的参数，若希望切分后的训练集和测试集中0、1两类的比例和原始数据相同（1:1），则可另stratify=y，则有结果如下：

In [134]:
train_test_split(X, y, stratify=y, random_state=42)

[array([[ 2,  3],
        [10, 11],
        [ 0,  1],
        [ 8,  9]]),
 array([[6, 7],
        [4, 5]]),
 array([0, 1, 0, 1]),
 array([1, 0])]

值得注意的是，此时尽管随机数种子仍然会发挥作用，但由于计算流程发生了变化，最终切分出来的结果将和此前的切分结果不同（但都会保持（1:1）的分布比例）。

In [136]:
train_test_split(X, y, stratify=y, random_state=24)

[array([[ 0,  1],
        [10, 11],
        [ 8,  9],
        [ 2,  3]]),
 array([[6, 7],
        [4, 5]]),
 array([0, 1, 1, 0]),
 array([1, 0])]

### 3.sklearn中的数据标准化与归一化

&emsp;&emsp;正如此前介绍的，很多时候我们需要对数据进行归一化处理。而在sklearn中，则包含了非常多关于数据归一化的函数和评估器，接下来我们对其进行逐一介绍，然后从中挑选合适的函数或者评估器带入进行建模。

&emsp;&emsp;从功能上划分，sklearn中的归一化其实是分为标准化（Standardization）和归一化（Normalization）两类。其中，此前所介绍的Z-Score标准化和0-1标准化，都属于Standardization的范畴，而在sklearn中，Normalization则特指针对单个样本（一行数据）利用其范数进行放缩的过程。不过二者都属于数据预处理范畴，都在sklearn中的Preprocessing data模块下。

In [4]:
from sklearn import preprocessing

> 需要注意的是，此前我们介绍数据归一化时有讨论过标准化和归一化名称上的区别，在大多数场景下其实我们并不会对其进行特意的区分，但sklearn中标准化和归一化则各指代一类数据处理方法，此处需要注意。

#### 3.1 标准化 Standardization

&emsp;&emsp;sklearn的标准化过程，即包括Z-Score标准化，也包括0-1标准化，并且即可以通过实用函数来进行标准化处理，同时也可以利用评估器来执行标准化过程。接下来我们分不同功能以的不同实现形式来进行讨论：

- Z-Score标准化的函数实现方法

&emsp;&emsp;我们可以通过`preprocessing`模块下的`scale`函数进行快速的Z-Score标准化处理。

In [11]:
preprocessing.scale?

[0;31mSignature:[0m [0mpreprocessing[0m[0;34m.[0m[0mscale[0m[0;34m([0m[0mX[0m[0;34m,[0m [0;34m*[0m[0;34m,[0m [0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m [0mwith_mean[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mwith_std[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mcopy[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Standardize a dataset along any axis

Center to the mean and component wise scale to unit variance.

Read more in the :ref:`User Guide <preprocessing_scaler>`.

Parameters
----------
X : {array-like, sparse matrix}
    The data to center and scale.

axis : int (0 by default)
    axis used to compute the means and standard deviations along. If 0,
    independently standardize each feature, otherwise (if 1) standardize
    each sample.

with_mean : boolean, True by default
    If True, center the data before scaling.

with_std : boolean, True by default
    If True, scale the data to unit variance (or equi

上述函数说明文档并不难懂，接下来我们简单尝试利用该函数进行数据归一化处理。

In [7]:
X = np.arange(9).reshape(3, 3)
X

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [8]:
preprocessing.scale(X)

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

In [12]:
# 对比此前定义的函数处理结果
z_score(X)

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

- Z-Score标准化的评估器实现方法

&emsp;&emsp;实用函数进行标准化处理，尽管从代码实现角度来看清晰易懂，但却不适用于许多实际的机器学习建模场景。其一是因为在进行数据集的训练集和测试集切分后，我们首先要在训练集进行标准化、然后统计训练集上统计均值和方差再对测试集进行标准化处理，因此其实还需要一个统计训练集相关统计量的过程；其二则是因为相比实用函数，sklearn中的评估器其实会有一个非常便捷的串联的功能，sklearn中提供了Pipeline工具能够对多个评估器进行串联进而组成一个机器学习流，从而简化模型在重复调用时候所需代码量，因此通过评估器的方法进行数据标准化，其实是一种更加通用的选择。

&emsp;&emsp;既然是实用评估器进行数据标准化，那就需要遵照评估器的一般使用过程：

首先是评估器导入：

In [3]:
from sklearn.preprocessing import StandardScaler

然后是查阅评估器参数，然后进行评估器的实例化：

In [16]:
# 查阅参数
StandardScaler?

[0;31mInit signature:[0m [0mStandardScaler[0m[0;34m([0m[0;34m*[0m[0;34m,[0m [0mcopy[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mwith_mean[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mwith_std[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
Standardize features by removing the mean and scaling to unit variance

The standard score of a sample `x` is calculated as:

    z = (x - u) / s

where `u` is the mean of the training samples or zero if `with_mean=False`,
and `s` is the standard deviation of the training samples or one if
`with_std=False`.

Centering and scaling happen independently on each feature by computing
the relevant statistics on the samples in the training set. Mean and
standard deviation are then stored to be used on later data using
:meth:`transform`.

Standardization of a dataset is a common requirement for many
machine learning estimators: they might behave badly if the
individual features do not more or le

In [44]:
scaler = StandardScaler()

然后导入数据，进行训练，此处也是使用fit函数进行训练：

In [45]:
X = np.arange(15).reshape(5, 3)
X

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [61]:
X_train, X_test = train_test_split(X)
X_train, X_test

(array([[ 9, 10, 11],
        [ 6,  7,  8],
        [ 0,  1,  2]]),
 array([[12, 13, 14],
        [ 3,  4,  5]]))

In [62]:
scaler.fit(X_train)

StandardScaler()

&emsp;&emsp;虽然同样是输入数据，但标准化的评估器和训练模型的评估器实际上是不同的计算过程。此前我们介绍的线性方程的评估器，输入数据进行训练的过程（fit过程）实际上是计算线性方程的参数，而此处标准化的评估器的训练结果实际上是对输入数据的相关统计量进行了汇总计算，也就是计算了输入数据的均值、标准差等统计量，后续将用这些统计量对各数据进行标准化计算。不过无论计算过程是否相同，评估器最终计算结果都可以通过相关属性进行调用和查看：

In [64]:
# 查看训练数据各列的标准差
scaler.scale_

array([3.74165739, 3.74165739, 3.74165739])

In [65]:
# 查看训练数据各列的均值
scaler.mean_

array([5., 6., 7.])

In [66]:
# 查看训练数据各列的方差
scaler.var_

array([14., 14., 14.])

In [67]:
np.sqrt(scaler.var_)

array([3.74165739, 3.74165739, 3.74165739])

In [69]:
# 总共有效的训练数据条数
scaler.n_samples_seen_

3

当然，截止目前，我们只保留了训练数据的统计量，但尚未对任何数据进行修改，输入的训练数据也是如此

In [72]:
X_train

array([[ 9, 10, 11],
       [ 6,  7,  8],
       [ 0,  1,  2]])

&emsp;&emsp;接下来，我们可以通过评估器中的transform方法来进行数据标准化处理。注意，算法模型的评估器是利用predict方法进行数值预测，而标准化评估器则是利用transform方法进行数据的数值转化。

In [73]:
# 利用训练集的均值和方差对训练集进行标准化处理
scaler.transform(X_train)

array([[ 1.06904497,  1.06904497,  1.06904497],
       [ 0.26726124,  0.26726124,  0.26726124],
       [-1.33630621, -1.33630621, -1.33630621]])

In [76]:
# 利用训练集的均值和方差对测试集进行标准化处理
scaler.transform(X_test)

array([[ 1.87082869,  1.87082869,  1.87082869],
       [-0.53452248, -0.53452248, -0.53452248]])

In [75]:
z_score(X_train)

array([[ 1.06904497,  1.06904497,  1.06904497],
       [ 0.26726124,  0.26726124,  0.26726124],
       [-1.33630621, -1.33630621, -1.33630621]])

此外，我们还可以使用fit_transform对输入数据进行直接转化：

In [88]:
scaler = StandardScaler()

In [89]:
# 一步执行在X_train上fit和transfrom两个操作
scaler.fit_transform(X_train)

array([[ 1.06904497,  1.06904497,  1.06904497],
       [ 0.26726124,  0.26726124,  0.26726124],
       [-1.33630621, -1.33630621, -1.33630621]])

In [92]:
X_train

array([[ 9, 10, 11],
       [ 6,  7,  8],
       [ 0,  1,  2]])

In [91]:
scaler.transform(X_test)

array([[ 1.87082869,  1.87082869,  1.87082869],
       [-0.53452248, -0.53452248, -0.53452248]])

接下来，我们就能直接带入标准化后的数据进行建模了。

- 0-1标准化的函数实现方法

&emsp;&emsp;和Z-Score标准化类似，0-1标准化也有函数实现和评估器实现两种，先看0-1标准化的函数实现过程：

In [78]:
# 查看函数说明文档
preprocessing.minmax_scale?

[0;31mSignature:[0m [0mpreprocessing[0m[0;34m.[0m[0mminmax_scale[0m[0;34m([0m[0mX[0m[0;34m,[0m [0mfeature_range[0m[0;34m=[0m[0;34m([0m[0;36m0[0m[0;34m,[0m [0;36m1[0m[0;34m)[0m[0;34m,[0m [0;34m*[0m[0;34m,[0m [0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m [0mcopy[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Transform features by scaling each feature to a given range.

This estimator scales and translates each feature individually such
that it is in the given range on the training set, i.e. between
zero and one.

The transformation is given by (when ``axis=0``)::

    X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
    X_scaled = X_std * (max - min) + min

where min, max = feature_range.

The transformation is calculated as (when ``axis=0``)::

   X_scaled = scale * X + min - X.min(axis=0) * scale
   where scale = (max - min) / (X.max(axis=0) - X.min(axis=0))

This transformation is often used

In [83]:
X

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [82]:
preprocessing.minmax_scale(X)

array([[0.  , 0.  , 0.  ],
       [0.25, 0.25, 0.25],
       [0.5 , 0.5 , 0.5 ],
       [0.75, 0.75, 0.75],
       [1.  , 1.  , 1.  ]])

In [86]:
# 对比自定义函数计算结果
maxmin_norm(X)

array([[0.  , 0.  , 0.  ],
       [0.25, 0.25, 0.25],
       [0.5 , 0.5 , 0.5 ],
       [0.75, 0.75, 0.75],
       [1.  , 1.  , 1.  ]])

- 0-1标准化的评估器实现方法

&emsp;&emsp;类似的，我们可以调用评估器进行0-1标准化。

In [93]:
from sklearn.preprocessing import MinMaxScaler

In [96]:
MinMaxScaler?

[0;31mInit signature:[0m [0mMinMaxScaler[0m[0;34m([0m[0mfeature_range[0m[0;34m=[0m[0;34m([0m[0;36m0[0m[0;34m,[0m [0;36m1[0m[0;34m)[0m[0;34m,[0m [0;34m*[0m[0;34m,[0m [0mcopy[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
Transform features by scaling each feature to a given range.

This estimator scales and translates each feature individually such
that it is in the given range on the training set, e.g. between
zero and one.

The transformation is given by::

    X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
    X_scaled = X_std * (max - min) + min

where min, max = feature_range.

This transformation is often used as an alternative to zero mean,
unit variance scaling.

Read more in the :ref:`User Guide <preprocessing_scaler>`.

Parameters
----------
feature_range : tuple (min, max), default=(0, 1)
    Desired range of transformed data.

copy : bool, default=True
    Set to False to perform inpla

In [94]:
scaler = MinMaxScaler()
scaler.fit_transform(X)

array([[0.  , 0.  , 0.  ],
       [0.25, 0.25, 0.25],
       [0.5 , 0.5 , 0.5 ],
       [0.75, 0.75, 0.75],
       [1.  , 1.  , 1.  ]])

In [99]:
X

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [97]:
scaler.data_min_

array([0., 1., 2.])

In [98]:
scaler.data_max_

array([12., 13., 14.])

> 此外，sklearn中还有针对稀疏矩阵的标准化（MaxAbsScaler）、针对存在异常值点特征矩阵的标准化（RobustScaler）、以及非线性变化的标准化（Non-linear transformation）等方法，相关内容待后续进行介绍。

#### 3.2 归一化 Normalization

&emsp;&emsp;和标准化不同，sklearn中的归一化特指将单个样本（一行数据）放缩为单位范数（1范数或者2范数为单位范数）的过程，该操作常见于核方法或者衡量样本之间相似性的过程中。这些内容此前我们并未进行介绍，但出于为后续内容做铺垫的考虑，此处先介绍关于归一化的相关方法。同样，归一化也有函数实现和评估器实现两种方法。

- 归一化的函数实现方法

&emsp;&emsp;先查看函数相关说明文档：

In [100]:
preprocessing.normalize?

[0;31mSignature:[0m
[0mpreprocessing[0m[0;34m.[0m[0mnormalize[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mX[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnorm[0m[0;34m=[0m[0;34m'l2'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0maxis[0m[0;34m=[0m[0;36m1[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcopy[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mreturn_norm[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Scale input vectors individually to unit norm (vector length).

Read more in the :ref:`User Guide <preprocessing_normalization>`.

Parameters
----------
X : {array-like, sparse matrix}, shape [n_samples, n_features]
    The data to normalize, element by element.
    scipy.sparse matrices should be in CSR format to avoid an
    un-necessary copy.

norm : 'l1', 'l2', or 'max', optional ('l2' by default)
    The nor

&emsp;&emsp;在Lesson 3.3中曾解释到关于范数的基本概念，假设向量$x = [x_1, x_2, ..., x_n]^T$，则向量x的1-范数的基本计算公式为：

$$
||x||_1 = |x_1|+|x_2|+...+|x_n|
$$

即各分量的绝对值之和。而向量x的2-范数计算公式为：

$$
||x||_2=\sqrt{(|x_1|^2+|x_2|^2+...+|x_n|^2)}
$$

即各分量的平方和再开平方。

&emsp;&emsp;而sklearn中的Normalization过程，实际上就是将每一行数据视作一个向量，然后用每一行数据去除以该行数据的1-范数或者2-范数。具体除以哪个范数，以preprocessing.normalize函数中输入的norm参数为准。

In [115]:
X

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [120]:
# 1-范数单位化过程
preprocessing.normalize(X, norm='l1')

array([[0.        , 0.33333333, 0.66666667],
       [0.25      , 0.33333333, 0.41666667],
       [0.28571429, 0.33333333, 0.38095238],
       [0.3       , 0.33333333, 0.36666667],
       [0.30769231, 0.33333333, 0.35897436]])

In [117]:
np.linalg.norm(X, ord=1, axis=1)

array([ 3., 12., 21., 30., 39.])

In [118]:
np.sum(X, axis=1)

array([ 3, 12, 21, 30, 39])

In [119]:
X / np.linalg.norm(X, ord=1, axis=1).reshape(5, 1)

array([[0.        , 0.33333333, 0.66666667],
       [0.25      , 0.33333333, 0.41666667],
       [0.28571429, 0.33333333, 0.38095238],
       [0.3       , 0.33333333, 0.36666667],
       [0.30769231, 0.33333333, 0.35897436]])

In [122]:
# 2-范数单位化过程
preprocessing.normalize(X, norm='l2')

array([[0.        , 0.4472136 , 0.89442719],
       [0.42426407, 0.56568542, 0.70710678],
       [0.49153915, 0.57346234, 0.65538554],
       [0.5178918 , 0.57543534, 0.63297887],
       [0.53189065, 0.57621487, 0.62053909]])

In [123]:
np.linalg.norm(X, ord=2, axis=1)

array([ 2.23606798,  7.07106781, 12.20655562, 17.3781472 , 22.56102835])

In [124]:
np.sqrt(np.sum(np.power(X, 2), axis=1))

array([ 2.23606798,  7.07106781, 12.20655562, 17.3781472 , 22.56102835])

In [125]:
X / np.linalg.norm(X, ord=2, axis=1).reshape(5, 1)

array([[0.        , 0.4472136 , 0.89442719],
       [0.42426407, 0.56568542, 0.70710678],
       [0.49153915, 0.57346234, 0.65538554],
       [0.5178918 , 0.57543534, 0.63297887],
       [0.53189065, 0.57621487, 0.62053909]])

In [127]:
# 范数单位化结果
np.linalg.norm(preprocessing.normalize(X, norm='l2'), ord=2, axis=1)

array([1., 1., 1., 1., 1.])

&emsp;&emsp;此外，我们也可以通过调用评估器来实现上述过程：

In [128]:
from sklearn.preprocessing import Normalizer

In [131]:
Normalizer?

[0;31mInit signature:[0m [0mNormalizer[0m[0;34m([0m[0mnorm[0m[0;34m=[0m[0;34m'l2'[0m[0;34m,[0m [0;34m*[0m[0;34m,[0m [0mcopy[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
Normalize samples individually to unit norm.

Each sample (i.e. each row of the data matrix) with at least one
non zero component is rescaled independently of other samples so
that its norm (l1, l2 or inf) equals one.

This transformer is able to work both with dense numpy arrays and
scipy.sparse matrix (use CSR format if you want to avoid the burden of
a copy / conversion).

Scaling inputs to unit norms is a common operation for text
classification or clustering for instance. For instance the dot
product of two l2-normalized TF-IDF vectors is the cosine similarity
of the vectors and is the base similarity metric for the Vector
Space Model commonly used by the Information Retrieval community.

Read more in the :ref:`User Guide <preprocessing_normaliza

In [129]:
normlize = Normalizer()
normlize.fit_transform(X)

array([[0.        , 0.4472136 , 0.89442719],
       [0.42426407, 0.56568542, 0.70710678],
       [0.49153915, 0.57346234, 0.65538554],
       [0.5178918 , 0.57543534, 0.63297887],
       [0.53189065, 0.57621487, 0.62053909]])

In [132]:
normlize = Normalizer(norm='l1')
normlize.fit_transform(X)

array([[0.        , 0.33333333, 0.66666667],
       [0.25      , 0.33333333, 0.41666667],
       [0.28571429, 0.33333333, 0.38095238],
       [0.3       , 0.33333333, 0.36666667],
       [0.30769231, 0.33333333, 0.35897436]])

> 值得注意，除了标准化和归一化之外，还有一个正则化（Regularization）的概念，所谓正则化，往往指的是通过在损失函数上加入参数的1-范数或者2-范数的过程，该过程能够有效避免模型过拟合。

> 关于评估器、解释器、转化器等名词的辨析：        
&emsp;&emsp;其实这一组概念广泛存在于不同的算法库和算法框架中，但不同的算法库对其的定义各有不同，并且sklearn对其定义也并不清晰。因此，为了统一概念，课上称所有的sklearn中类的调用为评估器的调用，而不区分评估器与转化器。

### 4.尝试使用逻辑回归评估器

&emsp;&emsp;接下来，我们尝试对上述鸢尾花数据进行逻辑回归模型多分类预测，需要注意的是，sklearn中的逻辑回归在默认参数下就支持进行多分类问题判别，并且支持此前介绍的MvM和OvR策略。首先我们先尝试使用逻辑回归评估器进行建模：

In [12]:
# 导入逻辑回归评估器
from sklearn.linear_model import LogisticRegression

In [13]:
# 数据准备
X, y = load_iris(return_X_y=True)

In [65]:
LogisticRegression?

[0;31mInit signature:[0m
[0mLogisticRegression[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mpenalty[0m[0;34m=[0m[0;34m'l2'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdual[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mtol[0m[0;34m=[0m[0;36m0.0001[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mC[0m[0;34m=[0m[0;36m1.0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mfit_intercept[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mintercept_scaling[0m[0;34m=[0m[0;36m1[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mclass_weight[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mrandom_state[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msolver[0m[0;34m=[0m[0;34m'lbfgs'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmax_iter[0m[0;34m=[0m[0;36m100[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmulti_class[0m[0;34m=[0m[

In [14]:
# 实例化模型，使用默认参数
clf_test = LogisticRegression(max_iter=1000, multi_class='multinomial')

&emsp;&emsp;此处设置两个参数，一个是最大迭代次数，另一个则是多分类问题时采用MvM策略。更多参数解释将在Lesson 6.3中讨论。

> 如不设置multi_class参数，其实默认情况下的auto在此时也会选择multinomial策略。该策略也是在模型不受其他约束情况下（如优化方法）时auto会默认选择的策略。

In [15]:
# 带入全部数据进行训练
clf_test.fit(X, y)

LogisticRegression(max_iter=1000, multi_class='multinomial')

In [16]:
# 查看线性方程系数
clf_test.coef_

array([[-0.42354204,  0.9673748 , -2.51718519, -1.07940405],
       [ 0.5345048 , -0.32156595, -0.20635727, -0.94439435],
       [-0.11096276, -0.64580885,  2.72354246,  2.02379841]])

In [17]:
# 在全部数据集上进行预测
clf_test.predict(X)[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [18]:
# 查看概率预测结果
clf_test.predict_proba(X)[:10]

array([[9.81585264e-01, 1.84147216e-02, 1.44939596e-08],
       [9.71339506e-01, 2.86604639e-02, 3.01840948e-08],
       [9.85278813e-01, 1.47211746e-02, 1.23337373e-08],
       [9.76069526e-01, 2.39304341e-02, 3.96921529e-08],
       [9.85236392e-01, 1.47635957e-02, 1.19995412e-08],
       [9.70226993e-01, 2.97729326e-02, 7.39546647e-08],
       [9.86779074e-01, 1.32209059e-02, 1.99725384e-08],
       [9.76150304e-01, 2.38496683e-02, 2.77243996e-08],
       [9.79633463e-01, 2.03665062e-02, 3.05952963e-08],
       [9.68764573e-01, 3.12353957e-02, 3.17246775e-08]])

&emsp;&emsp;上述过程在我们尚未了解逻辑回归评估器细节时、仅仅将其视作一个评估器、并采用评估器通用方法就完成了建模的全过程，足以看出sklearn的易用性。不过需要知道是，sklearn中的逻辑回归实际上是一个使用方法非常多样的模型，我们将在下一小节介绍详细解释逻辑回归模型参数，并借此详细讨论正则化和特征衍生等重要概念。

&emsp;&emsp;接下来，我们对模型预测结果进行准确率计算，首先我们可以直接调用评估器的score方法来进行准确率的查看：

In [19]:
clf_test.score(X, y)

0.9733333333333334

当然，我们也可以在metrics模块中找到准确率计算函数进行准确率计算：

In [113]:
# 进行准确率计算
from sklearn.metrics import accuracy_score
accuracy_score(y, clf_test.predict(X))

0.9733333333333334

### 5.sklearn中的构建机器学习流

&emsp;&emsp;所谓机器学习流，其实就指的是将多个机器学习的步骤串联在一起，形成一个完整的模型训练流程。在sklearn中，我们可以借助其make_pipline类的相关功能来实现，当然需要注意的是，sklearn中只能将评估器类进行串联形成机器学习流，而不能串联实用函数，并且最终串联的结果其实也等价于一个评估器。当然，这也从侧面说明sklearn评估器内部接口的一致性。接下来，我们就利用sklearn中构建机器学习流的方法将上述数据归一化、逻辑回归进行多分类建模等过程串联在一起，并提前进行数据切分，即执行一个更加完整的机器学习建模流程。

In [42]:
from sklearn.pipeline import make_pipeline

In [43]:
make_pipeline?

[0;31mSignature:[0m [0mmake_pipeline[0m[0;34m([0m[0;34m*[0m[0msteps[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Construct a Pipeline from the given estimators.

This is a shorthand for the Pipeline constructor; it does not require, and
does not permit, naming the estimators. Instead, their names will be set
to the lowercase of their types automatically.

Parameters
----------
*steps : list of estimators.

memory : str or object with the joblib.Memory interface, default=None
    Used to cache the fitted transformers of the pipeline. By default,
    no caching is performed. If a string is given, it is the path to
    the caching directory. Enabling caching triggers a clone of
    the transformers before fitting. Therefore, the transformer
    instance given to the pipeline cannot be inspected
    directly. Use the attribute ``named_steps`` or ``steps`` to
    inspect estimators within the pipeline. Caching the
    trans

接下来，可以通过如下方式将模型类进行机器学习流的集成。需要注意的是，只有模型类才能参与构建机器学习流，而实用函数不行。

In [53]:
# 在make_pipeline中输入评估器的过程同时对评估器类进行参数设置
pipe = make_pipeline(StandardScaler(),LogisticRegression(max_iter=1000))

然后进行数据集切分

In [54]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

接下来，我们将pipe对象看成是一个完整的模型类（一个可以先执行Z-Score标准化再进行逻辑回归建模的模型），直接使用fit对其进行训练：

In [55]:
pipe.fit(X_train, y_train)

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('logisticregression', LogisticRegression(max_iter=1000))])

该过程就相当于两个评估器都进行了训练，然后我们即可使用predict方法，利用pipe对数据集进行预测，当然实际过程是先（借助训练数据的统计量）进行归一化，然后再进行逻辑回归模型预测。

In [56]:
pipe.predict(X_test)

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 2, 1, 0])

In [57]:
pipe.score(X_test, y_test)

1.0

In [58]:
pipe.score(X_train, y_train)

0.9642857142857143

### 6.sklearn的模型保存

&emsp;&emsp;当模型构建完毕之后，我们即可借助joblib包来进行sklearn的模型存储和读取，相关功能非常简单，我们可以使用dump函数进行模型保存，使用load函数进行模型读取：

In [59]:
import joblib

In [25]:
joblib.dump?

[0;31mSignature:[0m [0mjoblib[0m[0;34m.[0m[0mdump[0m[0;34m([0m[0mvalue[0m[0;34m,[0m [0mfilename[0m[0;34m,[0m [0mcompress[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m [0mprotocol[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mcache_size[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Persist an arbitrary Python object into one file.

Read more in the :ref:`User Guide <persistence>`.

Parameters
-----------
value: any Python object
    The object to store to disk.
filename: str, pathlib.Path, or file object.
    The file object or path of the file in which it is to be stored.
    The compression method corresponding to one of the supported filename
    extensions ('.z', '.gz', '.bz2', '.xz' or '.lzma') will be used
    automatically.
compress: int from 0 to 9 or bool or 2-tuple, optional
    Optional compression level for the data. 0 or False is no compression.
    Higher value means more compression, but also slower read and
    

In [60]:
joblib.dump(pipe,'pipe.model')

['pipe.model']

In [61]:
pipe1 = joblib.load('pipe.model')

In [62]:
pipe1.score(X_train, y_train)

0.9642857142857143

&emsp;&emsp;以上就是关于sklearn建模的常用功能，基于这些功能，在下一小节开始，我们将从逻辑回归出发，讨论关于正则化、过拟合、特征衍生、特征筛选等非常重要的机器学习相关概念。