## 5.1.2 scikit-learn简介
&emsp;&emsp;scikit-learn，又写作sklearn，是一个开源的基于Python语言的机器学习工具包，它实现了高效的算法应用，并且涵盖了几乎所有主流机器学习算法。sklearn中常用的模块有分类、回归、聚类、降维、模型选择、预处理等，具体可以参考官方网站（http://scikit-learn.org/stable/)。

### 1. sklearn内置数据集

&emsp;&emsp;sklearn中内置了多种数据集，只需调用对应的数据导入方法，即可完成数据的加载。这些数据导入方法的命名规则是：**sklearn.datasets.load_<name\>**，这里的<name\>就是对应的数据集名称。sklearn内置的数据集如表5-1-1所示。

<center>表5-1-1 sklearn内置数据集</center>

<style>table {margin: auto;}</style>
|导入数据的函数名称|对应的数据集|
|:-:|:-:|
|load_boston()|波士顿房价数据集|
|load_breast_cancer()|乳腺癌数据集|
|load_iris()|鸢尾花数据集|
|load_diabetes()|糖尿病数据集|
|load_digits()|手写数字数据集|
|load_linnerud()|体能训练数据集|
|load_wine()|红酒品类数据集|
<br>

&emsp;&emsp;**例5-1-1** 导入sklearn内置boston数据集并打印其前5行5列数据。

In [1]:
# 导入scikit-learn库中的load_boston函数
from sklearn.datasets import load_boston

In [2]:
# 导入数据集
boston = load_boston()
X = boston.data[:5, :5]
print(X)

[[6.320e-03 1.800e+01 2.310e+00 0.000e+00 5.380e-01]
 [2.731e-02 0.000e+00 7.070e+00 0.000e+00 4.690e-01]
 [2.729e-02 0.000e+00 7.070e+00 0.000e+00 4.690e-01]
 [3.237e-02 0.000e+00 2.180e+00 0.000e+00 4.580e-01]
 [6.905e-02 0.000e+00 2.180e+00 0.000e+00 4.580e-01]]


### 2. 数据的归一化

&emsp;&emsp;同一数据集中，不同列的数据往往有着完全不同的含义，数值大小差异很大，可能会影响数据处理的最终结果，因此常常需要把每列数据都映射到0-1范围之内处理，即归一化。scikit-learn库提供了对数据进行归一化的处理，其中preprocessing.MinMaxScaler类实现了将数据缩放到一个指定的最大值和最小值（通常是1-0）之间的功能。它又被称为离差标准化，是对原始数据的线性变换。

&emsp;&emsp;MinMaxScaler类的fit_transform()函数用于把转换器实例应用到数据上，并返回转换后的数据，其格式如下：fit_transform(X,...)，其中，X可以表示数组、稀疏矩阵或DataFrame。

&emsp;&emsp;**例5-1-2** 对boston数据集的前5行5列数据进行归一化并打印显示。

In [3]:
# 导入库
from sklearn.datasets import load_boston
from sklearn.preprocessing import MinMaxScaler

In [4]:
# 导入数据集
boston = load_boston()
X = boston.data[:5, :5]

In [5]:
# 转换器实例化
minmax_scaler = MinMaxScaler()

In [6]:
# 数据归一化
boston_minmax = minmax_scaler.fit_transform(X)
print(boston_minmax)

[[0.         1.         0.02658487 0.         1.        ]
 [0.33460864 0.         1.         0.         0.1375    ]
 [0.33428981 0.         1.         0.         0.1375    ]
 [0.4152718  0.         0.         0.         0.        ]
 [1.         0.         0.         0.         0.        ]]


### 3. 数据的标准化

&emsp;&emsp;scikit-learn库提供了对数据进行标准化处理的函数，包括Z-score标准化、稀疏数据标准化和带离群值的标准化。其中，Z-Score方法可以在大多数类型的数据上得到较好的应用，标准化后得到的数据是以0为均值，1为方差的正态分布。但由于它是一种中心化的方法，将会对原始数据的分布结构产生改变。scikit-learn库中preprocessing.StandardScaler类实现了Z-Score标准化。

&emsp;&emsp;**例5-1-3** 对boston数据集的前5行5列数据进行Z-Score标准化并打印显示。

In [7]:
# 导入库
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler

In [8]:
# 导入数据集
boston = load_boston()
X = boston.data[:5, :5]

In [9]:
# 转换器实例化
standerd_scaler = StandardScaler()

In [10]:
# 数据标准化
boston_standerd = standerd_scaler.fit_transform(X)
print(boston_standerd)

[[-1.2834352   2.         -0.77983987  0.          1.97329359]
 [-0.25317266 -0.5         1.22450018  0.         -0.31122416]
 [-0.25415433 -0.5         1.22450018  0.         -0.31122416]
 [-0.00481018 -0.5        -0.83458025  0.         -0.67542264]
 [ 1.79557237 -0.5        -0.83458025  0.         -0.67542264]]


### 4. 数据的正则化

&emsp;&emsp;scikit-learn库提供了对数据进行正则化处理的函数，其中preprocessing.Normalizer类实现了将单个样本缩放到单位范数的功能。在数据集之间各个指标有共同重要比率的关系时，正则化处理有比较好的效果。

&emsp;&emsp;**例5-1-4** 对boston数据集的前5行5列数据进行正则化并打印显示。

In [11]:
# 导入库
from sklearn.datasets import load_boston
from sklearn.preprocessing import Normalizer

In [12]:
# 导入数据集
boston = load_boston()
X = boston.data[:5, :5]

In [13]:
# 转换器实例化
normalizer_scaler = Normalizer()

In [14]:
# 数据正则化
boston_normalizer = normalizer_scaler.fit_transform(X)
print(boston_normalizer)

[[3.48102083e-04 9.91429984e-01 1.27233515e-01 0.00000000e+00
  2.96327406e-02]
 [3.85430066e-03 0.00000000e+00 9.97799549e-01 0.00000000e+00
  6.61906632e-02]
 [3.85147808e-03 0.00000000e+00 9.97799560e-01 0.00000000e+00
  6.61906639e-02]
 [1.45298555e-02 0.00000000e+00 9.78532126e-01 0.00000000e+00
  2.05581520e-01]
 [3.09827227e-02 0.00000000e+00 9.78165612e-01 0.00000000e+00
  2.05504518e-01]]


### 5. 标签二值化

&emsp;&emsp;二值化指将数值特征向量转换为布尔类型向量。通过人为设定阈值的方式，将大于阈值的数值映射为1，而小于或等于阈值的数值映射为0。标签二值化是二值化的重要应用之一，标签二值化可以把非数字化的数据标签转化为数字化形式的数据标签，例如可把“Yes”和“No”等文本标签转化为“1”和“0”的数字化形式。
<br>
&emsp;&emsp;scikit-learn库提供了对标签二值化处理的函数，其中preprocessing.LabelBinarizer类实现了标签二值化处理的功能。在机器学习的应用中，标签二值化常用于文本类型的数据标签的处理。

&emsp;&emsp;**例5-1-5** 对“Yes”、“No”两类标签进行二值化处理并打印显示。

In [15]:
# 导入库
from sklearn import preprocessing

In [16]:
# 设置数据集
label = ['Yes', 'No', 'Yes', 'No', 'No']

In [17]:
# 转换器实例化
lb = preprocessing.LabelBinarizer()

In [18]:
# 标签数据二值化
label_bin = lb.fit_transform(label)
print(label_bin)

[[1]
 [0]
 [1]
 [0]
 [0]]
