## 使用sklearn转换器处理数据

### 加载datasets模块中的数据集

In [3]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print('breast_cancer数据集的长度为: ', len(cancer))
print('breast_cancer数据集的类型为：', type(cancer))

breast_cancer数据集的长度为:  8
breast_cancer数据集的类型为： <class 'sklearn.utils.Bunch'>


* ***datasets模块常用数据集加载函数及其解释***

In [None]:
cancer_data = cancer['data']
print('breast_cancer数据集的数据为: ',cancer_data)

In [None]:
cancer_target = cancer['target'] ##取出数据集的标签
print('breast_cancer数据集的标签为: ', cancer_target)

In [None]:
cancer_names = cancer['feature_names'] ##取出数据集的特证名
print('breast_cancer数据集的特证为: ', cancer_names)

In [None]:
cancer_desc = cancer['DESCR'] ##取出数据集的描述信息
print('breast_cancer数据集的描述信息为: ', cancer_desc)

### 将数据集划分为训练集和测试集

* ***常用划分方式***

* ***在数据分析过程中，为了保证模型在实际系统中能够起到预期作用，一般需要将样本分成独立的三部分：***
* 训练集（train set）：用于估计模型。
* 验证集（validation set)：用于确定网络结构或者控制模型复杂程度的参数。
* 测试集（test set）：用于检验最优的模型的性能。
典型的划分方式是训练集占总样本的50％，而验证集和测试集各占25％

* ***K折交叉验证法***

* ***当数据总量较少的时候，使用上面的方法将数据划分为三部分就不合适了。***
* ***常用的方法是留少部分做测试集，然后对其余N个样本采用K折交叉验证法，基本步骤如下：***
* 将样本打乱，均匀分成K份。
* 轮流选择其中K－1份做训练，剩余的一份做验证。
* 计算预测误差平方和，把K次的预测误差平方和的均值作为选择最优模型结构的依据。

#### train_test_split函数

In [9]:
print('原始数据集的形状为: ', cancer_data.shape)
print('原始数据集标签的形状为: ', cancer_target.shape)

原始数据集的形状为:  (569, 30)
原始数据集标签的形状为:  (569,)


In [10]:
from sklearn.model_selection import train_test_split
cancer_data_train, cancer_data_test, cancer_target_train, cancer_target_test = train_test_split(cancer_data, cancer_target, test_size = 0.2, random_state = 42)
print('训练集数据的形状为: ', cancer_data_train.shape)
print('训练集标签的形状为: ', cancer_target_train.shape)
print('测试数据集的形状为: ', cancer_data_train.shape)
print('测试数据集标签的形状为: ', cancer_target_test.shape)

训练集数据的形状为:  (455, 30)
训练集标签的形状为:  (455,)
测试数据集的形状为:  (455, 30)
测试数据集标签的形状为:  (114,)


### 使用sklearn转换器进行数据预处理和降维

#### sklearn转换器三个方法

* ***标准化处理***
* ***归一化处理***
* ***二值化处理***
* ***PCA降维***

#### PCA降维算法函数

In [11]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler
Scaler = MinMaxScaler().fit(cancer_data_train)
cancer_trainScaler = Scaler.transform(cancer_data_train)
cancer_testScaler = Scaler.transform(cancer_data_test)
from sklearn.decomposition import PCA
##生成规则
pca_model = PCA(n_components = 10).fit(cancer_trainScaler)
##将规则应用于训练集
cancer_trainPca = pca_model.transform(cancer_trainScaler)
##将规则应用于测试集
cancer_testPca = pca_model.transform(cancer_testScaler)

print('PCA降维前训练集数据的形状为: ', cancer_trainScaler.shape)
print('PCA降维后训练集数据的形状为: ', cancer_trainPca.shape)
print('PCA降维前测试集数据的形状为: ', cancer_testScaler.shape)
print('PCA降维后测试集数据的形状为: ', cancer_testPca.shape)

PCA降维前训练集数据的形状为:  (455, 30)
PCA降维后训练集数据的形状为:  (455, 10)
PCA降维前测试集数据的形状为:  (114, 30)
PCA降维后测试集数据的形状为:  (114, 10)


* ***PCA算法是一种在尽可能减少信息损失的前提下，找到某种方式降低数据的维度的方法。PCA通常用于高维数据集的探索与可视化，还可以用于数据压缩，数据预处理。***
* ***通常来说，我们期望得到的结果，是把原始数据的特征空间（n个d维样本）投影到一个小一点的子空间里去，并尽可能表达的很好（就是损失信息最少）。常见的应用在于模式识别中，我们可以通过减少特征空间的维度，抽取子空间的数据来最好的表达我们的数据，从而减少参数估计的误差!***

#### 6.1.4任务实现

* ***1.读取数据***

In [13]:
# 获取sklearn自带的Boston数据集
from sklearn.datasets import load_boston
boston = load_boston()
boston_data = boston['data']
boston_target = boston['target']
boston_names = boston['feature_names']
print('boston数据集数据的形状为: ', boston_data.shape)
print('boston数据集标签的形状为: ', boston_target.shape)
print('boston数据集特证名的形状为: ', boston_names.shape)

boston数据集数据的形状为:  (506, 13)
boston数据集标签的形状为:  (506,)
boston数据集特证名的形状为:  (13,)


* ***2.将数据集划分为训练集和测试集***

In [None]:
from sklearn.model_selection import train_test_split
boston_data_train, boston_data_test, boston_target_train

## 构建并评价聚类模型

## 构建并评价分类模型

## 构建并评价回归模型

## 小结