# Scikit-learn数据集及数据变换

在本节中会介绍Scikit-learn的基本原理，它是一个集成了很多机器学习工具并被广泛使用的包，用Python实现。详情请参考http://scikit-learn.org 。

## 概述

**主要目标**：介绍Scikit-learn数据表示与特征处理

* Scikit-learn中的数据表示和数据集
* Scikit-learn中特征变化方法

In [None]:
%matplotlib inline

## Scikit-learn中的数据表示

机器学习是从数据中建立模型的，我们将会从怎样让用电脑理解的方式去表示数据开始。同时，我们会用matplotlib的例子讲解如何将数据用图表的形式显示出来。

在Scikit-learn中，大多数的机器学习算法的数据在二维的数组或者矩阵中存储。这些数据可能是``numpy``数组，在某些情况下也可能是``scipy.sparse``矩阵。数组的大小应该是`[样本数，特征数]` (【译者注】sample - 样本，feature - 特征)

- **样本数（n_sample）:** 样本的数目。每一个样本都是一个需要处理的独立个体（例如：需要被分类），一个样本可能是一个文档、一幅图片、一段音频、一段视频、一个天文学数据、数据库或者CSV文件中的一行，或者任意一个确定的数值的集合。
- **特征数（n_feature）:** 特征的数目，特征是描述一个样本的数值表达。特征一般是实数，不过在某些情况下也会是布尔值或者是离散数据。

特征数必须提前确定。但是对于给定的样本，特征可以是很大（百万级）的一个零占大多数的集合。这种情况下，`scipy.sparse`矩阵就派上了用场，用这个矩阵比numpy矩阵在存储上会更加高效。

![Data Layout](images/data-layout.png)



## 一个简单的例子：Iris 数据集

作为简单数据集的例子，我们将会介绍scikit-learn中存储的iris数据集。数据由3种不同品种的鸢尾花组成。下面是数据集中的3个品种，我们可以通过下面的代码显示出它们：

In [None]:
from IPython.core.display import Image, display
display(Image(filename='images/iris_setosa.jpg'))
print("Iris Setosa\n")

display(Image(filename='images/iris_versicolor.jpg'))
print("Iris Versicolor\n")

display(Image(filename='images/iris_virginica.jpg'))
print("Iris Virginica")

### 问题：

**如果我们想设计一个算法去分辨iris的品种，数据可能是什么？**

记住：我们需要一个2D的数组，其大小为`[样本数 * 特征数]`

- `样本数`指的是什么？

- `特征数`指的是什么？

记住每一个样本的特征数必须是**固定**的，而且对于每一个样本，特征数``i``必须是一个数值型的元素。

### 用scikit-learn 加载 Iris 数据

Scikit-learn对于Iris数据有一个非常直接表示。数据表示如下：

- Iris 数据集的特征：

    1. 萼片长度(cm)
    2. 萼片宽度(cm)
    3. 花瓣长度(cm)
    4. 花瓣宽度(cm)
    
    
- 预测的目标类别
    
    1. Iris Setosa
    2. Iris Versicolour
    3. Iris Virginica
    
``scikit-learn`` 准备好了一个iris CSV文件的拷贝和一个加载函数去从numpy数组中加载它：

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
iris.keys()

In [None]:
n_samples, n_features = iris.data.shape
print((n_samples, n_features))
iris.data

In [None]:
print(iris.data.shape)
print(iris.target.shape)

In [None]:
iris.target

In [None]:
print(iris.target_names)
print(iris.feature_names)

这个数据是四维的，但是我们可以使用简单的scatter-plot一次显示出两维的数据：

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x_index = 1
y_index = 2

# 这段代码使用iris的名字来标注颜色条(colorbar)
formatter = plt.FuncFormatter(lambda i, *args: iris.target_names[int(i)])

plt.scatter(iris.data[:, x_index], iris.data[:, y_index],
            c=iris.target, cmap=plt.cm.get_cmap('RdYlBu', 3))
plt.colorbar(ticks=[0, 1, 2], format=formatter)
plt.clim(-1, 2.5)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index]);

### 快速练习：
 
**在上面的脚本中改变**  **x_index** 和 **y_index**， 找到一种可以最大化分隔出三个类别的它们的组合。**

这个练习是**降维算法**的一个预告，我们在之后会看到。 

## 其他数据

它们分为如下三种：

- **包内置数据：** 这些小的数据集已经被集成在scikit-learn的安装包里面了，可以用``sklearn.datasets.load_*``去下载它
- **供下载数据：** 这些较大的数据可以供用户们下载，scikit-learn里面已经包含了下载这些数据集的流通道。这些数据可以在``sklearn.datasets.fetch_*``中找到。
- **生成数据：** 通过随机种子，可以通过现有模型随机生成一些数据集。它们可以在``sklearn.datasets.make_*``中找到


In [None]:
from sklearn import datasets


In [None]:
datasets.l

In [None]:
datasets.fetch_20newsgroups()  

## 数据特征表示与变换 transformer
许多无监督学习的实例，例如降维，流形学习和特征提取，在没有任何额外输入的情况下找到输入数据的新表示。 （与监督学习相反，无监督算法不需要或考虑目标变量）。

一个非常基本的例子是我们的数据重缩放，这是许多机器学习算法的要求，因为它们不是规模不变的 - 重缩放属于数据预处理类别，几乎不能称为学习。 存在许多不同的重缩放技术，在下面的示例中，我们将看一个通常称为“标准化”的特定方法。 在这里，我们将重缩放数据，使每个特征以零（均值为 0）为中心，具有单位方差（标准差为 1）。

例如，如果我们的一维数据集的值为`[1,2,3,4,5]`，则标准化值为：

+   1 -> -1.41
+   2 -> -0.71
+   3 -> 0.0
+   4 -> 0.71
+   5 -> 1.41

通过等式`z = (x - μ) / σ`计算，其中`μ`是样本均值，`σ`是标准差。

In [None]:
ary = np.array([1, 2, 3, 4, 5])
ary_standardized = (ary - ary.mean()) / ary.std()
ary_standardized

In [None]:
from sklearn import preprocessing 
import pandas as pd 
data = [[100.5, 5.3], [80, 3], [90, 2], [78, 1]]
df=pd.DataFrame(data)
print(df)
scaler11 = preprocessing.StandardScaler()  #sklearn 实现标准化 的 transformer 对象
scaler = scaler11.fit(df) #基于mean和std的标准化

newo=scaler.transform(df)
newo

In [None]:
from sklearn import preprocessing 
import pandas as pd 
data = [[100.5, 5.3], [80, 3], [90, 2], [78, 1]]
df=pd.DataFrame(data)
print(df)
scaler = preprocessing.MinMaxScaler(feature_range=(0,5)).fit(df)  #. 将每个特征值归一化到一个固定范围

scaler.transform(df) 

In [None]:
from sklearn import preprocessing
import numpy as np

data = [['red', 'good', 'level3'], 
        ['white', 'very good', 'level0'], 
         ['yellow', 'very very good', 'level1'], 
         ['black', 'good', 'level2']]
print(np.array(data))
encoder = preprocessing.OneHotEncoder().fit(data)  #one-hot编码
newdata=encoder.transform(data).toarray()
print(newdata)

One-hot编码

优点：独热编码解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。

缺点：当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。

In [None]:
preprocessing.OneHotEncoder?

总结一下：通过fit方法，估计器拟合我们提供的数据。 在该步骤中，估计器根据数据估计参数（这里是平均值和标准差）。 然后，如果我们转换数据，这些参数将用于转换数据集。 （请注意，transform方法不会更新这些参数）。

重要的是要注意，**相同的转换应用于训练和测试集**。 这导致通常在缩放后测试数据的平均值不为零（因为标注化的transformer是基于训练数据构造的）：

在下一节，我们将会使用一些数据集来研究机器学习的基本规则。