# 数据收集

本节将介绍如何访问本书必要的数据集。

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
from tensorflow.python.framework import ops
ops.reset_default_graph()

## Iris 数据集（R.Fisher / Scikit-Learn）

其中最多使用的机器学习数据集是 iris flower 数据集，我们使用 scikit-learn 的数据集中引入，在这里了解更多：http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris

In [2]:
from sklearn.datasets import load_iris

iris = load_iris()
print(len(iris.data))
print(len(iris.target))
print(iris.data[0])
print(set(iris.target))

150
150
[ 5.1  3.5  1.4  0.2]
{0, 1, 2}


## 低出生率数据集（Github）

“低出生率数据集”出自一个著名的由 Hosmer 和 Lemeshow 在 1989 年研究，被叫做“Low Infant Birth Weight Risk Factor Study”，被广泛用于大学院校研究线性回归的数据集，我们把这个数据集放在了 github 上：https://github.com/nfmcclure/tensorflow_cookbook/raw/master/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat

In [3]:
import requests

birthdata_url = 'https://github.com/nfmcclure/tensorflow_cookbook/raw/master/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat'
birth_file = requests.get(birthdata_url)
birth_data = birth_file.text.split('\r\n')
birth_header = birth_data[0].split('\t')
birth_data = [[float(x) for x in y.split('\t') if len(x) >= 1] for y in birth_data[1:] if len(y) >= 1]
print(len(birth_data))
print(len(birth_data[0]))

189
9


## 房价数据集（UCI）

房价数据集来自加利福尼亚大学的机器学习数据集仓库。这是一个非常棒的回归数据集。这里有更多介绍：https://archive.ics.uci.edu/ml/datasets/Housing

In [4]:
import requests

housing_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
housing_header = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
housing_file = requests.get(housing_url)
housing_data = [[float(x) for x in y.split(' ') if len(x)>=1] for y in housing_file.text.split('\n') if len(y)>=1]
print(len(housing_data))
print(len(housing_data[0]))

506
14


## MNIST 手写数据集（Yann Lecun）

MNIST 手写数字数据集是图像识别的 hello world 的数据集，由著名的科学家和研究者，Yann Lecun 提供，数据集在这里：http://yann.lecun.com/exdb/mnist/ 因为它是如此被广泛的使用，好多机器学习的库（包括 tf）都将它集成在了里面，在 tf 里我们可以如下使用它：

In [5]:
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
print(len(mnist.train.images))
print(len(mnist.test.images))
print(len(mnist.validation.images))
print(mnist.train.labels[1, :])

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
55000
10000
5000
[ 0.  0.  0.  1.  0.  0.  0.  0.  0.  0.]


## CIFAR-10 数据

CIFAR-10 数据（https://www.cs.toronto.edu/~kriz/cifar.html ）包括 60,000 张 10 个分类的 32x32 的彩色图像，它由 Alex Krizhevsky，Vinod Nair 和 Geoffrey Hinton 收集提供。Alex 维护上面的网站。这也是一个通用的数据集，可通过 tf 内置函数访问它的数据（keras wrapper 有相关命令）。注意 keras wrapper 自动把它分解为 50,000 训练数据集和 10,000 测试数据集。

In [12]:
from PIL import Image

# 运行这个命令将通过网络下载所有的图片，可能会很耗时
(X_train, y_train), (X_test, y_test) = tf.contrib.keras.datasets.cifar10.load_data()

UnpicklingError: pickle data was truncated

10 个分类为（按顺序）：

0. Airplane
1. Automobile
2. Bird
3. Car
4. Deer
5. Dog
6. Frog
7. Horses
8. Ship
9. Truck