## 5.1 MNIST数据处理
MNIST是一个非常著名的手写体数字识别数据集，在很多资料中，这个数据集会被当做深度学习的入门样例。

**MNIST数据集是NIST数据集的一个子集，它包含了60000张图片作为训练数据，10000张图片作为测试数据。在MNIST数据集中的每张图片都代表了0~9中的一个数字，图片大小是28\*28，且数字都会出现在图片的正中间。**在Yann LeCun教授的[网站](http://yann.lecun.com/exdb/mnist)中对MNIST数据集做出了详细的介绍。下面是一张样图及其像素矩阵：
<p align='center'>
    <img src=images/图5.1.JPG>
</p>

MNIST数据集只提供了训练和测试数据，但**为了验证模型训练的效果，一般会从训练数据中划出一部分数据作为验证（validation）数据**，5.2.2节中会详解验证集作用。

为了方便使用，TensorFlow提供了一个类来处理MNIST数据，这个类会自动下载并转化MNIST数据的格式，将数据从原始的数据包中解析成训练和测试神经网络时使用的数据，下面给出使用这个类的样例程序：

####  1. 读取数据集，第一次TensorFlow会自动下载数据集到下面的路径中。

In [1]:
from tensorflow.examples.tutorials.mnist import input_data
# 如果指定地址下没有已下载好的数据，TF会自动从网络下载，参数可以指定validation_size大小和是否one_hot
mnist = input_data.read_data_sets("../../datasets/MNIST_data/", one_hot=True)  # 这里的WARNING暂时没找到解决办法，有待改进

Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.
Instructions for updating:
Please write your own downloading logic.
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting ../../datasets/MNIST_data/train-images-idx3-ubyte.gz
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting ../../datasets/MNIST_data/train-labels-idx1-ubyte.gz
Instructions for updating:
Please use tf.one_hot on tensors.
Extracting ../../datasets/MNIST_data/t10k-images-idx3-ubyte.gz
Extracting ../../datasets/MNIST_data/t10k-labels-idx1-ubyte.gz
Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.


#### 2. 数据集会自动被分成3个子集，train、validation和test。以下代码会显示数据集的大小。
通过input_data.read_data_sets函数生成的类会自动将MNIST数据集划分为train、validation、test三个数据集，默认前两者分别为MNIST本身提供的训练数据中的55000张和5000张，后者为MNIST本身提供的测试集10000张。

In [2]:
print("Training data size: ", mnist.train.num_examples)
print("Validating data size: ", mnist.validation.num_examples)
print("Testing data size: ", mnist.test.num_examples)

Training data size:  55000
Validating data size:  5000
Testing data size:  10000


#### 3. 查看training数据集中某个成员的像素矩阵生成的一维数组和其属于的数字标签。
TF处理后的每一张图片是一个长度为784的一维数组，其中的元素对应了图片像素矩阵中的每一个数字（28*28=784），便于作为神经网络的输入层。像素矩阵中元素的取值范围是[0, 1]，代表颜色深浅，0表示白色(background)，1表示黑色(foreground)。

In [3]:
print("Example training data: ", mnist.train.images[0] )
print("Example training data label: ", mnist.train.labels[0])

Example training data:  [0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.       

#### 4. 使用mnist.train.next_batch来实现随机梯度下降。
为了方便使用随机梯度下降，input_data.read_data_sets函数生成的类还提供了mnist.train.next_batch函数，它可以从所有的训练数据中读取一小部分作为一个训练batch。

In [4]:
batch_size = 100
xs, ys = mnist.train.next_batch(batch_size)    # 从train的集合中选取batch_size个训练数据。
print("X shape:", xs.shape)
print("Y shape:", ys.shape)

X shape: (100, 784)
Y shape: (100, 10)
