## 如何读取MNist数据库
在TensorFlow的例程中，提供了读取MNist数据的类，可以直接使用，MNist数据库在深度学习中的地位就类似与图像处理中lena的照片，被当做Hello World使用。 具体在Python中使用代码如下：

In [1]:
# 先打开Eager模式，更形象的使用TensorFlow
import tensorflow.contrib.eager as tfe
import tensorflow as tf
tfe.enable_eager_execution()
tf.logging.set_verbosity(tf.logging.ERROR)

Instructions for updating:
Use the retry module or similar alternatives.


In [2]:
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)

print(len(mnist.train.images))
print(len(mnist.test.images))

Extracting /tmp/data/train-images-idx3-ubyte.gz
Extracting /tmp/data/train-labels-idx1-ubyte.gz
Extracting /tmp/data/t10k-images-idx3-ubyte.gz
Extracting /tmp/data/t10k-labels-idx1-ubyte.gz
55000
10000


在TensorFlow中的例程中的mnist类中定义了读取数据的input_data模块，这个模块中的read_data_sets函数，将数据库读取存放在一个目录中，one_hot选项是否将数据进行一行展开。接下来打印了数据的维度。

## 了解一下读取数据的形式
找了半天也没发现在TensorFlow的API文档也没有找到关于example的文档。只能靠在Tutorial中的例程了解这么个玩意儿。 在Python中查看一下这个文件的类型：

In [3]:
print(type(mnist))

<class 'tensorflow.contrib.learn.python.learn.datasets.base.Datasets'>


是Datasets类型，这个类型属于High Level API 这个mnist有两个对象，分别是train和test，这两个对象也是Datasets对象，分别对应的训练数据集和测试数据集。 在每个数据集中，有两个重要的对象，分别是对应的images和labes，分别是图像的数据和对应的标签，看一下训练数据集中的数据类型：

In [4]:
print(type(mnist.train.images))
print(type(mnist.train.labels))
print(mnist.train.images.shape)
print(mnist.train.labels.shape)

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
(55000, 784)
(55000, 10)


看出这两个对象都是numpy的数组，维度也能看出来。 下面稍微修改一下读取数据的参数，看一下输出的参数区别：

In [5]:
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("/tmp/data/", one_hot=False)


print(type(mnist.train.images))
print(type(mnist.train.labels))
print(mnist.train.images.shape)
print(mnist.train.labels.shape)

Extracting /tmp/data/train-images-idx3-ubyte.gz
Extracting /tmp/data/train-labels-idx1-ubyte.gz
Extracting /tmp/data/t10k-images-idx3-ubyte.gz
Extracting /tmp/data/t10k-labels-idx1-ubyte.gz
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
(55000, 784)
(55000,)


labels的维度变了，images的维度没有变（每一行表示一张图）。 实际上，默认labels就是一个55000维度的向量，添加one_hot属性，才让它的每个元素变成一个10维度的向量，原始元素是0到9的数字，one_hot以后，变成了一个10的向量，其中原始元素的数字对应的下标的元素变为1，其他的都是0.

## one_hot操作
这个操作也可以使用TensorFlow的操作完成。 比如一个numpy的数组：

In [6]:

import numpy as np

In [7]:

x = np.array([0, 1, 2, 3, 4, 5, 6, 7])
one_hot_x = tf.one_hot(indices=x, depth=10)
print(x)
print(one_hot_x)

[0 1 2 3 4 5 6 7]
tf.Tensor(
[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]], shape=(8, 10), dtype=float32)


或者使用TensorFlow的常量：

In [8]:


y = tf.constant([0, 1, 2, 3, 4, 5, 6, 7])
one_hot_y = tf.one_hot(indices=y, depth=20)
print(y)
print(one_hot_y)

tf.Tensor([0 1 2 3 4 5 6 7], shape=(8,), dtype=int32)
tf.Tensor(
[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]], shape=(8, 20), dtype=float32)


更多关于one_hot的操作参考[文档](https://www.tensorflow.org/versions/master/api_docs/python/tf/one_hot)