# MNIST机器学习入门

这是一个简单的示例，表示如何通过 tensorflow 来对数据集 MNIST 进行机器学习


## MNIST 是什么

MNIST是一个入门级的计算机视觉数据集，它包含各种手写数字图片，开源给人进行数字的图像识别

<img src="http://www.tensorfly.cn/tfdoc/images/MNIST.png" width="200" />


## 本例的数学模型

本例的模型比较简单，叫做 Softmax Regression


下面，会使用 tensorflow 提供的代码下载 MNIST 的数据集，如果由于网络问题，也可以自己翻墙下载 [MNIST](http://yann.lecun.com/exdb/mnist/) ，将以下4个文件复制到你的数据目录中

```
train-images-idx3-ubyte.gz:  training set images (9912422 bytes) 
train-labels-idx1-ubyte.gz:  training set labels (28881 bytes) 
t10k-images-idx3-ubyte.gz:   test set images (1648877 bytes) 
t10k-labels-idx1-ubyte.gz:   test set labels (4542 bytes)
```

In [2]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("../../data", one_hot=True)

Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.
Instructions for updating:
Please write your own downloading logic.
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting ../../data/train-images-idx3-ubyte.gz
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting ../../data/train-labels-idx1-ubyte.gz
Instructions for updating:
Please use tf.one_hot on tensors.
Extracting ../../data/t10k-images-idx3-ubyte.gz
Extracting ../../data/t10k-labels-idx1-ubyte.gz
Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.


 上述代码会对数据集的文件进行处理，返回一个 mnist 对象，它的属性如下：
 
 - mnist.train 60000行的训练数据集
     + mnist.train.images 训练数据集的图片
     + mnist.train.labels 训练数据集的标签
 
 - mnist.test 10000行的测试数据集
 

 
 train 与 test 只是数据量的不同，这样切分的目的在于，在机器学习模型设计时必须有一个单独的测试数据集不用于训练而是用来评估这个模型的性能，从而更加容易把设计的模型推广到其他数据集上（泛化）。
 
 每一张图片包含28像素X28像素。我们可以用一个数字数组来表示这张图片：
 
<img src="http://www.tensorfly.cn/tfdoc/images/MNIST-Matrix.png" width="500" />
 
 在本例子中，我们把这个数组展开成一个向量，长度是 28x28 = 784。如何展开这个数组（数字间的顺序）不重要，只要保持各个图片采用相同的方式展开。从这个角度来看，MNIST数据集的图片就是在784维向量空间里面的点, 并且拥有比较复杂的结构 (tips: 此类数据的可视化是计算密集型的)。
 
 > 展平图片的数字数组会丢失图片的二维结构信息。这显然是不理想的，最优秀的计算机视觉方法会挖掘并利用这些结构信息，我们会在后续教程中介绍。但是在这个教程中我们忽略这些结构，所介绍的简单数学模型，softmax回归(softmax regression)，不会利用这些结构信息。
 
 
数据集中的标签，是介于0到9的数字，本例子中，标签数据是"one-hot vectors"，比如，标签0将表示成([1,0,0,0,0,0,0,0,0,0,0])。
 
<img src="http://www.tensorfly.cn/tfdoc/images/mnist-train-ys.png" width="500" />

## 什么是 Softmax回归

oftmax回归（softmax regression）分两步：第一步

为了得到一张给定图片属于某个特定数字类的证据（evidence），我们对图片像素值进行加权求和。如果这个像素具有很强的证据说明这张图片不属于该类，那么相应的权值为负数，相反如果这个像素拥有有利的证据支持这张图片属于这个类，那么权值是正数。

下面的图片显示了一个模型学习到的图片上每个像素对于特定数字类的权值。红色代表负数权值，蓝色代表正数权值。

<img src="http://www.tensorfly.cn/tfdoc/images/softmax-weights.png" width="300" />

因为输入往往会带有一些无关的干扰量，我们也需要加入一个额外的偏置量（bias）。那么对于给定的输入图片 x 它代表的是数字 i 的证据可以表示为

![](http://www.tensorfly.cn/tfdoc/images/mnist1.png)

解释下

- Wi 权重
- bi 代表数字i类的偏置量
- 求和符号（Σ，sigma）
- j 代表给定图片x的像素索引

接下来，使用 softmax 函数把这些证据转换为概率 y :

![](http://www.tensorfly.cn/tfdoc/images/mnist4.png)

这里的softmax可以看成是一个激励（activation）函数或者链接（link）函数，把我们定义的线性函数的输出转换成我们想要的格式。

简单来说，就是给定一张图片，它对于每一个数字的吻合度可以被softmax函数转换成为一个概率值，即区间[0,1]的浮点数。

softmax函数可以定义为：

<img src="http://www.tensorfly.cn/tfdoc/images/mnist5.png" />

展开等式右边的子式，可以得到：

<img src="http://www.tensorfly.cn/tfdoc/images/mnist6.png" />


## 简单的网络模型

到这里就需要讲一下网络模型，避免画图复杂，这里假如 输入x是一个[1,3]的vector，输出的y有3个可能的结果，那么计算图如下

对于输入的xs加权求和，再分别加上一个偏置量，最后再输入到softmax函数中：

<img src="http://www.tensorfly.cn/tfdoc/images/softmax-regression-scalargraph.png" width="600" />

如果把它写成一个等式，我们可以得到：

<img src="http://www.tensorfly.cn/tfdoc/images/softmax-regression-scalarequation.png" width="600" />

我们也可以用向量表示这个计算过程：用矩阵乘法和向量相加。这有助于提高计算效率。（也是一种更有效的思考方式）

<img src="http://www.tensorfly.cn/tfdoc/images/softmax-regression-vectorequation.png" width="600" />

更进一步，可以写成更加紧凑的方式：

<img src="http://www.tensorfly.cn/tfdoc/images/mnist7.png" />


## 开始使用 tensorflow

基本操作可以参考 tensorflow example 代码的前两节

代码执行过程的技术与效率问题：

>为了用python实现高效的数值计算，我们通常会使用函数库，比如NumPy，会把类似矩阵乘法这样的复杂运算使用其他外部语言实现。不幸的是，从外部计算切换回Python的每一个操作，仍然是一个很大的开销。如果你用GPU来进行外部计算，这样的开销会更大。用分布式的计算方式，也会花费更多的资源用来传输数据。

>TensorFlow也把复杂的计算放在python之外完成，但是为了避免前面说的那些开销，它做了进一步完善。Tensorflow不单独地运行单一的复杂计算，而是让我们可以先用图描述一系列可交互的计算操作，然后全部一起在Python之外运行。（这样类似的运行方式，可以在不少的机器学习库中看到。）

下面，先定义占位符、变量、以及网络模型的计算过程

In [None]:
import tensorflow as tf

# x 定义占位符, None 表示此张量的第一个维度可以是任何长度的，也就是该维度由机器来判断
x = tf.placeholder("float", [None, 784])
# w 定义模型参数之一 —— 权重，第一个维度与 x 的第二个维度相等，第二个维度与 y 离散的数量相等
W = tf.Variable(tf.zeros([784,10]))
# b 定义模型参数之一 —— 偏置量，数量与 y 离散的数量相等
b = tf.Variable(tf.zeros([10]))
# 上面计算图的运算过程
y = tf.nn.softmax(tf.matmul(x,W) + b)

In [3]:

y_ = tf.placeholder("float", [None,10])
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)

for i in range(1000):
  batch_xs, batch_ys = mnist.train.next_batch(100)
  sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
    
    
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))

0.9169
