![](../img/dl_banner.jpg)

# 用tensorflow low level API构建卷积神经网络
#### \[稀牛学院 x 网易云课程\]《深度学习工程师(实战)》课程资料 by [@寒小阳](https://blog.csdn.net/han_xiaoyang)

## 0.知识背景：卷积神经网络
卷积神经网络是一种在计算机视觉当中广泛应用的神经网络，其特殊的网络结构，包含卷积层、池化层等，能在共享参数的同时保证对图像特征的高效抽取。经典的卷积神经网络结构如下。
![CNN](http://personal.ie.cuhk.edu.hk/~ccloy/project_target_code/images/fig3.png)

## 0.问题背景：MNIST 手写数字
#### \[稀牛学院 x 网易云课程\]《深度学习工程师(实战)》课程资料 by [@寒小阳](https://blog.csdn.net/han_xiaoyang)

这是一个非常经典的问题，我们的对象是手写数字图片，我们需要根据手写数字图片的输入，构建线性的分类器(softmax分类器)去区分图片是手写数字0-9中的哪一个。这个问题的数据集，每一张图片的表示是长宽为28的矩阵，我们有时候会把它展开成784维的向量。MNIST手写数据集长成下面这样。

![MNIST Dataset](http://neuralnetworksanddeeplearning.com/images/mnist_100_digits.png)

更多的信息可以参考: http://yann.lecun.com/exdb/mnist/

## 1.引入工具库

In [6]:
from __future__ import division, print_function, absolute_import
import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np

## 2.设定超参数
#### \[稀牛学院 x 网易云课程\]《深度学习工程师(实战)》课程资料 by [@寒小阳](https://blog.csdn.net/han_xiaoyang)

In [7]:
# 训练超参数
learning_rate = 0.001
num_steps = 2000
batch_size = 128

# 神经网络超参数
num_input = 784 # MNIST数据输入(数据形状: 28*28)
num_classes = 10 # MNIST总共类别(0-9总共10个手写数字)
dropout = 0.25 # Dropout随机失活概率


# 占位符
X = tf.placeholder(tf.float32, [None, num_input])
Y = tf.placeholder(tf.float32, [None, num_classes])
keep_prob = tf.placeholder(tf.float32) # dropout (keep probability)

# 变量
weights = {
    # 5x5 卷积核, 1 输入, 32 输出
    'wc1': tf.Variable(tf.random_normal([5, 5, 1, 32])),
    # 5x5 卷积核, 32 输入, 64 输出
    'wc2': tf.Variable(tf.random_normal([5, 5, 32, 64])),
    # 全连接, 7*7*64 输入, 1024 输出
    'wd1': tf.Variable(tf.random_normal([7*7*64, 1024])),
    # 1024 输入, 10 输出(总共1类)
    'out': tf.Variable(tf.random_normal([1024, num_classes]))
}

biases = {
    'bc1': tf.Variable(tf.random_normal([32])),
    'bc2': tf.Variable(tf.random_normal([64])),
    'bd1': tf.Variable(tf.random_normal([1024])),
    'out': tf.Variable(tf.random_normal([num_classes]))
}

## 3.准备数据

In [8]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)

Extracting /tmp/data/train-images-idx3-ubyte.gz
Extracting /tmp/data/train-labels-idx1-ubyte.gz
Extracting /tmp/data/t10k-images-idx3-ubyte.gz
Extracting /tmp/data/t10k-labels-idx1-ubyte.gz


## 4.构建模型

In [9]:
# 构建卷积神经网络
def conv_net(x_dict, n_classes, dropout, reuse, is_training):
    
    # 定义scope，以便在其内复用某些变量
    with tf.variable_scope('ConvNet', reuse=reuse):
        # 字典格式的输入，取出图像数据
        x = x_dict['images']

        # 原本MNIST数据输入是784维度向量
        # 调整成 宽*高*通道数 的标准图片输入格式
        # 总共是4个维度[Batch Size, Height, Width, Channel]，其中第一个维度-1表示暂时不确定一个batch多少张
        x = tf.reshape(x, shape=[-1, 28, 28, 1])

        # 先是卷积层，32个神经元，filter的形状为5*5
        conv1 = tf.layers.conv2d(x, 32, 5, activation=tf.nn.relu)
        # 最大池化层，2*2的滑窗大小，每次滑动的步长为2
        conv1 = tf.layers.max_pooling2d(conv1, 2, 2)

        # 再次添加卷积层(注意这里直接带上了relu做非线性变换)
        conv2 = tf.layers.conv2d(conv1, 64, 3, activation=tf.nn.relu)
        # 池化层
        conv2 = tf.layers.max_pooling2d(conv2, 2, 2)

        # 后面要接全连接层了，所以我们先把数据展平
        fc1 = tf.contrib.layers.flatten(conv2)

        # 接全连接层
        fc1 = tf.layers.dense(fc1, 1024)
        # 添加随机失活，以提高泛化能力
        fc1 = tf.layers.dropout(fc1, rate=dropout, training=is_training)

        # 接全连接层(神经元的个数和类别数对应)
        out = tf.layers.dense(fc1, n_classes)

    return out

## 5.计算损失与优化

In [10]:
# 构建卷积神经网络预估结果
logits = conv_net(X, weights, biases, keep_prob)
prediction = tf.nn.softmax(logits)

# 定义损失与优化器
loss_op = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(
    logits=logits, labels=Y))
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)
train_op = optimizer.minimize(loss_op)


# 评估模型
correct_pred = tf.equal(tf.argmax(prediction, 1), tf.argmax(Y, 1))
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

# 初始化变量
init = tf.global_variables_initializer()

NameError: name 'weights' is not defined

## 6.在session当中完成计算图计算(损失计算与优化、参数更新迭代)
#### \[稀牛学院 x 网易云课程\]《深度学习工程师(实战)》课程资料 by [@寒小阳](https://blog.csdn.net/han_xiaoyang)

In [None]:
# 在session当中开始训练
with tf.Session() as sess:

    # 初始化
    sess.run(init)

    for step in range(1, num_steps+1):
        batch_x, batch_y = mnist.train.next_batch(batch_size)
        # 优化
        sess.run(train_op, feed_dict={X: batch_x, Y: batch_y, keep_prob: dropout})
        if step % display_step == 0 or step == 1:
            # 计算准确率
            loss, acc = sess.run([loss_op, accuracy], feed_dict={X: batch_x,
                                                                 Y: batch_y,
                                                                 keep_prob: 1.0})
            print("第" + str(step) + "步, 一个minibatch上的损失为 " + \
                  "{:.4f}".format(loss) + ", 训练准确率为 " + \
                  "{:.3f}".format(acc))

    print("完成训练！")

    # Calculate accuracy for 256 MNIST test images
    print("测试准确率为 ", \
        sess.run(accuracy, feed_dict={X: mnist.test.images[:256],
                                      Y: mnist.test.labels[:256],
                                      keep_prob: 1.0}))