实验一 手写数字识别

一、实验目的

1.掌握卷积神经网络基本原理；

2.掌握Tensorflow的基本用法以及构建卷积网络的基本操作；

3.了解Tensorflow在GPU上的使用方法。

二、实验要求

1.搭建Tensorflow环境；

2.构建一个规范的卷积神经网络组织结构；

3.在MNIST手写数字数据集上进行训练和评估。

三、实验原理

1.TensorFlow基本用法：

使用 TensorFlow, 必须了解TensorFlow:

    使用图(graph) 来表示计算任务。
    在被称之为会话 (Session) 的上下文 (context) 中执行图。
    使用 tensor 表示数据。
    通过 变量 (Variable) 维护状态。
    使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或从中获取数据。
TensorFlow 是一个编程系统, 使用图来表示计算任务。图中的节点被称之为 op (operation 的缩写)。一个 op 获得 0 个或多个 Tensor, 执行计算, 产生 0 个或多个 Tensor。每个 Tensor 是一个类型化的多维数组。例如, 你可以将一小组图像集表示为一个四维浮点数数组, 这四个维度分别是 [batch, height, width, channels]。

一个 TensorFlow 图描述了计算的过程。为了进行计算, 图必须在“会话”里被启动。 “会话“将图的 op 分发到诸如 CPU 或 GPU 之类的设备上, 同时提供执行op的方法。 这些方法执行后, 将产生的tensor返回。在 Python 语言中, 返回的 tensor 是 numpy ndarray 对象; 在 C 和 C++ 语言中, 返回的 tensor 是 tensorflow::Tensor 实例。

2.卷积神经网络：

典型的卷积神经网络由卷积层、池化层、激活函数层交替组合构成，因此可将其视为一种层次模型，形象地体现了深度学习中“深度”之所在。

卷积操作

卷积运算是卷积神经网络的核心操作，给定二维的图像I作为输入，二维卷积核K， 卷积运算可表示为：
              	     ![公式](img/gongshi1.png)	(1)
                        
给定5×5输入矩阵、3×3卷积核，相应的卷积操作如图1所示。
  ![卷积运算](img/img1.png)
图1 卷积运算

在使用TensorFlow等深度学习框架时，卷积层会有padding参数，常用的有两种选择，一个是“valid”，一个是“same”。前者是不进行填充，后者则是进行数据填充并保证输出与输入具有相同尺寸。

构建卷积或池化神经网络时，卷积步长也是一个很重要的基本参数。它控制了每个操作在特征图上的执行间隔。
 ![池化操作](img/img2.png)
池化操作

池化操作使用某位置相邻输出的总体统计特征作为该位置的输出，常用最大池化（max-pooling）和均值池化（average-pooling）。池化层不包含需要训练学习的参数，仅需指定池化操作的核大小、操作步长以及池化类型。池化操作示意如图2所示。

图2 池化操作

激活函数层

卷积操作可视为对输入数值进行线性计算发挥线性映射的作用。激活函数的引入，则增强了深度网络的非线性表达能力，从而提高了模型的学习能力。常用的激活函数有sigmoid、tanh和ReLU函数。

四、实验所用工具及数据集

1.工具

Anaconda、TensorFlow

（Tensorflow安装教程参考：Tensorflow官网、Tensorflow中文社区、https://github.com/tensorflow/tensorflow）

2.数据集

MNIST手写数字数据集
（下载地址及相关介绍：http://yann.lecun.com/exdb/mnist/）

五、实验步骤与方法

1）安装实验环境，包括Anaconda、TensorFlow（建议安装GPU版本），若使用GPU版本还需要安装cuda、cudnn；

2）下载MNIST手写数字数据集；

3）加载MNIST数据；


加载图像

In [1]:
import gzip
import numpy as np

IMAGE_SIZE = 28 
NUM_CHANNELS = 1
PIXEL_DEPTH = 255

def data_type():
  """返回activations, weights和 placeholder变量的类型."""
  return tf.float32

def extract_data(filename, num_images):
  """
      调整为4维张量 [image index, y, x, channels].
      像素值从[0, 255] 调整到 [-0.5, 0.5].
  """
  print('Extracting', filename)
  with gzip.open(filename) as bytestream:
    bytestream.read(16) #每个像素存储在文件中的大小为16bits
    buf = bytestream.read(IMAGE_SIZE * IMAGE_SIZE * num_images * NUM_CHANNELS)
    data = np.frombuffer(buf, dtype=np.uint8).astype(np.float32)
    data = (data - (PIXEL_DEPTH / 2.0)) / PIXEL_DEPTH #将像素值从[0,255]调整到[-0.5，0.5]
    data = data.reshape(num_images, IMAGE_SIZE, IMAGE_SIZE, NUM_CHANNELS) # 调整数据的形状
    return data


def extract_labels(filename, num_images):
  """调整label标签为向量int64 label IDs."""
  print('Extracting', filename)
  with gzip.open(filename) as bytestream:
    bytestream.read(8)
    buf = bytestream.read(1 * num_images)
    labels = np.frombuffer(buf, dtype=np.uint8).astype(np.int64) # 调整label的形状
  return labels

加载训练数据、测试数据和标签。从压缩文件中获取数据，并存储为numpy数组

In [2]:
train_data = extract_data("./dataset/mnist/data/train-images-idx3-ubyte.gz", 60000)
train_labels = extract_labels("./dataset/mnist/data/train-labels-idx1-ubyte.gz", 60000)
test_data = extract_data("./dataset/mnist/data/t10k-images-idx3-ubyte.gz", 10000)
test_labels = extract_labels("./dataset/mnist/data/t10k-labels-idx1-ubyte.gz", 10000)

Extracting ./dataset/mnist/data/train-images-idx3-ubyte.gz
Extracting ./dataset/mnist/data/train-labels-idx1-ubyte.gz
Extracting ./dataset/mnist/data/t10k-images-idx3-ubyte.gz
Extracting ./dataset/mnist/data/t10k-labels-idx1-ubyte.gz


生成验证集validation data

In [3]:
VALIDATION_SIZE = 5000  # validation set的大小.
validation_data = train_data[:VALIDATION_SIZE, ...] #将训练集中的前5000个数据作为验证集
validation_labels = train_labels[:VALIDATION_SIZE] #获取对应的训练标签label
train_data = train_data[VALIDATION_SIZE:, ...] #将剩余的数据作为训练数据
train_labels = train_labels[VALIDATION_SIZE:] # 获取对应的标签label

4）构建模型计算图；

创建输入占位符：



In [4]:
#训练样本和标签被喂给graph
#这些占位符节点placeholder node使用下面Run()调用的{feed_dict}参数
#在每个training step被输入一批batch训练数据
import tensorflow  as tf

BATCH_SIZE = 64
EVAL_BATCH_SIZE = 64
# 这里并不实际运行计算，只是使用placeholder构建结构
train_data_node = tf.placeholder( tf.float32,
      shape=(BATCH_SIZE, IMAGE_SIZE, IMAGE_SIZE, NUM_CHANNELS))
train_labels_node = tf.placeholder(np.int64, shape=(BATCH_SIZE,))
eval_data = tf.placeholder(tf.float32,
      shape=(EVAL_BATCH_SIZE, IMAGE_SIZE, IMAGE_SIZE, NUM_CHANNELS))


  from ._conv import register_converters as _register_converters


构建初始化变量：

In [5]:
# 下面的变量包含所有可训练的权重。
#当调用tf.global_variables_initializer().run()}时,它们会被初始化：  

SEED = 34543
NUM_LABELS  = 10

# tf.Variable创建需要初始值的变量
# tf.truncated_normal从截断的正态分布中输出随机值。
# 生成的值服从具有指定平均值和标准偏差的正态分布，如果生成的值大于平均值2个标准偏差的值则丢弃重新选择。
conv1_weights = tf.Variable(
      tf.truncated_normal([5, 5, NUM_CHANNELS, 32],  # 5x5 filter, 输出的深度（kernel的数量） 32.
                          stddev=0.1, #标准差，正态分布
                          seed=SEED, dtype=data_type())) #seed: 一个整数，当设置之后，每次生成的随机数都一样。
conv1_biases = tf.Variable(tf.zeros([32], dtype=data_type()))
conv2_weights = tf.Variable(tf.truncated_normal( #5×5×32，输出的深度（kernel）大小为64
      [5, 5, 32, 64], stddev=0.1,
      seed=SEED, dtype=data_type()))
conv2_biases = tf.Variable(tf.constant(0.1, shape=[64], dtype=data_type()))
fc1_weights = tf.Variable(  # fully connected, depth（输出） 512.
      tf.truncated_normal([IMAGE_SIZE // 4 * IMAGE_SIZE // 4 * 64, 512], # 这里4D矩阵被变换为2D矩阵，输入维度为啥是这么大？
                          stddev=0.1,
                          seed=SEED,
                          dtype=data_type()))
fc1_biases = tf.Variable(tf.constant(0.1, shape=[512], dtype=data_type()))
fc2_weights = tf.Variable(tf.truncated_normal([512, NUM_LABELS],
                                                stddev=0.1,
                                                seed=SEED,
                                                dtype=data_type()))
fc2_biases = tf.Variable(tf.constant(
      0.1, shape=[NUM_LABELS], dtype=data_type()))


CNN模型构建：

In [6]:
 #复构建模型结构，输入数据和初始值，输出模型的第二个全连接层的输出
# 模型结构为 conv -> ReLU -> max pool -> conv -> relu ->max pool -> fc1 -> relu -> dropout(train) ->fc2
def model(data, train=False):
    """The Model definition."""
    # 2D卷积，带有“SAME”填充（即输出要素图与输入的大小相同）。 
    # 请注意，{strides}是一个4D数组，其形状与data layout匹配：[image index，y，x，depth]。
    conv = tf.nn.conv2d(data, # 形状为 NHWC
                        conv1_weights,# kernel，张量，数据类型与data相同，
                        strides=[1, 1, 1, 1], # 每个输入维度的滑动窗口的步长
                        padding='SAME') # 填充方式SAME/VALID，SAME指增加缺少的列，并填充0；VALID舍弃多余的列
    # 偏置和ReLU非线性激活。
    relu = tf.nn.relu(tf.nn.bias_add(conv, conv1_biases))
    # 最大池化。
    # 内核大小规范{ksize}也遵循数据布局。 这里有一个大小为2的池化窗口和2的步幅。
    pool = tf.nn.max_pool(relu,
                          ksize=[1, 2, 2, 1],
                          strides=[1, 2, 2, 1],
                          padding='SAME')
    conv = tf.nn.conv2d(pool,
                        conv2_weights,
                        strides=[1, 1, 1, 1],
                        padding='SAME')
    relu = tf.nn.relu(tf.nn.bias_add(conv, conv2_biases))
    pool = tf.nn.max_pool(relu,
                          ksize=[1, 2, 2, 1],
                          strides=[1, 2, 2, 1],
                          padding='SAME')
    # 将特征图变换为2D矩阵，以将其提供给全连接层
    pool_shape = pool.get_shape().as_list()
    reshape = tf.reshape(
        pool,
        [pool_shape[0], pool_shape[1] * pool_shape[2] * pool_shape[3]]) #
    # 全连接层. ‘+’操作自动broadcasts偏置bias
    hidden = tf.nn.relu(tf.matmul(reshape, fc1_weights) + fc1_biases) # tf.matmul 两个矩阵的内积，类似于reshape.dot(fc1_weight)
    # 只在训练阶段添加50% dropout. Dropout还可以scale激活，因此在评估时不需要重新缩放.
    if train:
      hidden = tf.nn.dropout(hidden, 0.5, seed=SEED)
    return tf.matmul(hidden, fc2_weights) + fc2_biases  

训练与评估：

In [7]:
train_size = train_labels.shape[0]
# 训练计算logits和label之间的交叉熵损失.（softmax损失），
# logist中有N个数据对应的M个类别的值，与正确的标签（正确的类别）结合计算交叉熵损失
logits = model(train_data_node, True)
loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
  labels=train_labels_node, logits=logits))

# 全连接参数的L2 正则化损失
regularizers = (tf.nn.l2_loss(fc1_weights) + tf.nn.l2_loss(fc1_biases) +
              tf.nn.l2_loss(fc2_weights) + tf.nn.l2_loss(fc2_biases))
# 总损失=样本损失+L2正则化损失
loss += 5e-4 * regularizers

# 优化器:设置一个变量，每epoch增加一次，控制学习率的下降。
batch = tf.Variable(0, dtype=data_type())
# 设置学习率，每个epoch衰减一次，使用从0.01开始的指数衰减。
learning_rate = tf.train.exponential_decay(
                  0.01,                # 初始值
                  batch * BATCH_SIZE,  # 当前的globe step，在每个epoch中递增
                  train_size,          # 总的Decay step.用来计算学习率的指数，0.01*0.95**（globe/decay）
                  0.95,                # 衰减率.每个epoch变为原来的0.95
                  staircase=True) #计算离散值，设置为true
# 使用简单的动量更新momentum进行优化.动量设置为0.9
optimizer = tf.train.MomentumOptimizer(learning_rate,
                                     0.9).minimize(loss,
                                                   global_step=batch)

# 预测当前训练的minibatch，得到N个数据的对应M类每类的softmax值（sores）
train_prediction = tf.nn.softmax(logits)

# 对测试和验证的预测，我们将很少计算它们。
eval_prediction = tf.nn.softmax(model(eval_data))

# 一个小的实用函数，通过向{eval_data}提供批量数据并从{eval_forecast}中提取结果来评估数据集。
# 节省内存，并使其能够在较小的gpu上运行。
def eval_in_batches(data, sess):
    """通过小批量运行数据集来获得数据集的所有预测."""
    size = data.shape[0]
    if size < EVAL_BATCH_SIZE:
      raise ValueError("batch size for evals larger than dataset: %d" % size)
    predictions = np.ndarray(shape=(size, NUM_LABELS), dtype=np.float32)
    for begin in xrange(0, size, EVAL_BATCH_SIZE):
      end = begin + EVAL_BATCH_SIZE
      if end <= size:
        predictions[begin:end, :] = sess.run(
            eval_prediction,
            feed_dict={eval_data: data[begin:end, ...]})
      else:
        batch_predictions = sess.run(
            eval_prediction,
            feed_dict={eval_data: data[-EVAL_BATCH_SIZE:, ...]})
        predictions[begin:, :] = batch_predictions[begin - size:, :]
    return predictions



创建会话，训练和评估模型。

In [8]:
import time
from six.moves import xrange
import sys

NUM_EPOCHS = 10
num_epochs = NUM_EPOCHS
EVAL_BATCH_SIZE = 64
EVAL_FREQUENCY = 100  # evaluations之间的步骤数.

def error_rate(predictions, labels):
  """返回基于密集预测和稀疏标签的错误率."""
  return 100.0 - (
      100.0 *
      np.sum(np.argmax(predictions, 1) == labels) /
      predictions.shape[0]) # argmax返回行方向上最大值的索引，即返回每个数据对应的多个类别中得分最高的类别

# 创建一个本地session来进行训练
start_time = time.time()
with tf.Session() as sess:
    # 运行所有初始化来初始化变量
    tf.global_variables_initializer().run()
    print('Initialized!')
    # 循环训练
    for step in xrange(int(num_epochs * train_size) // BATCH_SIZE): # num_epochs表示整个训练集训练的次数，step表示训练的批次batch
      # 计算数据中当前小批量数据的起始位置，即偏移量
      offset = (step * BATCH_SIZE) % (train_size - BATCH_SIZE)
      batch_data = train_data[offset:(offset + BATCH_SIZE), ...]
      batch_labels = train_labels[offset:(offset + BATCH_SIZE)]
      # 这个字典将批处理数据(作为一个numpy数组)映射到对应的图中的节点。
      feed_dict = {train_data_node: batch_data,
                   train_labels_node: batch_labels}
      # 运行优化器来更新权重
      sess.run(optimizer, feed_dict=feed_dict)
      # 一旦达到评估频率（每多少step打印一次数据），打印一些额外的信息
      if step % EVAL_FREQUENCY == 0:
        # 获取一些额外节点的数据
        l, lr, predictions = sess.run([loss, learning_rate, train_prediction],
                                      feed_dict=feed_dict)
        elapsed_time = time.time() - start_time
        start_time = time.time()
        print('Step %d (epoch %.2f), %.1f ms' %
              (step, float(step) * BATCH_SIZE / train_size,
               1000 * elapsed_time / EVAL_FREQUENCY))
        print('Minibatch loss: %.3f, learning rate: %.6f' % (l, lr))
        print('Minibatch error: %.1f%%' % error_rate(predictions, batch_labels))
        print('Validation error: %.1f%%' % error_rate(
            eval_in_batches(validation_data, sess), validation_labels))
        sys.stdout.flush()
    # 打印结果
    test_error = error_rate(eval_in_batches(test_data, sess), test_labels)
    print('Test error: %.1f%%' % test_error)
   

Initialized!
Step 0 (epoch 0.00), 171.0 ms
Minibatch loss: 8.720, learning rate: 0.010000
Minibatch error: 87.5%
Validation error: 90.5%
Step 100 (epoch 0.12), 6.9 ms
Minibatch loss: 3.317, learning rate: 0.010000
Minibatch error: 7.8%
Validation error: 7.1%
Step 200 (epoch 0.23), 5.8 ms
Minibatch loss: 3.305, learning rate: 0.010000
Minibatch error: 9.4%
Validation error: 4.0%
Step 300 (epoch 0.35), 5.9 ms
Minibatch loss: 3.291, learning rate: 0.010000
Minibatch error: 6.2%
Validation error: 3.4%
Step 400 (epoch 0.47), 5.9 ms
Minibatch loss: 3.292, learning rate: 0.010000
Minibatch error: 14.1%
Validation error: 2.8%
Step 500 (epoch 0.58), 5.8 ms
Minibatch loss: 3.256, learning rate: 0.010000
Minibatch error: 9.4%
Validation error: 2.6%
Step 600 (epoch 0.70), 6.0 ms
Minibatch loss: 3.091, learning rate: 0.010000
Minibatch error: 3.1%
Validation error: 2.5%
Step 700 (epoch 0.81), 5.8 ms
Minibatch loss: 2.999, learning rate: 0.010000
Minibatch error: 3.1%
Validation error: 2.0%
Step 800

Step 6700 (epoch 7.80), 5.8 ms
Minibatch loss: 1.783, learning rate: 0.006983
Minibatch error: 0.0%
Validation error: 0.8%
Step 6800 (epoch 7.91), 5.9 ms
Minibatch loss: 1.776, learning rate: 0.006983
Minibatch error: 0.0%
Validation error: 0.9%
Step 6900 (epoch 8.03), 5.8 ms
Minibatch loss: 1.757, learning rate: 0.006634
Minibatch error: 0.0%
Validation error: 0.9%
Step 7000 (epoch 8.15), 5.8 ms
Minibatch loss: 1.755, learning rate: 0.006634
Minibatch error: 0.0%
Validation error: 0.9%
Step 7100 (epoch 8.26), 5.9 ms
Minibatch loss: 1.737, learning rate: 0.006634
Minibatch error: 0.0%
Validation error: 0.8%
Step 7200 (epoch 8.38), 5.8 ms
Minibatch loss: 1.727, learning rate: 0.006634
Minibatch error: 0.0%
Validation error: 0.8%
Step 7300 (epoch 8.49), 5.8 ms
Minibatch loss: 1.786, learning rate: 0.006634
Minibatch error: 1.6%
Validation error: 0.6%
Step 7400 (epoch 8.61), 5.9 ms
Minibatch loss: 1.699, learning rate: 0.006634
Minibatch error: 0.0%
Validation error: 0.7%
Step 7500 (epoch