# 训练深层神经网络


## 梯度消失/爆炸问题

反向传播算法的工作原理是从输出层到输入层，传播误差的梯度。 一旦该算法已经计算了网络中每个参数的损失函数的梯度，它就使用这些梯度来用梯度下降步骤来更新每个参数。

不幸的是，梯度往往变得越来越小，随着算法进展到较低层。	结果，梯度下降更新使得低层连接权重实际上保持不变，并且训练永远不会收敛到良好的解决方案。这被称为 __梯度消失问题__。	

在某些情况下，可能会发生相反的情况：梯度可能变得越来越大，许多层得到了非常大 的权重更新，算法发散。这是 __梯度爆炸的问题__。


In [3]:
import tensorflow as tf
import numpy as np

###  减缓这一问题的方法一：Xavier初始化和He初始化

提出需要保持每一层的输入和输出的方差一致，并且需要在反向流动过某一层时，前后的方差也要一致。

当输入连接的数量大致等于输出连接的数量时，可以得到更简单的等式：(就是第十章中用到的方差)

</br>
<div align=center><img width="400" height="300" src="./static/1.jpg"/></div>

该方法的折中方案公式为Xavier初始化。

ReLU激活函数的初始化方法有时称为He初始化。

#### He 初始化
He	初始化只考虑了扇入，而不是像	Xavier	初始化那样扇入和扇出之间的平均值。	

这也 是	`variance_scaling_initializer()`	函数的默认值，但您可以通过设置参 数	`mode	="FAN_AVG"`	来更改它。


In [4]:
# he_init = tf.contrib.layers.variance_scaling_initializer()
# hidden1 = tf.layers.dense(X,n_hidden,activation=tf.nn.relu,kernel_initializer=he_init,name='hidden1')

###  减缓这一问题的方法二：更换激活函数

一般来说	ELU	>	leaky	ReLU（及其变体）>	ReLU	>	tanh	>	sigmoid

#### elu 激活函数

tensorflow 中提供了 elu 函数用于建立神经网络：

In [5]:
# hidden1 = tf.layers.dense(x,n_hidden,activation=tf.nn.elu,name='hidden1')

#### leaky	ReLU 激活函数

tensorflow 中没有针对 leaky	ReLU 的函数，但是可以自己定义：

In [6]:
# def leak_relu(z,name=None):
#     return tf.maximum(0.01 * z,z,name = name)
# hidden1 = tf.layers.dense(x,n_hidden1,activation=leak_relu,name='hidden1')

###  减缓这一问题的方法三：批量标准化

尽管使用	He初始化和	ELU（或任何	ReLU	变体）可以显著减少训练开始阶段的梯度消失/爆炸问题，但不保证在训练期间问题不会回来。


__该技术会在每一层激活函数之前在模型中介入一个操作，操作实现简单零中心化和归一化输入，之后再通过每层的两个新参数（一个缩放，一个移动）来控制缩放和移动的结果。这样的操作会让模型学会最佳规模和每层输入的平均值。__
</br>
<div align=center><img width="400" height="300" src="./static/2.jpg"/></div>
<div align=center><img width="660" height="600" src="./static/3.jpg"/></div>

在测试时，没有小批量计算经验均值和标准差，所以您只需使用整个训练集的均值和标准 差。	这些通常在训练期间使用移动平均值进行有效计算。	因此，总的来说，每个批次标准化 的层次都学习了四个参数：	`γ（标度）`，	`β（偏移）`，	`μ（平均值）` 和	`σ（标准差）`。

#### 使用 BN 的优缺点

再使用饱和激活函数的深度神经网络中，批量归一化取得了非常好的成绩，而且还会为降低后续的正则化的技术需求。

但BN的使用确实也增加了模型的复杂度，降低了网络额速度。

#### 使用	TensorFlow	实现批量标准化

在 functools 模块中有一个工具partial()，可以用来"冻结"一个函数的参数，并返回"冻结"参数后的新函数。

In [7]:
from functools import partial
from tensorflow.examples.tutorials.mnist import input_data

#### tf.GraphKeys.UPDATE_OPS  

`batch normalization` 的兩個重要的參數，`moving_mean` 和 `moving_var`,两个 `batch_normalization` 中更新 `mean` 和 `variance` 的操作，需要保证它们在train_op前完成。

这两个操作是在 `tensorflow` 的内部实现中自动被加入 `tf.GraphKeys.UPDATE_OPS` 这个集合的，在 `tf.contrib.layers.batch_norm` 的参数中可以看到有一项`updates_collections` 的默认值即为 `tf.GraphKeys.UPDATE_OPS` ，而在 `tf.layers.batch_normalization` 中则是直接将两个更新操作放入了上述集合。

如果不通过 `tf.get_collection` 来获取，`moving_mean` 和 `moving_var` 不会更新，一直都会是初始值。

https://ithelp.ithome.com.tw/articles/10220410

https://github.com/jason9075/ithome_tensorflow_series/blob/day17/17/update_op.py


In [23]:
tf.reset_default_graph()

n_inputs = 28 * 28
n_hidden1 = 300
n_hidden2 = 100
n_outputs = 10

mnist = input_data.read_data_sets('./mldata/')
batch_norm_momentum = 0.9
learning_rate = 0.01

X = tf.placeholder(tf.float32,shape=(None,n_inputs),name = 'X')
y = tf.placeholder(tf.int64,shape=None,name='y')

training = tf.placeholder_with_default(False,shape=(),name = 'training') #给Batch	norm加一个placeholder

with tf.name_scope('dnn'):
    he_init = tf.contrib.layers.variance_scaling_initializer()
    
    my_batch_norm_layer = partial(
        tf.layers.batch_normalization,
        training = training,
        momentum = batch_norm_momentum
    )

    my_dense_layer = partial(
        tf.layers.dense,
        kernel_initializer = he_init
    )
    
    hidden1 = my_dense_layer(X,n_hidden1,name='hidden1')
    bn1 = tf.nn.elu(my_batch_norm_layer(hidden1))
    
    hidden2 = my_dense_layer(bn1,n_hidden2,name='hidden2')
    bn2 = tf.nn.elu(my_batch_norm_layer(hidden2))
    
    logits_before_bn = my_dense_layer(bn2,n_outputs,name='outputs')
    logits = my_batch_norm_layer(logits_before_bn)
    
with tf.name_scope('loss'):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels = y,logits=logits)
    loss = tf.reduce_mean(xentropy,name='loss')

with tf.name_scope('train'):
    optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
    training_op = optimizer.minimize(loss)
    
with tf.name_scope('eval'):
    correct = tf.nn.in_top_k(logits,y,1)
    accuracy = tf.reduce_mean(tf.cast(correct,tf.float32))

init = tf.global_variables_initializer()
saver = tf.train.Saver()

n_epochs = 20
batch_size = 200

extra_update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS) 

with tf.Session() as sess:
    init.run()

    for epoch in range(n_epochs):
        for iteraction in range(mnist.train.num_examples // batch_size):
            X_batch,y_batch = mnist.train.next_batch(batch_size)
            sess.run([training_op,extra_update_ops],feed_dict={training:True,X:X_batch,y:y_batch})
        
        accuracy_val = accuracy.eval(feed_dict={X:mnist.test.images,y:mnist.test.labels})
        print(epoch, 'Test accuracy:', accuracy_val)



Extracting ./mldata/train-images-idx3-ubyte.gz
Extracting ./mldata/train-labels-idx1-ubyte.gz
Extracting ./mldata/t10k-images-idx3-ubyte.gz
Extracting ./mldata/t10k-labels-idx1-ubyte.gz
0 Test accuracy: 0.8723
1 Test accuracy: 0.8956
2 Test accuracy: 0.9121
3 Test accuracy: 0.9206
4 Test accuracy: 0.9289
5 Test accuracy: 0.9351
6 Test accuracy: 0.9395
7 Test accuracy: 0.9428
8 Test accuracy: 0.9473
9 Test accuracy: 0.949
10 Test accuracy: 0.9521
11 Test accuracy: 0.9518
12 Test accuracy: 0.9559
13 Test accuracy: 0.9584
14 Test accuracy: 0.9585
15 Test accuracy: 0.9609
16 Test accuracy: 0.963
17 Test accuracy: 0.9641
18 Test accuracy: 0.9647
19 Test accuracy: 0.9664


#### 或者将上面的 `train` 改写成：

In [25]:
# with tf.name_scope('train'):
#     optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
#     extra_update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
#     with tf.control_dependencies(extra_update_ops):
#         training_op = optimizer.minimize(loss)


# with tf.Session() as sess:
#     init.run()

#     for epoch in range(n_epochs):
#         for iteraction in range(mnist.train.num_examples // batch_size):
#             X_batch,y_batch = mnist.train.next_batch(batch_size)
#             sess.run(training_op,feed_dict={training:True,X:X_batch,y:y_batch})
        
#         accuracy_val = accuracy.eval(feed_dict={X:mnist.test.images,y:mnist.test.labels})
#         print(epoch, 'Test accuracy:', accuracy_val)

 #### 这样，你只需要在训练过程中评估 training_op，TensorFlow 也会自动运行更新操作

###  减缓这一问题的方法四：梯度裁剪

减少梯度爆炸问题的一种常用技术是在反向传播过程中简单地剪切梯度，使它们不超过某个 __阈值__

一般 来说，人们更喜欢 __批量标准化__ ，但了解 __梯度裁剪__ 以及如何实现它仍然是有用的。

在 TensorFlow 中，优化器的	`minimize()`	函数负责计算梯度并应用它们，所以您必须首先调用优化器的	`compute_gradients()` 方法，然后使用	`clip_by_value()` 函数创建一个 `裁剪梯度` 的 操作，最后创建一个操作来使用优化器的 `apply_gradients()`	方法应用裁剪梯度：


In [None]:
# threshold = 1.0

# optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
# grad_and_var = optimizer.compute_gradients(loss)
# capped_gvs =  [(tf.clip_by_value(grad, -threshold, threshold), var)for grad, var in grads_and_vars] 
# training_op = optimizer.apply_gradients(capped_gvs)

像往常一样，您将在每个训练阶段运行这个	training_op	。	它将计算梯度，将它们裁剪到 -1.0	和	1.0	之间，并应用它们。		threhold	是您可以调整的超参数。


### 复用预训练层


从零开始训练一个非常大的	DNN	通常不是一个好主意，相反，__您应该总是尝试找到一个现有 的神经网络来完成与您正在尝试解决的任务类似的任务，然后复用这个网络的较低层：这就 是所谓的迁移学习__ 。这不仅会大大加快训练速度，还将需要更少的训练数据。


#### 比如现在有这样一个 tensorflow 模型：

In [31]:
tf.reset_default_graph()

n_inputs = 28 * 28
n_hidden1 = 300
n_hidden2 = 50
n_hidden3 = 50
n_hidden4 = 50
n_hidden5 = 50

n_outputs = 10


X = tf.placeholder(tf.float32,shape=(None,n_inputs),name='X')
y = tf.placeholder(tf.int32,shape=None,name='y')

with tf.name_scope('dnn'):
    hidden1 = tf.layers.dense(X,n_hidden1,activation=tf.nn.relu,name='hidden1')
    hidden2 = tf.layers.dense(hidden1,n_hidden2,activation=tf.nn.relu,name='hidden2')
    hidden3 = tf.layers.dense(hidden2,n_hidden3,activation=tf.nn.relu,name='hidden3')
    hidden4 = tf.layers.dense(hidden3,n_hidden4,activation=tf.nn.relu,name='hidden4')
    hidden5 = tf.layers.dense(hidden4,n_hidden5,activation=tf.nn.relu,name='hidden5')

    logits = tf.layers.dense(hidden5,n_outputs,name='outputs')

with tf.name_scope('loss'):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y,logits=logits)
    loss = tf.reduce_mean(xentropy,name='loss')
    
with tf.name_scope('eval'):
    correct = tf.nn.in_top_k(logits,y,1)
    accuracy = tf.reduce_mean(tf.cast(correct,tf.float32),name='accuracy')

learning_rate = 0.01
threshold = 1.0

optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
grads_and_vars = optimizer.compute_gradients(loss)
capped_gvs =  [(tf.clip_by_value(grad, -threshold, threshold), var)for grad, var in grads_and_vars] 
training_op = optimizer.apply_gradients(capped_gvs)

init = tf.global_variables_initializer()
saver = tf.train.Saver()

n_epochs = 20
batch_size = 50

with tf.Session() as sess:
    
    init.run()
    
    for epoch in range(n_epochs):
        
        for iteraction in range(mnist.train.num_examples // batch_size):
            x_batch,y_batch = mnist.train.next_batch(batch_size)
            sess.run([training_op],feed_dict={X:x_batch,y:y_batch})
        accuracy_val = accuracy.eval(feed_dict={X:mnist.test.images,y:mnist.test.labels})
        print('accuracy_val:',accuracy_val)
    save_path = saver.save(sess,'./my_new_model_final.ckep')

accuracy_val: 0.8887
accuracy_val: 0.9305
accuracy_val: 0.9426
accuracy_val: 0.9489
accuracy_val: 0.9585
accuracy_val: 0.9593
accuracy_val: 0.9649
accuracy_val: 0.9676
accuracy_val: 0.9676
accuracy_val: 0.9691
accuracy_val: 0.9706
accuracy_val: 0.9735
accuracy_val: 0.9714
accuracy_val: 0.9721
accuracy_val: 0.9721
accuracy_val: 0.9716
accuracy_val: 0.9732
accuracy_val: 0.974
accuracy_val: 0.9716
accuracy_val: 0.9742


接下来我们要复用之前模型的前几层

In [None]:
tf.reset_default_graph()

n_inputs = 28 * 28
n_hidden1 = 300 # reused
n_hidden2 = 50  # reused
n_hidden3 = 50  # reused

n_hidden4 = 20  # new!
n_outputs = 10  # new!

X = tf.placeholder(tf.float32,shape=(None,n_inputs),name='X')
y = tf.placeholder(tf.int32,shape=None,name='y')

with tf.name_scope('dnn'):
    hidden1 = tf.layers.dense(X,n_hidden1,activation=tf.nn.relu,name='hidden1')
    hidden2 = tf.layers.dense(hidden1,n_hidden2,activation=tf.nn.relu,name='hidden2')
    hidden3 = tf.layers.dense(hidden2,n_hidden3,activation=tf.nn.relu,name='hidden3')
    hidden4 = tf.layers.dense(hidden3,n_hidden4,activation=tf.nn.relu,name='hidden4')

    logits = tf.layers.dense(hidden4,n_outputs,name='outputs')

with tf.name_scope('loss'):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y,logits=logits)
    loss = tf.reduce_mean(xentropy,name='loss')

    
with tf.name_scope('train'):
    optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
    training_op = optimizer.minimize(loss)

with tf.name_scope('eval'):
    correct = tf.nn.in_top_k(logits,y,1)
    accuracy = tf.reduce_mean(tf.cast(correct,tf.float32),name='accuracy')

[...] # build new model with the same definition as before for hidden layers 1-3

reuse_vars = tf.get_collection(tf.)