# 深度学习（Deep Learning）培训

## 根本目的：为了找出解决问题的函数。    问题-> **f**-> 解
  
### 找寻该函数的一种方法：神经网络，它是机器学习的其中一种方法 
<br/>

## 目录
### 神经网络（Neural Networks）
### 卷积神经网络（Convolutional Neural Networks）
### ➡️ 循环神经网络（Recurrent Neural Networks）⬅️
### 生成对抗神经网络（Generative Adversarial Networks）
<br/>

## 循环神经网络（Recurrent Neural Networks）

### 循环神经网络入门

#### 循环神经网络结构
<img src="assets/rnn_steep.jpg" height="450" width="450"/>
普通的神经网络不能记录上下文的关系，而用循环神经网络因为一个样本的输出会影响下一个样本的输入，所以经过训练后能理解上下文之间关系。

比如STEEP这个单词，普通神经网络是碰到E这个单词作为输入时，就懵逼了，不知道输出应该是E还是P。
但是循环神经网络，因为知道上一个输入的是T，得知此时应该输出E

#### 循环神经网络展开
<img src="assets/rnn_unroll.jpg" width="450" height="450" />

#### 循环神经网络实例
<img src="assets/rnn_instance.jpg" width="450" height="450" />

#### 普通循环神经网络的缺点
<img src="assets/rnn_drawback.jpg" width="450" height="450" />
因为每层的权重和该层上一个循环的权重相乘，上下文越长，循环层次越深，相乘越多，若小于0则越来越小而消失，若大于0则权重越来越大而爆炸。
<img src="assets/rnn_drawback_plot.jpg" width="450" height="450" />

#### 循环神经网络的改进 - LSTM
<img src="assets/rnn_cell.jpg" width="450" height="450" />
把每个循环层的每个神经元替换成Cell，设计cell的结构避免梯度消失或爆炸的问题
##### LSTM
<img src="assets/rnn_lstm.jpg"  width="450" height="450" />
* 新增了一个cell state
* 四个黄色的激活函数表示四个神经元块，每个都有各自的权重
* 四个红色操作符的表示element-wise的操作
##### LSTM Cell State
<img src="assets/rnn_lstm_cell_state.jpg"  width="450" height="450" />
Cell State流通每层的信息，被红色操作符修改
##### LSTM Forget Gate
<img src="assets/rnn_lstm_forget_gate.jpg"  width="450" height="450" />
Sigmoid趋近于0，则忘记该信息，趋近于1则保留该信息。这样网络就能决定记住还是忘记某些信息。  
比如，Cell State可能包含当前主语的性别，因此正确的代词可以被选择出来。当我们看到新的主语，我们希望忘记旧的主语。
##### LSTM Update State
<img src="assets/rnn_lstm_update_state.jpg"  width="450" height="450" />
<img src="assets/rnn_lstm_update_state_analogy.jpg"  width="450" height="450" />
根据前一循环层输出和当前循环层输入来个更新Cell State。这里的Sigmoid同样用于保留还是忘记信息。  
比如，在我们语言模型的例子中，我们希望增加新的主语的性别到细胞状态中，来替代旧的需要忘记的主语。
##### LSTM Cell State to Hidden Output
<img src="assets/rnn_lstm_cell_state_hidden_output.jpg"  width="450" height="450" />
生成输出传入下一个循环层。这里的Sigmoid同样用于保留还是忘记信息。  
在语言模型的例子中，因为他就看到了一个 代词，可能需要输出与一个 动词 相关的信息。例如，可能输出是否代词是单数还是负数，这样如果是动词的话，我们也知道动词需要进行的词形变化。
##### LSTM fix RNN Drawback
<img src="assets/rnn_lstm_structure.jpg"  width="450" height="450" />
Sigmoid开关让信息不会爆炸

##### LSTM 的变体
改变Cell中的结构。  
要问哪个变体是最好的？其中的差异性真的重要吗？[Greff, et al. (2015)](http://arxiv.org/pdf/1503.04069.pdf) 给出了流行变体的比较，结论是他们基本上是一样的。[Jozefowicz, et al. (2015)](http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf) 则在超过 1 万种 RNN 架构上进行了测试，发现一些架构在某些任务上也取得了比 LSTM 更好的结果。

详细阅读：   
[Understanding LSTM Networks](http://colah.github.io/posts/2015-08-Understanding-LSTMs/)   
[[译] 理解 LSTM 网络](http://www.jianshu.com/p/9dc9f41f0b29)

#### Character-Wise RNN
<img src="assets/rnn_character_wise.jpg"  width="450" height="450" />
[Anna KaRNNa.ipynb](https://github.com/udacity/deep-learning/blob/master/intro-to-rnns/Anna_KaRNNa.ipynb)

### Hyperparameters
不存在通用的超参数
超参数有两类：
1. 优化器超参数： 训练相关的，如：learning rate、mini-batch size、epochs
2. 模型的超参数：RNN的lstm_size，CNN的kernel_size

#### Learning Rate
好的起点：0.01  
常用：
* 0.1
* 0.01
* 0.001
* 0.0001
* 0.00001
* 0.000001  

<img src="assets/hyperparameters_learning_rate.jpg" width="650" height="650" />
常见Learning Rate效果

<img src="assets/hyperparameters_learning_rate_vibrate.jpg" width="350" height="350" />
如果学习率导致训练卡住了，可以用[学习率衰减](https://www.tensorflow.org/api_docs/python/tf/train/exponential_decay)解决，简单的方法即随时间衰减，复杂点的按数据的变化衰减，如AdamOptimizer、AdagradOptimizer

参考：  
[Exponential Decay](https://www.tensorflow.org/api_docs/python/tf/train/exponential_decay) in TensorFlow.  
Adaptive Learning Optimizers  
* [AdamOptimizer](https://www.tensorflow.org/api_docs/python/tf/train/AdamOptimizer)
* [AdagradOptimizer](https://www.tensorflow.org/api_docs/python/tf/train/AdagradOptimizer)

#### Mini-batch
batch、mini-batch、SGD、online的区别在于训练数据的选择上  

| |batch|	mini-batch|	Stochastic|	Online|
|--|--|--|--|--|
|训练集|	固定|	固定|	固定|	实时更新|
|单次迭代样本数|	整个训练集|	训练集的子集|	单个样本|	根据具体算法定|
|算法复杂度|	高|	一般|	低|	低|
|时效性|	低|	一般（delta 模型）|	一般（delta 模型）|	高|
|收敛性|	稳定|	较稳定|	不稳定	|不稳定|

好的起点：32  
好的尝试：32、64、128、256  
常用：
1、2、4、8、16、32、64、128、256   

大的数字可以利用矩阵运算加速，但内存也会要求更高  
小的数字有噪声的随机性对于走出局部最优有好处  

注意：  
记得，修改mini-batch的数字也要相应修改学习率，不然精度可能下降

参考：  
[Systematic evaluation of CNN advances on the ImageNet](https://arxiv.org/abs/1606.02228) by Dmytro Mishkin, Nikolay Sergievskiy, Jiri Matas

#### Epochs

<img src="assets/hyperparameters_epochs_early_stop.jpg" width="350" height="350" />
关键点在于Validation Error，只要Validation Error还在降低，就继续迭代，直到看到误差在上升，而且观察一段时间不改善就可以停止了。

参考：  
[SessionRunHook](https://www.tensorflow.org/api_docs/python/tf/train/SessionRunHook):SessionRunHooks are an evolving part of tf.train, and going forward appear to be the proper place where you'd implement early stopping.  
[Training Hooks](https://www.tensorflow.org/api_guides/python/train#Training_Hooks):  
* [StopAtStepHook](https://www.tensorflow.org/api_docs/python/tf/train/StopAtStepHook): A monitor to request the training stop after a certain number of steps  
* [NanTensorHook](https://www.tensorflow.org/api_docs/python/tf/train/NanTensorHook): a monitor that monitor's loss and stops training if it encounters a NaN loss

#### Number of Hidden Units/ Layers

<img src="assets/hyperparameters_number_of_hidden_units_overfitting.jpg" width="550" height="550" />
选择足够的Hidden Units来训练数据，但要小心模型太大导致过拟合。
如果Validation Error和Training Error差距够大，则表示过拟合了


<img src="assets/hyperparameters_number_of_hidden_units_prevent_overfitting.jpg" width="550" height="550" />
也可以使用Dropout和L2 Regularization防止过拟合

好的开始：
1. 设置为比输入的数目稍大一点的数
2. 三层比两层好，CNN除外

### Embeddings and Word2vec
[Skip-Grams-Solution.ipynb](https://github.com/udacity/deep-learning/blob/master/embeddings/Skip-Grams-Solution.ipynb)


### Siraj's Style Transfer
VGG16 Net是一个pre-trained的网络，可以抽象的你输入给他的图像。可以基于他建立自己的图像处理的神经网络。

### TensorBoard

#### 查看模型
```
with tf.Session() as sess:    
    sess.run(tf.global_variables_initializer())
    file_writer = tf.summary.FileWriter('./logs/1', sess.graph)
```

<img src="./assets/tensorboard_graph.jpg" width="450" height="450"/>

#### 模型归组
```
with tf.name_scope("RNN_layers"):
    lstm = tf.contrib.rnn.BasicLSTMCell(lstm_size)
    drop = tf.contrib.rnn.DropoutWrapper(lstm, output_keep_prob=keep_prob)
    cell = tf.contrib.rnn.MultiRNNCell([drop] * num_layers)
```
<img src="./assets/tensorboard_graph_grouped.jpg" width="350" height="350"/>

#### 模型参数采样
```
 with tf.name_scope('logits'):
        softmax_w = tf.Variable(tf.truncated_normal((lstm_size, num_classes), stddev=0.1),
                               name='softmax_w')
        softmax_b = tf.Variable(tf.zeros(num_classes), name='softmax_b')
        logits = tf.matmul(output, softmax_w) + softmax_b
        tf.summary.histogram('softmax_w', softmax_w)
        tf.summary.histogram('softmax_b', softmax_b)
....
merged = tf.summary.merge_all()  #记得把采集点归拢成一个
.....
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    train_writer = tf.summary.FileWriter('./logs/2/train', sess.graph)
....
summary, batch_loss, new_state, _ = sess.run([model.merged, model.cost, 
                                                          model.final_state, model.optimizer], 
                                                          feed_dict=feed)
....
train_writer.add_summary(summary, iteration) # 每次循环在归拢点集中采样
```
tf.summary.histogram设置需要记录的点，运行时每次train_writer.add_summary做记录
<img src="./assets/tensorboard_collect_variables_histogram.jpg" width="450" height="450"/>
观察histogram的分布是否变化就知道权值是否有更新也就是是否训练的起来

比如tf.summary.scalar('cost', cost)采集误差
<img src="./assets/tensorboard_collect_variables_scalar.jpg" width="450" height="450"/>

```
epochs = 20
batch_size = 100
num_steps = 100
train_x, train_y, val_x, val_y = split_data(chars, batch_size, num_steps)

for lstm_size in [128,256,512]:
    for num_layers in [1, 2]:
        for learning_rate in [0.002, 0.001]:
            log_string = 'logs/4/lr={},rl={},ru={}'.format(learning_rate, num_layers, lstm_size)
            writer = tf.summary.FileWriter(log_string)
            model = build_rnn(len(vocab), 
                    batch_size=batch_size,
                    num_steps=num_steps,
                    learning_rate=learning_rate,
                    lstm_size=lstm_size,
                    num_layers=num_layers)
            
            train(model, epochs, writer)
```
对每个参数配置做记录，最终可以得到他们之间对比的图案
<img src="./assets/tensorboard_select_hyperparameters.jpg" width="450" height="450"/>

### Siraj's Music Generation

### Weight Initialization
[weight_initialization.ipynb](https://github.com/udacity/deep-learning/blob/master/weight-initialization/weight_initialization.ipynb)

#### 全1或全0初始化
After 858 Batches (2 Epochs):  
Validation Accuracy  
   11.260% -- All Zeros  
    9.900% -- All Ones  
Loss  
    2.300  -- All Zeros  
  372.644  -- All Ones  
全1和全0的方式都不好，因为大家都一样，反向传播算法不知道更新哪一个  
<img src="./assets/weights_init_zeros_ones.jpg" width="450" height="450"/>

#### Uniform Distribution
After 858 Batches (2 Epochs):  
Validation Accuracy  
   65.340% -- tf.random_uniform [0, 1)  
Loss  
   64.356  -- tf.random_uniform [0, 1)  
<img src="./assets/weights_init_uniform_distribution.jpg" width="450" height="450"/>

#### General rule for setting weights
通用的方法是，设置一个0左右的不太小的区间。
A good pracitce is to start your weights in the range of [−y,y] where $ y = \frac1{\sqrt{n}} $
这里的n is the number of inputs to a given neuron).
<img src="./assets/weights_init_symmetry_0.jpg" width="450" height="450"/>

After 858 Batches (2 Epochs):  
Validation Accuracy  
   91.000% -- [-1, 1)  
   97.220% -- [-0.1, 0.1)  
   95.680% -- [-0.01, 0.01)  
   94.400% -- [-0.001, 0.001)  
Loss  
    2.425  -- [-1, 1)  
    0.098  -- [-0.1, 0.1)  
    0.133  -- [-0.01, 0.01)  
    0.190  -- [-0.001, 0.001)  
如果设置的太小会有问题，准确率也下降了  

#### Normal Distribution
After 858 Batches (2 Epochs):  
Validation Accuracy  
   96.920% -- Uniform [-0.1, 0.1)  
   97.200% -- Normal stddev 0.1  
Loss  
    0.103  -- Uniform [-0.1, 0.1)  
    0.099  -- Normal stddev 0.1  
稍微有所提高  
<img src="./assets/weights_init_normal_distribution.jpg" width="450" height="450"/>

#### Truncated Normal Distribution
After 858 Batches (2 Epochs):  
Validation Accuracy  
   97.020% -- Normal  
   97.480% -- Truncated Normal  
Loss  
    0.088  -- Normal  
    0.034  -- Truncated Normal  
模型再大点差别会更明显，因为正态分布有些过大过小的数会影响模型，而截断他就少受影响
<img src="./assets/weights_init_truncated_normal_distribution.jpg" width="450" height="450"/>

### Setiment Prediction RNN
[Sentiment_RNN_Solution.ipynb](https://github.com/udacity/deep-learning/blob/master/sentiment-rnn/Sentiment_RNN_Solution.ipynb)

### Transfer Learning
[Transfer_Learning_Solution.ipynb](https://github.com/udacity/deep-learning/blob/master/transfer-learning/Transfer_Learning_Solution.ipynb)

### Siraj's Language Translation