#  计算图在深度学习框架中的应用

## 1.1 Computational Graphs

### 构建计算图

计算图是应用图理论表示数学公式的一种方法。
这个图是由节点和边组成的。

在计算图中，节点可以式输入值，也可以是一些函数。
边表示这个数据在图中流向的权重值。

拿下面函数为例
e=(a+b)∗(b+1) 

将上述公式的拆成最基本的子运算
c=a+b
d=b+1
e=c∗d

![tree_1.jpg](attachment:tree_1.jpg)

### Derivatives on Computational Graphs


一般的规则是对从一个节点到另一个节点的所有可能路径求和，将路径每条边上的导数相乘。例如

∂e/∂b=1∗2+1∗3

![tree_2.jpg](attachment:tree_2.jpg)

### Factoring Paths 因式分解路径

在下图中，从X到Y有3条路径，从Y到Z同样有3条路径。
如果我们想得到∂Z/∂X，需要通过下面的公式计算：
∂Z/∂X=αδ+αϵ+αζ+βδ+βϵ+βζ+γδ+γϵ+γζ
总共通过了3* 3=9条路径


随着公式变得越来越复杂，路径就会很复杂，但是如果采用图的方式就可以很好的解决这个问题，我们可以将路径整理下，得到：

∂Z/∂X=(α+β+γ)(δ+ϵ+ζ)



![tree_3.jpg](attachment:tree_3.jpg)

### Forward-mode differentiation

前向模式微分，是从图的输入开始，一直推到末端。每个路径代表一种方法，将所有通过路径的结果想加。


![tree_4.jpg](attachment:tree_4.jpg)

### Reverse-mode differentiation

反向模式微分，求导的方式是从图的输出端反向递推到输入端，然后融合所有路径的结果。

Forward-mode differentiation是一个输入影响每个节点，Reverse-mode differentiation恰恰相反，是每个节点影响整个输出。
Forward-mode differentiation在每个节点上都是对∂/∂X求导，Reverse-mode differentiation是在每个节点上∂Z/∂。


![tree_5.jpg](attachment:tree_5.jpg)

如果我们采用forward-mode differentiation，从输入b对每个节点求导。
最终计算∂e/∂b


![tree_6.jpg](attachment:tree_6.jpg)

当采用reverse-mode differentiation时，如下图，对每个节点进行操作后，同时得到∂e/∂a和∂e/∂b。



![tree_7.jpg](attachment:tree_7.jpg)

从上面这些图中可以看出

对于这个图，这只是两个输入，如果有一百万个输入时，Forward-mode differentiation需要我们对图进行一百万次的遍历才能得到导数。Reverse-mode differentiation可以一蹴而就！百万分之一的速度就可以解决问题。


## 1.2 Dynamic vs Static computation graph

静态图计算分为两步：

第一步，定义图的结构，例如输入、多少层网络、loss定义、结果预测

第二步，执行图的计算，通过不断的计算，利用反向传播来计算loss

优点：

因为静态图是只用定义一次图结构，所以在训练和测试速度上会更快一些；

缺点：

如果输入的尺寸并不是固定的，就很难定义；

输入输出的结构包括文本、图像等多种格式；

因为静态图的这些特性，给debug带来很大的困难

动态图兼容python的各种逻辑控制语法，每次都会重新构建一个新的计算图

我们在选择框架时优先考虑程序员编程的便捷性（能更方便地进行调试和更直观地设计），而不是框架所能带来的模型加速能力

![graph.gif](attachment:graph.gif)

## 1.3 Automatic differentiation and gradient tape in tensorflow


TensorFlow provides the tf.GradientTape API for automatic differentiation - computing the gradient of a computation with respect to its input variables. 

Tensorflow "records" all operations executed inside the context of a tf.GradientTape onto a "tape". Tensorflow then uses that tape and the gradients associated with each recorded operation to compute the gradients of a "recorded" computation using reverse mode differentiation.

In [3]:
import tensorflow as tf

In [4]:
x = tf.ones((2, 2))

# 定义梯度环境
with tf.GradientTape() as t:
    t.watch(x)  # ？
    print(x)
    print(t)
    
    # 对 x 这个张量进行求和
    y = tf.reduce_sum(x)
    print(y)
    z = tf.multiply(y, y)
    print(z)
    
    # 进行求导，z 对 x 进行求导
    dz_dx = t.gradient(z, x)
    print(dz_dx)
    # 矩阵是2*2,循环把每一个值都看一下
    for i in [0, 1]:
        for j in [0, 1]:
            assert dz_dx[i][j].numpy() == 8.0

tf.Tensor(
[[1. 1.]
 [1. 1.]], shape=(2, 2), dtype=float32)
<tensorflow.python.eager.backprop.GradientTape object at 0x0000021290DD01C8>
tf.Tensor(4.0, shape=(), dtype=float32)
tf.Tensor(16.0, shape=(), dtype=float32)
tf.Tensor(
[[8. 8.]
 [8. 8.]], shape=(2, 2), dtype=float32)


Higher-order gradients  高阶求导

In [5]:
x = tf.Variable(1.0)

with tf.GradientTape() as t:
    with tf.GradientTape() as t2:
        # 链式法则，先求内层的导数，再求外层的导数
        y = x * x * x  # x的三次方，一次求导后 3x的平方，再求导6x
    dy_dx = t2.gradient(y, x)
d2y_dx2 = t.gradient(dy_dx, x)

assert dy_dx.numpy() == 3.0
assert d2y_dx2.numpy() == 6

In [5]:
@tf.function
def simple_nn_layer(x, y):
    return tf.nn.relu(tf.matmul(x, y))

x = tf.random.uniform((3, 3))
y = tf.random.uniform((3, 3))

simple_nn_layer(x, y)

<tf.Tensor: id=135, shape=(3, 3), dtype=float32, numpy=
array([[0.21458118, 0.40098485, 0.36841437],
       [0.5863481 , 1.1464046 , 0.94372475],
       [0.5484118 , 1.1886907 , 0.85499007]], dtype=float32)>

In [6]:
simple_nn_layer

<tensorflow.python.eager.def_function.Function at 0x63baca5f8>

An in-graph training loop

#### 手写数字识别的小案例，辅助理解tf2的运行，编写方式

In [7]:
# Download data
def prepare_mnist_features_and_labels(x, y):
    x = tf.cast(x, tf.float32) / 255.0
    y = tf.cast(y, tf.int64)
    return x, y

def mnist_dataset():
    (x, y), _ = tf.keras.datasets.mnist.load_data()
    ds = tf.data.Dataset.from_tensor_slices((x, y))
    ds = ds.map(prepare_mnist_features_and_labels)
    ds = ds.take(20000).shuffle(20000).batch(100)
    return ds

train_dataset = mnist_dataset()

模型搭建方式：

In [14]:
# Define the model
model = tf.keras.Sequential((tf.keras.layers.Reshape(target_shape=(28 * 28,), input_shape=(28, 28)),
                            tf.keras.layers.Dense(100, activation='relu'),
                            tf.keras.layers.Dense(100, activation='relu'),
                            tf.keras.layers.Dense(10)))
model.build()
# optimizer = tf.keras.metrics.SparseCategoricalAccuracy()
optimizer = tf.keras.optimizers.Adam()

In [15]:
# Define the training loop
compute_loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

compute_accuracy = tf.keras.metrics.SparseCategoricalAccuracy()

In [16]:
def train_one_step(model, optimizer, x, y):
    with tf.GradientTape() as t:
        logits = model(x)
        loss = compute_loss(y, logits)
    grads = t.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(grads, model.trainable_variables))
    
#     compute_loss(y, logits)
    compute_accuracy(y, logits)
    return loss

@tf.function
def train(model, optimizer):
    train_ds = mnist_dataset()
    step = 0
    loss = 0.0
    accuracy = 0.0
    for x, y in train_ds:
        step += 1
        loss = train_one_step(model, optimizer, x, y)
        if step % 10 == 0:
            tf.print('Step', step, 'loss', loss, 'accuracy', compute_accuracy.result())
    return step, loss, accuracy

step, loss, accuracy = train(model, optimizer)
print('Final step', step, ': loss', loss, '; accuracy', compute_accuracy.result())

Step 10 loss 1.88561893 accuracy 0.344
Step 20 loss 1.19120014 accuracy 0.5255
Step 30 loss 0.710625708 accuracy 0.609666646
Step 40 loss 0.49134925 accuracy 0.668
Step 50 loss 0.589290679 accuracy 0.703
Step 60 loss 0.560512185 accuracy 0.72966665
Step 70 loss 0.473007977 accuracy 0.749285698
Step 80 loss 0.374834061 accuracy 0.768
Step 90 loss 0.252177835 accuracy 0.782333314
Step 100 loss 0.354902834 accuracy 0.7933
Step 110 loss 0.304206133 accuracy 0.802454531
Step 120 loss 0.346638292 accuracy 0.81125
Step 130 loss 0.30825448 accuracy 0.817923069
Step 140 loss 0.207617223 accuracy 0.824785709
Step 150 loss 0.31469059 accuracy 0.829666674
Step 160 loss 0.213366911 accuracy 0.83475
Step 170 loss 0.279972643 accuracy 0.839882374
Step 180 loss 0.276125312 accuracy 0.84466666
Step 190 loss 0.2641491 accuracy 0.848842084
Step 200 loss 0.195584178 accuracy 0.85235
Final step tf.Tensor(200, shape=(), dtype=int32) : loss tf.Tensor(0.19558418, shape=(), dtype=float32) ; accuracy tf.Tensor(

#  beam search



这个算法只是在测试的时候需要，训练的时候我们是知道正确答案的，通常是不需要此算法的

![beam_1.png](attachment:beam_1.png)

beam search 基于贪婪的算法：第一步预测的Jane的概率最高，那么第二步就基于Jane进行预测，得到的结果是is的概率最高，第三步就基于is进行预测，得到going的概率最高....

beam search的改进思路演示

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

![beam_2.gif](attachment:beam_2.gif)

In [1]:
import numpy as np

In [2]:
# 一个包括10个词的序列，vocab为5
data = [[0.1, 0.2, 0.3, 0.4, 0.5],
        [0.5, 0.4, 0.3, 0.2, 0.1],
        [0.1, 0.2, 0.3, 0.4, 0.5],
        [0.5, 0.4, 0.3, 0.2, 0.1],
        [0.1, 0.2, 0.3, 0.4, 0.5],
        [0.5, 0.4, 0.3, 0.2, 0.1],
        [0.1, 0.2, 0.3, 0.4, 0.5],
        [0.5, 0.4, 0.3, 0.2, 0.1],
        [0.1, 0.2, 0.3, 0.4, 0.5],
        [0.5, 0.4, 0.3, 0.2, 0.1]]
data = np.array(data)

In [3]:
data

array([[0.1, 0.2, 0.3, 0.4, 0.5],
       [0.5, 0.4, 0.3, 0.2, 0.1],
       [0.1, 0.2, 0.3, 0.4, 0.5],
       [0.5, 0.4, 0.3, 0.2, 0.1],
       [0.1, 0.2, 0.3, 0.4, 0.5],
       [0.5, 0.4, 0.3, 0.2, 0.1],
       [0.1, 0.2, 0.3, 0.4, 0.5],
       [0.5, 0.4, 0.3, 0.2, 0.1],
       [0.1, 0.2, 0.3, 0.4, 0.5],
       [0.5, 0.4, 0.3, 0.2, 0.1]])

## 贪婪算法的写法

In [12]:
# greedy decoder
def greedy_decoder(data):
    # index for largest probability each row
    # 拿出每一行最大值所在的索引
    return [np.argmax(s) for s in data]

In [13]:
result = greedy_decoder(data)
print(result)  # 输出最大值所在的索引，从0开始

[4, 0, 4, 0, 4, 0, 4, 0, 4, 0]


## beam search方法

这里为什么要使用beam search算法来改进贪婪算法呢？  

In [14]:
# beam search
def beam_search_decoder(data, k):
    # 这里的k就是要设置的beam的值
    sequences = [[list(), 1.0]]
    # 先定义一个空的序列，它的分数，也就是它的真实值是1
    print('sequences is ', sequences)
    # walk over each step in sequence
    for row in data:  # 遍历每一行
        print('row is', row)
        # 从候选集中选择排名前三的
        # 先定义一个空的候选集列表
        all_candidates = list()
        # expand each current candidate
        # 扩展每一个当前的候选
        for i in range(len(sequences)):
            print('sequences[i] is ', sequences[i])
            # 这里遍历得到的是它对应的标签和分数
            # 这里的分数是怎么得到的呢？每一次初始的值都是1，每次有一个输出，
            # 那输出和这个1进行一个交叉熵，来更新一个新的分数
            seq, score = sequences[i]  # 得到第i个位置的seq,score
            print('seq', seq)
            print('score', score)
            for j in range(len(row)):
                candidate = [seq + [j], score * -np.log(row[j])]
                # seq + [j]：最大值应该出现在的索引的位置
                # score * -np.log(row[j])： 进行一个交叉熵计算。row[j]：实际的预测值
                print('score is ',score)
                print('row[j] is ', row[j])
                print('candidate is ', candidate)
                # 更新候选集，一开始里边是空的，将拿到的结果放进去
                all_candidates.append(candidate)
                print('all_candidates is ', all_candidates)
        # order all candidates by score
        # 根据分数进行排序
        
        ordered = sorted(all_candidates, key=lambda tup:tup[1])
        print('ordered is ', ordered)
        # select k best
        # 使用切片选择前k个
        sequences = ordered[:k]
    return sequences

In [15]:
result_1 = beam_search_decoder(data, 3)
# print result
for seq in result_1:
    print(seq)  # 最终预测的是一个句子

sequences is  [[[], 1.0]]
row is [0.1 0.2 0.3 0.4 0.5]
sequences[i] is  [[], 1.0]
seq []
score 1.0
score is  1.0
row[j] is  0.1
candidate is  [[0], 2.3025850929940455]
all_candidates is  [[[0], 2.3025850929940455]]
score is  1.0
row[j] is  0.2
candidate is  [[1], 1.6094379124341003]
all_candidates is  [[[0], 2.3025850929940455], [[1], 1.6094379124341003]]
score is  1.0
row[j] is  0.3
candidate is  [[2], 1.2039728043259361]
all_candidates is  [[[0], 2.3025850929940455], [[1], 1.6094379124341003], [[2], 1.2039728043259361]]
score is  1.0
row[j] is  0.4
candidate is  [[3], 0.916290731874155]
all_candidates is  [[[0], 2.3025850929940455], [[1], 1.6094379124341003], [[2], 1.2039728043259361], [[3], 0.916290731874155]]
score is  1.0
row[j] is  0.5
candidate is  [[4], 0.6931471805599453]
all_candidates is  [[[0], 2.3025850929940455], [[1], 1.6094379124341003], [[2], 1.2039728043259361], [[3], 0.916290731874155], [[4], 0.6931471805599453]]
ordered is  [[[4], 0.6931471805599453], [[3], 0.916290

In [None]:
import numpy as np

def beam_search(model, src_input, k=3, sequence_max_len=25):
    # 将模型的框架传进来。这里的model可能是定义的seq2seq的那个类
    k_beam = [(0, [0]*(sequence_max_len+1))]
    
    for l in range(sequence_max_len):
        all_k_beam = []
        for prob, sent_predict in k_beam:
            predicted = model.predict([np.array([src_input]), np.array([sent_predict])])[0]
            
            prossible_k = predicted[1].argsort()[-k:][::-1]
            
            all_k_beams += [
                (
                sum(np.log(predicted[i][sent_predict[i+1]]) for i in range(1)) + np.log(predicted[1][next_wid]),
                list(sent_predict[:l+1])+([next_wid]+[0]*sequence_max_len-1-1)
                )
#                 for next_wid in prossible_k
            ]
            
        k_beam = sorted(all_k_beams)[-k:]
    return k_beam

# 文本摘要评价指标--ROUGE

## 文本摘要知名数据集

- CNN dailymail数据集
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

- 新浪微博摘要数据集（679898 条数据）
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 评价标准解析

### ROUGE

基于召回的对获取评估指标的理解    
主要是召回的方式: 将哪些标准答案召回到了  
recall-oriented understand for gisting evalution
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)
- ROUGE-N  这上边的-1， -2就是 -N  
N：N-gram， 1: unigram(单个词), 2: bigram(两个词)  
ROUGE-N的公式：    
$$=\frac{\sum \text { Count }_{\text {match }}\left(gram\right)}{\sum Count(g r a m)}$$  
分子：预测结果和你的真实答案中同时出现N-gram(1:unigram, 2: bigram)的个数。
分母：就是标准答案中的N-gram的个数  
举例：  
自动生成的：the cat was found under the bed  
参考答案:  the cat was under the bed  
1-gram(单个词)：一个词一个词的比对，看看两个答案中是否都有
$$\operatorname{ROUGE}-1: \frac{6}{6}=1$$  
2-gram(两个词)：两个词两个词的比对，看看两个答案中是否都有，如（[the cat], [cat was], ...）  
$$\operatorname{ROUGE}-2: \frac{4}{5}=0.8$$ 
- ROUGE-L   Longest Common Subsequence(最长的共同的子序列)  
三个公式：
$$公式一：R_{lcs}=\frac{\operatorname{lcs}(X, Y)}{m}  \quad X:参考的真实值，m：参考值长度$$
$$公式二：P_{lcs}=\frac{\operatorname{lcs}(X, Y)}{n}  \quad Y:生成的预测值，n：生成值长度$$
$$公式三：{F_{\operatorname{lcs}}}=\frac{\left(H\beta^{2}\right) R_{\text {lcs }} P_{\text {lcs }}}{R_{\text {lcs }}+\beta^{2} P_{\text {lcs }}}\quad *************$$
公式的意思就是在一个序列上出现相同的词的个数，这里要求位置对应    
sequence1（参考答案）：Police killed the gunman  
sequence2（生成的预测结果1）：Police ended the gunman  
sequence3（生成的预测结果2）：the gunman murdered Police  
进行打分：  
sequence2里边和参考答案里边有3个相同的词。socre = 3/4  
sequence3里边和参考答案里边有2个相同的词。socre = 2/4  
优势就是不要求词连续匹配 
缺点：如，假如有这么一个预测结果：the gunman Police killed，分数就会很高，但是这样是不好的
- ROUGE-S 
- ROUGE-W 
- ROUGE-SU

# 文本翻译的评价指标-Belu

主要看的是精确度的指标

#  Initializing neural networks

网络中有很多的参数，w, b...and初始化的时候初始为多少比较好呢？
若是w全为0,就不会收敛；若设置的很大，就会出现梯度爆炸，就找不到最优解了，过小就会梯度消失

## 高效初始化的重要性
由于神经网络的对称性决定
![ini_1.png](attachment:ini_1.png)

## 梯度消失和爆炸
太大和太小随着网络深度的增加会带来问题
![ini_3.png](attachment:ini_3.png)

## 如何找到恰当的初始值
满足以下两种情况的参数初始值比较好：
1. 神经元输出值的均值为0
2. 每一层神经元输出值的方差

[Initializing neural networks](https://deeplearning.ai/ai-notes/initialization/)


\begin{aligned}a^{[l-1]} &= g^{[l-1]}(z^{[l-1]})\\ z^{[l]} &= W^{[l]}a^{[l-1]} + b^{[l]}\\ a^{[l]} &= g^{[l]}(z^{[l]})\end{aligned} 


\begin{aligned}E[a^{[l-1]}] &= E[a^{[l]}]\\ Var(a^{[l-1]}) &= Var(a^{[l]})\end{aligned} 


该方法确保平均值为零，并保持每一层输入的方差值，避免梯度消失和爆炸现象，此方法同时适用于正向传播和反向传播。对于神经网络的每一层，建议使用xavier--适合tanh; he--适合Relu初始化（或其派生方法之一）

glorot_normal_initializer.

\begin{aligned}W^{[l]} &\sim \mathcal{N}(\mu=0,\sigma^2 = \frac{1}{n^{[l-1]}})\\ b^{[l]} &= 0\end{aligned} 

#  Parameter optimization in neural networks

[Parameter optimization in neural networks](https://deeplearning.ai/ai-notes/optimization/)

## 4.1 loss function
根据不同问题定义不同的loss function
例如预测问题-平方损失
例如物体检测问题

![loss_1.png](attachment:loss_1.png)

## 4.2 Cost function

![loss_2.png](attachment:loss_2.png)

Tips：

1. 即使选择了最佳的超参数，训练后的模型也不会完全匹配真实的标签结果，因为数据集才是决定模型好坏的最根本。

2. 训练集的越大，训练的模型参数就越接近用于生成数据的参数。

3. 如果你的学习率太大，你的算法就不会收敛。如果它太小，你的算法收敛速度会很慢。


## 4.3 Batch size

- 1. Batch size是用于在每次迭代中训练模型的数据数量。一般的设置是32，64，128，256，512。(和2的多少次方有关)
- 2. 选择正确的Batch size对于确保cost function和参数值的收敛，以及模型的泛化能力。
- 3. Batch size决定更新的频率。Batch size越小，更新就越快。
- 4. Batch size越大，梯度越精确。也就是说，在迭代计算的时候更容易跳过局部区域。（要考虑内存）
- 5. 比较大Batch size，往往GPU memory是不够用的，就需要通过并行计算的方式解决。(如何并行？)

## 4.4 Choice of optimizer


### 4.4.1 (Stochastic) Gradient Descent
随机梯度下降：随机计算一部分数据，计算速度比较快

W=W−αdW

优点:  
1. 梯度下降可以有效地使用并行化，但是当GPU的存储器处理数据集较大时非常慢。并行化不是最优的。

2. 在大数据集上，随机梯度下降通常比梯度下降收敛更快，因为更新更频繁。另外，梯度的随机逼近通常是精确的，而不使用整个数据集，因为数据通常是冗余的。

3. 在优化器中，随机梯度下降对给定的batch size时使用内存是最小的。


### 4.4.2 Momentum

\begin{aligned} V_{dW} &= \beta V_{dW} + ( 1 - \beta ) dW\\ W &= W - \alpha V_{dW} \end{aligned} 

1. 动量通过对梯度的学习，实现一个加速的效果。

2. 动量比随机梯度下降使用更多的内存，但比rmsprop和adam要少。





### 4.4.3 RMSprop	自适应学习
在进行梯度下降的时候自己在调整自己的学习速率

\begin{aligned} S_{dW} &= \beta S_{dW} + ( 1 - \beta ) dW^2\\ W &= W - \alpha \frac{dW}{\sqrt{S_{dW}} + \varepsilon} \end{aligned} 


1. rmsprop的自适应学习速率通常可以防止学习速率衰减过慢或过快。

2. 与随机梯度下降和动量相比，rmsprop在给定batch size下使用的内存更多，但比adam少。






### 4.4.4 Adam  默认的首选的最优的优化器

\begin{aligned} V_{dW} &= \beta_1 V_{dW} + ( 1 - \beta_1 ) dW\\ S_{dW} &= \beta_2 S_{dW} + ( 1 - \beta_2 ) dW^2\\ Vcorr_{dW} &= \frac{V_{dW}}{(1 - \beta_1)^t}\\ Scorr_{dW} &= \frac{S_{dW}}{(1 - \beta_2)^t}\\ W &= W - \alpha \frac{dW}{\sqrt{S_{dW}} + \varepsilon} \end{aligned} 


1. Adam的超参数（学习速率，指数衰减率等）通常被设置为预定义值，并且不需要调。
2. Adam采用自适应步长进行学习率的变化。
3. 在优化器中，Adam在给定的batch size中使用的内存最多。
4. Adam一般在机器学习当中都是默认首选的优化器。




