# 循环神经网络（RNN, Recurrent Neural Network）
循环神经网络是一种高效的自然语言处理及其它的序列模型的网络结构，因为它有一种特殊的“记忆”结构。

## 1-序列模型的应用：
1. 语音识别
2. 音乐发生器
3. 情感分析
4. DNA序列分析
5. 机器翻译
6. 视频动作识别
7. 命名实体识别
<img src="images/example_of_sequence_data.png" style="width:500px;height:300px">
*注:* 循环神经网络多用于语言序列，也有人使用其进行股票分析，故障诊断。

## 2- RNN网络模型
循环神经网络模型
<img src="images/Recurrent_Neural_Networks_model.png">
### 2.1-RNN网络单元

循环神经网络可以看成是单个单元的重复，首先看一下每个单元的操作

<img src="images/rnn_step_forward.png" style="width:700px;height:300px;">

**计算过程**
1. 计算隐藏层的激活值: $a^{\langle t \rangle} = \tanh(W_{aa} a^{\langle t-1 \rangle} + W_{ax} x^{\langle t \rangle} + b_a)$.
2. 使用新的隐藏状态 $a^{\langle t \rangle}$, 计算预测输出 $\hat{y}^{\langle t \rangle} = softmax(W_{ya} a^{\langle t \rangle} + b_y)$. 使用自定义函数: `softmax`.
3. 存储 cache包括$(a^{\langle t \rangle}, a^{\langle t-1 \rangle}, x^{\langle t \rangle}, parameters)$  
4. 返回 $a^{\langle t \rangle}$ , $y^{\langle t \rangle}$ 和 cache

 $m$：实例的个数. 因此, $x^{\langle t \rangle}$ 的维度为 $(n_x,m)$,  $a^{\langle t \rangle}$ 的维度 $(n_a,m)$. 

In [36]:
import numpy as np
#定义softmax函数
def softmax(x):
    '''
    softmax激活函数，加入非线性因素
    每一列为一个样本
    参数：
        x:输入的类别
    输出：
    '''
    exp_x = np.exp(x-np.max(x))
    return exp_x/exp_x.sum(axis=0)

def rnn_cell_forward(xt,a_prev,parameters):
    '''
    实现一个RNN单元的前向传递
    输入：
        xt：时刻t的输入数据，数据类型：numpy.array,大小:(n_x,m)
        a_prev: t-1时刻的隐藏层，数据类型：numpy.array，大小:(n_a,m)
        paremeters:Python的一个字典类型数据包括：
            Wax:乘以输入的权重矩阵，数据类型numpy.array,大小：(n_a,n_x)
            Waa:乘以隐藏层的权重矩阵，数据类型numpy.array,大小（n_a,n_a）
            Wya:隐藏层到输出层的相关矩阵，数据类型numpy.array,大小：(n_y,n_a)
            ba:偏置，数据类型numpy.array，大小：(n_a,1)
            by:隐藏层到输出层偏置，数据类型numpy.array，大小：(n_y,1)
    输出：
        a_next:下一个隐藏层的状态:(n_a,m)
        yt_pred:时刻t的预测（n_y,m）
        cache:反向传递需要的元组数据，包括（a_next,a_prev,xt,parameters）    
    '''
    
    #从parameters中提取参数
    Wax = parameters["Wax"]
    Waa = parameters["Waa"]
    Wya = parameters["Wya"]
    ba = parameters["ba"]
    by = parameters["by"]
    
    #计算下一个隐藏层的状态
    a_next = np.tanh(np.dot(Wax,xt)+np.dot(Waa,a_prev)+ba)
    #计算输出状态
    yt_pred = softmax(np.dot(Wya,a_next)+by)
    #存储反向传递需要的值
    cache = (a_next,a_prev,xt,parameters)
    
    return a_next,yt_pred,cache

In [37]:
### 验证代码
np.random.seed(1)
xt = np.random.randn(3,10)
a_prev = np.random.randn(5,10)
Waa = np.random.randn(5,5)
Wax = np.random.randn(5,3)
Wya = np.random.randn(2,5)
ba = np.random.randn(5,1)
by = np.random.randn(2,1)
parameters = {"Waa": Waa, "Wax": Wax, "Wya": Wya, "ba": ba, "by": by}

a_next, yt_pred, cache = rnn_cell_forward(xt, a_prev, parameters)
print("a_next[4] = ", a_next[4])
print("a_next.shape = ", a_next.shape)
print("yt_pred[1] =", yt_pred[1])
print("yt_pred.shape = ", yt_pred.shape)

a_next[4] =  [ 0.59584544  0.18141802  0.61311866  0.99808218  0.85016201  0.99980978
 -0.18887155  0.99815551  0.6531151   0.82872037]
a_next.shape =  (5, 10)
yt_pred[1] = [0.9888161  0.01682021 0.21140899 0.36817467 0.98988387 0.88945212
 0.36920224 0.9966312  0.9982559  0.17746526]
yt_pred.shape =  (2, 10)


### 2.2- RNN的前向传递
RNN由多个基本单元重复组成，每一个单元都从前一个隐藏单元中接受输入($a^{\langle t-1 \rangle}$)，并且输出($a^{\langle t \rangle}$)给下一层
<img src="images/rnn.png" style="width:800px;height:300px;">
1. 创建一个零向量 ($a$) 存储RNN计算的隐藏状态.
2. 初始化第一个隐藏状态 $a_0$ .
3. 随着time_step循环（$t$） :
    - 通过调用 `rnn_step_forward`更新下一个隐藏状态
    - 存储下一个隐藏状态 $a$ ($t^{th}$ position) 
    - 存储预测值y
    - 把cache加入caches列表
4. 返回 $a$, $y$ 和 caches

In [38]:
def rnn_forward(x,a0,parameters):
    '''
    完成上述说明的RNN前向传递
    输入：
        x：每一个time_step的输入数据,(n_x,m,T_x)
        a0:初始的隐藏状态,(n_a,m)
        parameters:python字典数据,包含：
            Wax:乘以输入的权重矩阵，数据类型numpy.array,大小：(n_a,n_x)
            Waa:乘以隐藏层的权重矩阵，数据类型numpy.array,大小（n_a,n_a）
            Wya:隐藏层到输出层的相关矩阵，数据类型numpy.array,大小：(n_y,n_a)
            ba:偏置，数据类型numpy.array，大小：(n_a,1)
            by:隐藏层到输出层偏置，数据类型numpy.array，大小：(n_y,1)
    输出：
        a:每一个time_step隐藏状态,(n_a,m,T_x)
        y_pred:每一个time_step的预测值(n_y,m,T_x)
        caches:反向传递所需要的元组值包括(list of caches,x)
    '''
    #初始化caches
    caches = []
    
    #提取x和Wya的维度
    n_x,m,T_x = x.shape
    n_y,n_a = parameters["Wya"].shape
    
    #初始化a和y
    a = np.zeros([n_a,m,T_x])
    y_pred = np.zeros([n_y,m,T_x])
    
    #初始化a_next
    a_next = a0
    
    #根据所有的time_steps循环
    for t in range(T_x):
        #调用rnn_cell_forward，计算a_next,yt_pred,cache
        a_next,yt_pred,cache = rnn_cell_forward(x[:,:,t],a_next,parameters)
        #保存新的a_next到a中
        a[:,:,t] = a_next
        #保存yt_pred到y中
        y_pred[:,:,t] = yt_pred
        #添加cache到caches中
        caches.append(cache)
    
    #保存方向传递需要的所有的值到caches
    caches = (caches,x)
    
    return a,y_pred,caches

In [39]:
##调试rnn_forward代码
np.random.seed(1)
x = np.random.randn(3,10,4)
a0 = np.random.randn(5,10)
Waa = np.random.randn(5,5)
Wax = np.random.randn(5,3)
Wya = np.random.randn(2,5)
ba = np.random.randn(5,1)
by = np.random.randn(2,1)
parameters = {"Waa": Waa, "Wax": Wax, "Wya": Wya, "ba": ba, "by": by}

a, y_pred, caches = rnn_forward(x, a0, parameters)
print("a[4][1] = ", a[4][1])
print("a.shape = ", a.shape)
print("y_pred[1][3] =", y_pred[1][3])
print("y_pred.shape = ", y_pred.shape)
print("caches[1][1][3] =", caches[1][1][3])
print("len(caches) = ", len(caches))

a[4][1] =  [-0.99999375  0.77911235 -0.99861469 -0.99833267]
a.shape =  (5, 10, 4)
y_pred[1][3] = [0.79560373 0.86224861 0.11118257 0.81515947]
y_pred.shape =  (2, 10, 4)
caches[1][1][3] = [-1.1425182  -0.34934272 -0.20889423  0.58662319]
len(caches) =  2


## 3-LSTM(long short-term memory)
***解决普通的RNN梯度消失的现象***
### 3.1- LSTM的单元结构
<img src="images/LSTM.png" style="width:500;height:400px;">

**遗忘门(forget gate)**

$$\Gamma_f^{\langle t \rangle} = \sigma(W_f[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_f)\tag{1} $$
经过`sigmoid`函数$\Gamma_f^{\langle t \rangle}$取值为0~1之间

**更新门(update gate)**
$$ \tilde{c}^{\langle t \rangle} = \tanh(W_c[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_c)\tag{3} $$
$$ c^{\langle t \rangle} = \Gamma_f^{\langle t \rangle}* c^{\langle t-1 \rangle} + \Gamma_u^{\langle t \rangle} *\tilde{c}^{\langle t \rangle} \tag{4} $$

**输出门**
$$ \Gamma_o^{\langle t \rangle}=  \sigma(W_o[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_o)\tag{5}$$ 
$$ a^{\langle t \rangle} = \Gamma_o^{\langle t \rangle}* \tanh(c^{\langle t \rangle})\tag{6} $$

**完成以下操作**:
1. 堆叠 $a^{\langle t-1 \rangle}$ 和 $x^{\langle t \rangle}$ 在一个矩阵中: $concat = \begin{bmatrix} a^{\langle t-1 \rangle} \\ x^{\langle t \rangle} \end{bmatrix}$(方便运算)
2. 根据上述公式进行计算. `sigmoid()` 和 `np.tanh()`.
3. 计算输出 $y^{\langle t \rangle}$.

In [53]:
def sigmoid(x):
    return 1/(1+np.exp(-x))

def lstm_cell_forward(xt,a_prev,c_prev,parameters):
    '''
    完成lstm单元前向传递操作
    输入：
        xt：时刻t的输入数据，数据类型：numpy.array,大小:(n_x,m)
        a_prev: t-1时刻的隐藏层，数据类型：numpy.array，大小:(n_a,m)
        c_prev: t-1时刻的记忆状态，数据类型：numpy.array,大小（n_a,m）
        paremeters:Python的一个字典类型数据包括：
            Wf:遗忘门的权重矩阵，输类型numpy.array，大小：(n_a,n_a+n_x)
            bf:遗忘门的偏置，输类型numpy.array，大小：(n_a,1)
            Wi:乘以输入的权重矩阵，数据类型numpy.array,大小：(n_a,n_x+n_a)
            Wi:更新门的偏置，数据类型numpy.array,大小：(n_a,1)
            Wc:第一个tanh的权重，数据类型numpy.array,大小(n_a,n_a+n_x)
            bc:第一个tanh的偏置，数据类型numpy.array,大小(n_a,n_a+n_x)
            Wo:输出门的权重，数据类型numpy.array,大小(n_a,n_a+n_x)
            bo:输出门的偏置，数据类型numpy.array,大小(n_a,1)
            Wy:隐藏层到输出层的权重，数据类型numpy.array,大小(n_y,n_a)
            by:隐藏层到输出层的偏置，数据类型numpy.array,大小(n_y,n_a)
    输出：
        a_next:下一个隐藏层的状态，(n_a,m)
        c_next:下一个记忆状态,(n_a,m)
        yt_pred:时刻t的输出,(n_y,m)
        cache:方向传递的需要的元组值,包括(a_next,c_next,a_prev,c_prev,xt,parameters)
    '''
    
    #从parameters中提取权重
    Wf = parameters["Wf"]
    bf = parameters["bf"]
    Wi = parameters["Wi"]
    bi = parameters["bi"]
    Wc = parameters["Wc"]
    bc = parameters["bc"]
    Wo = parameters["Wo"]
    bo = parameters["bo"]
    Wy = parameters["Wy"]
    by = parameters["by"]
    
    #从xt和Wy中提取维度
    n_x,m = xt.shape
    n_y,n_a = Wy.shape
    
    #合并a_prev和xt
    concat= np.zeros([n_a+n_x,m])
    concat[:n_a,:] = a_prev
    concat[n_a:,:] = xt
    #concat = np.concatenate(a_prev,xt)
    
    #遗忘门
    ft = sigmoid(np.dot(Wf,concat)+bf)
    #更新门
    it = sigmoid(np.dot(Wi,concat)+bi)
    cct = np.tanh(np.dot(Wc,concat)+bc)
    #输出门
    c_next = ft*c_prev+it*cct
    ot = sigmoid(np.dot(Wo,concat)+bo)
    a_next = ot*np.tanh(c_next)
    
    #计算LSTM单元的输出值
    yt_pred = softmax(np.dot(Wy,a_next)+by)
    
    #存储方向传递需要的值到cache中
    cache = (a_next,c_next,a_prev,c_prev,ft,it,cct,ot,xt,parameters)
    
    return a_next,c_next,yt_pred,cache

In [54]:
#验证代码
np.random.seed(1)
xt = np.random.randn(3,10)
a_prev = np.random.randn(5,10)
c_prev = np.random.randn(5,10)
Wf = np.random.randn(5, 5+3)
bf = np.random.randn(5,1)
Wi = np.random.randn(5, 5+3)
bi = np.random.randn(5,1)
Wo = np.random.randn(5, 5+3)
bo = np.random.randn(5,1)
Wc = np.random.randn(5, 5+3)
bc = np.random.randn(5,1)
Wy = np.random.randn(2,5)
by = np.random.randn(2,1)

parameters = {"Wf": Wf, "Wi": Wi, "Wo": Wo, "Wc": Wc, "Wy": Wy, "bf": bf, "bi": bi, "bo": bo, "bc": bc, "by": by}

a_next, c_next, yt, cache = lstm_cell_forward(xt, a_prev, c_prev, parameters)
print("a_next[4] = ", a_next[4])
print("a_next.shape = ", c_next.shape)
print("c_next[2] = ", c_next[2])
print("c_next.shape = ", c_next.shape)
print("yt[1] =", yt[1])
print("yt.shape = ", yt.shape)
print("cache[1][3] =", cache[1][3])
print("len(cache) = ", len(cache))

a_next[4] =  [-0.66408471  0.0036921   0.02088357  0.22834167 -0.85575339  0.00138482
  0.76566531  0.34631421 -0.00215674  0.43827275]
a_next.shape =  (5, 10)
c_next[2] =  [ 0.63267805  1.00570849  0.35504474  0.20690913 -1.64566718  0.11832942
  0.76449811 -0.0981561  -0.74348425 -0.26810932]
c_next.shape =  (5, 10)
yt[1] = [0.79913913 0.15986619 0.22412122 0.15606108 0.97057211 0.31146381
 0.00943007 0.12666353 0.39380172 0.07828381]
yt.shape =  (2, 10)
cache[1][3] = [-0.16263996  1.03729328  0.72938082 -0.54101719  0.02752074 -0.30821874
  0.07651101 -1.03752894  1.41219977 -0.37647422]
len(cache) =  10


### 3.2-LSTM前向传递
多个lstm单元循环组成前向传递
<img src="images/LSTM_rnn.png" style="width:500;height:300px;">

In [59]:
def lstm_forward(x,a0,parameters):
    '''
    完成lstm前向传递
    输入：
        xt：每一个time_strp的输入数据，数据类型：numpy.array,大小:(n_x,m,T_x)
        a0: 初始的异常状态，数据类型：numpy.array，大小:(n_a,m)
        paremeters:Python的一个字典类型数据包括：
            Wf:遗忘门的权重矩阵，输类型numpy.array，大小：(n_a,n_a+n_x)
            bf:遗忘门的偏置，输类型numpy.array，大小：(n_a,1)
            Wi:乘以输入的权重矩阵，数据类型numpy.array,大小：(n_a,n_x+n_a)
            Wi:更新门的偏置，数据类型numpy.array,大小：(n_a,1)
            Wc:第一个tanh的权重，数据类型numpy.array,大小(n_a,n_a+n_x)
            bc:第一个tanh的偏置，数据类型numpy.array,大小(n_a,n_a+n_x)
            Wo:输出门的权重，数据类型numpy.array,大小(n_a,n_a+n_x)
            bo:输出门的偏置，数据类型numpy.array,大小(n_a,1)
            Wy:隐藏层到输出层的权重，数据类型numpy.array,大小(n_y,n_a)
            by:隐藏层到输出层的偏置，数据类型numpy.array,大小(n_y,n_a)
    输出：
        a:每一个time_step的隐藏状态，(n_a,m,T_x)
        y:每一个time_step的预测值，(n_y,m,T_x)
        caches:方向传递需要的元组值包含(caches,x)
    '''
    #初始化caches
    caches = []
    
    #提取维度参数
    n_x,m,T_x = x.shape
    n_y,n_a = parameters["Wy"].shape
    
    #初始化a,c,y
    a = np.zeros([n_a,m,T_x])
    c = np.zeros([n_a,m,T_x])
    y = np.zeros([n_y,m,T_x])
    
    #初始化a_next和c_next
    a_next = a0
    c_next = np.zeros([n_a,m])
    
    #循环
    for t in range(T_x):
        #调用lstm_cell_forward计算a_next,c_next,yt,cache
        a_next,c_next,yt,cache = lstm_cell_forward(x[:,:,t],a_next,c_next,parameters)
        #保存a_next
        a[:,:,t] = a_next
        #保存yt
        y[:,:,t] = yt
        #保存c_next
        c[:,:,t] = c_next
        #在caches添加cache
        caches.append(cache)
        
    #保存方向传递需要用的caches
    caches = (caches,x)
    
    return a,y,c,caches

In [60]:
#代码测试
np.random.seed(1)
x = np.random.randn(3,10,7)
a0 = np.random.randn(5,10)
Wf = np.random.randn(5, 5+3)
bf = np.random.randn(5,1)
Wi = np.random.randn(5, 5+3)
bi = np.random.randn(5,1)
Wo = np.random.randn(5, 5+3)
bo = np.random.randn(5,1)
Wc = np.random.randn(5, 5+3)
bc = np.random.randn(5,1)
Wy = np.random.randn(2,5)
by = np.random.randn(2,1)

parameters = {"Wf": Wf, "Wi": Wi, "Wo": Wo, "Wc": Wc, "Wy": Wy, "bf": bf, "bi": bi, "bo": bo, "bc": bc, "by": by}

a, y, c, caches = lstm_forward(x, a0, parameters)
print("a[4][3][6] = ", a[4][3][6])
print("a.shape = ", a.shape)
print("y[1][4][3] =", y[1][4][3])
print("y.shape = ", y.shape)
print("caches[1][1[1]] =", caches[1][1][1])
print("c[1][2][1]", c[1][2][1])
print("len(caches) = ", len(caches))

a[4][3][6] =  0.17211776753291672
a.shape =  (5, 10, 7)
y[1][4][3] = 0.9508734618501101
y.shape =  (2, 10, 7)
caches[1][1[1]] = [ 0.82797464  0.23009474  0.76201118 -0.22232814 -0.20075807  0.18656139
  0.41005165]
c[1][2][1] -0.8555449167181981
len(caches) =  2


## 4-反方向传递
和经典的神经网络有些许不同，RNN在方向传递是也需要沿着time_step方向传递
<img src="images/rnn_cell_backprop.png" style="width:500;height:300px;"> <br>

In [76]:
def rnn_cell_backward(da_next,cache):
    '''
    完成rnn单元的反向传递
    输入：
        da_next:下一个隐藏层的损失梯度
        cache:python的字典（同前向传递）
    输出：
        gradients:python字典结构数据
            dx:数据数据梯度,(n_x,m)
            da_prev:前一个隐藏状态的梯度(n_a,m)
            dWax:输入层到隐藏层的犬权重梯度,(n_a,n_x)
            dWaa:隐藏层到隐藏层的权重梯度,(n_a,n_a)
            dba:偏置的梯度,(n_a,1)
    '''
    #提取cache参数值
    (a_next,a_prev,xt,parameters) = cache
    
    #从parameters中提取权重
    Wax = parameters["Wax"]
    Waa = parameters["Waa"]
    Wya = parameters["Wya"]
    ba = parameters["ba"]
    by = parameters["by"]
    
    #计算tanh关于a_next的梯度
    dtanh = (1-a_next*a_next)*da_next
    
    #计算损失关于Wax的梯度
    dxt = np.dot(Wax.T,dtanh)
    dWax = np.dot(dtanh,xt.T)
    
    #计算关于Waa的梯度
    da_prev = np.dot(Waa.T,dtanh)
    dWaa = np.dot(dtanh,da_prev.T)
    
    #计算关于b的梯度
    dba = np.sum(dtanh,keepdims=True,axis=-1)
    
    #将梯度存储为字典值
    gradients = {"dxt":dxt,"da_prev":da_prev,"dWax":dWax,"dWaa":dWaa,"dba":dba}
    
    return gradients
    

In [77]:
#检验
np.random.seed(1)
xt = np.random.randn(3,10)
a_prev = np.random.randn(5,10)
Wax = np.random.randn(5,3)
Waa = np.random.randn(5,5)
Wya = np.random.randn(2,5)
ba = np.random.randn(5,1)
by = np.random.randn(2,1)
parameters = {"Wax": Wax, "Waa": Waa, "Wya": Wya, "ba": ba, "by": by}

a_next, yt, cache = rnn_cell_forward(xt, a_prev, parameters)

da_next = np.random.randn(5,10)
gradients = rnn_cell_backward(da_next, cache)
print("gradients[\"dxt\"][1][2] =", gradients["dxt"][1][2])
print("gradients[\"dxt\"].shape =", gradients["dxt"].shape)
print("gradients[\"da_prev\"][2][3] =", gradients["da_prev"][2][3])
print("gradients[\"da_prev\"].shape =", gradients["da_prev"].shape)
print("gradients[\"dWax\"][3][1] =", gradients["dWax"][3][1])
print("gradients[\"dWax\"].shape =", gradients["dWax"].shape)
print("gradients[\"dWaa\"][1][2] =", gradients["dWaa"][1][2])
print("gradients[\"dWaa\"].shape =", gradients["dWaa"].shape)
print("gradients[\"dba\"][4] =", gradients["dba"][4])
print("gradients[\"dba\"].shape =", gradients["dba"].shape)

gradients["dxt"][1][2] = -1.3872130506020928
gradients["dxt"].shape = (3, 10)
gradients["da_prev"][2][3] = -0.15239949377395473
gradients["da_prev"].shape = (5, 10)
gradients["dWax"][3][1] = 0.41077282493545836
gradients["dWax"].shape = (5, 3)
gradients["dWaa"][1][2] = 1.0470184237718851
gradients["dWaa"].shape = (5, 5)
gradients["dba"][4] = [0.20023491]
gradients["dba"].shape = (5, 1)


In [82]:
def rnn_backward(da,caches):
    '''
    完成RNN的反向传递
    输入：
        da:所有隐藏状态的梯度(n_a,m,T_x)
        caches:前向传递信息的元组
    输出：
        gradients:python字典结构数据
            dx:输入数据梯度,(n_x,m,T_x)
            da0:初始隐藏状态的梯度(n_a,m)
            dWax:输入层到隐藏层的犬权重梯度,(n_a,n_x)
            dWaa:隐藏层到隐藏层的权重梯度,(n_a,n_a)
            dba:偏置的梯度,(n_a,1)
    '''
    #去caches中的值
    (caches,x) = caches
    (a1,a0,x1,parameters) = caches[0]
    
    #提取da和x1的维度
    n_a,m,T_x = da.shape
    n_x,m = x1.shape
    
    #初始化梯度
    dx = np.zeros([n_x,m,T_x])
    dWax = np.zeros([n_a,n_x])
    dWaa = np.zeros([n_a,n_a])
    dba = np.zeros([n_a,1])
    da0 = np.zeros([n_a,m])
    da_prevt = np.zeros([n_a,m])
    
    #循环
    for t in reversed(range(T_x)):
        #调用rnn_cell_backward计算
        gradients = rnn_cell_backward(da[:,:,t]+da_prevt,caches[t])
        dxt = gradients["dxt"]
        da_prevt = gradients["da_prev"]
        dWaxt = gradients["dWax"]
        dWaat = gradients["dWaa"]
        dbat = gradients["dba"]
        
        dx[:,:,t] = dxt
        dWax += dWaxt
        dWaa += dWaat
        dba += dbat
    
    da0 = da_prevt
    
    #存储梯度在一个字典中
    gradients = {"dx":dx,"da0":da0,"dWax":dWax,"dWaa":dWaa,"dba":dba}
    
    return gradients

In [83]:
np.random.seed(1)
x = np.random.randn(3,10,4)
a0 = np.random.randn(5,10)
Wax = np.random.randn(5,3)
Waa = np.random.randn(5,5)
Wya = np.random.randn(2,5)
ba = np.random.randn(5,1)
by = np.random.randn(2,1)
parameters = {"Wax": Wax, "Waa": Waa, "Wya": Wya, "ba": ba, "by": by}
a, y, caches = rnn_forward(x, a0, parameters)
da = np.random.randn(5, 10, 4)
gradients = rnn_backward(da, caches)

print("gradients[\"dx\"][1][2] =", gradients["dx"][1][2])
print("gradients[\"dx\"].shape =", gradients["dx"].shape)
print("gradients[\"da0\"][2][3] =", gradients["da0"][2][3])
print("gradients[\"da0\"].shape =", gradients["da0"].shape)
print("gradients[\"dWax\"][3][1] =", gradients["dWax"][3][1])
print("gradients[\"dWax\"].shape =", gradients["dWax"].shape)
print("gradients[\"dWaa\"][1][2] =", gradients["dWaa"][1][2])
print("gradients[\"dWaa\"].shape =", gradients["dWaa"].shape)
print("gradients[\"dba\"][4] =", gradients["dba"][4])
print("gradients[\"dba\"].shape =", gradients["dba"].shape)

gradients["dx"][1][2] = [-2.07101689 -0.59255627  0.02466855  0.01483317]
gradients["dx"].shape = (3, 10, 4)
gradients["da0"][2][3] = -0.31494237512664996
gradients["da0"].shape = (5, 10)
gradients["dWax"][3][1] = 11.264104496527777
gradients["dWax"].shape = (5, 3)
gradients["dWaa"][1][2] = 5.6088427884141385
gradients["dWaa"].shape = (5, 5)
gradients["dba"][4] = [-0.74747722]
gradients["dba"].shape = (5, 1)
