情景假设：公司又一个全球支付项目，老板要求你构建一个AI模型来判断知否是否可靠
由于反向传播的实现有一定难度，所以有时候会出现bug，因为支付项目对准确性要求很高
，所以老板要求你百分百保证你的反向传播是没有问题的。老板说‘你要证明给我看，证明
你的反向传播是完全正确的’，那么就使用到了梯度检验

In [1]:
import numpy as np
from testCases import *
from gc_utils import *

反向传播可以计算出梯度，假设要计算$\theta$相当于成本函数$J$的梯度$\frac{\partial J}{\partial \theta}$

- $\frac{\partial J}{\partial \theta}$ 是你通过反向传播计算得到的，你需要验证它是否准确
- 所以我们就可以用另外一种方式计算出$\frac{\partial J}{\partial \theta}$，如果它与反向传播计算得到的一样，那么反向传播就是正确的。

数学中导数（梯度）的定义：
$$ \frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon} \tag{1}$$

而这另外的计算方式就是我们上面的公式（1），我们可以用前向传播分别计算出$J(\theta + \varepsilon)$和$J(\theta - \varepsilon)$来求得$\frac{\partial J}{\partial \theta}$

## 1维的梯度检验

假设一个简单的1维线性函数$J(\theta) = \theta x$。这个函数（这个模型）只有一个参数$\theta$；$x$是输入。

#### 前向传播

In [5]:
def forward_propagation(x, theta):
    
    J = np.dot(theta, x)
    
    return J

In [6]:
x, theta =2, 4
J = forward_propagation(x, theta)
print('J = ' + str(J))

J = 8


#### 反向传播

In [7]:
def backward_propagation(x, theta):
    
    dtheta = x
    
    return dtheta

In [9]:
x, theta = 2, 4
dtheta = backward_propagation(x, theta)
print('dtheta = ' + str(dtheta))

dtheta = 2


上面通过反向传播计算出了d$\theta$,下面就通过数学公式和前向传播计算出d$\theta$，进行比较

**主要步骤如下**:
- 我们先通过下面5小步来利用前向传播计算出梯度，这个梯度我们用gradapprox表示。
    1. $\theta^{+} = \theta + \varepsilon$
    2. $\theta^{-} = \theta - \varepsilon$
    3. $J^{+} = J(\theta^{+})$
    4. $J^{-} = J(\theta^{-})$
    5. $gradapprox = \frac{J^{+} - J^{-}}{2  \varepsilon}$

In [13]:
def get_gradapprox(x, theta, epsilon = 1e-7):
    
    theta_plus = theta + epsilon
    theta_minus = theta - epsilon
    J_plus = forward_propagation(x, theta_plus)
    J_minus = forward_propagation(x, theta_minus)
    gradapprox = (J_plus - J_minus) / (2 * epsilon)
    
    return gradapprox

- 然后利用上面的反向传播也计算出一个梯度，这个梯度我们用grad表示。
- 最后，我们用下面的公式来计算gradapprox和grad这两个梯度相差多远。
$$ difference = \frac {\mid\mid grad - gradapprox \mid\mid_2}{\mid\mid grad \mid\mid_2 + \mid\mid gradapprox \mid\mid_2} \tag{2}$$   
- 如果两个梯度相差小于$10^{-7}$，那么说明这两个梯度很接近，也就是说，你的反向传播是正确的；否则，说明你的反向传播里面有问题。

In [16]:
def check(x, theta, epsilon = 1e-7):
    
    #利用反向传播计算出一个梯度
    grad = backward_propagation(x, theta)
    
    #利用前向传播计算出一个梯度
    gradapprox = get_gradapprox(x, theta)
    
    #对比两个梯度相差多远
    numerator = np.linalg.norm(grad - gradapprox)
    denominator = np.linalg.norm(grad) + np.linalg.norm(gradapprox)
    difference = numerator / denominator
    
    if difference < epsilon:
        print('反向传播是正确的！')
    else:
        print('反向传播是有问题的！')
    
    return difference

In [17]:
x, theta = 2, 4
difference = check(x, theta)
print("difference = " + str(difference))

反向传播是正确的！
difference = 2.919335883291695e-10


上面只是1维的参数，在神经网络中，$\theta$通常由多个$W^{[l]}$和$b^{[l]}$矩阵构成的，所以要学会给多维参数做梯度检验

## 多维梯度检验

#### 前向传播

In [27]:
def forward_propagation_n(X, Y, parameters):
    
    m = X.shape[1]
    W1 = parameters['W1']
    b1 = parameters['b1']
    W2 = parameters['W2']
    b2 = parameters['b2']
    W3 = parameters['W3']
    b3 = parameters['b3']
    
    Z1 = np.dot(W1, X) + b1
    A1 = relu(Z1)
    Z2 = np.dot(W2, A1) + b2
    A2 = relu(Z2)
    Z3 = np.dot(W3, A2) + b3
    A3 = sigmoid(Z3)
    
    lost = np.multiply(-np.log(A3), Y) + np.multiply(-np.log(1 - A3), 1 - Y) 
    cost = 1. / m *np.sum(lost)
    
    cache = (Z1, A1, W1, b1, Z2, A2, W2, b2, Z3, A3, W3, b3)
             
    return cost, cache

#### 反向传播

In [32]:
def backward_propagation_n(X, Y, cache):
    m = X.shape[1]
    (Z1, A1, W1, b1, Z2, A2, W2, b2, Z3, A3, W3, b3) = cache
    
    dZ3 = A3 - Y
    dW3 = 1. / m * np.dot(dZ3, A2.T)
    db3 = 1. / m * np.sum(dZ3, axis=1, keepdims=True)
    
    dA2 = np.dot(W3.T, dZ3)
    dZ2 = np.multiply(dA2,np.int64(A2 > 0))
    dW2 = 1. / m * np.dot(dZ2, A1.T)   # ~~
    db2 = 1. / m * np.sum(dZ2, axis=1, keepdims=True)
    
    dA1 = np.dot(W2.T, dZ2)
    dZ1 = np.multiply(dA1, np.int64(A1 > 0))
    dW1 = 1. / m * np.dot(dZ1, X.T)
    db1 = 1. / m * np.sum(dZ1, axis=1, keepdims=True) # ~~
    
    gradients = {"dZ3": dZ3, "dW3": dW3, "db3": db3,
                 "dA2": dA2, "dZ2": dZ2, "dW2": dW2, "db2": db2,
                 "dA1": dA1, "dZ1": dZ1, "dW1": dW1, "db1": db1}
    
    return gradients

**如何进行多维梯度检验**.

像1维检验时一样，我们还是使用下面的这个公式:

$$ \frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon} \tag{1}$$

但是，多维检验中的$\theta$不再是一个数值了，而是一个字典了，字典里面包含了很多个参数。我给大家实现了一个函数"`dictionary_to_vector()`"，用它可以将这个字典转换成一个向量，它会改变字典里参数(W1, b1, W2, b2, W3, b3)的维度并且将它们连接起来构成一个大向量，这个向量我们用"values"来表示。

同时也给大家提供了另外一个逆操作的函数"`vector_to_dictionary`"，它会将向量转换回字典形式。

![image.png](attachment:image.png)

In [37]:
#1维前向传播得到梯度
#def get_gradapprox(x, theta, epsilon = 1e-7):
    
#    theta_plus = theta + epsilon
#    theta_minus = theta - epsilon
#    J_plus = forward_propagation(x, theta_plus)
#    J_minus = forward_propagation(x, theta_minus)
#    gradapprox = (J_plus - J_minus) / (2 * epsilon)
    
#    return gradapprox

#多维前向传播得到梯度
def get_gradapprox_n(parameters, X, Y, epsilon):
    
    #dictionary_to_vector会把parameters（w，b）字典转换成一个向量
    #gradients_to_vector会把gradients(dz,dw,db)字典转换成一个向量
    parameters_values, _ = dictionary_to_vector(parameters)
    grad = gradients_to_vector(gradients)
    
    num_parameters = parameters_values.shape[0]
    
    #初始化J_plus, J_minus, gradapprox array
    J_plus = np.zeros((num_parameters, 1))
    J_minus = np.zeros((num_parameters, 1))
    gradapprox = np.zeros((num_parameters, 1))
    
    for i in range(num_parameters):
        # theta 不再是一个是一个数值，而是一个字典了，字典里包含了很多个参数
        theta_plus = np.copy(parameters_values)
        theta_plus[i][0] = theta_plus[i][0] + epsilon
        theta_minus = np.copy(parameters_values)
        theta_minus[i][0] = theta_minus[i][0] - epsilon
        #vector_to_dictionary会把theta_plus(wepsilon,bepsilon)转成字典
        J_plus[i], _ = forward_propagation_n(X, Y, vector_to_dictionary(theta_plus))
        J_minus[i], _ = forward_propagation_n(X, Y, vector_to_dictionary(theta_minus))
        
        gradapprox[i] = (J_plus[i] - J_minus[i]) / (2 * epsilon)
        
    return gradapprox

In [40]:
# def check(x, theta, epsilon = 1e-7):
    
#     #利用反向传播计算出一个梯度
#     grad = backward_propagation(x, theta)
    
#     #利用前向传播计算出一个梯度
#     gradapprox = get_gradapprox(x, theta)
    
#     #对比两个梯度相差多远
#     numerator = np.linalg.norm(grad - gradapprox)
#     denominator = np.linalg.norm(grad) + np.linalg.norm(gradapprox)
#     difference = numerator / denominator
    
#     if difference < epsilon:
#         print('反向传播是正确的！')
#     else:
#         print('反向传播是有问题的！')
    
#     return difference

def check(parameters, gradients, X, Y, epsilon=1e-7):
    grad = gradients_to_vector(gradients)
    gradapprox = get_gradapprox_n(parameters, X, Y, epsilon)
    
    numerator = np.linalg.norm(grad - gradapprox)
    denominator = np.linalg.norm(grad) + np.linalg.norm(gradapprox)
    difference = numerator / denominator
    
    if difference > 2e-7:
        print('反向传播有问题！ difference = ' + str(difference))
    else:
        print('反向传播是正确的！ difference  =' + str(difference))
    
    return difference

In [41]:
X, Y, parameters = gradient_check_n_test_case()

cost, cache = forward_propagation_n(X, Y, parameters)
gradients = backward_propagation_n(X, Y, cache)
difference = check(parameters, gradients, X, Y)

反向传播是正确的！ difference  =1.1885552035482147e-07


## 注意

* 梯度检验是很缓慢的。所以我们不会在训练的每个回合都执行梯度检验，仅偶尔执行几次

* 梯度检验不能与dropout共存。因为dropout时会随机删除神经元，没有办法进行梯度检验，所以在执行时要把dropout关掉，检验完后再开启