<font size=5>Building your Deep Neural Network: Step by Step——一步一步来构建你的神经网络

In [117]:
import numpy as np
import h5py
import matplotlib.pyplot as plt
from testCases_v3 import *
from dnn_utils_v2 import sigmoid, sigmoid_backward, relu, relu_backward

%matplotlib inline
# 设置绘图参数
plt.rcParams['figure.figsize'] = (5.0, 4.0)  # 将绘图窗口大小设置为(5.0, 4.0)
plt.rcParams['image.interpolation'] = 'nearest' # 将图像的插值方式设置为"nearest"，即最近邻插值
plt.rcParams['image.cmap'] = 'gray' # 将颜色映射设置为"gray"，即灰度图

#导入自动重载扩展模块
%load_ext autoreload  
%autoreload 2  # 启用自动重载扩展模块，以便在代码修改后自动重新加载

np.random.seed(1)  # 设置随机数生成器的种子为1，确保每次生成的随机数相同

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


UsageError: unrecognized arguments: # 启用自动重载扩展模块，以便在代码修改后自动重新加载


In [118]:
# 初始化参数
def initialize_parameters(n_x, n_h, n_y):
    """
     n_x -- 输入层的大小
     n_h -- 隐藏层的大小
     n_y -- 输出层的大小
    
     parameters -- 包含您的参数的 python 字典：
     W1 -- 形状的权重矩阵 (n_h, n_x)
     b1 -- 形状为 (n_h, 1) 的偏置向量
     W2 -- 形状的权重矩阵 (n_y, n_h)
     b2 -- 形状为 (n_y, 1) 的偏置向量
    """
    
    np.random.seed(1)  # 设置随机种子，以确保每次运行得到相同的随机数序列

    W1 = np.random.randn(n_h, n_x) * 0.01  # 初始化第一层权重矩阵，维度为(n_h, n_x)，并乘以一个较小的数0.01
    b1 = np.zeros((n_h, 1))  # 初始化第一层偏置矩阵，维度为(n_h, 1)
    W2 = np.random.randn(n_y, n_h) * 0.01  # 初始化第二层权重矩阵，维度为(n_y, n_h)，并乘以一个较小的数0.01
    b2 = np.zeros((n_y, 1))  # 初始化第二层偏置矩阵，维度为(n_y, 1)

    assert(W1.shape == (n_h, n_x))  # 确保第一层权重矩阵的维度正确
    assert(b1.shape == (n_h, 1))  # 确保第一层偏置矩阵的维度正确
    assert(W2.shape == (n_y, n_h))  # 确保第二层权重矩阵的维度正确
    assert(b2.shape == (n_y, 1))  # 确保第二层偏置矩阵的维度正确

    parameters = {"W1": W1,  # 将权重矩阵和偏置矩阵保存到parameters字典中，方便后续使用
                "b1": b1,
                "W2": W2,
                "b2": b2}

    return parameters    

In [119]:
parameters = initialize_parameters(3, 2, 1)  # 调用函数initialize_parameters初始化参数，传入参数维度为(3, 2, 1)，返回参数字典
print("W1 = " + str(parameters["W1"]))  # 打印参数字典中的"W1"键对应的值
print("b1 = " + str(parameters["b1"]))  # 打印参数字典中的"b1"键对应的值
print("W2 = " + str(parameters["W2"]))  # 打印参数字典中的"W2"键对应的值
print("b2 = " + str(parameters["b2"]))  # 打印参数字典中的"b2"键对应的值

W1 = [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]]
b1 = [[0.]
 [0.]]
W2 = [[ 0.01744812 -0.00761207]]
b2 = [[0.]]


In [120]:
def initialize_parameters_deep(layer_dims):
    """
     参数：
      layer_dims——包含网络中每一层维度的 python 数组（列表）
    
     返回值：
      parameters -- 包含您的参数“W1”、“b1”、...、“WL”、“bL”的 python 字典：
      wl -- 形状的权重矩阵(layer_dims[l], layer_dims[l-1])
      bl -- 形状的偏置向量 (layer_dims[l], 1)
    """
    
    np.random.seed(3)  # 设置随机种子，以确保每次运行得到相同的随机数序列
    parameters = {}  # 创建空的参数字典
    L = len(layer_dims)  # 网络中的层数

    for i in range(1, L):
        # 初始化权重矩阵，维度为(layer_dims[i], layer_dims[i - 1])，并乘以0.01
        parameters['W' + str(i)] = np.random.randn(layer_dims[i], layer_dims[i - 1]) * 0.01
        # 初始化偏置矩阵，维度为(layer_dims[i], 1)
        parameters['b' + str(i)] = np.zeros((layer_dims[i], 1))

        assert(parameters['W' + str(i)].shape == (layer_dims[i], layer_dims[i-1]))  # 确保权重矩阵的维度正确
        assert(parameters['b' + str(i)].shape == (layer_dims[i], 1))  # 确保偏置矩阵的维度正确

    return parameters

In [121]:
# 调用函数initialize_parameters_deep初始化深层神经网络的参数，传入层数为[5, 4, 3]，返回参数字典
parameters = initialize_parameters_deep([5, 4, 3]) 
print("W1 = " + str(parameters["W1"]))  # 打印参数字典中的"W1"键对应的值
print("b1 = " + str(parameters["b1"]))  # 打印参数字典中的"b1"键对应的值
print("W2 = " + str(parameters["W2"]))  # 打印参数字典中的"W2"键对应的值
print("b2 = " + str(parameters["b2"]))  # 打印参数字典中的"b2"键对应的值


W1 = [[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]
b1 = [[0.]
 [0.]
 [0.]
 [0.]]
W2 = [[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]
b2 = [[0.]
 [0.]
 [0.]]


In [122]:
def linear_forward(A, W, b):
    """
    实现层前向传播的线性部分。

     参数：
     A -- 来自前一层（或输入数据）的激活：（前一层的大小，示例数量）
     W -- 权重矩阵:numpy 形状数组（当前层的大小，前一层的大小）
     b -- 偏置向量,numpy 形状数组(当前层的大小,1)

     返回值：
     Z——激活函数的输入,也叫预激活参数
     缓存——包含“A”、“W”和“b”的 Python 字典； 存储以有效计算反向传递
    """
    
    Z = np.dot(W, A) + b  # 计算线性求和的结果，其中W为权重矩阵，A为输入矩阵，b为偏置向量

    assert(Z.shape == (W.shape[0], A.shape[1]))  # 确保线性求和的结果Z的维度符合预期，应为(W.shape[0], A.shape[1])

    cache = (A, W, b)  # 将A、W和b组合成一个元组，保存在cache变量
    
    return Z, cache

In [123]:
A, W, b = linear_forward_test_case()  # 调用函数linear_forward_test_case()，获取测试用例中的输入A、权重矩阵W和偏置向量b

Z, linear_cache = linear_forward(A, W, b)  # 调用函数linear_forward进行线性前向传播计算，得到线性求和的结果Z和缓存linear_cache
print("Z = " + str(Z))  # 打印线性求和的结果Z


Z = [[ 3.26295337 -1.23429987]]


In [124]:
def linear_activation_forward(A_prev, W, b, activation):
    """
    实现 LINEAR->ACTIVATION 层的前向传播

     参数：
     A_prev -- 来自前一层（或输入数据）的激活：（前一层的大小，示例数）
     W -- 权重矩阵:numpy 形状数组（当前层的大小，前一层的大小）
     b -- 偏置向量,numpy 形状数组(当前层的大小,1)
     activation -- 在该层中使用的激活，存储为文本字符串:“sigmoid”或“relu”

     返回值：
     A——激活函数的输出,也叫激活后值
     缓存——包含“linear_cache”和“activation_cache”的 python 字典；
              存储以有效计算反向传递
    """
    
    if activation == "sigmoid":
        Z, linear_cache = linear_forward(A_prev, W, b)  # 调用线性前向传播函数计算线性求和结果Z和线性缓存linear_cache
        A, activation_cache = sigmoid(Z)  # 使用sigmoid激活函数对线性求和结果Z进行激活，得到激活后的输出A和激活缓存activation_cache

    elif activation == "relu":
        Z, linear_cache = linear_forward(A_prev, W, b)  # 调用线性前向传播函数计算线性求和结果Z和线性缓存linear_cache
        A, activation_cache = relu(Z)  # 使用ReLU激活函数对线性求和结果Z进行激活，得到激活后的输出A和激活缓存activation_cache

    assert (A.shape == (W.shape[0], A_prev.shape[1]))  # 确保激活后的输出A的维度符合预期，应为(W.shape[0], A_prev.shape[1])
    cache = (linear_cache, activation_cache)  # 将线性缓存linear_cache和激活缓存activation_cache组合成一个元组，保存在cache变量中

    return A, cache  # 返回激活后的输出A和缓存cache

In [125]:
# 调用函数linear_activation_forward_test_case()获取测试用例中的输入A_prev、权重矩阵W和偏置向量b
A_prev, W, b = linear_activation_forward_test_case()  

# 调用函数linear_activation_forward进行带有sigmoid激活函数的线性激活前向传播计算，得到激活后的输出A和线性激活缓存linear_activation_cache
A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation="sigmoid")  

print("With sigmoid: A = " + str(A))  # 打印使用sigmoid激活函数时的输出A
# 调用函数linear_activation_forward进行带有ReLU激活函数的线性激活前向传播计算，得到激活后的输出A和线性激活缓存linear_activation_cache
A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation="relu")  
print("With ReLU: A = " + str(A))  # 打印使用ReLU激活函数时的输出A


With sigmoid: A = [[0.96890023 0.11013289]]
With ReLU: A = [[3.43896131 0.        ]]


In [126]:
def L_model_forward(X, parameters):
    """
    为 [LINEAR->RELU]*(L-1)->LINEAR->SIGMOID 计算实现前向传播
    
     参数：
     X -- 数据，形状的 numpy 数组（输入大小，示例数）
     parameters -- initialize_parameters_deep() 的输出
    
     返回值：
     AL——最后的激活后值
     caches -- 缓存列表，包含：
                 linear_relu_forward() 的每个缓存（有 L-1 个，索引从 0 到 L-2)
                 linear_sigmoid_forward() 的缓存（有一个，索引为 L-1)
    """
    caches = []  # 用于存储每一层的缓存
    A = X  # 输入层的激活输出
    L = len(parameters) // 2  # 网络的层数，除以2是因为每一层都有两个参数（权重和偏置）

    for i in range(1, L):
        A_prev = A  # 上一层的激活输出作为当前层的输入

        # 调用线性激活前向传播函数，使用ReLU作为激活函数，计算当前层的激活输出A和缓存cache
        A, cache = linear_activation_forward(A_prev, parameters["W" + str(i)], parameters["b" + str(i)], "relu")  
        caches.append(cache)  # 将缓存cache添加到caches列表中

    # 最后一层的激活函数使用sigmoid函数
    AL, cache = linear_activation_forward(A, parameters["W" + str(L)], parameters["b" + str(L)], "sigmoid")  
    caches.append(cache)  # 将最后一层的缓存cache添加到caches列表中

    assert(AL.shape == (1, X.shape[1]))  # 确保最终输出AL的维度符合预期，应为(1, X.shape[1])

    return AL, caches

In [127]:
# 调用函数L_model_forward_test_case_2hidden()获取测试用例中的输入X和参数字典parameters
X, parameters = L_model_forward_test_case_2hidden()  
# 调用深层神经网络前向传播函数L_model_forward，传入输入X和参数字典parameters，计算输出AL和缓存列表caches
AL, caches = L_model_forward(X, parameters)  
# 打印输出AL，将AL转换为字符串类型，并与前缀字符串"AL = "进行拼接后打印出来
print("AL = " + str(AL))  
# 打印缓存列表caches的长度，将其转换为字符串类型，并与前缀字符串"Length of caches list = "进行拼接后打印出来
print("Length of caches list = " + str(len(caches)))  

AL = [[0.03921668 0.70498921 0.19734387 0.04728177]]
Length of caches list = 3


In [128]:
def compute_cost(AL, Y):
    """
     参数：
     AL——你的标签预测对应的概率向量,形状(1,实例数）
     Y -- 真正的“标签”向量（例如：如果非猫则包含 0，如果猫则包含 1），形状（1，示例数）

    """
    m = Y.shape[1]  # 获取标签Y的样本数量m

    cost = -(np.dot(np.log(AL), Y.T) + np.dot(np.log(1 - AL), (1 - Y).T)) / m  # 计算成本（损失）值，使用交叉熵损失函数公式
    cost = np.squeeze(cost)  # 压缩成本值cost的维度，将其转换为标量
    assert(cost.shape == ())  # 使用确保成本值cost的维度为标量

    return cost

In [129]:
# 获取计算成本的测试用例中的标签Y和预测输出AL
Y, AL = compute_cost_test_case()  
# 调用计算成本函数compute_cost，传入预测输出AL和标签Y，计算成本值并打印出来
print("cost = " + str(compute_cost(AL, Y)))  

cost = 0.414931599615397


In [130]:
def linear_backward(dZ, cache):
    """
     为单层（第 l 层）实现反向传播的线性部分

     参数：
     dZ -- 成本相对于（当前层 l 的）线性输出的梯度
     缓存——来自当前层前向传播的值元组 (A_prev, W, b)

     返回值：
     dA_prev -- 成本相对于激活（前一层 l-1）的梯度，与 A_prev 形状相同
     dW -- 成本相对于 W（当前层 l）的梯度，与 W 形状相同
     db -- 成本相对于 b（当前层 l）的梯度，与 b 形状相同
     """
    A_prev, W, b = cache  # 从缓存中获取前一层的激活输出A_prev、权重W和偏置b
    m = A_prev.shape[1]  # 获取样本数量m

    dW = np.dot(dZ, A_prev.T) / m  # 计算相对于权重W的梯度
    db = np.sum(dZ, axis=1, keepdims=True) / m  # 计算相对于偏置b的梯度
    dA_prev = np.dot(W.T, dZ)  # 计算相对于前一层激活输出A_prev的梯度

    assert (dA_prev.shape == A_prev.shape)  # 使用断言确保梯度dA_prev的形状与A_prev相同
    assert (dW.shape == W.shape)  # 使用断言确保梯度dW的形状与W相同
    assert (db.shape == b.shape)  # 使用断言确保梯度db的形状与b相同

    
    return dA_prev, dW, db

In [131]:
dZ, linear_cache = linear_backward_test_case()  # 获取线性层反向传播的测试用例中的梯度dZ和线性缓存linear_cache
# 调用线性层的反向传播函数linear_backward，传入梯度dZ和线性缓存linear_cache，得到相对于前一层激活输出、权重和偏置的梯度，并将其分别赋值给变量dA_prev、dW和db
dA_prev, dW, db = linear_backward(dZ, linear_cache)  

print ("dA_prev = "+ str(dA_prev))  # 打印相对于前一层激活输出的梯度dA_prev
print ("dW = " + str(dW))  # 打印相对于权重的梯度dW
print ("db = " + str(db))  # 打印相对于偏置的梯度db


dA_prev = [[ 0.51822968 -0.19517421]
 [-0.40506361  0.15255393]
 [ 2.37496825 -0.89445391]]
dW = [[-0.10076895  1.40685096  1.64992505]]
db = [[0.50629448]]


In [132]:
def linear_activation_backward(dA, cache, activation):
    """
    为 LINEAR->ACTIVATION 层实现反向传播。
    
     参数：
     dA -- 当前层 l 的激活后梯度
     缓存——我们存储的值元组 (linear_cache, activation_cache) 用于有效计算反向传播
     activation -- 在该层中使用的激活，存储为文本字符串：“sigmoid”或“relu”
    
     退货：
     dA_prev -- 成本相对于激活（前一层 l-1）的梯度，与 A_prev 形状相同
     dW -- 成本相对于 W（当前层 l）的梯度，与 W 形状相同
     db -- 成本相对于 b（当前层 l）的梯度，与 b 形状相同
    """
    # 从缓存中获取线性缓存linear_cache和激活缓存activation_cache
    linear_cache, activation_cache = cache  
    # 使用ReLU激活函数的反向传播函数relu_backward，传入梯度dA和激活缓存activation_cache，计算相对于激活输出的梯度dZ
    if activation == "relu":
        dZ = relu_backward(dA, activation_cache)  
        # 调用线性层的反向传播函数linear_backward，传入梯度dZ和线性缓存linear_cache，计算相对于前一层激活输出、权重和偏置的梯度，并将其分别赋值给变量dA_prev、dW和db
        dA_prev, dW, db = linear_backward(dZ, linear_cache)  

    elif activation == "sigmoid":
        # 使用Sigmoid激活函数的反向传播函数sigmoid_backward，传入梯度dA和激活缓存activation_cache，计算相对于激活输出的梯度dZ
        dZ = sigmoid_backward(dA, activation_cache)  
        # 调用线性层的反向传播函数linear_backward，传入梯度dZ和线性缓存linear_cache，计算相对于前一层激活输出、权重和偏置的梯度，并将其分别赋值给变量dA_prev、dW和db
        dA_prev, dW, db = linear_backward(dZ, linear_cache)  

    return dA_prev, dW, db


In [133]:
# 获取线性激活层反向传播的测试用例中的激活输出AL和线性激活缓存linear_activation_cache
AL, linear_activation_cache = linear_activation_backward_test_case()  

# 调用线性激活层的反向传播函数linear_activation_backward，传入激活输出AL、线性激活缓存linear_activation_cache和激活函数类型"sigmoid"，计算相对于前一层激活输出、权重和偏置的梯度，并将其分别赋值给变量dA_prev、dW和db
dA_prev, dW, db = linear_activation_backward(AL, linear_activation_cache, activation = "sigmoid")  
print ("sigmoid:")
print ("dA_prev = "+ str(dA_prev))  # 打印相对于前一层激活输出的梯度dA_prev
print ("dW = " + str(dW))  # 打印相对于权重的梯度dW
print ("db = " + str(db) + "\n")  # 打印相对于偏置的梯度db，并换行

# 调用线性激活层的反向传播函数linear_activation_backward，传入激活输出AL、线性激活缓存linear_activation_cache和激活函数类型"relu"，计算相对于前一层激活输出、权重和偏置的梯度，并将其分别赋值给变量dA_prev、dW和db
dA_prev, dW, db = linear_activation_backward(AL, linear_activation_cache, activation = "relu")  
print ("relu:")
print ("dA_prev = "+ str(dA_prev))  # 打印相对于前一层激活输出的梯度dA_prev
print ("dW = " + str(dW))  # 打印相对于权重的梯度dW
print ("db = " + str(db))  # 打印相对于偏置的梯度db


sigmoid:
dA_prev = [[ 0.11017994  0.01105339]
 [ 0.09466817  0.00949723]
 [-0.05743092 -0.00576154]]
dW = [[ 0.10266786  0.09778551 -0.01968084]]
db = [[-0.05729622]]

relu:
dA_prev = [[ 0.44090989 -0.        ]
 [ 0.37883606 -0.        ]
 [-0.2298228   0.        ]]
dW = [[ 0.44513824  0.37371418 -0.10478989]]
db = [[-0.20837892]]


In [134]:
def L_model_backward(AL, Y, caches):
    """
    实现 [LINEAR->RELU] * (L-1) -> LINEAR -> SIGMOID 组的反向传播
    
     参数：
     AL——概率向量，前向传播的输出（L_model_forward()）
     Y -- 真正的“标签”向量（如果不是猫则包含 0，如果是猫则包含 1）
     caches -- 缓存列表，包含：
                 linear_activation_forward() 的每个缓存都带有“relu”（它是缓存 [l]，对于 l in range(L-1) 即 l = 0...L-2）
                 带有“sigmoid”的 linear_activation_forward() 的缓存（它是缓存[L-1]）
    
     退货：
     grads -- 带有梯度的字典
              grads ["dA" + str(l)] = ...
              grads ["dW" + str(l)] = ...
              grads ["db" + str(l)] = ...
    """
    grads = {}  # 初始化梯度字典grads，用于存储相对于各层激活输出、权重和偏置的梯度
    L = len(caches)  # 获取网络的层数
    m = AL.shape[1]  # 获取训练样本的数量
    Y = Y.reshape(AL.shape)  # 将标签Y的形状调整为与激活输出AL相同

    dAL = -(np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))  # 计算损失函数相对于激活输出AL的梯度

    current_cache = caches[L - 1]  # 获取当前层的缓存
    # 调用线性激活层的反向传播函数linear_activation_backward，传入梯度dAL、当前层缓存current_cache和激活函数类型"sigmoid"，计算相对于前一层激活输出、权重和偏置的梯度，并将其分别存储到grads字典中
    grads["dA" + str(L)], grads["dW" + str(L)], grads["db" + str(L)] = linear_activation_backward(dAL, current_cache, activation="sigmoid") 

    for i in reversed(range(L-1)):  # 从倒数第2层到第1层进行循环
        
        current_cache = caches[i]  # 获取当前层的缓存
        # 调用线性激活层的反向传播函数linear_activation_backward，传入梯度grads["dA" + str(i + 2)]、当前层缓存current_cache和激活函数类型"relu"，计算相对于前一层激活输出、权重和偏置的梯度，并将其分别存储到临时变量dA_prev_temp、dW_temp和db_temp中
        dA_prev_temp, dW_temp, db_temp = linear_activation_backward(grads["dA" + str(i + 2)], current_cache, activation="relu")  
        grads["dA" + str(i + 1)] = dA_prev_temp  # 将相对于前一层激活输出的梯度dA_prev_temp存储到grads字典中
        grads["dW" + str(i + 1)] = dW_temp  # 将相对于权重的梯度dW_temp存储到grads字典中
        grads["db" + str(i + 1)] = db_temp  # 将相对于偏置的梯度db_temp存储到grads字典中

    return grads  # 返回存储了各层梯度的grads字典


In [135]:
# 获取测试用例中的激活输出AL、标签Y_assess和缓存caches
AL, Y_assess, caches = L_model_backward_test_case()  
# 调用L_model_backward函数，传入激活输出AL、标签Y_assess和缓存caches，计算多层神经网络的反向传播梯度grads
grads = L_model_backward(AL, Y_assess, caches)  
# 调用print_grads函数，打印输出梯度grads的值
print_grads(grads)  


dW1 = [[0.41010002 0.07807203 0.13798444 0.10502167]
 [0.         0.         0.         0.        ]
 [0.05283652 0.01005865 0.01777766 0.0135308 ]]
db1 = [[-0.22007063]
 [ 0.        ]
 [-0.02835349]]
dA1 = [[ 0.12913162 -0.44014127]
 [-0.14175655  0.48317296]
 [ 0.01663708 -0.05670698]]


In [136]:
def update_parameters(parameters, grads, learning_rate):
    """
    使用梯度下降更新参数
    
     参数：
     parameters -- 包含你的参数的 python 字典
     grads——包含梯度的 python 字典，L_model_backward 的输出
    
     返回值：
     parameters -- 包含更新参数的 python 字典
                   参数["W" + str(l)] = ...
                   参数["b" + str(l)] = ...
    """
    
    L = len(parameters) // 2  # 获取网络的层数，除以2是因为每一层都有一个权重矩阵和一个偏置向量，所以总共有2*L个参数

    for i in range(1, L + 1):  # 对每一层进行循环更新参数
        parameters["W" + str(i)] -= learning_rate * grads["dW" + str(i)]  # 根据梯度下降算法，更新第i层的权重参数W
        parameters["b" + str(i)] -= learning_rate * grads["db" + str(i)]  # 根据梯度下降算法，更新第i层的偏置参数b

    return parameters  # 返回更新后的参数字典parameters


In [137]:
parameters, grads = update_parameters_test_case()  # 获取测试用例中的参数parameters和梯度grads

parameters = update_parameters(parameters, grads, 0.1)  # 调用update_parameters函数，传入参数parameters、梯度grads和学习率0.1，更新参数

print("W1 = " + str(parameters["W1"]))  # 打印更新后的参数W1的值
print("b1 = " + str(parameters["b1"]))  # 打印更新后的参数b1的值
print("W2 = " + str(parameters["W2"]))  # 打印更新后的参数W2的值
print("b2 = " + str(parameters["b2"]))  # 打印更新后的参数b2的值


W1 = [[-0.59562069 -0.09991781 -2.14584584  1.82662008]
 [-1.76569676 -0.80627147  0.51115557 -1.18258802]
 [-1.0535704  -0.86128581  0.68284052  2.20374577]]
b1 = [[-0.04659241]
 [-1.28888275]
 [ 0.53405496]]
W2 = [[-0.55569196  0.0354055   1.32964895]]
b2 = [[-0.84610769]]
