在第一个人工智能程序中，使用对是单神经元神经网络，本次使用深度神经网络来提升预测精准度

In [3]:
import numpy as np
import h5py
import matplotlib.pyplot as plt

from testCases import *
from dnn_utils import *

%matplotlib inline 
plt.rcParams['figure.figsize'] = (5.0, 4.0)
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

np.random.seed(1)

# 工具函数编写

### 1.初始化参数

In [4]:
def initialize_parameters_deep(layer_dims):
    """
    功能 ：初始化参数w和b
    
    参数 ：
    layer_dims -- 每层神经元的个数
    
    返回值 ：
    parameters -- 包含每层对应的初始化好的w和b
    """
    
    np.random.seed(1)
    parameters = {}
    L = len(layer_dims)
    
    for l in range(1,L):
        #构建并随机初始化该层的W，根据《1.4.3 核对矩阵的维度》
        parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l - 1]) / np.sqrt(layer_dims[l-1])
        
        #构建并初始化b
        parameters['b' + str(l)] = np.zeros((layer_dims[l],1))
        
        #核对一下w和b的维度是我们预期的维度
        assert(parameters['W' + str(l)].shape == (layer_dims[l],layer_dims[l-1]))
        assert(parameters['b' + str(l)].shape == (layer_dims[l],1))
        
    #利用上面的循环，就可以为任意层数的神经网络进行参数初始化，只需要提供给每层神经元的个数
    return parameters

单元测试

In [5]:
parameters = initialize_parameters_deep([5,4,3])

In [6]:
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.72642933 -0.27358579 -0.23620559 -0.47984616  0.38702206]
 [-1.0292794   0.78030354 -0.34042208  0.14267862 -0.11152182]
 [ 0.65387455 -0.92132293 -0.14418936 -0.17175433  0.50703711]
 [-0.49188633 -0.07711224 -0.39259022  0.01887856  0.26064289]]
b1 = [[0.]
 [0.]
 [0.]
 [0.]]
W2 = [[-0.55030959  0.57236185  0.45079536  0.25124717]
 [ 0.45042797 -0.34186393 -0.06144511 -0.46788472]
 [-0.13394404  0.26517773 -0.34583038 -0.19837676]]
b2 = [[0.]
 [0.]
 [0.]]


### 2.前向传播

下面的linear_forward用于实现公式 $Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}$，这个称之为线性前向传播

In [7]:
def linear_forward(A, W, b):
    """
    功能 ：实现上面的公式
    
    参数 ： 
    A -- 本层的特征输入
    W -- 本层的相关w
    b -- 本层的相关b
    
    返回值 ：
    Z -- 根据公式计算出的本层的Z
    cache -- 由A， W， b组成的元组
    """
    Z = np.dot(W, A) + b
    
    assert(Z.shape == (W.shape[0], A.shape[1]))
    cache = (A, W, b)
    
    return Z,cache

单元测试

In [8]:
A, W, b = linear_forward_test_case()
Z, linear_cache = linear_forward(A, W, b)

In [9]:
print("Z = " + str(Z))

Z = [[ 3.26295337 -1.23429987]]


### 3.加激活后变为非线性前向传播

下面的linear_activation_forward用于实现公式 $A^{[l]} = g(Z^{[l]})$，g代表激活函数，使用了激活函数之后上面的线性前向传播就变成了非线性前向传播了。在dnn_utils.py中我们自定义了两个激活函数，sigmoid和relu。它们都会根据传入的Z计算出A。

In [10]:
def linear_activation_forward(A_prev, W, b, activation):
    """
    功能 ：为前向传播加上激活函数
    
    参数 ：
    A_prev -- 上一层得到的A，输入到本层来计算Z和本层的A，第一层时为特征输入
    W -- 本层相关的W
    b -- 本层相关的b
    activation -- 在工具函数中定义有 “sigmoid”和“relu” 指示该层使用的激活函数
    
    返回值 ：
    A -- 激活后的A值
    cache -- 由linear_cache 和 Z 组成的元组
    """
    
    Z, linear_cache = linear_forward(A_prev, W, b)
    
    if activation == 'sigmoid':
        A = sigmoid(Z)
    elif activation == 'relu':
        A = relu(Z)
        
    assert(A.shape == (W.shape[0],A_prev.shape[1]))
    cache = (linear_cache, Z)
    
    return A, cache

单元测试

In [11]:
A_prev, W, b = linear_activation_forward_test_case()

In [12]:
A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "sigmoid")
print("With sigmoid: A = " + str(A))

With sigmoid: A = [[0.96890023 0.11013289]]


In [13]:
A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "relu")
print("With ReLU: A = " + str(A))

With ReLU: A = [[3.43896131 0.        ]]


### 4.完整的前向传播

In [14]:
def L_model_forward(X, parameters):
    """
    功能 ：完整的前向传播过程，前L-1层使用relu，最后一层使用sigmoid
    
    参数 ：
    X -- 输入的特征数据
    parameters -- 由w和b组成的list，含有每一层的w和b
    
    返回值 ：
    AL -- 即预测值y‘
    cache -- 由A， W， b， Z 组成的元组，保存这些值在反向传播中使用
    """
    
    caches = []
    A = X
    
    #获取参数列表的长度，[w1,b1,w2,b2,w3,b3,...], 所以/2得到神经网络层数
    L = len(parameters) // 2
    
    #for L-1次， 就是进行L-1步前向传播，每一步使用激活函数relu
    for l in range(1,L):
        A_prev = A
        A, cache = linear_activation_forward(A_prev,
                                            parameters['W' + str(l)],
                                            parameters['b' + str(1)],
                                            activation = 'relu')
        caches.append(cache)
    
    #进行最后一层的前向传播，激活函数是sigmoid，得出的AL就是预测值y‘
    AL, cache = linear_activation_forward(A,
                                         parameters['W' + str(L)],
                                         parameters['b' + str(L)],
                                         activation = 'sigmoid')
    
    caches.append(cache)
    
    assert(AL.shape == (1,X.shape[1]))
    
    return AL, cache
    

单元测试

In [15]:
X, parameters = L_model_forward_test_case()
AL, caches = L_model_forward(X, parameters)

In [16]:
print("AL = " + str(AL))
print("Length of caches list = " + str(len(caches)))

AL = [[0.17007265 0.2524272 ]]
Length of caches list = 2


### 5.计算成本

In [17]:
def compute_cost(AL, Y):
    """
    功能 ： 计算成本
    
    参数 ：
    AL -- 即预测值y‘
    Y -- 特征数据对应的标签数据
    
    返回值：
    cost -- 成本
    """
    
    m = Y.shape[1]
    cost = (-1 / m) * np.sum(np.multiply(Y, np.log(AL)) + np.multiply((1 - Y),np.log(1 - AL)))
    
    #确保cost是一个值，而不是一个数组的形式
    cost = np.squeeze(cost)
    
    assert(cost.shape == ())
    
    return cost

单元测试

In [18]:
Y, AL = compute_cost_test_case()
print("cost = " + str(compute_cost(AL, Y)))

cost = 0.41493159961539694


下面的linear_backward函数用于根据后一层的dZ来计算前面一层的dW，db和dA。也就是实现了下面3个公式
$$ dW^{[l]}  = \frac{1}{m} dZ^{[l]} A^{[l-1] T}$$
$$ db^{[l]}  = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}$$
$$ dA^{[l-1]} = W^{[l] T} dZ^{[l]}$$

### 6.反向传播

In [19]:
def linear_backward(dZ, cache):
    """
    功能 ： 实现上面的三个公式，根据后一层的dZ来计算前面一层的dW，db，dA
    
    参数 ：
    dZ -- 后面一层的dz
    cache -- 前向传播保存的 由A， W， b， Z 组成的元组
    
    返回值 ：
    dA_prev -- 前一层的dA
    dW -- 前一层的dW
    db -- 前一层的db
    """
    
    A_prev, W, b = cache
    m = A_prev.shape[1]
    
    dW = np.dot(dZ, cache[0].T) / m
    db = np.sum(dZ, axis=1, keepdims=True) / m
    dA_prev = np.dot(cache[1].T, dZ)
    
    assert(dA_prev.shape == A_prev.shape)
    assert(dW.shape == W.shape)
    assert(db.shape == b.shape)
    
    return dA_prev, dW, db

单元测试

In [20]:
dZ, linear_cache = linear_backward_test_case()
dA_prev, dW, db = linear_backward(dZ, linear_cache)

In [21]:
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

dA_prev = [[ 0.51822968 -0.19517421]
 [-0.40506361  0.15255393]
 [ 2.37496825 -0.89445391]]
dW = [[-0.10076895  1.40685096  1.64992505]]
db = [[0.50629448]]


### 7.加激活后的反向传播

下面的linear_activation_backward用于根据本层的dA计算出本层的dZ。就是实现了下面的公式
$$dZ^{[l]} = dA^{[l]} * g'(Z^{[l]})$$
上式的g'()表示求Z相当于本层的激活函数的偏导数。所以不同的激活函数也有不同的求导公式。
我们为大家编写了两个求导函数sigmoid_backward和relu_backward。大家当前不需要关心这两个函数的内部实现，当然，如果你感兴趣可以到dnn_utils.py里面去看它们的实现。

In [None]:
def linear_activation_backward(dA, cache, activation):
    """
    功能 ：加上激活函数的反向传播
    
    参数 ： 
    dA -- 
    cache --
    activation --
    
    返回值 ：
    dA_prev --
    dW --
    db --
    """