# Building your Deep Neural Network: Step by Step

4주차 1 of 2 과제입니다.!! 
3주차 에서는 2층 신경망(with 희든레이어)을 학습시켰습니다.  이번주에는 여러 층으로 이루어진 심층 신경망을 만들어볼겁니다!!

- 이 노트북에서는 심층신경망에 필요한 모든 기능을 실행해볼겁니다.
- 다음 4주차 2 or 2 과제에서는 이 노트북에서 사용한 기능으로 이미지 분류를 수행할겁니다.


**이번 공부할 내용:**
- 비선형 활성함수를 사용해봅시다. (ex. ReLU)
- 희든레이어를 1층 이상 갖고있는 심층 신경망을 만들어봅시다.
- class로 만들어 실행해봅시다.

**Notation**:
- 첨자 $[l]$ **:** $l^{th}$ 번째 레이어를 의미합니다. 
    - 예시: $a^{[L]}$ 는 $L^{th}$ 번째 레이어의 활성함수값을 의미합니다. $W^{[L]}$ 와 $b^{[L]}$ 는 $L^{th}$ 레이어의 매개변수값을 의미합니다. <br>
- 첨자 $(i)$ **:** $i^{th}$ 번째 값을 의미합니다. 
    - 예시: $x^{(i)}$ 는 $i^{th}$ 번째 학습 샘플을 의미합니다.
- 아래 첨자 $i$ **:** $i^{th}$ entry of a vector.
    - 예시: $a^{[l]}_i$ **:** $l^{th}$ 번째 활성함수 층에서 $i^{th}$ 번째 값을 의미합니다.).

## 1 - 패키지

- [numpy](www.numpy.org) 텐서 간의 계산을 위해 필수적인 패키지입니다.  
- [matplotlib](http://matplotlib.org) 시각화에 필수적인 패키지입니다.
- dnn_utils 는 이번 과제를 위해 직접 작성된 패키지입니다.
- testCases 는 기능이 제대로 작동했는지 확인하기 위한 검정데이터를 제공합니다.

- np.random.seed(1)은 랜덤한 값들을 고정시켜 올바르게 작동했는지 확인하기위한 값입니다.


In [1]:
import numpy as np
import h5py
import matplotlib.pyplot as plt
from testCases_v4a import *
from dnn_utils_v2 import sigmoid, sigmoid_backward, relu, relu_backward

%matplotlib inline
plt.rcParams['figure.figsize'] = (5.0, 4.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

np.random.seed(1)

## 2 - Outline of the Assignment

신경망을 만들기 위해 몇몇의 'helper function'을 사용해야합니다.

"helper function"은 다음 과제에서도 L 개 층으로 이루어진 신경망을 만들기 위해 사용될겁니다.


이번 과제의 개요:

- $L$ 층 신경망을 위한 매개변수 초기화
- 순전파 모듈 사용(아래 이미지상 보래색 부분)
    - 순전파 단계의 선형 계산을 완료합니다 (결과값으로 $Z^{[I]}$ 나옵니다.)
    - 활성함수를 적용합니다 (relu/ sigmoid)
    - 앞 2단계로 나온 결과값을 선형 계산과 활성함수 적용을 수행합니다.
     - 위 작업을 L-1 번 반복합니다. 그리고 마지막에 [LINERAR -> SIGMOID]를 더 합니다
     
- 손실값을 계산합니다.
- 역전파 모듈을 사용합니다.(아래 이미지에 빨간색 부분)
    - 역전파에서 선형파트를 수행합니다.
    - 활성함수의 미분값을 구합니다 (relu_backward / sigmoid_backward)
    - 선형계산으로 나온 값에 대한 매개변수의 미분값을 구합니다.
    - 앞 2단계로 나온 결과값으로 활성함수, 매개변수에 대한 미분값을 구합니다.
    - Stack [LINEAR->RELU] backward L-1 times and add [LINEAR->SIGMOID] backward in a new L_model_backward function
- 매개변수 값들을 업데이트 합니다.

<img src="images/final+outline.png" style="width:800px;height:500px;">
<caption><center> **Figure 1**</center></caption><br>


**Note**   
모든 순전파 단계는 각 역전파와 상호작용이 있습니다. 그래서 모든 순전파 단계에서 캐시에 값들을 저장하는 겁니다.  
캐시에 저장된 값들은 gradient를 계산하는데 필요합니다. 역전파 모듈에서 gradinet를 계산하는데 캐시를 사용할겁니다.

## 3 - 초기화  
  
모델의 매개변수를 초기화 하기 위해 helper funciton 2개를 작성할겁니다.
* 첫번째 기능은 2층에 대한 매개변수를 초기화 합니다.
* 두번째 초기화 된 값을 일반화 하는 기능입니다. ($L$ layers)


### 3.1 - 2층 신경망

**Exercise**: 2층 신경망의 매개변수를 만들고 초기화 하세요


**Instructions**:
- 모델의 구조: *LINEAR -> RELU -> LINEAR -> SIGMOID*. 
- 매개변수인 $W$ 행렬을 랜덤값으로 초기화 하세요. `np.random.randn(shape)*0.01` 을 사용하세요 **포인트: 구조를 올바르게**
- 매개변수인 $b$를 0으로 초기화 하세요. `np.zeros(shape)`를 사용하세요.


In [2]:
# GRADED FUNCTION: initialize_parameters

def initialize_parameters(n_x, n_h, n_y):
    """
    Argument:
    n_x -- size of the input layer
    n_h -- size of the hidden layer
    n_y -- size of the output layer
    
    Returns:
    parameters -- python dictionary containing your parameters:
                    W1 -- weight matrix of shape (n_h, n_x)
                    b1 -- bias vector of shape (n_h, 1)
                    W2 -- weight matrix of shape (n_y, n_h)
                    b2 -- bias vector of shape (n_y, 1)
    """
    
    np.random.seed(1)
    
    W1 = np.random.randn(n_h, n_x) * 0.01
    b1 = np.zeros((n_h, 1))
    W2 = np.random.randn(n_y, n_h) * 0.01
    b2 = np.zeros((n_y, 1))
    
    assert(W1.shape == (n_h, n_x))
    assert(b1.shape == (n_h, 1))
    assert(W2.shape == (n_y, n_h))
    assert(b2.shape == (n_y, 1))
    
    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2}
    
    return parameters    

In [3]:
parameters = initialize_parameters(3,2,1)
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]]
b1 = [[0.]
 [0.]]
W2 = [[ 0.01744812 -0.00761207]]
b2 = [[0.]]


**Expected output**:
       
<table style="width:80%">
  <tr>
    <td> W1 </td>
    <td> [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]] </td> 
  </tr>

  <tr>
    <td> b1</td>
    <td>[[ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>W2</td>
    <td> [[ 0.01744812 -0.00761207]]</td>
  </tr>
  
  <tr>
    <td> b2 </td>
    <td> [[ 0.]] </td> 
  </tr>
  
</table>

### 3.2 - L-layer 신경망
심층 신경망을 초기화 하는것은 $W$와 $b$가 많아 조금 더 복잡합니다.

`initialize_parameters_deep`을 완성하기 위해서는 각 층에 대한 차원 값을 맞춰야합니다.

$n^{[l]}$은 $l$ 층의 값 개수를 의미합니다.  

예를들어 만약 입력값 $X$의 구조가 $(12288, 209)$ 라면 :

<table style="width:100%">
    <tr>
        <td>  </td> 
        <td> **Shape of W** </td> 
        <td> **Shape of b**  </td> 
        <td> **Activation** </td>
        <td> **Shape of Activation** </td> 
    <tr>
    <tr>
        <td> **Layer 1** </td> 
        <td> $(n^{[1]},12288)$ </td> 
        <td> $(n^{[1]},1)$ </td> 
        <td> $Z^{[1]} = W^{[1]}  X + b^{[1]} $ </td> 
        <td> $(n^{[1]},209)$ </td> 
    <tr>
    <tr>
        <td> **Layer 2** </td> 
        <td> $(n^{[2]}, n^{[1]})$  </td> 
        <td> $(n^{[2]},1)$ </td> 
        <td>$Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]}$ </td> 
        <td> $(n^{[2]}, 209)$ </td> 
    <tr>
    <tr>
        <td> $\vdots$  </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$  </td> 
    <tr>
   <tr>
        <td> **Layer L-1** </td> 
        <td> $(n^{[L-1]}, n^{[L-2]})$ </td> 
        <td> $(n^{[L-1]}, 1)$  </td> 
        <td>$Z^{[L-1]} =  W^{[L-1]} A^{[L-2]} + b^{[L-1]}$ </td> 
        <td> $(n^{[L-1]}, 209)$ </td> 
    <tr>
   <tr>
        <td> **Layer L** </td> 
        <td> $(n^{[L]}, n^{[L-1]})$ </td> 
        <td> $(n^{[L]}, 1)$ </td>
        <td> $Z^{[L]} =  W^{[L]} A^{[L-1]} + b^{[L]}$</td>
        <td> $(n^{[L]}, 209)$  </td> 
    <tr>
</table>

**Exercise**: Implement initialization for an L-layer Neural Network. 

**Instructions**:
- The model's structure is *[LINEAR -> RELU] $ \times$ (L-1) -> LINEAR -> SIGMOID*. I.e., it has $L-1$ layers using a ReLU activation function followed by an output layer with a sigmoid activation function.
- Use random initialization for the weight matrices. Use `np.random.randn(shape) * 0.01`.
- Use zeros initialization for the biases. Use `np.zeros(shape)`.
- We will store $n^{[l]}$, the number of units in different layers, in a variable `layer_dims`. For example, the `layer_dims` for the "Planar Data classification model" from last week would have been [2,4,1]: There were two inputs, one hidden layer with 4 hidden units, and an output layer with 1 output unit. This means `W1`'s shape was (4,2), `b1` was (4,1), `W2` was (1,4) and `b2` was (1,1). Now you will generalize this to $L$ layers! 
- Here is the implementation for $L=1$ (one layer neural network). It should inspire you to implement the general case (L-layer neural network).
```python
    if L == 1:
        parameters["W" + str(L)] = np.random.randn(layer_dims[1], layer_dims[0]) * 0.01
        parameters["b" + str(L)] = np.zeros((layer_dims[1], 1))
```

기억해야할 점 $W X + b$ 를 계산한다면, 구조에 맞게 계산되는 broadcasting이 적용됩니다. 예를들어 :   


$$ W = \begin{bmatrix}
    j  & k  & l\\
    m  & n & o \\
    p  & q & r 
\end{bmatrix}\;\;\; X = \begin{bmatrix}
    a  & b  & c\\
    d  & e & f \\
    g  & h & i 
\end{bmatrix} \;\;\; b =\begin{bmatrix}
    s  \\
    t  \\
    u
\end{bmatrix}\tag{2}$$

$WX + b$ 의 결과가:

$$ WX + b = \begin{bmatrix}
    (ja + kd + lg) + s  & (jb + ke + lh) + s  & (jc + kf + li)+ s\\
    (ma + nd + og) + t & (mb + ne + oh) + t & (mc + nf + oi) + t\\
    (pa + qd + rg) + u & (pb + qe + rh) + u & (pc + qf + ri)+ u
\end{bmatrix}\tag{3}  $$

**b가 broadcasting 된것을 확인 할 수 있습니다**

In [4]:
# GRADED FUNCTION: initialize_parameters_deep

def initialize_parameters_deep(layer_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the dimensions of each layer in our network
    
    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    Wl -- weight matrix of shape (layer_dims[l], layer_dims[l-1])
                    bl -- bias vector of shape (layer_dims[l], 1)
    """
    
    np.random.seed(3)
    parameters = {}
    L = len(layer_dims)            # number of layers in the network

    for l in range(1, L):

        parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l - 1]) * 0.01
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))

        
        assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
        assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))

        
    return parameters

In [13]:
parameters = initialize_parameters_deep([5,4,3])
print("W1 = " ,'\n', str(parameters["W1"]),'\n', parameters["W1"].shape, '\n')
print("b1 = " ,'\n', str(parameters["b1"]),'\n', parameters["b1"].shape, '\n')
print("W2 = " ,'\n', str(parameters["W2"]),'\n', parameters["W2"].shape, '\n')
print("b2 = " ,'\n', str(parameters["b2"]),'\n', parameters["b2"].shape)

W1 =  
 [[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]] 
 (4, 5) 

b1 =  
 [[0.]
 [0.]
 [0.]
 [0.]] 
 (4, 1) 

W2 =  
 [[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]] 
 (3, 4) 

b2 =  
 [[0.]
 [0.]
 [0.]] 
 (3, 1)


**Expected output**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td>[[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]</td> 
  </tr>
  
  <tr>
    <td>**b1** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2** </td>
    <td>[[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]</td> 
  </tr>
  
  <tr>
    <td>**b2** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
</table>

## 4 - 순전파 모듈

### 4.1 - 선형 순전파
이제 초기화 된 매개변수를 갖고있습니다. 이제 순전파 모듈을 사용해볼 겁니다. 나중에 모델에 사용할 기본적인 기능을 수행해볼겁니다.  
순서대로 3개 기능을 완성할겁니다:

- LINEAR
- LINEAR -> ACTIVATION where ACTIVATION will be either ReLU or Sigmoid. 
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID (whole model)

선형 순전파 모듈을 다음 계산식과 같이 계산할겁니다:  
$$Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}\tag{4}$$ where $A^{[0]} = X$. 

**Exercise**: 순전파의 선형 부분을 구축합니다 

**Reminder**:

$Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}$ 단위 값입니다.

`np.dot()`이 유용합니다. 만약 구조가 다르다면 `W.shape`로 확인해보세요


In [17]:
# GRADED FUNCTION: linear_forward

def linear_forward(A, W, b):
    """
    Implement the linear part of a layer's forward propagation.

    Arguments:
    A -- activations from previous layer (or input data): (size of previous layer, number of examples)
    W -- weights matrix: numpy array of shape (size of current layer, size of previous layer)
    b -- bias vector, numpy array of shape (size of the current layer, 1)

    Returns:
    Z -- the input of the activation function, also called pre-activation parameter 
    cache -- a python tuple containing "A", "W" and "b" ; stored for computing the backward pass efficiently
    """
    
    Z = np.dot(W, A) + b
    
    
    assert(Z.shape == (W.shape[0], A.shape[1]))
    cache = (A, W, b)
    
    return Z, cache

In [19]:
A, W, b = linear_forward_test_case() # 노트북용 기능입니다.

Z, linear_cache = linear_forward(A, W, b)
print("Z = " + str(Z))

Z = [[ 3.26295337 -1.23429987]]


**Expected output**:

<table style="width:35%">
  
  <tr>
    <td> **Z** </td>
    <td> [[ 3.26295337 -1.23429987]] </td> 
  </tr>
  
</table>

### 4.2 - 선형 활성함수 

이번 노트북에서는 2개 활성함수를 사용할겁니다:

- **Sigmoid**: $\sigma(Z) = \sigma(W A + b) = \frac{1}{ 1 + e^{-(W A + b)}}$. 
`sigmoid`기능이 제공됩니다. 이 기능은 2개 결과값이 나옵니다:  
활성함수값 `a` 그리고 `Z`값을 갖고있는 `cache` 가 반환됩니다.(cache는 나중에 역전파에 사용합니다.)  
`sigmoid` 기능을 호출하는 방법:
``` python
A, activation_cache = sigmoid(Z)
```

- **ReLU**: ReLU의 수식은 $A = RELU(Z) = max(0, Z)$ 입니다.   
`relu`기능도 제공됩니다. 이 기능은 2개 결과값이 나옵니다:  
활성함수값 `A` 그리고 `Z`값을 갖고있는 `cache` 가 반홥됩니다.(cache는 나중에 역전파에 사용합니다.)  
`relu` 기능을 호출하는 방법:  
``` python
A, activation_cache = relu(Z)
```

간편하게 하기위해, 두 기능(Linear and Activation)을 묶어 한 기능(LINEAR->ACTIVATION)으로 사용할겁니다.  
선형계산을 하고 활성함수 단계를 거치도록 만듭니다.  

**Exercise**:  
수식 관계: $A^{[l]} = g(Z^{[l]}) = g(W^{[l]}A^{[l-1]} +b^{[l]})$   
$g$는 sigmoid() 또는 relu()로 사용합니다.

linear_forward() 와 올바른 활성함수를 사용하세요.

In [21]:
# GRADED FUNCTION: linear_activation_forward

def linear_activation_forward(A_prev, W, b, activation):
    """
    Implement the forward propagation for the LINEAR->ACTIVATION layer

    Arguments:
    A_prev -- activations from previous layer (or input data): (size of previous layer, number of examples)
    W -- weights matrix: numpy array of shape (size of current layer, size of previous layer)
    b -- bias vector, numpy array of shape (size of the current layer, 1)
    activation -- the activation to be used in this layer, stored as a text string: "sigmoid" or "relu"

    Returns:
    A -- the output of the activation function, also called the post-activation value 
    cache -- a python tuple containing "linear_cache" and "activation_cache";
             stored for computing the backward pass efficiently
    """
    
    if activation == "sigmoid":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = sigmoid(Z)
    
    elif activation == "relu":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = relu(Z)
        
    
    assert (A.shape == (W.shape[0], A_prev.shape[1]))
    cache = (linear_cache, activation_cache)

    return A, cache

In [23]:
A_prev, W, b = linear_activation_forward_test_case()

print(A_prev.shape, W.shape, b.shape, '\n')

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "sigmoid")
print("With sigmoid: A = " + str(A))

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "relu")
print("With ReLU: A = " + str(A))

(3, 2) (1, 3) (1, 1) 

With sigmoid: A = [[0.96890023 0.11013289]]
With ReLU: A = [[3.43896131 0.        ]]


**Expected output**:
       
<table style="width:35%">
  <tr>
    <td> With sigmoid: A  </td>
    <td > [[ 0.96890023  0.11013289]]</td> 
  </tr>
  <tr>
    <td> With ReLU: A  </td>
    <td > [[ 3.43896131  0.        ]]</td> 
  </tr>
</table>


**Note**: 딥러닝에서는 "[LINEAR -> ACTIVATION]" 계산을 2개 층으로 구분하지 않고 1개층 신경망으로 구분합니다.

### d) L-층 신경망

L-층 신경망을 실행할때 좀 더 간편하게 하기위해 이전에 작업했던 기능(`linear_activation_forward` with RELU)을  $L-1$번 복사해 사용해야합니다. 그러고 SIGMOID를 사용한 `linear_activation_forward`를 더 합니다.

<img src="images/model_architecture_kiank.png" style="width:600px;height:300px;">
<caption><center> **Figure 2** : *[LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* model</center></caption><br>

**Exercise**: 위 모델의 순전파를 수행하세요

**Instruction**: 하단 코드에서 변수 `AL`은 $A^{[L]} = \sigma(Z^{[L]}) = \sigma(W^{[L]} A^{[L-1]} + b^{[L]})$ 를 의미합니다. 
때때로 `Yhat`으로도 표현합니다. (ex $\hat{Y}$)


**Tips**:
- 이전에 작성한 기능을 사용합니다.
- [LINEAR->RELU]를 (L-1) 반복할때 반복문을 사용합니다.
- caches 가 어떤것을 담고 있는지 잊지마세요.

In [24]:
# GRADED FUNCTION: L_model_forward

def L_model_forward(X, parameters):
    """
    Implement forward propagation for the [LINEAR->RELU]*(L-1)->LINEAR->SIGMOID computation
    
    Arguments:
    X -- data, numpy array of shape (input size, number of examples)
    parameters -- output of initialize_parameters_deep()
    
    Returns:
    AL -- last post-activation value
    caches -- list of caches containing:
                every cache of linear_activation_forward() (there are L-1 of them, indexed from 0 to L-1)
    """

    caches = []
    A = X
    L = len(parameters) // 2                  # number of layers in the neural network
    
    # Implement [LINEAR -> RELU]*(L-1). Add "cache" to the "caches" list.
    for l in range(1, L):
        A_prev = A 
        A, cache = linear_activation_forward(A_prev, parameters["W" + str(l)], parameters["b" + str(l)], "relu")
        caches.append(cache)
    
    # Implement LINEAR -> SIGMOID. Add "cache" to the "caches" list.
    AL, cache = linear_activation_forward(A, parameters["W" + str(L)], parameters["b" + str(L)], "sigmoid")
    caches.append(cache)
    
    assert(AL.shape == (1,X.shape[1]))
            
    return AL, caches

In [25]:
X, parameters = L_model_forward_test_case_2hidden()
AL, caches = L_model_forward(X, parameters)
print("AL = " + str(AL))
print("Length of caches list = " + str(len(caches)))

AL = [[0.03921668 0.70498921 0.19734387 0.04728177]]
Length of caches list = 3


<table style="width:50%">
  <tr>
    <td> AL </td>
    <td > [[ 0.03921668  0.70498921  0.19734387  0.04728177]]</td> 
  </tr>
  <tr>
    <td> Length of caches list </td>
    <td > 3 </td> 
  </tr>
</table>

입력값을 받고 예측값을 담고 있는 $A^{[L]}$를 출력하는 전체적인 순전파를 구현할 수 있습니다.

중간에 나오는 값들 모두 "caches"에 저장됩니다. $A^{[L]}$ 를 사용해 예측값에 대한 비용을 계산합니다.

## 5 - 비용함수

이제 순전파와 역전파를 구현할겁니다.

이를 위해서는 비용함수를 계산해야합니다. 비용함수 값은 모델이 잘 학습되는지 확인하기 위해 필요합니다.

**Exercise**: cross-entropy cost $J$ 를 계산하는 것은 다음 식을 사용합니다.  
$$-\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right)) \tag{7}$$


In [26]:
# GRADED FUNCTION: compute_cost

def compute_cost(AL, Y):
    """
    Implement the cost function defined by equation (7).

    Arguments:
    AL -- probability vector corresponding to your label predictions, shape (1, number of examples)
    Y -- true "label" vector (for example: containing 0 if non-cat, 1 if cat), shape (1, number of examples)

    Returns:
    cost -- cross-entropy cost
    """
    
    m = Y.shape[1]

    # Compute loss from aL and y.
    cost = -(np.dot(np.log(AL), Y.T) + np.dot(np.log(1 - AL), (1 - Y).T)) / m
    
    cost = np.squeeze(cost)      # To make sure your cost's shape is what we expect (e.g. this turns [[17]] into 17).
    assert(cost.shape == ())
    
    return cost

In [27]:
Y, AL = compute_cost_test_case()

print("cost = " + str(compute_cost(AL, Y)))

cost = 0.2797765635793423


**Expected Output**:

<table>
    <tr>
    <td>cost </td>
    <td> 0.2797765635793422</td> 
    </tr>
</table>

## 6 - 역전파 모듈

순전파와 같이 역전파에서도 helper functions 을 사용합니다.  
기억하세요 역전파는 비용함수에 대한 파라미터의 gradient를 구하는 겁니다.  

**Reminder**: 
<img src="images/backprop_kiank.png" style="width:650px;height:250px;">
<caption><center> **Figure 3** : *LINEAR->RELU->LINEAR->SIGMOID* 단계를 거치는 순전파와 역전파 <br> *보라색은 순전파를 의미하고, 빨간색은 역전파를 의미합니다.*  </center></caption>

<!-- 
For those of you who are expert in calculus (you don't need to be to do this assignment), the chain rule of calculus can be used to derive the derivative of the loss $\mathcal{L}$ with respect to $z^{[1]}$ in a 2-layer network as follows:

$$\frac{d \mathcal{L}(a^{[2]},y)}{{dz^{[1]}}} = \frac{d\mathcal{L}(a^{[2]},y)}{{da^{[2]}}}\frac{{da^{[2]}}}{{dz^{[2]}}}\frac{{dz^{[2]}}}{{da^{[1]}}}\frac{{da^{[1]}}}{{dz^{[1]}}} \tag{8} $$

In order to calculate the gradient $dW^{[1]} = \frac{\partial L}{\partial W^{[1]}}$, you use the previous chain rule and you do $dW^{[1]} = dz^{[1]} \times \frac{\partial z^{[1]} }{\partial W^{[1]}}$. During the backpropagation, at each step you multiply your current gradient by the gradient corresponding to the specific layer to get the gradient you wanted.

Equivalently, in order to calculate the gradient $db^{[1]} = \frac{\partial L}{\partial b^{[1]}}$, you use the previous chain rule and you do $db^{[1]} = dz^{[1]} \times \frac{\partial z^{[1]} }{\partial b^{[1]}}$.

This is why we talk about **backpropagation**.
!-->

이제 순전파에서 작업했던 것과 비슷하게 역전파를 3개 단계를 통해 작업합니다 :  
- 선형 역전파
- LINEAR -> ACTIVATION backward where ACTIVATION computes the derivative of either the ReLU or sigmoid activation
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID backward (whole model)

### 6.1 - Linear backward

$l$ 층, 선형 계산 부분: $Z^{[l]} = W^{[l]} A^{[l-1]} + b^{[l]}$ (이후에 활성함수가 나옵니다).

$dZ^{[l]} = \frac{\partial \mathcal{L} }{\partial Z^{[l]}}$ 미분값을 계산했다고 가정하면. $(dW^{[l]}, db^{[l]}, dA^{[l-1]})$를 얻기 원할겁니다..

<img src="images/linearback_kiank.png" style="width:250px;height:300px;">
<caption><center> **Figure 4** </center></caption>

$(dW^{[l]}, db^{[l]}, dA^{[l-1]})$ 이 3개 결과값은 $dZ^{[l]}$를 사용해 계산됩니다. 계산식은 다음과 같습니다:
$$ dW^{[l]} = \frac{\partial \mathcal{J} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T} \tag{8}$$
$$ db^{[l]} = \frac{\partial \mathcal{J} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}\tag{9}$$
$$ dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]} \tag{10}$$


**Exercise**: 위 3개 수식을 사용해 linear_backward()를 구현하세요.

In [28]:
# GRADED FUNCTION: linear_backward

def linear_backward(dZ, cache):
    """
    Implement the linear portion of backward propagation for a single layer (layer l)

    Arguments:
    dZ -- Gradient of the cost with respect to the linear output (of current layer l)
    cache -- tuple of values (A_prev, W, b) coming from the forward propagation in the current layer

    Returns:
    dA_prev -- Gradient of the cost with respect to the activation (of the previous layer l-1), same shape as A_prev
    dW -- Gradient of the cost with respect to W (current layer l), same shape as W
    db -- Gradient of the cost with respect to b (current layer l), same shape as b
    """
    A_prev, W, b = cache
    m = A_prev.shape[1]

    dW = np.dot(dZ, A_prev.T) / m
    db = np.sum(dZ, axis=1, keepdims=True) / m
    dA_prev = np.dot(W.T, dZ)
    
    assert (dA_prev.shape == A_prev.shape)
    assert (dW.shape == W.shape)
    assert (db.shape == b.shape)
    
    return dA_prev, dW, db

In [29]:
# Set up some test inputs
dZ, linear_cache = linear_backward_test_case()

dA_prev, dW, db = linear_backward(dZ, linear_cache)
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

dA_prev = [[-1.15171336  0.06718465 -0.3204696   2.09812712]
 [ 0.60345879 -3.72508701  5.81700741 -3.84326836]
 [-0.4319552  -1.30987417  1.72354705  0.05070578]
 [-0.38981415  0.60811244 -1.25938424  1.47191593]
 [-2.52214926  2.67882552 -0.67947465  1.48119548]]
dW = [[ 0.07313866 -0.0976715  -0.87585828  0.73763362  0.00785716]
 [ 0.85508818  0.37530413 -0.59912655  0.71278189 -0.58931808]
 [ 0.97913304 -0.24376494 -0.08839671  0.55151192 -0.10290907]]
db = [[-0.14713786]
 [-0.11313155]
 [-0.13209101]]


** Expected Output**:
    
```
dA_prev = 
 [[-1.15171336  0.06718465 -0.3204696   2.09812712]
 [ 0.60345879 -3.72508701  5.81700741 -3.84326836]
 [-0.4319552  -1.30987417  1.72354705  0.05070578]
 [-0.38981415  0.60811244 -1.25938424  1.47191593]
 [-2.52214926  2.67882552 -0.67947465  1.48119548]]
dW = 
 [[ 0.07313866 -0.0976715  -0.87585828  0.73763362  0.00785716]
 [ 0.85508818  0.37530413 -0.59912655  0.71278189 -0.58931808]
 [ 0.97913304 -0.24376494 -0.08839671  0.55151192 -0.10290907]]
db = 
 [[-0.14713786]
 [-0.11313155]
 [-0.13209101]]
```

### 6.2 - Linear-Activation backward

다음으로 두개 helper function (**`linear_backward`**와 **`linear_activation_backward`**)을 하나로 합칩니다. 

`linear_activation_backward`를 수행하기 위해 역전파 함수를 제공합니다:
- **`sigmoid_backward`**: SIGMOID에 대한 역적파를 수행하기 위해 다음 코드룰 사용하세요:
```python
dZ = sigmoid_backward(dA, activation_cache)
```

- **`relu_backward`**: RELU에 대한 역전파를 수행하기 위해 다음 코드를 사용하세요:
```python
dZ = relu_backward(dA, activation_cache)
```


 $g(.)$는 활성함수를 의미합니다.
`sigmoid_backward`와 `relu_backward`는 $$dZ^{[l]} = dA^{[l]} * g'(Z^{[l]}) \tag{11}$$을 계산합니다.  

**Exercise**: Implement the backpropagation for the *LINEAR->ACTIVATION* layer.

In [32]:
# GRADED FUNCTION: linear_activation_backward

def linear_activation_backward(dA, cache, activation):
    """
    Implement the backward propagation for the LINEAR->ACTIVATION layer.
    
    Arguments:
    dA -- post-activation gradient for current layer l 
    cache -- tuple of values (linear_cache, activation_cache) we store for computing backward propagation efficiently
    activation -- the activation to be used in this layer, stored as a text string: "sigmoid" or "relu"
    
    Returns:
    dA_prev -- Gradient of the cost with respect to the activation (of the previous layer l-1), same shape as A_prev
    dW -- Gradient of the cost with respect to W (current layer l), same shape as W
    db -- Gradient of the cost with respect to b (current layer l), same shape as b
    """
    linear_cache, activation_cache = cache
    
    if activation == "relu":
        dZ = relu_backward(dA, activation_cache)
        dA_prev, dW, db = linear_backward(dZ, linear_cache)
        
    elif activation == "sigmoid":
        dZ = sigmoid_backward(dA, activation_cache)
        dA_prev, dW, db = linear_backward(dZ, linear_cache)
    
    return dA_prev, dW, db

In [33]:
dAL, linear_activation_cache = linear_activation_backward_test_case()

dA_prev, dW, db = linear_activation_backward(dAL, linear_activation_cache, activation = "sigmoid")
print ("sigmoid:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db) + "\n")

dA_prev, dW, db = linear_activation_backward(dAL, linear_activation_cache, activation = "relu")
print ("relu:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

sigmoid:
dA_prev = [[ 0.11017994  0.01105339]
 [ 0.09466817  0.00949723]
 [-0.05743092 -0.00576154]]
dW = [[ 0.10266786  0.09778551 -0.01968084]]
db = [[-0.05729622]]

relu:
dA_prev = [[ 0.44090989 -0.        ]
 [ 0.37883606 -0.        ]
 [-0.2298228   0.        ]]
dW = [[ 0.44513824  0.37371418 -0.10478989]]
db = [[-0.20837892]]


**Expected output with sigmoid:**

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td >[[ 0.11017994  0.01105339]
 [ 0.09466817  0.00949723]
 [-0.05743092 -0.00576154]] </td> 
  </tr> 
    <tr>
    <td > dW </td> 
           <td > [[ 0.10266786  0.09778551 -0.01968084]] </td> 
  </tr> 
    <tr>
    <td > db </td> 
           <td > [[-0.05729622]] </td> 
  </tr> 
</table>



**Expected output with relu:**

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td > [[ 0.44090989  0.        ]
 [ 0.37883606  0.        ]
 [-0.2298228   0.        ]] </td> 
  </tr> 
    <tr>
    <td > dW </td> 
           <td > [[ 0.44513824  0.37371418 -0.10478989]] </td> 
  </tr> 
    <tr>
    <td > db </td> 
           <td > [[-0.20837892]] </td> 
  </tr> 
</table>



### 6.3 - L층 역전파

이제 전체 신경망에 대한 역전파를 구현할수 있게됩니다.

`L_model_forward`을 수행할때 매 반복마다 cache에 (X,W,b, and z) 가 저장된다는것을 기억해야합니다. 이 값들은 역전파 모듈에서는 gradients를 계산하기 위해 사용하게 됩니다.


그러므로 `L_model_backward` 기능에서 

Therefore, in the `L_model_backward` function, you will iterate through all the hidden layers backward, starting from layer $L$. 


각 단계에 역전파를 수행하기위해 각 층에 cache에 저장된 값을 사용합니다.

<img src="images/mn_backward.png" style="width:450px;height:300px;">
<caption><center>  **Figure 5** : Backward pass  </center></caption>

** Initializing backpropagation**:  
신경망에서 역전파를 하기위해 출력값을 알아야합니다.  
출력값: $A^{[L]} = \sigma(Z^{[L]})$ 
그리고 출력값을 사용해 `dAL` $= \frac{\partial \mathcal{L}}{\partial A^{[L]}}$를 계산해야합니다.

이 일을 수행하기 위해 아래 수식을 사용합니다.:
```python
dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL)) # derivative of cost with respect to AL
```

계속 역전파를 진행하기 위해 `dAL`을 사용할 수 있습니다.


Figure5 에서 보이듯이 `dAL`을 LINEAR->SIGMOID 역전파 기능에 적용할수 있습니다. 

이후에 모든 층에 역전파 기능을 사용하기 위해 반복문을 사용합니다.

매 반복 마다 생기는 dA, dW, db를 grads 에 저장합니다.  
저장하므로 다음과 같은 수식을 사용할 수 있습니다:    
$$grads["dW" + str(l)] = dW^{[l]}\tag{15} $$  
예를 들어 $I=3$ 에는 $dW^{[I]}$ 는 `grads["dW3"]` 으로 저장되어 있을겁니다.  

**Exercise**: Implement backpropagation for the *[LINEAR->RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* model.

In [34]:
# GRADED FUNCTION: L_model_backward

def L_model_backward(AL, Y, caches):
    """
    Implement the backward propagation for the [LINEAR->RELU] * (L-1) -> LINEAR -> SIGMOID group
    
    Arguments:
    AL -- probability vector, output of the forward propagation (L_model_forward())
    Y -- true "label" vector (containing 0 if non-cat, 1 if cat)
    caches -- list of caches containing:
                every cache of linear_activation_forward() with "relu" (it's caches[l], for l in range(L-1) i.e l = 0...L-2)
                the cache of linear_activation_forward() with "sigmoid" (it's caches[L-1])
    
    Returns:
    grads -- A dictionary with the gradients
             grads["dA" + str(l)] = ... 
             grads["dW" + str(l)] = ...
             grads["db" + str(l)] = ... 
    """
    grads = {}
    L = len(caches) # the number of layers
    m = AL.shape[1]
    Y = Y.reshape(AL.shape) # after this line, Y is the same shape as AL
    
    # Initializing the backpropagation
    dAL = -(np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))
    
    # Lth layer (SIGMOID -> LINEAR) gradients. Inputs: "AL, Y, caches". Outputs: "grads["dAL"], grads["dWL"], grads["dbL"]
    current_cache = caches[L - 1]
    grads["dA" + str(L)], grads["dW" + str(L)], grads["db" + str(L)] = linear_activation_backward(dAL, current_cache, activation="sigmoid")
    
    for i in reversed(range(L-1)):
        # lth layer: (RELU -> LINEAR) gradients.
        # Inputs: "grads["dA" + str(l + 2)], caches". Outputs: "grads["dA" + str(l + 1)] , grads["dW" + str(l + 1)] , grads["db" + str(l + 1)] 
        current_cache = caches[i]
        dA_prev_temp, dW_temp, db_temp = linear_activation_backward(grads["dA" + str(i + 2)], current_cache, activation="relu")
        grads["dA" + str(i + 1)] = dA_prev_temp
        grads["dW" + str(i + 1)] = dW_temp
        grads["db" + str(i + 1)] = db_temp

    return grads

In [35]:
AL, Y_assess, caches = L_model_backward_test_case()
grads = L_model_backward(AL, Y_assess, caches)
print_grads(grads)

dW1 = [[0.41010002 0.07807203 0.13798444 0.10502167]
 [0.         0.         0.         0.        ]
 [0.05283652 0.01005865 0.01777766 0.0135308 ]]
db1 = [[-0.22007063]
 [ 0.        ]
 [-0.02835349]]
dA1 = [[ 0.          0.52257901]
 [ 0.         -0.3269206 ]
 [ 0.         -0.32070404]
 [ 0.         -0.74079187]]


**Expected Output**

<table style="width:60%">
  
  <tr>
    <td > dW1 </td> 
           <td > [[ 0.41010002  0.07807203  0.13798444  0.10502167]
 [ 0.          0.          0.          0.        ]
 [ 0.05283652  0.01005865  0.01777766  0.0135308 ]] </td> 
  </tr> 
    <tr>
    <td > db1 </td> 
           <td > [[-0.22007063]
 [ 0.        ]
 [-0.02835349]] </td> 
  </tr> 
  <tr>
  <td > dA1 </td> 
           <td > [[ 0.12913162 -0.44014127]
 [-0.14175655  0.48317296]
 [ 0.01663708 -0.05670698]] </td> 

  </tr> 
</table>



### 6.4 - 매개변수 업데이트 

이번 파트에서는 경사하강법을 사용해 모델의 매개변수를 업데이트 할겁니다.

$$ W^{[l]} = W^{[l]} - \alpha \text{ } dW^{[l]} \tag{16}$$
$$ b^{[l]} = b^{[l]} - \alpha \text{ } db^{[l]} \tag{17}$$

* $\alpha$는 학습률입니다. 
* 매개변수를 업데이트 한 후 dictionary에 매개변수를 저장합니다.


**Exercise**: 경사하강법을 통해 매개변수를 업데이트 하기위해`update_parameters()`를 수행합니다

**Instructions**:
경사하강법으로 매개변수 업데이트는 모든 순간에 사용합니다. $W^{[l]}$ and $b^{[l]}$ for $l = 1, 2, ..., L$. 


In [36]:
# GRADED FUNCTION: update_parameters

def update_parameters(parameters, grads, learning_rate):
    """
    Update parameters using gradient descent
    
    Arguments:
    parameters -- python dictionary containing your parameters 
    grads -- python dictionary containing your gradients, output of L_model_backward
    
    Returns:
    parameters -- python dictionary containing your updated parameters 
                  parameters["W" + str(l)] = ... 
                  parameters["b" + str(l)] = ...
    """
    
    L = len(parameters) // 2 # number of layers in the neural network

    # Update rule for each parameter. Use a for loop.
    for i in range(1, L + 1):
        parameters["W" + str(i)] -= learning_rate * grads["dW" + str(i)]
        parameters["b" + str(i)] -= learning_rate * grads["db" + str(i)]
    return parameters

In [37]:
parameters, grads = update_parameters_test_case()
parameters = update_parameters(parameters, grads, 0.1)

print ("W1 = "+ str(parameters["W1"]))
print ("b1 = "+ str(parameters["b1"]))
print ("W2 = "+ str(parameters["W2"]))
print ("b2 = "+ str(parameters["b2"]))

W1 = [[-0.59562069 -0.09991781 -2.14584584  1.82662008]
 [-1.76569676 -0.80627147  0.51115557 -1.18258802]
 [-1.0535704  -0.86128581  0.68284052  2.20374577]]
b1 = [[-0.04659241]
 [-1.28888275]
 [ 0.53405496]]
W2 = [[-0.55569196  0.0354055   1.32964895]]
b2 = [[-0.84610769]]


**Expected Output**:

<table style="width:100%"> 
    <tr>
    <td > W1 </td> 
       <td > [[-0.59562069 -0.09991781 -2.14584584  1.82662008]
             [-1.76569676 -0.80627147  0.51115557 -1.18258802]
             [-1.0535704  -0.86128581  0.68284052  2.20374577]] 
        </td> 
  </tr> 
  <tr>
    <td > b1 </td> 
        <td > [[-0.04659241]
               [-1.28888275]
               [ 0.53405496]] 
        </td> 
  </tr> 
  <tr>
    <td > W2 </td> 
           <td > [[-0.55569196  0.0354055   1.32964895]]</td> 
  </tr> 
    <tr>
    <td > b2 </td> 
           <td > [[-0.84610769]] </td> 
  </tr> 
</table>



## 7 - 끝

심층 신경망을 구현하기 위한 기능을 모두 수행했습니다!!

다음 과제에서는 오늘 다룬 기능을 사용해 2개 모델을 만들겁니다:
- 2층 신경망
- L층 신경망