# Создание Глубокой нейронной сети: Шаг за шагом

В рамках данной лабораторной работы необходимо будет создать модель на основе глубокой нейронной сети с любым количеством слоев.

- В данном notebook, необходимо будет реализовать все функции необходимые для построения глубокой нейронной сети.

**В рамках данной лабораторной работы будут приобретены следующие навыки:**
- Использование нелинейной функции активации ReLU для улучшения модели
- Построение глубокой нейронной сети с более чем 1 скрытым слоем
- Реализация простых нейронных сетей

**Нотации**:
- Надстрочный $[l]$ обозначает число, связанное с $l^{th}$ слоем. 
    - Например: $a^{[L]}$ это результат вычисления функции активации  $L^{th}$ слоя. $W^{[L]}$ и $b^{[L]}$ являются параметрами $L^{th}$ слоя.
- Надстрочный $(i)$ обозначает число, связанное $i^{th}$ примером. 
    - Например: $x^{(i)}$ это $i^{th}$ обучающий пример.
- Подстрочный $i$ обозначает $i^{th}$ нейрон.
    - Например: $a^{[l]}_i$ обозначает $i^{th}$ положение нейрона в  $l^{th}$ слое активации.

`Данный материал опирается и использует материалы курса Deep Learning от организации deeplearning.ai`
 
 Ссылка на осной курс (для желающих получить сертификаты): https://www.coursera.org/specializations/deep-learning

## 1 - Пакеты/Библиотеки ##

Первоначально необходимо запустить ячейку ниже, чтобы импортировать все пакеты, которые вам понадобятся во время лабораторной работы.
- [numpy](www.numpy.org) является основным пакетом для научных вычислений в Python.
- [matplotlib](http://matplotlib.org) это пакет для отрисовки графиков в Python.
- dnn_utils, testCases дополнительные функции для данного notebook.

In [None]:
import numpy as np
import h5py
import matplotlib.pyplot as plt
from testCases import *
from dnn_utils import sigmoid, sigmoid_backward, relu, relu_backward

%matplotlib inline
plt.rcParams['figure.figsize'] = (5.0, 4.0)
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

np.random.seed(1)

## 2 - Общий план лабораторной работы

Чтобы построить нейронную сеть, необходимо реализовать несколько "вспомогательных функций". Эти вспомогательные функции будут использованы в следующем задании для построения двухслойной нейронной сети и L-слойной нейронной сети. Вот в общих чертах это задание:

- Инициализация параметров для двух-слойной и $L$-слойной нейронной сети.
- Реализация модуля прямого распространения.
     - Выполните линейную часть шага прямого распространения слоя (в результате получите $Z^{[l]}$).
     - Используйте функцию активации (relu/sigmoid).
     - Комбинируйте предыдущие два шага в новый [LINEAR->ACTIVATION] прямого распространения.
     - Набор [LINEAR->RELU] для L-1 слоев и [LINEAR->SIGMOID] в конце нейронной сети (для конечного слоя $L$).
- Вычисление потерь.
- Реализация модуля обратного распространения.
    - Реализуйте линейную часть для обратного распространения.
    - Вычислите градиент функции активации (relu_backward/sigmoid_backward) 
    - Объедините предыдущие два шага в новую функцию [LINEAR->ACTIVATION].
    - Набор [LINEAR->RELU] для L-1 слоев и добавьте [LINEAR->SIGMOID] в функции L_model_backward
- Обновите параметры.

<img src="images/final outline.png" style="width:800px;height:500px;">
<caption><center> **Рисунок 1**</center></caption><br>


**Заметка** Для каждой функции вычисляющей прямое распространение существует соответствующая функция вычисляющая обратное распространение. Именно поэтому на каждом шаге forward модуля необходимо будет хранить некоторые значения в кэше. Кэшированные значения полезны для вычисления градиентов. В модуле обратного распространения необходимо будет использовать кэш для вычисления градиентов.

## 3 - Инициализация

Необходимо реализовать две вспомогательные функции, которые будут инициализировать параметры для модели. Первая функция будет использоваться для инициализации параметров двухслойной модели. Во втором случае этот процесс инициализации будет обобщен на $L$ слоёв.

### 3.1 - 2-layer Neural Network

**Упражнение**: Создайте и инициализируйте параметры 2-слойной нейронной сети.

**Инструкции**:
- Структура модели: *LINEAR -> RELU -> LINEAR -> SIGMOID*. 
- Используйте случайную инициализацию для матрицы весов. Используйте `np.random.randn(shape)*0.01` с корректным размером.
- Смещения инициализируйте в ноль. Используйте `np.zeros(shape)`.

In [None]:
# ОЦЕНИВАЕМОЕ: initialize_parameters

def initialize_parameters(n_x, n_h, n_y):
    """
    Argument:
    n_x -- размер входного слоя
    n_h -- размер скрытого слоя
    n_y -- размер выходного слоя
    
    Returns:
    parameters -- python словарь, содержащий параметры:
                    W1 -- матрица весов (n_h, n_x)
                    b1 -- вектор смещений (n_h, 1)
                    W2 -- матрица весов (n_y, n_h)
                    b2 -- вектор смещений (n_y, 1)
    """
    
    np.random.seed(1)
    
    ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 4 строки кода)
    W1 = None
    b1 = None
    W2 = None
    b2 = None
    ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    assert(W1.shape == (n_h, n_x))
    assert(b1.shape == (n_h, 1))
    assert(W2.shape == (n_y, n_h))
    assert(b2.shape == (n_y, 1))
    
    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2}
    
    return parameters    

In [None]:
parameters = initialize_parameters(3,2,1)
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

**Ожидаемый результат**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td> [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]] </td> 
  </tr>

  <tr>
    <td> **b1**</td>
    <td>[[ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2**</td>
    <td> [[ 0.01744812 -0.00761207]]</td>
  </tr>
  
  <tr>
    <td> **b2** </td>
    <td> [[ 0.]] </td> 
  </tr>
  
</table>

### 3.2 - L-слойнная Нейронная сеть

Инициализация для более глубокой L-слойной нейронной сети является более сложной, поскольку существует гораздо больше матриц весов  и векторов смещения. При выполнении операции `initialize_parameters_deep`, необходимо убедиться, что размеры каждого слоя совпадают. Напоминание о том, что $n^{[l]}$ количество нейроннов в слое $l$. Например если входной матрицы $X$ соответсвует $(12288, 209)$ (с $m=209$ примерами) тогда:

<table style="width:100%">
    <tr>
        <td>  </td> 
        <td>Shape of W</td> 
        <td>Shape of b</td> 
        <td>Activation</td>
        <td>Shape of Activation</td> 
    <tr> 
    <tr>
        <td> Layer 1 </td> 
        <td> $(n^{[1]},12288)$ </td> 
        <td> $(n^{[1]},1)$ </td> 
        <td> $Z^{[1]} = W^{[1]}  X + b^{[1]} $ </td> 
        <td> $(n^{[1]},209)$ </td> 
    <tr>
    <tr>
        <td> Layer 2 </td> 
        <td> $(n^{[2]}, n^{[1]})$  </td> 
        <td> $(n^{[2]},1)$ </td> 
        <td>$Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]}$ </td> 
        <td> $(n^{[2]}, 209)$ </td> 
    <tr>
    <tr>
        <td> $\vdots$ </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$</td> 
        <td> $\vdots$  </td> 
    <tr>
   <tr>
        <td> Layer L-1 </td> 
        <td> $(n^{[L-1]}, n^{[L-2]})$ </td> 
        <td> $(n^{[L-1]}, 1)$  </td> 
        <td>$Z^{[L-1]} =  W^{[L-1]} A^{[L-2]} + b^{[L-1]}$ </td> 
        <td> $(n^{[L-1]}, 209)$ </td> 
    <tr> 
   <tr>
        <td> Layer L </td> 
        <td> $(n^{[L]}, n^{[L-1]})$ </td> 
        <td> $(n^{[L]}, 1)$ </td>
        <td> $Z^{[L]} =  W^{[L]} A^{[L-1]} + b^{[L]}$</td>
        <td> $(n^{[L]}, 209)$  </td> 
    <tr>
</table>

Пример вычисления $W X + b$ в python: 

$$ WX + b = \begin{bmatrix}
    (ja + kd + lg) + s  & (jb + ke + lh) + s  & (jc + kf + li)+ s\\
    (ma + nd + og) + t & (mb + ne + oh) + t & (mc + nf + oi) + t\\
    (pa + qd + rg) + u & (pb + qe + rh) + u & (pc + qf + ri)+ u
\end{bmatrix}\tag{1}  $$

где $$ W = \begin{bmatrix}
    j  & k  & l\\
    m  & n & o \\
    p  & q & r 
\end{bmatrix}\;\;\; X = \begin{bmatrix}
    a  & b  & c\\
    d  & e & f \\
    g  & h & i 
\end{bmatrix} \;\;\; b =\begin{bmatrix}
    s  \\
    t  \\
    u
\end{bmatrix}\tag{2}$$

**Упражнение**: Реализовать инициалзацию параметров для L-слоёв нейронной сети. 

**Инструкции**:
- Структура нейронной сети *[LINEAR -> RELU] $ \times$ (L-1) -> LINEAR -> SIGMOID*.Т.е., каждые $L-1$ слоев используют ReLU функцию активации за которыми следует выходной слой с сигмоидной функцией активации.
- Используйте случайную инициализацию для матрицы весов. Используйте `np.random.randn(shape)*0.01` с корректным размером.
- Смещения инициализируйте в ноль. Используйте `np.zeros(shape)`.
- Необходимо хранить $n^{[l]}$, количество нейронов в каждом слое, в переменной `layer_dims`. Например, в предыдущей лабораторной работы `layer_dims = [2,4,1]`: Где два входных слоя, 4 скрытых и один выходной. `W1` имел размер (4,2), `b1` - (4,1), `W2` - (1,4) и `b2` - (1,1). Сейчас необходимо обобщить на $L$ слоёв! 
- Вот реализация для $L=1$ (однослойнная нейронная сеть).
```python
    if L == 1:
        parameters["W" + str(L)] = np.random.randn(layer_dims[1], layer_dims[0]) * 0.01
        parameters["b" + str(L)] = np.zeros((layer_dims[1], 1))
```

In [None]:
# ОЦЕНИВАЕМОЕ: initialize_parameters_deep

def initialize_parameters_deep(layer_dims):
    """
    Arguments:
    массив python (список), содержащий размеры каждого слоя в нашей сети 
    
    Returns:
    parameters -- python словарь, содержащий параметры "W1", "b1", ..., "WL", "bL":
                    Wl -- матрица весов (layer_dims[l], layer_dims[l-1])
                    bl -- вектор смещений (layer_dims[l], 1)
    """
    np.random.seed(3)
    parameters = {}
    L = len(layer_dims)

    for l in range(1, L):
        ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 2 строки кода)
        parameters['W' + str(l)] = None
        parameters['b' + str(l)] = None
        ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
        
        assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
        assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))
    return parameters

In [None]:
parameters = initialize_parameters_deep([5,4,3])
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

**Ожидаемый результат**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td>[[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]</td> 
  </tr>
  
  <tr>
    <td>**b1** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2** </td>
    <td>[[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]</td> 
  </tr>
  
  <tr>
    <td>**b2** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
</table>

## 4 - Модуль прямого распространения

### 4.1 -Линейное распространение
Now that you have initialized your parameters, you will do the forward propagation module. You will start by implementing some basic functions that you will use later when implementing the model. You will complete three functions in this order:
Теперь, когда параметры инициализированы, необходимо сделаете модуль прямого распространения. Реализацию необходимо начать с некоторых основных функций, которые будут использоваться позже при реализации модели в следующем порядке:

- LINEAR
- LINEAR -> ACTIVATION с ReLU или Sigmoid функцией активацией. 
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID

Линейное распространение (векторизованный по всем примерам) вычисляется по следующим уравнениям:

$$Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}\tag{3}$$

где $A^{[0]} = X$. 

**Упражнение**:Реализовать линейную часть прямого распространения.

**Напоминание**:
Математическое представление одного слоя $Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}$.

In [None]:
# ОЦЕНИВАЕМОЕ: linear_forward

def linear_forward(A, W, b):
    """
    Реализация линейной части прямого распросранения.
    
    Arguments:
    A -- активация с предыдущего слоя (или входные данные): (size of previous layer, number of examples)
    W -- матрица весов: numpy массив (size of current layer, size of previous layer)
    b -- вектор смещений, numpy массив (size of the current layer, 1)

    Returns:
    Z -- входные значения функции активации
    cache -- a python словарь, содержащий "A", "W" и "b" ; который хранит значения, 
            необходимые для эффективного вычисления обратного прохода
    """
    
    ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 1 line of code)
    Z = None
    ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    assert(Z.shape == (W.shape[0], A.shape[1]))
    cache = (A, W, b)
    
    return Z, cache

In [None]:
A, W, b = linear_forward_test_case()

Z, linear_cache = linear_forward(A, W, b)
print("Z = " + str(Z))

**Ожидаемый результат**:

<table style="width:50%">
  
  <tr>
    <td> **Z** </td>
    <td> [[3.1980455  7.85763489]] </td> 
  </tr>
  
</table>

### 4.2 - Функция активации результата прямого вычисления

В этой записной книжке используются две функции активации:

- **Sigmoid**: Математическая формула $\sigma(Z) = \sigma(W A + b) = \frac{1}{ 1 + e^{-(W A + b)}}$. В ноутбке уже импортирована функция `sigmoid`. Эта функция возвращает **два** параметра: результат работы функции активации "`A`" и "`cache`" который содержит "`Z`". Для использования данной функции необходимо вызвать код ниже: 
``` python
A, activation_cache = sigmoid(Z)
```

- **ReLU**: Математическая формула $A = RELU(Z) = max(0, Z)$.  В ноутбке уже импортирована функция `relu`. Эта функция возвращает **два** параметра: результат работы функции активации "`A`" и "`cache`" который содержит "`Z`". Для использования данной функции необходимо вызвать код ниже:
``` python
A, activation_cache = relu(Z)
```

Далее необходимо сгруппировать две функции (линейную и активационную) в одну функцию (LINEAR->ACTIVATION).

**Упражнение**: Реализуйте функцию *LINEAR->ACTIVATION* слоя. Математическая интерпретация: $A^{[l]} = g(Z^{[l]}) = g(W^{[l]}A^{[l-1]} +b^{[l]})$ где активация "g" может быть sigmoid() или relu(). Используйте linear_forward() и корректную функцию активации.

In [None]:
# ОЦЕНИВАЕМОЕ: linear_activation_forward

def linear_activation_forward(A_prev, W, b, activation):
    """
    Реализация функцию LINEAR->ACTIVATION слоя

    Arguments:
    A_prev -- активации предыдущего слоя (или входные данные): (size of previous layer, number of examples)
    W -- матрица весов: numpy массив (size of current layer, size of previous layer)
    b -- вектор смещений, numpy массив (size of the current layer, 1)
    activation -- функция активации: "sigmoid" или "relu"

    Returns:
    A -- результат вычисления функции активации
    cache -- python словарь, который содержит "linear_cache" и "activation_cache";
             хранится для эффективного вычисления обратного прохода
    """
    
    if activation == "sigmoid":
        # Вход: "A_prev, W, b". Выход: "A, activation_cache".
        ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 2 строки кода)
        Z, linear_cache = None
        A, activation_cache = None
        ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    elif activation == "relu":
        # Вход: "A_prev, W, b". Выход: "A, activation_cache".
        ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 2 строки кода)
        Z, linear_cache = None
        A, activation_cache = None
        ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    assert (A.shape == (W.shape[0], A_prev.shape[1]))
    cache = (linear_cache, activation_cache)

    return A, cache

In [None]:
A_prev, W, b = linear_activation_forward_test_case()

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "sigmoid")
print("Sigmoid: A = " + str(A))

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "relu")
print("ReLU: A = " + str(A))

**Ожидаемый результат**:
       
<table style="width:50%">
  <tr>
    <td> **With sigmoid: A ** </td>
    <td >[[0.96076066 0.99961336]]</td> 
  </tr>
  <tr>
    <td> **With ReLU: A ** </td>
    <td >[[3.1980455  7.85763489]]</td> 
  </tr>
</table>


### Модель с L-слоями 

Для удобства при реализации нейронной сети $L$ - слоя понадобится функция, которая повторяет предыдущую (`linear_activation_forward` с RELU) $L-1$ раз, а затем следует, что с одним `linear_activation_forward` с SIGMOID.

<img src="images/model_architecture_kiank.png" style="width:600px;height:300px;">
<caption><center> **Рисунок 2** : *[LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* модель</center></caption><br>

**Упражнение**: Реализуйте прямое распространение вышеуказанной модели.

**Instruction**: В приведенном ниже коде переменная `AL` будет обозначать $A^{[L]} = \sigma(Z^{[L]}) = \sigma(W^{[L]} A^{[L-1]} + b^{[L]})$. (Это иногда также называют `Yhat`, т.е., это $\hat{Y}$.) 

**Подсказка**:
- Используйте ранее написанные функции 
- Используйте цикл for для повторения [LINEAR->RELU] (L-1) раз
- Не забывайте добавлять кэш в список "caches". Чтобы добавить новое значение `c` к `list`, вы можете использовать `list.append(c)`.

In [None]:
# ОЦЕНИВАЕМОЕ: L_model_forward

def L_model_forward(X, parameters):
    """
    Реализация прямого распространения для модели [LINEAR->RELU]*(L-1)->LINEAR->SIGMOID
    
    Arguments:
    X -- данные, numpy массив (input size, number of examples)
    parameters -- выход функции initialize_parameters_deep()
    
    Returns:
    AL -- последнее значение функции активации
    caches -- список caches содержащих:
                cache из linear_relu_forward()
                cache из linear_sigmoid_forward()
    """

    caches = []
    A = X
    L = len(parameters) // 2 # количество слоёв в нейронной сети
    
    # Реализация [LINEAR -> RELU]*(L-1). Добавление "cache" к списку "caches".
    for l in range(1, L):
        A_prev = A 
        ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 2 строки кода)
        A, cache = None

        ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    # Реализация LINEAR -> SIGMOID. Добавление "cache" к списку "caches".
    ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 2 строки кода)
    AL, cache = None

    ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    assert(AL.shape == (1,X.shape[1]))
            
    return AL, caches

In [None]:
X, parameters = L_model_forward_test_case()
AL, caches = L_model_forward(X, parameters)
print("AL = " + str(AL))
print("Длина caches = " + str(len(caches)))

<table style="width:50%">
  <tr>
    <td> **AL** </td>
    <td >[[0.0844367  0.92356858]]</td> 
  </tr>
  <tr>
    <td> **Length of caches list** </td>
    <td >2</td> 
  </tr>
</table>

Реализован процесс прямого распространения, который принимает на вход X и и возвращет выход, как вектор $A^{[L]}$ содержащий предсказания. Используйте $A^{[L]}$, вы можете вычислить стоимость ваших прогнозов..

## 5 - Функция потерь

Далее необходимо осуществить прямое и обратное распространение. Вам нужно вычислить стоимость, потому что необходимо проверить, действительно ли модель обучается.

**Упражнение**: Реализуйте функцию потерь кросс-энтропии $J$, используя следующую функцию: $$-\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right)) \tag{4}$$


In [None]:
# ОЦЕНИВАЕМОЕ: compute_cost

def compute_cost(AL, Y):
    """
    Реализация функции потерь описанную в уравнении (4).

    Arguments:
    AL -- вектор вероятности, соответствующий предсказаниям (1, number of examples)
    Y -- метки (1, number of examples)

    Returns:
    cost -- результат вычисления функции потерь
    """
    
    m = Y.shape[1]

    ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 1 строки кода)
    cost = None
    ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    cost = np.squeeze(cost)
    assert(cost.shape == ())
    
    return cost

In [None]:
Y, AL = compute_cost_test_case()

print("cost = " + str(compute_cost(AL, Y)))

**Ожидаемый результат**:

<table>
    <tr>
        <td>**cost**</td>
        <td> 0.41493159961539694</td> 
    </tr>
</table>

## 6 -Модуль обратного распространения

Так же, как и при прямом распространении, необходимо реализовать вспомогательные функции для обратного распространения. Обратное распространение используется для вычисления градиента функции потерь по отношению к параметрам сети.

**Напоминание**: 
<img src="images/backprop_kiank.png" style="width:650px;height:250px;">
<caption><center> **Рисунок 3** : *LINEAR->RELU->LINEAR->SIGMOID* <br> *Фиолетовые блоки представляют прямое распространение, а красные блоки-обратное распространение.*  </center></caption>

<!-- 
For those of you who are expert in calculus (you don't need to be to do this assignment), the chain rule of calculus can be used to derive the derivative of the loss $\mathcal{L}$ with respect to $z^{[1]}$ in a 2-layer network as follows:

$$\frac{d \mathcal{L}(a^{[2]},y)}{{dz^{[1]}}} = \frac{d\mathcal{L}(a^{[2]},y)}{{da^{[2]}}}\frac{{da^{[2]}}}{{dz^{[2]}}}\frac{{dz^{[2]}}}{{da^{[1]}}}\frac{{da^{[1]}}}{{dz^{[1]}}} \tag{8} $$

In order to calculate the gradient $dW^{[1]} = \frac{\partial L}{\partial W^{[1]}}$, you use the previous chain rule and you do $dW^{[1]} = dz^{[1]} \times \frac{\partial z^{[1]} }{\partial W^{[1]}}$. During the backpropagation, at each step you multiply your current gradient by the gradient corresponding to the specific layer to get the gradient you wanted.

Equivalently, in order to calculate the gradient $db^{[1]} = \frac{\partial L}{\partial b^{[1]}}$, you use the previous chain rule and you do $db^{[1]} = dz^{[1]} \times \frac{\partial z^{[1]} }{\partial b^{[1]}}$.

This is why we talk about **backpropagation**.
!-->

Теперь, подобно прямому распространению, необходимо построить обратное распространение в три этапа:
- LINEAR backward
- LINEAR -> ACTIVATION backward где ACTIVATION вычисляется как производная по функции активации либо для ReLU, либо для sigmoid
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID backward

### 6.1 - Линейное обратное распространение

Для слоя $l$, линейная часть выглядит: $Z^{[l]} = W^{[l]} A^{[l-1]} + b^{[l]}$.

После вычисления производной $dZ^{[l]} = \frac{\partial \mathcal{L} }{\partial Z^{[l]}}$. Необходимо получить $(dW^{[l]}, db^{[l]} dA^{[l-1]})$.

<img src="images/linearback_kiank.png" style="width:250px;height:300px;">
<caption><center> **Рисунок 4** </center></caption>

Три выхода $(dW^{[l]}, db^{[l]}, dA^{[l]})$ вычисляются на основе входа $dZ^{[l]}$.Вот необходимые формулы:
$$ dW^{[l]} = \frac{\partial \mathcal{L} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T} \tag{5}$$
$$ db^{[l]} = \frac{\partial \mathcal{L} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}\tag{6}$$
$$ dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]} \tag{7}$$


**Упражнение**: Используя формулы выше реализуйте функцию linear_backward().

In [None]:
# ОЦЕНИВАЕМОЕ: linear_backward

def linear_backward(dZ, cache):
    """
    Реализовать линейную часть обратного распространения для одного слоя (слой l)

    Arguments:
    dZ -- градиент функции потерь по отношению к линейной функции на выходе (of current layer l)
    cache -- кортеж значений (A_prev, W, b) исходя из прямого распространения в текущем слое

    Returns:
    dA_prev -- градиент функции потерь по отношению к результату вычисления функции активации (of the previous layer l-1), тот же размер, что и A_prev
    dW -- градиент функции потерь по отношению к W (current layer l), тот же размер, что и W
    db -- градиент функции потерь по отношению к b (current layer l), тот же размер, что и b
    """
    A_prev, W, b = cache
    m = A_prev.shape[1]

    ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 3 строки кода)
    dW = None
    db = None
    dA_prev = None
    ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    assert (dA_prev.shape == A_prev.shape)
    assert (dW.shape == W.shape)
#     assert (db.shape == b.shape)
    
    return dA_prev, dW, db

In [None]:
dZ, linear_cache = linear_backward_test_case()

dA_prev, dW, db = linear_backward(dZ, linear_cache)
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

**Ожидаемый результат**: 

<table style="width:90%">
      <tr>
        <td> **dA_prev** </td>
        <td > [[ 2.38272385  5.85438014]
 [ 6.31969219 15.52755701]
 [-3.97876302 -9.77586689]] </td> 
      </tr> 
    <tr>
        <td> **dW** </td>
        <td > [[ 2.77870358 -0.05500058 -5.13144969]] </td> 
    </tr> 
    <tr>
        <td> **db** </td>
        <td> [[5.52784019]] </td> 
    </tr> 
</table>



### 6.2 - Линейная активация для обратного распространения

Далее необходимо создать функцию, которая объединяет две вспомогательные функции:
**`linear_backward`** и **`linear_activation_backward`**. 

Для реализации поможет функция `linear_activation_backward`, в ноутбуке загружено две функции, используемые для вычисления обратного распространения:
- **`sigmoid_backward`**: Реализует обратное распространение для SIGMOID:

```python
dZ = sigmoid_backward(dA, activation_cache)
```

- **`relu_backward`**: Реализует обратное распространение для RELU:

```python
dZ = relu_backward(dA, activation_cache)
```

If $g(.)$ функция активации, 
`sigmoid_backward` и `relu_backward` вычислите $$dZ^{[l]} = dA^{[l]} * g'(Z^{[l]}) \tag{11}$$.  

**Упражнение**: Реализовать обратное распространение для *LINEAR->ACTIVATION* слоя.

In [None]:
# ОЦЕНИВАЕМОЕ: linear_activation_backward

def linear_activation_backward(dA, cache, activation):
    """
    Implement the backward propagation for the LINEAR->ACTIVATION layer.
    
    Arguments:
    dA -- post-activation gradient for current layer l 
    cache -- tuple of values (linear_cache, activation_cache) we store for computing backward propagation efficiently
    activation -- the activation to be used in this layer, stored as a text string: "sigmoid" or "relu"
    
    Returns:
    dA_prev -- Gradient of the cost with respect to the activation (of the previous layer l-1), same shape as A_prev
    dW -- Gradient of the cost with respect to W (current layer l), same shape as W
    db -- Gradient of the cost with respect to b (current layer l), same shape as b
    """
    linear_cache, activation_cache = cache
    if activation == "relu":
        ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 2 строки кода)
        dZ = None
        dA_prev, dW, db = None
        ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
        
    elif activation == "sigmoid":
        ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 2 строки кода)
        dZ = None
        dA_prev, dW, db = None
        ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    return dA_prev, dW, db

In [None]:
AL, linear_activation_cache = linear_activation_backward_test_case()

dA_prev, dW, db = linear_activation_backward(AL, linear_activation_cache, activation = "sigmoid")
print ("sigmoid:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db) + "\n")

dA_prev, dW, db = linear_activation_backward(AL, linear_activation_cache, activation = "relu")
print ("relu:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

**Ожидаемый результат with sigmoid:**

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td >[[ 0.08982777  0.00226265]
 [ 0.23824996  0.00600122]
 [-0.14999783 -0.00377826]] </td> 

  </tr> 
  <tr>
    <td > dW </td> 
           <td > [[-0.06001514 -0.09687383 -0.10598695]] </td> 
  </tr> 
  <tr>
    <td > db </td> 
           <td > [[0.06180098]] </td> 
  </tr> 
</table>

**Ожидаемый результат with relu**

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td > [[ 2.38272385  5.85438014]
 [ 6.31969219 15.52755701]
 [-3.97876302 -9.77586689]] </td> 

  </tr> 
  <tr>
    <td > dW </td> 
           <td > [[ 2.77870358 -0.05500058 -5.13144969]] </td> 
  </tr> 
  <tr>
    <td > db </td> 
           <td > [[5.52784019]] </td> 
  </tr> 
</table>



### 6.3 - L-модель обратного распространения

Теперь необходимо реализовать обратную функцию для нейронной сети. Напомним, что при реализации функции `L_model_forward` на каждой итерации вы сохраняли cache, содержащий (X,W,b и z). В модуле обратного распространения используются эти переменные для вычисления градиентов. Поэтому в функции `L_model_backward` перебираются все скрытые слои в обратном порядке, начиная со слоя $L$. На каждом шаге необходимо использовать кэшированные значения для слоя $l$ для обратного распространения через слой $l$. На рисунке 5 ниже показан обратный проход.

<img src="images/mn_backward.png" style="width:450px;height:300px;">
<caption><center>  **Рисунок 5**  </center></caption>

**Инициализация параметров**:
Код должен вычислять `dAL` $= \frac{\partial \mathcal{L}}{\partial A^{[L]}}$.
Для этого используйте эту формулу:
```python
dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL)) # производная от функции потерь по отношению ко всем параметрам
```

Далее необходимо использовать градиент `dAL` для дальнейшего обратного движения по нейронной сети. Как изображено на Рисунке 5, параметр `dAL` передается в LINEAR->SIGMOID в функцию обратного распространения. После этого необходимо использовать цикл `for`  чтобы перебрать все остальные слои, используя LINEAR->RELU функцию. Вы должны хранить каждый из них dA, dW, и db в словаре градиентов. Для этого используется следующую формула: 

$$grads["dW" + str(l)] = dW^{[l]}\tag{15} $$

Например, для $l=3$ это будет хранить $dW^{[l]}$ в `grads["dW3"]`.

**Упражнение**: Реализуйте обратное распространение ошибки *[LINEAR->RELU] $\times$ (L-1) -> LINEAR -> SIGMOID*.

In [None]:
# ОЦЕНИВАЕМОЕ: L_model_backward

def L_model_backward(AL, Y, caches):
    """
    Реализация обратного распространения для [LINEAR->RELU] * (L-1) -> LINEAR -> SIGMOID
    
    Arguments:
    AL -- вектор вероятностей, выход прямого прохождения (L_model_forward())
    Y -- вектор меток
    caches -- список caches содержащий:
                cache из linear_activation_forward() с "relu"
                cache из linear_activation_forward() с "sigmoid"
    
    Returns:
    grads -- словарь градиентов
             grads["dA" + str(l)] = ... 
             grads["dW" + str(l)] = ...
             grads["db" + str(l)] = ... 
    """
    grads = {}
    L = len(caches) # количество слоёв
    m = AL.shape[1]
    Y = Y.reshape(AL.shape)
    
    ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (1 строка кода)
    dAL =  None
    ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    # L слой (SIGMOID -> LINEAR). Вход: "AL, Y, caches". Выход: "grads["dAL"], grads["dWL"], grads["dbL"]
    ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (approx. 2 lines)
    current_cache = None
    grads["dA" + str(L)], grads["dW" + str(L)], grads["db" + str(L)] = None
    ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
    
    for l in reversed(range(L-1)):
        # l-слой: (RELU -> LINEAR) градиенты.
        # Вход: "grads["dA" + str(l + 2)], caches". Выход: "grads["dA" + str(l + 1)] , grads["dW" + str(l + 1)] , grads["db" + str(l + 1)] 
        ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ###
        current_cache = None
        dA_prev_temp, dW_temp, db_temp = None
        grads["dA" + str(l + 1)] = None
        grads["dW" + str(l + 1)] = None
        grads["db" + str(l + 1)] = None
        ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###

    return grads

In [None]:
X_assess, Y_assess, AL, caches = L_model_backward_test_case()
grads = L_model_backward(AL, Y_assess, caches)
print ("dW1 = "+ str(grads["dW1"]))
print ("db1 = "+ str(grads["db1"]))
print ("dA1 = "+ str(grads["dA1"]))

**Ожидаемый результат**

<table style="width:80%">
  <tr>
    <td > dW1 </td> 
           <td > [[-0.09686122 -0.04840482 -0.11864308]] </td> 
  </tr> 
  <tr>
    <td > db1 </td> 
           <td > [[-0.262595]] </td> 
  </tr> 
  <tr>
  <td > dA1 </td> 
           <td > [[-0.71011462 -0.22925516]
 [-0.17330152 -0.05594909]
 [-0.03831107 -0.01236844]] </td> 

  </tr> 
</table>

### 6.4 - Обновление параметров

В части необходимо обновить параметры модели, используя градиентный спуск: 

$$ W^{[l]} = W^{[l]} - \alpha \text{ } dW^{[l]} \tag{16}$$
$$ b^{[l]} = b^{[l]} - \alpha \text{ } db^{[l]} \tag{17}$$

где $\alpha$ скорость градиентного спуска. После вычисления обновленных параметров сохраните их в словаре.

**Упражнение**: Реализуйте `update_parameters()` для обновления параметров с использованием градиентного спуска.

**Инструкции**:
Обновление параметров с помощью градиентного спуска для каждого $W^{[l]}$ и $b^{[l]}$ для всех слоёв $l = 1, 2, ..., L$. 


In [None]:
# ОЦЕНИВАЕМОЕ: update_parameters

def update_parameters(parameters, grads, learning_rate):
    """
    Обновление параметров с использованием градиентного спуска
    
    Arguments:
    parameters -- python словарь, содержащий параметры 
    grads -- python словарь содержащий градиенты, выход функции L_model_backward
    
    Returns:
    parameters -- python словарь, содержащий ваши обновленные параметры 
                  parameters["W" + str(l)] = ... 
                  parameters["b" + str(l)] = ...
    """
    
    L = len(parameters) // 2 # количество слоев в нейроной сети

    ### НАЧАЛО ВАШЕГО КОД ЗДЕСЬ ### (≈ 3 строки кода)
    for l in range(L):
        parameters["W" + str(l+1)] = None
        parameters["b" + str(l+1)] = None
    ### ОКОНЧАНИЕ ВАШЕГО КОД ЗДЕСЬ ###
        
    return parameters

In [None]:
parameters, grads = update_parameters_test_case()
parameters = update_parameters(parameters, grads, 0.1)

print ("W1 = "+ str(parameters["W1"]))
print ("b1 = "+ str(parameters["b1"]))
print ("W2 = "+ str(parameters["W2"]))
print ("b2 = "+ str(parameters["b2"]))

**Ожидаемый результат**:

<table style="width:100%"> 
   <tr>
    <td> W1 </td> 
    <td> [[ 1.72555789  0.3700272   0.07818896]
 [-1.8634927  -0.2773882  -0.35475898]
 [-0.08274148 -0.62700068 -0.04381817]
 [-0.47721803 -1.31386475  0.88462238]] </td> 
  </tr> 
  <tr>
    <td> b1 </td> 
    <td> [[-0.07593768]
 [-0.07593768]
 [-0.07593768]
 [-0.07593768]] </td> 
  </tr> 
  <tr>
    <td> W2 </td> 
    <td> [[ 0.71838378  1.70957306  0.05003364 -0.40467741]
 [-0.54535995 -1.54647732  0.98236743 -1.10106763]
 [-1.18504653 -0.2056499   1.48614836  0.23671627]]</td> 
  </tr> 
  <tr>
    <td> b2 </td> 
    <td> [[-0.08616376]
 [-0.08616376]
 [-0.08616376]] </td> 
  </tr> 
</table>


Используемый материал:
- Курс Deep Learning; https://www.coursera.org/specializations/deep-learning