# Gradient Checking

Вы являетесь частью команды, работающей над тем, чтобы сделать мобильные платежи доступными по всему миру, и вас просят построить модель глубокого обучения для обнаружения мошенничества-всякий раз, когда кто-то делает платеж, вы хотите увидеть, может ли платеж быть мошенническим, например, если учетная запись пользователя была захвачена хакером.

Но обратное распространение довольно сложно реализовать, и иногда у него есть ошибки. Поскольку это критически важное приложение, генеральный директор вашей компании хочет быть действительно уверен, что ваша реализация обратного распространения является правильной. Ваш генеральный директор говорит: "Дайте мне доказательство того, что ваше обратное распространение действительно работает!"Чтобы дать это заверение, вы собираетесь использовать "проверку градиента".

Давайте сделаем это!


In [1]:
import numpy as np
from testCases_v3(reg_check) import *
from gc_utils import sigmoid, relu, dictionary_to_vector, vector_to_dictionary, gradients_to_vector

SyntaxError: invalid syntax (<ipython-input-1-33b9c1e71fe1>, line 2)

## How does gradient checking work?

Обратное распространение вычисляет градиенты $\frac {\partial J}{\partial \theta}$, где $\theta$ обозначает параметры модели. $J$ вычисляется с использованием прямого распространения и вашей функции потерь.

Поскольку прямое распространение относительно легко реализовать, вы уверены, что сделали это правильно, и поэтому вы почти на 100% уверены, что правильно вычисляете стоимость $J$. Таким образом, вы можете использовать ваш код для вычисления $J$ для проверки кода для вычисления $\frac{\partial J}{\partial \theta}$. 

Давайте вернемся к определению производной (или градиента):
$$ \frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon} \tag{1}$$

Если вы не знакомы с этим "$\displaystyle \lim_{\varepsilon \to 0}$ "нотация, это просто способ сказать: "когда $\varepsilon$ действительно очень мал."

Мы знаем следующее:

- $\frac{\partial J}{\partial \theta}$ это то, что вы хотите, чтобы убедиться, что вы вычисляете правильно.
- Вы можете вычислить $J(\theta + \varepsilon)$ и $J(\theta - \varepsilon)$ (в случае, если $\theta$ это реальная цифра), поскольку вы уверены, что ваши реализации за $J$ является правильным.

Давайте используем уравнение (1) и небольшое значение для $\varepsilon$, чтобы убедить вашего генерального директора в том, что ваш код для вычислений $\frac{\partial J}{\partial \theta}$ правелен!

##  1-dimensional gradient checking

Рассмотрим 1D линейную функцию $J (\theta) = \theta x$. Модель содержит только один вещественный параметр $\theta$ и принимает $x$ в качестве входных данных.

Вы реализуете код для вычисления $J(.)$ и ее производной$\frac{\partial J}{\partial \theta}$ Затем вы будете использовать проверку градиента, чтобы убедиться, что ваше производное вычисление для $J$ правильно.

<img src="https://user-images.githubusercontent.com/54672403/84299844-1242de80-ab5a-11ea-815f-b075cc8d4742.png" style="width:600px;height:250px;">
<caption><center> **1D linear model**<br> </center></caption>

На приведенной выше диаграмме показаны основные шаги вычисления: сначала начните с $x$, а затем оцените функцию $J(x)$ ("прямое распространение"). Затем вычислите производную $\frac {\partial J}{\partial \theta}$ ("обратное распространение").

**Упражнение**: реализуйте "прямое распространение" и "обратное распространение" для этой простой функции. То есть, вычислите оба $J(.)$ ("прямое распространение") и его производную по отношению к $\theta$ ("обратное распространение"), в двух отдельных функциях.

In [2]:
def forward_propagation(x, theta):
    """
    Реализуйте линейное прямое распространение (compute J) представлен на Figure 1 (J(theta) = theta * x)
    
    x - реальный входной сигнал
    theta - наш параметр, а также вещественное число
    
    returns: J - значение функции J, вычисленное по формуле J(theta) = theta * x
    """
    J = theta * x
    return J

In [3]:
x, theta = 2, 4
J = forward_propagation(x, theta)
print ("J = ", J)

J =  8


**Упражнение**: теперь выполните шаг обратного распространения (производное вычисление) рисунка 1. То есть вычислите производную от $J (\theta) = \theta x$ по отношению к $\theta$. Чтобы избавить вас от выполнения вычислений, вы должны получить $dtheta = \frac {\partial J }{ \partial \theta} = x$.

In [4]:
def backward_propagation(x, theta):
    """
    Вычисляет производную от J относительно theta (Figure 1).
    
    x - реальный входной сигнал
    theta - наш параметр, а также вещественное число
    
    returns: dtheta - градиент стоимости по отношению к theta
    """
    dtheta = x
    return dtheta

In [5]:
x, theta = 2, 4
dtheta = backward_propagation(x, theta)
print ("dtheta = " + str(dtheta))

dtheta = 2


**Упражнение**: чтобы показать, что функция `backward_propagation()` правильно вычисляет градиент $\frac{\partial J}{\partial \theta}$, давайте реализуем проверку градиента.

**Инструкции**:
- Сначала вычислите "gradapprox", используя формулу выше (1) и небольшое значение $\varepsilon$. Вот шаги, которые необходимо выполнить:
    1. $\theta^{+} = \theta + \varepsilon$
    2. $\theta^{-} = \theta - \varepsilon$
    3. $J^{+} = J(\theta^{+})$
    4. $J^{-} = J(\theta^{-})$
    5. $gradapprox = \frac{J^{+} - J^{-}}{2  \varepsilon}$
- Затем вычислите градиент, используя обратное распространение, и сохраните результат в переменной "grad"
- Наконец, вычислите относительную разницу между "gradapprox" и "grad", используя следующую формулу:
$$ difference = \frac {\mid\mid grad - gradapprox \mid\mid_2}{\mid\mid grad \mid\mid_2 + \mid\mid gradapprox \mid\mid_2} \tag{2}$$
Вам понадобится 3 шага, чтобы вычислить эту формулу:
    - 1'. вычислите числитель, используяnp.linalg.norm(...)
    - 2'. вычислите знаменатель. Вам нужно будет вызвать np.linalg.norm(...) дважды.
    - 3'. разделите их.
- Если эта разница невелика (скажем, меньше $10^{-7}$), вы можете быть вполне уверены, что правильно рассчитали свой градиент. В противном случае, возможно, будет допущена ошибка в вычислении градиента.

In [6]:
def gradient_check(x, theta, epsilon = 1e-7):
    """
    Обратное распространение, представленное на рисунке 1.

    x - реальный входной сигнал
    theta - наш параметр, а также вещественное число
    epsilon - крошечный сдвиг на вход для вычисления аппроксимированного градиента формулой(1)
    
    returns: difference -разница (2) между аппроксимированным градиентом и обратным градиентом распространения
    """
    
    # Вычислите gradapprox, используя левую часть Формулы (1).
    ## Эпсилон достаточно мал, вам не нужно беспокоиться о пределе.
    thetaplus = theta + epsilon                               # Step 1
    thetaminus = theta - epsilon                              # Step 2
    J_plus = forward_propagation(x, thetaplus)                # Step 3
    J_minus = forward_propagation(x, thetaminus)              # Step 4
    gradapprox = (J_plus - J_minus) / (2 * epsilon)           # Step 5
    
    # Проверьте, достаточно ли близко gradapprox находится к выходу backward_propagation()
    grad = backward_propagation(x, theta)

    ## approx
    numerator = np.linalg.norm(grad - gradapprox)                  # Step 1'
    denominator = np.linalg.norm(grad) + np.linalg.norm(gradapprox)# Step 2'
    difference = numerator / denominator                           # Step 3'
    
    if difference < 1e-7:
        print ("The gradient is correct!")
    else:
        print ("The gradient is wrong!")
    return difference

In [7]:
x, theta = 2, 4
difference = gradient_check(x, theta)
print("difference = ", difference)

The gradient is correct!
difference =  2.919335883291695e-10


Поздравляю, разница меньше, чем порог $10^{-7}$. Таким образом, у вас может быть высокая уверенность в том, что вы правильно вычислили градиент в `backward_propagation()`.

Теперь, в более общем случае, ваша функция затрат $J$ имеет более одного входа 1D. Когда вы тренируете нейронную сеть, $\theta$ на самом деле состоит из нескольких матриц $W^{[l]}$ и смещений $b^{[l]}$! Важно знать, как выполнить проверку градиента с помощью более объемных входных данных. Давайте сделаем это!

##  N-dimensional gradient checking

На следующем рисунке описывается прямое и обратное распространение вашей модели обнаружения мошенничества.

<img src="https://user-images.githubusercontent.com/54672403/84302593-3a344100-ab5e-11ea-9737-d218370297d0.png" style="width:600px;height:400px;">
<caption><center> <u> **Figure 2** </u>: **deep neural network**<br>*LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SIGMOID*</center></caption>

Давайте рассмотрим ваши реализации для прямого распространения и обратного распространения.

In [8]:
def forward_propagation_n(X, Y, parameters):
    """
    Реализует прямое распространение (и вычисляет стоимость), представленное на рисунке 2.
     LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SIGMOID
   
    X -- обучающий набор для m примеров
    Y -- метки классов для примеров м
    parameters -- (dict) содержащий параметры "W1", "b1", "W2", "b2", "W3", "b3":
                    W1 -- weight matrix shape (5, 4)
                    b1 -- bias vector   shape (5, 1)
                    W2 -- weight matrix shape (3, 5)
                    b2 -- bias vector   shape (3, 1)
                    W3 -- weight matrix shape (1, 3)
                    b3 -- bias vector   shape (1, 1)
    
    Returns:
    cost -- the cost function (logistic cost for one example)
    """
    
    # retrieve parameters
    m = X.shape[1]
    W1 = parameters["W1"]
    b1 = parameters["b1"]
    W2 = parameters["W2"]
    b2 = parameters["b2"]
    W3 = parameters["W3"]
    b3 = parameters["b3"]

    # LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SIGMOID
    Z1 = np.dot(W1, X) + b1
    A1 = relu(Z1)
    Z2 = np.dot(W2, A1) + b2
    A2 = relu(Z2)
    Z3 = np.dot(W3, A2) + b3
    A3 = sigmoid(Z3)
    
    # Cost
    logprobs = np.multiply(-np.log(A3),Y) + np.multiply(-np.log(1 - A3), 1 - Y)
    cost = 1./m * np.sum(logprobs)
    
    cache = (Z1, A1, W1, b1, Z2, A2, W2, b2, Z3, A3, W3, b3)
    return cost, cache

А теперь обратное распространение.

In [25]:
def backward_propagation_n(X, Y, cache):
    """
    Реализуйте обратное распространение, представленное на рисунке 2.

    X -- входные данные, shape (input size, 1)
    Y -- метки классов
    cache -- вывод кэша из forward_propagation_n()
    
    returns: gradients (dict)  градиенты стоимости по каждому параметру, активационным и предактивационным переменным.
    """
    
    m = X.shape[1]
    (Z1, A1, W1, b1, Z2, A2, W2, b2, Z3, A3, W3, b3) = cache
    
    dZ3 = A3 - Y
    dW3 = 1./m * np.dot(dZ3, A2.T)
    db3 = 1./m * np.sum(dZ3, axis=1, keepdims = True)
    
    dA2 = np.dot(W3.T, dZ3)
    dZ2 = np.multiply(dA2, np.int64(A2 > 0))
    dW2 = 1./m * np.dot(dZ2, A1.T)*2
    db2 = 1./m * np.sum(dZ2, axis=1, keepdims = True)
    
    dA1 = np.dot(W2.T, dZ2)
    dZ1 = np.multiply(dA1, np.int64(A1 > 0))
    dW1 = 1./m * np.dot(dZ1, X.T)
    db1 = 4./m * np.sum(dZ1, axis=1, keepdims = True)
    
    gradients = {"dZ3": dZ3, "dW3": dW3, "db3": db3,
                 "dA2": dA2, "dZ2": dZ2, "dW2": dW2, "db2": db2,
                 "dA1": dA1, "dZ1": dZ1, "dW1": dW1, "db1": db1}
    return gradients


__Осторожно, решение!!!__
<font color='E3E3E3'>
dW2 = 1. / m * np.dot(dZ2, A1.T) * 2  # Should not multiply by 2<br>
db1 = 4. / m * np.sum(dZ1, axis=1, keepdims=True) # Should not multiply by 4

    

Вы получили некоторые результаты на тестовом наборе обнаружения мошенничества, но вы не уверены на 100% в своей модели. Никто не совершенен! Давайте внедрим проверку градиентов, чтобы проверить, правильны ли ваши градиенты.

**How does gradient checking work?**.

Как и в 1) и 2), вы хотите сравнить "gradapprox" с градиентом, вычисленным обратным распространением. Формула остается прежней:
$$ \frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon} \tag{1}$$

Однако $\theta$ больше не является скаляром. Это словарь под названием  "parameters". Мы реализовали для вас функцию "`dictionary_to_vector ()`". Он преобразует словарь  "parameters" в Вектор под названием "values", полученный путем преобразования всех параметров (W1, b1, W2, b2, W3, b3) в векторы и их объединения.

Обратная функция - это "vector_to_dictionary", который выводит обратно данные в словарь "parameters"

<img src="https://user-images.githubusercontent.com/54672403/84303652-035f2a80-ab60-11ea-96e6-2e3e1695c501.png" style="width:600px;height:400px;">
<caption><center> <u> **Figure 2** </u>: **dictionary_to_vector() и vector_to_dictionary()**<br>Вам понадобятся эти функции в gradient_check_n()</center></caption>

Мы также преобразовали словарь "gradients "в вектор "grad" с помощью функции gradients_to_vector(). Вам не нужно беспокоиться об этом.

**Упражнение**: реализация функции gradient_check_n ().

**Инструкции**: вот псевдокод, который поможет вам реализовать проверку градиента.

For each i in num_parameters:
- To compute `J_plus[i]`:
    1. Set $\theta^{+}$ to `np.copy(parameters_values)`
    2. Set $\theta^{+}_i$ to $\theta^{+}_i + \varepsilon$
    3. Calculate $J^{+}_i$ using to `forward_propagation_n(x, y, vector_to_dictionary(`$\theta^{+}$ `))`.     
- To compute `J_minus[i]`: do the same thing with $\theta^{-}$
- Compute $gradapprox[i] = \frac{J^{+}_i - J^{-}_i}{2 \varepsilon}$

Таким образом, вы получаете вектор gradapprox, где gradapprox[i] - это аппроксимация градиента относительно `parameter_values[i]`. Теперь вы можете сравнить этот вектор gradapprox с вектором градиентов из обратного распространения. Так же, как и для случая 1D (шаги 1', 2', 3'), вычислить:

$$ difference = \frac {\| grad - gradapprox \|_2}{\| grad \|_2 + \| gradapprox \|_2 } \tag{3}$$

In [23]:
def gradient_check_n(parameters, gradients, X, Y, epsilon = 1e-7):
    """
    Проверяет, правильно ли backward_propagation_n вычисляет градиент выходных данных затрат по forward_propagation_n
    parameters -- (dict) содержащий параметры "W1", "b1", "W2", "b2", "W3", "b3":
    grad -- вывод backward_propagation_n, содержит градиенты стоимости по отношению к параметрам.
    X -- входные данные, shape (input size, 1)
    Y -- метки классов
    epsilon -- крошечный сдвиг на вход для вычисления аппроксимированного градиента с помощью formula(1)
    
    returns: difference -разница (2) между аппроксимированным градиентом и обратным градиентом распространения
    """
    # Настройка переменных
    parameters_values, _ = dictionary_to_vector(parameters)
    #print("parameters_values:", parameters_values)
    grad = gradients_to_vector(gradients)
    #print("grad:", grad)
    num_parameters = parameters_values.shape[0]
    J_plus = np.zeros((num_parameters, 1))
    J_minus = np.zeros((num_parameters, 1))
    gradapprox = np.zeros((num_parameters, 1))
    
    ## gradapprox
    for i in range(num_parameters):
        '''
        J_plus[i]
         Inputs: "parameters_values, epsilon".
         Output = "J_plus[i]".
        '''
        thetaplus = np.copy(parameters_values)                              # Step 1
        thetaplus[i][0] = thetaplus[i][0] + epsilon                         # Step 2
        J_plus[i], _ = forward_propagation_n(X, Y, vector_to_dictionary(thetaplus))# Step 3
        '''
        J_minus[i]
          Inputs: "parameters_values, epsilon".
          Output = "J_minus[i]".
        '''
        thetaminus = np.copy(parameters_values)                                     # Step 1
        thetaminus[i][0] = thetaminus[i][0] - epsilon                               # Step 2        
        J_minus[i], _ = forward_propagation_n(X, Y, vector_to_dictionary(thetaminus))# Step 3

        ## gradapprox[i]
        gradapprox[i] = (J_plus[i] - J_minus[i]) / (2 * epsilon)
    
    # Сравните gradapprox с обратными градиентами распространения, вычисляя разницу
    numerator = np.linalg.norm(grad - gradapprox)                       # Step 1'
    denominator = np.linalg.norm(grad) + np.linalg.norm(gradapprox)     # Step 2'
    difference = numerator / denominator                                # Step 3'

    if difference > 1.2e-7:
        print ("\033[93m" + "Есть ошибка в обратном распространении! difference = " + str(difference) + "\033[0m")
    else:
        print ("\033[92m" + "Ваше обратное распространение работает совершенно нормально! difference = " + str(difference) + "\033[0m")
    
    return difference

In [24]:
X, Y, parameters = gradient_check_n_test_case()

cost, cache = forward_propagation_n(X, Y, parameters)
gradients = backward_propagation_n(X, Y, cache)
difference = gradient_check_n(parameters, gradients, X, Y)

[92mВаше обратное распространение работает совершенно нормально! difference = 1.1890913023330276e-07[0m


Похоже, что в коде backward_propagation_n, который мы вам дали, были ошибки! Хорошо, что вы реализовали проверку градиента. Вернитесь к `backward_propagation` и попробуйте найти / исправить ошибки *(подсказка: проверьте dW2 и db1)*. Повторите проверку градиента, когда вы думаете, что исправили его.

Можете ли вы получить проверку градиента, чтобы объявить ваше производное вычисление правильным? 


**Записка**
- Проверка градиента идет медленно! Аппроксимации градиента с  $\frac{\partial J}{\partial \theta} \approx  \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon}$ является вычислительно затратным. По этой причине мы не выполняем проверку градиента на каждой итерации во время обучения.Нужно время, чтобы проверить, правилен ли градиент.
- Проверка градиента, по крайней мере, как мы ее представили, не работает с dropout. Обычно вы запускаете алгоритм проверки градиента без отсева, чтобы убедиться, что ваш backprop верен, а затем добавляете отсев.

Поздравляю, вы можете быть уверены, что ваша модель глубокого обучения для обнаружения мошенничества работает правильно! Вы даже можете использовать это, чтобы убедить своего генерального директора. :)

<font color='blue'>
**Что вы должны помнить из этой тетради**:
- Проверка градиента проверяет близость между градиентами от обратного распространения и численной аппроксимацией градиента (вычисленной с использованием прямого распространения).
- Проверка градиента выполняется медленно, поэтому мы не запускаем его в каждой итерации обучения. Обычно вы запускаете его только для того, чтобы убедиться, что ваш код верен, а затем выключаете его и используете backprop для реального процесса обучения.