In [99]:
# Ce TP est entiérement basé sur les  TPs du cours de deep learning  de Andrew NG sur Coursera

# Batir votre reseau de neurones profond: Pas à Pas

Vous construirez un réseau de neurones profonds, avec autant de couches que vous le souhaitez!
Dans ce notebook, vous implémenterez toutes les fonctions nécessaires à la création d’un réseau de neurones profonds.
Vous pourrez utiliser ces fonctions pour créer un réseau de neurones profonds pour la classification des images! 

**Objectifs spécifiques**:
- Utilisez des unités non linéaires comme ReLU pour améliorer votre modèle
- Construire un réseau de neurones plus profond (avec plus d'une couche cachée)
- Implémenter une classe de réseau neuronal facile à utiliser! 

**Notation**:
- L'exposant $[l]$ represente une quantité associée à la  $l^{ieme}$ couche. 
    - Exemple: $a^{[L]}$ est la fonction d'activation de la  $L^{ieme}$ couche. $W^{[L]}$ et $b^{[L]}$ sont les paramétres de la  $L^{ieme}$ couche.
-  L'exposant $(i)$ represente une quantité associée au $i^{ieme}$ exemple. 
    - Exemple: $x^{(i)}$ est le $i^{ieme}$ training exemple.
- L'indice $i$ represente l'$i^{ieme}$ element d'un vecteur.
    - Exemple: $a^{[l]}_i$ represente  l'$i^{ieme}$ element de la  $l^{ieme}$ couche d'activation.



## 1 - Packages

Importation des packages dont vous aurez besoin pour cet exercice. 
- [numpy](www.numpy.org) package pour le calcul scientifique sous python.
- [matplotlib](http://matplotlib.org) librairie pour créer des graphiques sous python.
- dnn_utils fournit quelques fonctions utlitaires.
- testCases fournit des cas de tests pour valider vos résultats
- np.random.seed(1) est utilisé pour maintenir la cohérence de tous les appels de fonction aléatoires.  S'il vous plaît ne changez pas le seed. 

In [45]:
import numpy as np
import h5py
import matplotlib.pyplot as plt
from testCases_v4 import *
from dnn_utils_v2 import sigmoid, sigmoid_backward, relu, relu_backward

%matplotlib inline
plt.rcParams['figure.figsize'] = (5.0, 4.0) # taille par defaut pour les graphiques
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

np.random.seed(1)

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## 2 - Grandes lignes du TP

Pour construire votre réseau de neurones, vous allez implémenter plusieurs fonctions utilitaires. Ces fonctions utilitaires seront utilisées pour construire un réseau de neurones à deux couches et un réseau de neurones à couche L. Chaque  fonction utilitaire que vous implémenterez aura des instructions détaillées qui vous guideront à travers les étapes nécessaires. Voici un aperçu du travail, vous allez:

- Initialiser les parametres pour un reseau de neuronesà deux couches et pour un réseau de neurones à $L$ couches.
- Implementer le module de forward propagation (en mauve dans la figure ci-dessous).
     - Completer la partie LINEAIRE de chaque couche pour l'étape de forward propagation (donnera $Z^{[l]}$).
     - Nous vous fournissons les fonctions d'ACTIVATION (relu/sigmoid) mais vous pouvez les écrire aussi.
     - Combiner les deux précédentes étapes en une nouvelle forward fontion [LINEAR->ACTIVATION].
     - Empilez L-1 fois les [LINEAR->RELU] forward fonction (pour les couches 1 à L-1) et ajouter à la fin une couche $L$ de type [LINEAR->SIGMOID]. Vous obtiendrez une nouvelle fonction  L_model_forward.
- Calculer le loss fonction.
- Implementer le module de backward propagation  (en rouge dans la figure ci-dessous).
    - Completer la partie LINEAIRE de chaque couche pour l'étape backward propagation.
    - Nous vous fournissons les gradients d'ACTIVATION (relu/sigmoid) mais vous pouvez les écrire aussi (relu_backward/sigmoid_backward) 
    - Combiner les deux précédentes étapes en une nouvelle backward fontion [LINEAR->ACTIVATION] .
    - Empiler L-1 fois les [LINEAR->RELU] backward fonction et ajouter un backward [LINEAR->SIGMOID]  dans une nouvelle fonction L_model_backward
- Mettre à jour les paramétres.

<img src="images/final outline.png" style="width:800px;height:500px;">
<caption><center> **Figure 1**</center></caption><br>


**Note** Pour chaque fonction forward, il existe une fonction backward correspondante. C'est pourquoi, à chaque étape de votre FORWARD module, vous stockerez certaines valeurs dans un cache. Les valeurs mises en cache sont utiles pour le calcul des gradients. Dans le BACKWARD module, vous utiliserez ensuite le cache pour calculer les gradients. 

## 3 - Initialisation

Vous allez écrire deux helper fonctions qui initialiseront les paramètres de votre modèle. La première fonction sera utilisée pour initialiser les paramètres d'un modèle à deux couches. Le second généralisera ce processus d’initialisation à un modéle à $ L $ couches .

### 3.1 - Reseau de neurones à deux couches

**Exercise**: Créez et initialisez les paramètres du réseau de neurones à 2 couches.

**Instructions**:
- La structure du modele est: *LINEAR -> RELU -> LINEAR -> SIGMOID*. 
- Utiliser une génération alétoire des poids. Utiliser `np.random.randn(shape)*0.01` avec les bonnes dimensions.
- initialiser les biais à zero. Use `np.zeros(shape)`.

In [66]:
#  initialize_parameters

def initialize_parameters(n_x, n_h, n_y):
    """
    Argument:
    n_x -- taille de la couche d'input
    n_h -- taille de la couche cachée
    n_y -- taille de la couche d'output
    
    Returns:
    parametres -- dictionnaire python contenant les paramétres:
                    W1 -- matrice des poids de dimensions (n_h, n_x)
                    b1 -- vecteur des biais de dimension (n_h, 1)
                    W2 -- matrice des poids de dimensions (n_y, n_h)
                    b2 -- vecteur des biais de dimension (n_y, 1)
    """
    
    np.random.seed(1)
    
    ### Initialiser les paramétres ### (≈ 4 lines of code)
    
    
    
    ### FIN  ###
    
    assert(W1.shape == (n_h, n_x))
    assert(b1.shape == (n_h, 1))
    assert(W2.shape == (n_y, n_h))
    assert(b2.shape == (n_y, 1))
    ### Commpleter le dictionnaire ### (≈ 4 lines of code)
    
        
    ### FIN ###
    return parameters    

In [67]:
parameters = initialize_parameters(3,2,1)
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]]
b1 = [[0.]
 [0.]]
W2 = [[ 0.01744812 -0.00761207]]
b2 = [[0.]]


**Expected output**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td> [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]] </td> 
  </tr>

  <tr>
    <td> **b1**</td>
    <td>[[ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2**</td>
    <td> [[ 0.01744812 -0.00761207]]</td>
  </tr>
  
  <tr>
    <td> **b2** </td>
    <td> [[ 0.]] </td> 
  </tr>
  
</table>

### 3.2 - Reseau de neurones à L-couche

L'initialisation d'un réseau de neurones à L couches est plus compliquée car il existe beaucoup plus de matrices de poids et de vecteurs de biais. Quand vous aurez complété `initialize_parameters_deep`, vous devez vous assurer que les dimmensions correspondent dans chaque couche. Souvenez vous que $n^{[l]}$ est le nombre d'unités dans la couche $l$. Par exemple si taille des input $X$ est $(12288, 209)$ (avec $m=209$ exemples) alors:

<table style="width:100%">


    <tr>
        <td>  </td> 
        <td> **Dimensions de W** </td> 
        <td> **Dimensions de b**  </td> 
        <td> **Activation** </td>
        <td> **Dimension Activation** </td> 
    <tr>
    
    <tr>
        <td> **Couche 1** </td> 
        <td> $(n^{[1]},12288)$ </td> 
        <td> $(n^{[1]},1)$ </td> 
        <td> $Z^{[1]} = W^{[1]}  X + b^{[1]} $ </td> 
        
        <td> $(n^{[1]},209)$ </td> 
    <tr>
    
    <tr>
        <td> **Couche 2** </td> 
        <td> $(n^{[2]}, n^{[1]})$  </td> 
        <td> $(n^{[2]},1)$ </td> 
        <td>$Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]}$ </td> 
        <td> $(n^{[2]}, 209)$ </td> 
    <tr>
   
       <tr>
        <td> $\vdots$ </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$</td> 
        <td> $\vdots$  </td> 
    <tr>
    
   <tr>
        <td> **Couche L-1** </td> 
        <td> $(n^{[L-1]}, n^{[L-2]})$ </td> 
        <td> $(n^{[L-1]}, 1)$  </td> 
        <td>$Z^{[L-1]} =  W^{[L-1]} A^{[L-2]} + b^{[L-1]}$ </td> 
        <td> $(n^{[L-1]}, 209)$ </td> 
    <tr>
    
    
   <tr>
        <td> **Couche L** </td> 
        <td> $(n^{[L]}, n^{[L-1]})$ </td> 
        <td> $(n^{[L]}, 1)$ </td>
        <td> $Z^{[L]} =  W^{[L]} A^{[L-1]} + b^{[L]}$</td>
        <td> $(n^{[L]}, 209)$  </td> 
    <tr>

</table>


**Broadcasting sous python**

Le caclcul de $W X + b$ sous python est simple grace au broadcasting. Par exemple, si: 

$$ W = \begin{bmatrix}
    j  & k  & l\\
    m  & n & o \\
    p  & q & r 
\end{bmatrix}\;\;\; X = \begin{bmatrix}
    a  & b  & c\\
    d  & e & f \\
    g  & h & i 
\end{bmatrix} \;\;\; b =\begin{bmatrix}
    s  \\
    t  \\
    u
\end{bmatrix}\tag{2}$$

Alors $WX + b$ sera:

$$ WX + b = \begin{bmatrix}
    (ja + kd + lg) + s  & (jb + ke + lh) + s  & (jc + kf + li)+ s\\
    (ma + nd + og) + t & (mb + ne + oh) + t & (mc + nf + oi) + t\\
    (pa + qd + rg) + u & (pb + qe + rh) + u & (pc + qf + ri)+ u
\end{bmatrix}\tag{3}  $$

**Exercise**: Implementer l'initialization d'un reseau de neurone à L-Couches. 

**Instructions**:
- La structure du  modéle est *[LINEAR -> RELU] $ \times$ (L-1) -> LINEAR -> SIGMOID*. I.e., il a  $L-1$ couches utilisant  ReLU comme fonction d'activation suivi par un sigmoid comme fonction d'activation dans la couche output.
- Initialiser aléatoirement la matrice des poids. Utiliser `np.random.randn(shape) * 0.01`.
- Initialiser les biais avec des zeros. Utiliser `np.zeros(shape)`.
- Vous stockerez $n^{[l]}$, le nombre d'unité dans les différentes couches, dans une variable `layer_dims`. Par exemple, Si `layer_dims` vaut [2,4,1] alors:  Il y a 2 inputs, une couche cachée avec  4  unités, et une couche output  avec 1 unite. Ceci signifie que les dimensions de `W1` sont (4,2), de `b1` sont (4,1),de `W2` sont (1,4) et de `b2` sont (1,1). Vous généraliserez cela à $L$ couches! 
- Dans l'exemple ci-dessous, une implémentation pour $L=1$ (Un réseau à une couche cachée). 
```python
    if L == 1:
        parameters["W" + str(L)] = np.random.randn(layer_dims[1], layer_dims[0]) * 0.01
        parameters["b" + str(L)] = np.zeros((layer_dims[1], 1))
```

In [68]:
# GRADED FUNCTION: initialize_parameters_deep

def initialize_parameters_deep(layer_dims):
    """
    Arguments:
    layer_dims -- python array (list) contenant les dimensions de chaque couche du reseau
    
    Returns:
    parameters -- dictionnaire python contenant les paramétres "W1", "b1", ..., "WL", "bL":
                    Wl -- matrice des poids de dimensions (layer_dims[l], layer_dims[l-1])
                    bl -- vecteur des biais de la forme (layer_dims[l], 1)
    """
    
    np.random.seed(3)
    parameters = {}
    L = len(layer_dims)            # nombre de couches dans le reseau
    ### START CODE HERE ### 
    
    
    
    ### END CODE HERE ###
        
        assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
        assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))

        
    return parameters

In [69]:
parameters = initialize_parameters_deep([5,4,3])
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]
b1 = [[0.]
 [0.]
 [0.]
 [0.]]
W2 = [[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]
b2 = [[0.]
 [0.]
 [0.]]


**Expected output**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td>[[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]</td> 
  </tr>
  
  <tr>
    <td>**b1** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2** </td>
    <td>[[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]</td> 
  </tr>
  
  <tr>
    <td>**b2** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
</table>

## 4 - Module de Forward propagation

### 4.1 - Linear Forward 

Maintenant que vous avez initialisé vos paramètres, vous allez créer le module de FORWARD propagation. Vous allez commencer par implémenter certaines fonctions de base que vous utiliserez ultérieurement lors de l'implémentation du modèle. Vous allez implémenter trois fonctions dans cet ordre:

- LINEAIRE
- LINEAIRE -> ACTIVATION où ACTIVATION sera soit ReLU soit Sigmoid. 
- [LINEAIRE -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID (modéle complet)

Le module FORWARDlinéaire (vectorisé sur tous les exemples) calcule les équations suivantes:

$$Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}\tag{4}$$

where $A^{[0]} = X$. 

**Exercise**: Implémenter la partie linéaire du module FORWARD.

**Rappel**:
La représentation mathématique de cet unité est $Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}$. la fonction `np.dot()` de numpy est trés utile. Si les dimensions ne correspondent pas, afficher `W.shape` peut aider.

In [72]:
# GRADED FUNCTION: linear_forward

def linear_forward(A, W, b):
    """
    Implement the linear part of a layer's forward propagation.

    Arguments:
    A -- activations de la couche précédente (or input): (nombre d'unités de la couche précédente, nombre d'exemples)
    W -- matrice des poids: numpy array de dimensions (nombre d'unités de la couche courante, nombre d'unités de la couche précédente)
    b -- vecteur des biais, numpy array de dimensions (nombre d'unités de la couche courante, 1)

    Returns:
    Z --  input de la fonction d'activation, aussi appelé paramétre de pre-activation 
    cache -- un dictionnaire python qui contient "A", "W" and "b" ; 
    """
    
    ### Implementer la partie linéaire ### 
    
    
    ### FIN ###
    
    assert(Z.shape == (W.shape[0], A.shape[1]))
    ### Implementer le cache ### 
    
    ### FIN ###
    return Z, cache

In [73]:
A, W, b = linear_forward_test_case()

Z, linear_cache = linear_forward(A, W, b)
print("Z = " + str(Z))

Z = [[ 3.26295337 -1.23429987]]


**Expected output**:

<table style="width:35%">
  
  <tr>
    <td> **Z** </td>
    <td> [[ 3.26295337 -1.23429987]] </td> 
  </tr>
  
</table>

### 4.2 - Linear-Activation Forward

Vous utiliserez deux fonctions d'activation:

- **Sigmoid**: $\sigma(Z) = \sigma(W A + b) = \frac{1}{ 1 + e^{-(W A + b)}}$. Nous avons fourni la fonction `sigmoid`. La fonction retourne  **two** items: la valeur de l'activation "`a`" et un "`cache`" qui contient "`Z`" (sera fourni à la fonction BACKWARD). L'exemple ci-dessous permet de faire l'appel: 
``` python
A, activation_cache = sigmoid(Z)
```

- **ReLU**: La formulation mathématique du RELU est $A = RELU(Z) = max(0, Z)$. Nous avons fourni la fonction `relu`. La fonction retourne  **two** items: la valeur de l'activation "`a`" et un "`cache`" qui contient "`Z`" (sera fourni à la fonction BACKWARD). L'exemple ci-dessous permet de faire l'appel: 
``` python
A, activation_cache = relu(Z)
```

Pour plus de commodité, vous allez regrouper deux fonctions (Linéaire et Activation) en une seule fonction (LINEAR-> ACTIVATION). Par conséquent, vous allez implémenter une fonction qui effectue une étape  LINEAIRE suivie d’une étape  ACTIVATION.

**Exercice**: Implementer la fonction forward propagation de la couche *LINEAR->ACTIVATION*. La relation mathématique est: $A^{[l]} = g(Z^{[l]}) = g(W^{[l]}A^{[l-1]} +b^{[l]})$ où la fonction d'activation "g" peut être sigmoid() ou relu(). Utiliser linear_forward() et la bonne  fonction d'activation.

In [74]:
# GRADED FUNCTION: linear_activation_forward

def linear_activation_forward(A_prev, W, b, activation):
    """
    Implementer la fonction forward propagation de la couche *LINEAR->ACTIVATION*

    Arguments:
    A_prev -- activations de la couche précédente (or input): (nombre d'unités de la couche précédente, nombre d'exemples)
    W -- matrice des poids: numpy array de dimensions (nombre d'unités de la couche courante, nombre d'unités de la couche précédente)
    b -- vecteur des biais, numpy array de dimensions (nombre d'unités de la couche courante, 1)
    activation -- l'activation à utiliser dans la couche courante, stocké sous forme de texte: "sigmoid" ou "relu"

    Returns:
    A -- l'output de la fonction d'activation, appelée aussi valeur post-activation 
    cache -- un dictionnaire python contenant "linear_cache" et "activation_cache";
             stocké pour calculer le backward pass de maniére efficiente.
    """
    
    if activation == "sigmoid":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        ### START CODE HERE ### (≈ 2 lines of code)
        
        
        ### END CODE HERE ###
    
    elif activation == "relu":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        ### START CODE HERE ### (≈ 2 lines of code)
        
        
        ### END CODE HERE ###
    
    assert (A.shape == (W.shape[0], A_prev.shape[1]))
    ### IMPLEMENTER LE CACHE ### 
    
    
    
    
    
    ### FIN ### 
    return A, cache

In [75]:
A_prev, W, b = linear_activation_forward_test_case()

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "sigmoid")
print("With sigmoid: A = " + str(A))

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "relu")
print("With ReLU: A = " + str(A))

With sigmoid: A = [[0.96890023 0.11013289]]
With ReLU: A = [[3.43896131 0.        ]]


**Expected output**:
       
<table style="width:35%">
  <tr>
    <td> **With sigmoid: A ** </td>
    <td > [[ 0.96890023  0.11013289]]</td> 
  </tr>
  <tr>
    <td> **With ReLU: A ** </td>
    <td > [[ 3.43896131  0.        ]]</td> 
  </tr>
</table>


**Note**: En deep learning, le calcul "[LINEAR-> ACTIVATION]" est compté comme une seule couche dans le réseau neuronal, pas deux couches.

### d) Modéle à L-couche 

Pour encore plus de commodité lors de l’implémentation du reseau à $ L $ couches, vous aurez besoin d’une fonction qui réplique $ L-1 $ fois la couche `linear_activation_forward` avec RELU , puis de la fonction` linear_activation_forward` avec SIGMOID.

<img src="images/model_architecture_kiank.png" style="width:600px;height:300px;">
<caption><center> **Figure 2** : *[LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* model</center></caption><br>

**Exercice**: Implementer le forward propagation du modéle ci-dessus.

**Instruction**: Dans le code ci-dessous, la variable `AL` représente $A^{[L]} = \sigma(Z^{[L]}) = \sigma(W^{[L]} A^{[L-1]} + b^{[L]})$. (Elle est appelée aussi `Yhat`, i.e., $\hat{Y}$.) 

**Tips**:
- Utiliser les fonctions écrites précédemment  
- Utiliser une boucle  for pour repliquer (L-1) fois [LINEAR->RELU] 
- N'oubliez pas de garder une trace des caches dans la liste "caches". Pour ajouter une nouvelle valeur `c` à une` list`, vous pouvez utiliser `list.append (c)`.

In [76]:
# GRADED FUNCTION: L_model_forward

def L_model_forward(X, parameters):
    """
    Implementer le forward propagation pour le calcul de [LINEAR->RELU]*(L-1)->LINEAR->SIGMOID
    
    Arguments:
    X -- data, numpy array de dimension (input size, number d'exemples)
    parameters -- output de initialize_parameters_deep()
    
    Returns:
    AL -- valeur de la derniére  post-activation
    caches -- liste des caches contenant:
                chaque cache of linear_activation_forward() (Il y en a  L-1, indexé  0 à L-1)
    """

    caches = []
    A = X
    L = len(parameters) // 2                  # number de couches dans le reseau
    
    # Implementer [LINEAR -> RELU]*(L-1). Ajouter "cache" à la liste des"caches".
    
    
    
    #########FIN##########
    
    # Implement LINEAR -> SIGMOID. Add "cache" to the "caches" list.
    ### START CODE HERE ### 
    
    
    
    
    ### FIN ###
    
    assert(AL.shape == (1,X.shape[1]))
            
    return AL, caches

In [77]:
X, parameters = L_model_forward_test_case_2hidden()
AL, caches = L_model_forward(X, parameters)
print("AL = " + str(AL))
print("Length of caches list = " + str(len(caches)))

AL = [[0.03921668 0.70498921 0.19734387 0.04728177]]
Length of caches list = 3


<table style="width:50%">
  <tr>
    <td> **AL** </td>
    <td > [[ 0.03921668  0.70498921  0.19734387  0.04728177]]</td> 
  </tr>
  <tr>
    <td> **Length of caches list ** </td>
    <td > 3 </td> 
  </tr>
</table>


Génial! Vous avez maintenant une FORWARD propogation compléte  qui prend en entrée X et génère un vecteur ligne $A^{[L]}$ contenant vos prédictions. Il enregistre également toutes les valeurs intermédiaires dans des "caches". Utiliser $A^{[L]}$ pour calculer la fonction coût de vos prévisions.

## 5 - Cost function


Vous allez maintenant implémenter la FORWARD et BACKWARD propagation. Vous devez calculer le coût, car vous voulez vérifier si votre modèle est en train d'apprendre.

**Exercise**: Calculer la fonction coût en utilisant la fonction cross-entropy  $J$, avec la formule suivante: $$-\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right)) \tag{7}$$


In [83]:
# GRADED FUNCTION: compute_cost

def compute_cost(AL, Y):
    """
    Implementer la fonction coût définie dans l'equation  (7).

    Arguments:
    AL --  vecteur de probabilité correspondant aux labels predits, dimensions (1, nombre d'exemples)
    Y -- vecteur des vrais "label"  , dimensions (1, nombre d'exemples)

    Returns:
    cost -- cross-entropy
    """
    
    m = Y.shape[1]

    # Compute loss from aL and y.
    ### START CODE HERE ### (≈ 1 lines of code)
    
    
    
    ### END CODE HERE ###
    
    cost = np.squeeze(cost) # Pour être sûr que ta fonction coût correspond à ce qui est attendue  (e.g. change [[17]] en 17).
    print(cost.shape)
    assert(cost.shape == ())
    
    return cost

In [84]:
Y, AL = compute_cost_test_case()

print("cost = " + str(compute_cost(AL, Y)))

(1, 1)
()
cost = 0.41493159961539694


**Expected Output**:

<table>

    <tr>
    <td>**cost** </td>
    <td> 0.41493159961539694</td> 
    </tr>
</table>

## 6 -Module de Backward propagation


Comme avec la FORWARD propagation, vous allez implémenter des helper fonctions  pour la BACKWARD propagation. Rappelez-vous que BACKWARD propagation est utilisée pour calculer le gradient de la loss fonction  en fonction des paramètres.

**Rappel**: 
<img src="images/backprop_kiank.png" style="width:650px;height:250px;">
<caption><center> **Figure 3** : Forward et Backward propagation pour *LINEAR->RELU->LINEAR->SIGMOID* <br> *Les blocs mauves representent le forward propagation, et les blocs rouges representent le backward propagation.*  </center></caption>



Maintenant, comme pour la FORWARD propagation, vous allez construire la BACKWARD propagation en trois étapes:
- LINEAR backward
- LINEAR -> ACTIVATION backward où ACTIVATION calcule soit la dérivée  ReLU ou celle  de sigmoid
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID backward (tout le modéle)

### 6.1 - Linear backward

Pour une couche $l$, la partie linéaire est: $Z^{[l]} = W^{[l]} A^{[l-1]} + b^{[l]}$ (suivie d'une activation).

Supposons que vous avez deja calculé la dérivée $dZ^{[l]} = \frac{\partial \mathcal{L} }{\partial Z^{[l]}}$. Vous voulez avoir $(dW^{[l]}, db^{[l]} dA^{[l-1]})$.

<img src="images/linearback_kiank.png" style="width:250px;height:300px;">
<caption><center> **Figure 4** </center></caption>

Les trois outputs $(dW^{[l]}, db^{[l]}, dA^{[l]})$ sont calculés en utilisant l'input $dZ^{[l]}$.Voici les formules dont vous aurez besoin:
$$ dW^{[l]} = \frac{\partial \mathcal{L} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T} \tag{8}$$
$$ db^{[l]} = \frac{\partial \mathcal{L} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}\tag{9}$$
$$ dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]} \tag{10}$$


**Exercice**: Utiliser les 3 formules ci-dessus pour implementer linear_backward().

In [87]:
# GRADED FUNCTION: linear_backward

def linear_backward(dZ, cache):
    """
    Implementer la portion linéaire du backward propagation pour une seule couche  (couche  l)

    Arguments:
    dZ -- Gradient du cout en fonction de la partie linéaire de l' output de la couche courante l
    cache -- tuple de valeurs (A_prev, W, b) provenant de la forward propagation de la couche courante

    Returns:
    dA_prev -- Gradient du cout en fonction de l'activation de la couche précédente  l-1,( même dimension que A_prev)
    dW -- Gradient du cout en fonction de W (couche courante l), ( même dimension que W)
    db -- Gradient du cout en fonction de b (couche courante l), ( même dimension que b)
    """
    A_prev, W, b = cache
    m = A_prev.shape[1]

    ### START CODE HERE ### (≈ 3 lines of code)
   


    ### END CODE HERE ###
    
    assert (dA_prev.shape == A_prev.shape)
    assert (dW.shape == W.shape)
    assert (db.shape == b.shape)
    
    return dA_prev, dW, db

In [88]:
# Set up some test inputs
dZ, linear_cache = linear_backward_test_case()

dA_prev, dW, db = linear_backward(dZ, linear_cache)
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

dA_prev = [[ 0.51822968 -0.19517421]
 [-0.40506361  0.15255393]
 [ 2.37496825 -0.89445391]]
dW = [[-0.10076895  1.40685096  1.64992505]]
db = [[0.50629448]]


**Expected Output**: 

<table style="width:90%">
  <tr>
    <td> **dA_prev** </td>
    <td > [[ 0.51822968 -0.19517421]
 [-0.40506361  0.15255393]
 [ 2.37496825 -0.89445391]] </td> 
  </tr> 
  
    <tr>
        <td> **dW** </td>
        <td > [[-0.10076895  1.40685096  1.64992505]] </td> 
    </tr> 
  
    <tr>
        <td> **db** </td>
        <td> [[ 0.50629448]] </td> 
    </tr> 
    
</table>



### 6.2 - Linear-Activation backward

Ensuite, vous allez créer une fonction qui fusionne les deux helper fonctions: **`linear_backward`** et l'étape  backward pour l'activation **`linear_activation_backward`**. 

Pour vous aider à l'implementer `linear_activation_backward`, nous vous fournissons deux fonctions backward:
- **`sigmoid_backward`**: Implemente le backward propagation de l'unité SIGMOID. Vous pouvez l'appeler comme suit: 

```python
dZ = sigmoid_backward(dA, activation_cache)
```

- **`relu_backward`**:  Implemente le backward propagation de l'unité SIGMOID. Vous pouvez l'appeler comme suit: 

```python
dZ = relu_backward(dA, activation_cache)
```

Si $g(.)$ est la fonction d'activation, 
`sigmoid_backward` et `relu_backward` calculent $$dZ^{[l]} = dA^{[l]} * g'(Z^{[l]}) \tag{11}$$.  

**Exercise**: Implementer le backpropagation pour la couche *LINEAR->ACTIVATION* .

In [89]:
# GRADED FUNCTION: linear_activation_backward

def linear_activation_backward(dA, cache, activation):
    """
    Implemente le backward propagation pour la couche LINEAR->ACTIVATION.
    
    Arguments:
    dA -- post-activation gradient pour la couche courante l 
    cache -- tuple de valeurs (linear_cache, activation_cache) stocké pour calculer backward propagation de maniére efficiente
    activation -- l'activation sera utilisée dans la couche, stockée sous forme de texte: "sigmoid" ou "relu"
    
    Returns:
    dA_prev -- Gradient du cout en fonction de l'activation de la couche précédente  l-1,( même dimension que A_prev)
    dW -- Gradient du cout en fonction de W (couche courante l), ( même dimension que W)
    db -- Gradient du cout en fonction de b (couche courante l), ( même dimension que b)
    """
    linear_cache, activation_cache = cache
    
    if activation == "relu":
        ### START CODE HERE ### (≈ 2 lines of code)
        
        
        ### END CODE HERE ###
        
    elif activation == "sigmoid":
        ### START CODE HERE ### (≈ 2 lines of code)
        
        
        
        ### END CODE HERE ###
    
    return dA_prev, dW, db

In [90]:
dAL, linear_activation_cache = linear_activation_backward_test_case()

dA_prev, dW, db = linear_activation_backward(dAL, linear_activation_cache, activation = "sigmoid")
print ("sigmoid:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db) + "\n")

dA_prev, dW, db = linear_activation_backward(dAL, linear_activation_cache, activation = "relu")
print ("relu:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

sigmoid:
dA_prev = [[ 0.11017994  0.01105339]
 [ 0.09466817  0.00949723]
 [-0.05743092 -0.00576154]]
dW = [[ 0.10266786  0.09778551 -0.01968084]]
db = [[-0.05729622]]

relu:
dA_prev = [[ 0.44090989 -0.        ]
 [ 0.37883606 -0.        ]
 [-0.2298228   0.        ]]
dW = [[ 0.44513824  0.37371418 -0.10478989]]
db = [[-0.20837892]]


**Expected output with sigmoid:**

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td >[[ 0.11017994  0.01105339]
 [ 0.09466817  0.00949723]
 [-0.05743092 -0.00576154]] </td> 

  </tr> 
  
    <tr>
    <td > dW </td> 
           <td > [[ 0.10266786  0.09778551 -0.01968084]] </td> 
  </tr> 
  
    <tr>
    <td > db </td> 
           <td > [[-0.05729622]] </td> 
  </tr> 
</table>



**Expected output with relu:**

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td > [[ 0.44090989  0.        ]
 [ 0.37883606  0.        ]
 [-0.2298228   0.        ]] </td> 

  </tr> 
  
    <tr>
    <td > dW </td> 
           <td > [[ 0.44513824  0.37371418 -0.10478989]] </td> 
  </tr> 
  
    <tr>
    <td > db </td> 
           <td > [[-0.20837892]] </td> 
  </tr> 
</table>



### 6.3 - L-Model Backward 

Now you will implement the backward function for the whole network. Recall that when you implemented the `L_model_forward` function, at each iteration, you stored a cache which contains (X,W,b, and z). In the back propagation module, you will use those variables to compute the gradients. Therefore, in the `L_model_backward` function, you will iterate through all the hidden layers backward, starting from layer $L$. On each step, you will use the cached values for layer $l$ to backpropagate through layer $l$. Figure 5 below shows the backward pass.

Vous allez maintenant implémenter la fonction BACKWARD pour tout le réseau. Rappelez-vous que lorsque vous avez implémenté la fonction L_model_forward, à chaque itération, vous avez stocké un cache qui contient (X, W, b et z). Dans le module de BACKWARD propagation, vous utiliserez ces variables pour calculer les gradients. Par conséquent, dans la fonction L_model_backward, vous parcourerez toutes les couches cachées en arrière, à partir de la couche
L. À chaque étape, vous utiliserez les valeurs mises en cache pour la couche l pour faire une rétropropagation à travers la couche l. La figure 5 ci-dessous montre la passe en arrière.


<img src="images/mn_backward.png" style="width:450px;height:300px;">
<caption><center>  **Figure 5** : Backward pass  </center></caption>

** Initialiser backpropagation**:
Pour faire de retropropagation dans ce reseau, nous savons que l'output est, 
$A^{[L]} = \sigma(Z^{[L]})$. Votre code doit alors calculer `dAL` $= \frac{\partial \mathcal{L}}{\partial A^{[L]}}$.
Pour cela, utiliser la formule :
```python
dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL)) # derivative of cost with respect to AL
```

Vous pouvez alors utiliser le gradient post-activation  `dAL` pour faire du backward. As seen in Figure 5, you can now feed in `dAL` into the LINEAR->SIGMOID backward function you implemented (which will use the cached values stored by the L_model_forward function). After that, you will have to use a `for` loop to iterate through all the other layers using the LINEAR->RELU backward function. You should store each dA, dW, and db in the grads dictionary. To do so, use this formula :

Comme le montre la figure 5, vous pouvez maintenant alimenter `dAL` dans la fonction backward LINEAR-> SIGMOID que vous avez implémentée (qui utilisera les valeurs mises en cache stockées par la fonction L_model_forward). Après cela, vous devrez utiliser une boucle `for` pour parcourir toutes les autres couches en utilisant la fonction de retour LINEAR-> RELU. Vous devriez stocker chaque dA, dW et db dans le dictionnaire des gradients. Pour ce faire, utilisez cette formule:

$$grads["dW" + str(l)] = dW^{[l]}\tag{15} $$

Par exemple, for $l=3$ devrait stocker $dW^{[l]}$ in `grads["dW3"]`.

**Exercise**: Implementer backpropagation for the *[LINEAR->RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* model.

In [91]:
# GRADED FUNCTION: L_model_backward

def L_model_backward(AL, Y, caches):
    """
    Implementer le backward propagation pour [LINEAR->RELU] * (L-1) -> LINEAR -> SIGMOID 
    
    Arguments:
    AL -- vecteur de probabilité, output de la forward propagation (L_model_forward())
    Y -- vecteur des vrais "label" 
    caches -- liste des caches contenant:
                chaque cache de linear_activation_forward() avec "relu" (caches[l], for l in range(L-1) i.e l = 0...L-2)
                la cache de linear_activation_forward() sigmoid "sigmoid" (caches[L-1])
    
    Returns:
    grads -- Un dictionnaire avec les gradients
             grads["dA" + str(l)] = ... 
             grads["dW" + str(l)] = ...
             grads["db" + str(l)] = ... 
    """
    grads = {}
    L = len(caches) # the number of layers
    m = AL.shape[1]
    Y = Y.reshape(AL.shape) # after this line, Y is the same shape as AL
    
    # Initializing the backpropagation
    ### START CODE HERE ### (1 line of code)
    
    
    
    ### END CODE HERE ###
    
    # Lth layer (SIGMOID -> LINEAR) gradients. Inputs: "dAL, current_cache". Outputs: "grads["dAL-1"], grads["dWL"], grads["dbL"]
    ### START CODE HERE ### (approx. 2 lines)
    
    
    
    ### END CODE HERE ###
    
    # Loop from l=L-2 to l=0
    for l in reversed(range(L-1)):
        # lth layer: (RELU -> LINEAR) gradients.
        # Inputs: "grads["dA" + str(l + 1)], current_cache". Outputs: "grads["dA" + str(l)] , grads["dW" + str(l + 1)] , grads["db" + str(l + 1)] 
        ### START CODE HERE ### (approx. 5 lines)
        
        
        
        ### END CODE HERE ###

    return grads

In [93]:
AL, Y_assess, caches = L_model_backward_test_case()
grads = L_model_backward(AL, Y_assess, caches)
print_grads(grads)

dW1 = [[0.41010002 0.07807203 0.13798444 0.10502167]
 [0.         0.         0.         0.        ]
 [0.05283652 0.01005865 0.01777766 0.0135308 ]]
db1 = [[-0.22007063]
 [ 0.        ]
 [-0.02835349]]
dA1 = [[ 0.12913162 -0.44014127]
 [-0.14175655  0.48317296]
 [ 0.01663708 -0.05670698]]


**Expected Output**

<table style="width:60%">
  
  <tr>
    <td > dW1 </td> 
           <td > [[ 0.41010002  0.07807203  0.13798444  0.10502167]
 [ 0.          0.          0.          0.        ]
 [ 0.05283652  0.01005865  0.01777766  0.0135308 ]] </td> 
  </tr> 
  
    <tr>
    <td > db1 </td> 
           <td > [[-0.22007063]
 [ 0.        ]
 [-0.02835349]] </td> 
  </tr> 
  
  <tr>
  <td > dA1 </td> 
           <td > [[ 0.12913162 -0.44014127]
 [-0.14175655  0.48317296]
 [ 0.01663708 -0.05670698]] </td> 

  </tr> 
</table>



### 6.4 - Mettre à jour les  parametres

Dans cette section, vous allez mettre à jour les paramètres du modèle, en utilisant la descente de gradient:

$$ W^{[l]} = W^{[l]} - \alpha \text{ } dW^{[l]} \tag{16}$$
$$ b^{[l]} = b^{[l]} - \alpha \text{ } db^{[l]} \tag{17}$$

où $\alpha$ est le learning rate. Après avoir calculé les paramètres mis à jour, stockez-les dans le dictionnaire de paramètres. 

**Exercise**: Implementer `update_parameters()` pour mettre à jour en utilisant la descente de gradient.

**Instructions**:
Mettre à jour les  parametres en utilisant la descente de gradient pour chaque $W^{[l]}$ and $b^{[l]}$ for $l = 1, 2, ..., L$. 


In [94]:
# GRADED FUNCTION: update_parameters

def update_parameters(parameters, grads, learning_rate):
    """
   Mettre à jour les  parametres en utilisant la descente de gradient
    
    Arguments:
    parametres --  dictionaire python contenant vos parametres 
    grads -- dictionaire python contenant vos gradients, output de L_model_backward
    
    Returns:
    parameters -- dictionaire python contenant vos paramétres à jour 
                  parameters["W" + str(l)] = ... 
                  parameters["b" + str(l)] = ...
    """
    
    L = len(parameters) // 2 # number of layers in the neural network

    # Update rule for each parameter. Use a for loop.
    ### START CODE HERE ### (≈ 3 lines of code)
    
    
    ### FIN ### (≈ 3 lines of code)
    return parameters

In [95]:
parameters, grads = update_parameters_test_case()
parameters = update_parameters(parameters, grads, 0.1)

print ("W1 = "+ str(parameters["W1"]))
print ("b1 = "+ str(parameters["b1"]))
print ("W2 = "+ str(parameters["W2"]))
print ("b2 = "+ str(parameters["b2"]))

W1 = [[-0.59562069 -0.09991781 -2.14584584  1.82662008]
 [-1.76569676 -0.80627147  0.51115557 -1.18258802]
 [-1.0535704  -0.86128581  0.68284052  2.20374577]]
b1 = [[-0.04659241]
 [-1.28888275]
 [ 0.53405496]]
W2 = [[-0.55569196  0.0354055   1.32964895]]
b2 = [[-0.84610769]]


**Expected Output**:

<table style="width:100%"> 
    <tr>
    <td > W1 </td> 
           <td > [[-0.59562069 -0.09991781 -2.14584584  1.82662008]
 [-1.76569676 -0.80627147  0.51115557 -1.18258802]
 [-1.0535704  -0.86128581  0.68284052  2.20374577]] </td> 
  </tr> 
  
    <tr>
    <td > b1 </td> 
           <td > [[-0.04659241]
 [-1.28888275]
 [ 0.53405496]] </td> 
  </tr> 
  <tr>
    <td > W2 </td> 
           <td > [[-0.55569196  0.0354055   1.32964895]]</td> 
  </tr> 
  
    <tr>
    <td > b2 </td> 
           <td > [[-0.84610769]] </td> 
  </tr> 
</table>



## 7 - Conclusion

Félicitations pour avoir mis en place toutes les fonctions nécessaires à la construction d’un réseau de neurones profonds!
Nous savons que la tâche a été longue, mais nous ne pouvons que nous améliorer. 
Vous réunirez tous ces éléments pour créer deux modèles:

-Un réseau de neurones à deux couches

-Un réseau de neurones de couche L

Vous utiliserez en fait ces modèles pour faire de la classification binaire!