![image.png](attachment:60cd6446-1e62-4d0f-babe-016b89a82fef.png)

# TP 3 - R√©tropropagation (Back-Propagation)
## ESSAMADI Oussama

---

## √âtape 1 : Initialisation des Poids et des Biais 

**Th√©orie : Pourquoi est-ce important ?**

* _Probl√®me d'initialisation al√©atoire_ : Les mauvaises initialisations peuvent ralentir 
l'apprentissage ou emp√™cher la convergence
* _M√©thode recommand√©e_ : Xavier

Pour chaque couche c , les poids ùëä[ùëê] sont initialis√©s selon :

![image.png](attachment:bf512e9a-c0cc-4cf3-81d1-7843f55718a7.png)

o√π `ùëõùëê‚àí1` est le nombre de neurones de la couche pr√©c√©dente.

Impl√©menter une fonction Python pour initialiser les param√®tres pour un r√©seau de 
deux couche.

In [7]:
import numpy as np

def initialiser_parametres_xavier(n_x, n_h, n_y):
    """
    Initialise les param√®tres (W et b) pour un r√©seau √† deux couches
    en utilisant l'initialisation Xavier.
    
    Arguments:
    n_x -- taille de la couche d'entr√©e
    n_h -- taille de la couche cach√©e
    n_y -- taille de la couche de sortie
    
    Retourne:
    parameters -- dictionnaire contenant W1, b1, W2, b2
    """
    
    W1 = np.random.randn(n_h, n_x) * np.sqrt(1.0 / n_x)
    b1 = np.zeros((n_h, 1))
    
    W2 = np.random.randn(n_y, n_h) * np.sqrt(1.0 / n_h)
    b2 = np.zeros((n_y, 1))
    
    parameters = {
        "W1": W1,
        "b1": b1,
        "W2": W2,
        "b2": b2
    }
    
    return parameters

## √âtape 2 : Propagation Avant (Forward-Propagation)

**Th√©orie : Calculs dans un r√©seau de deux couches**

1. Premi√®re couche :
    * Calcul de la somme pond√©r√©e : 

      ![image.png](attachment:908f1840-789f-4185-badb-a889e8301a26.png)
    * Fonction d‚Äôactivation sigmo√Øde :

      ![image.png](attachment:7001d283-a05e-4fde-abc3-1566210d7080.png)

2. Deuxi√®me couche :
    * Calcul de la somme pond√©r√©e : 

      ![image.png](attachment:957ce7b8-2bb4-4368-8313-c05587358027.png)
    * Fonction d‚Äôactivation sigmo√Øde :

      ![image.png](attachment:eede084d-3041-4c10-a453-61db96e12a73.png)


In [6]:
import numpy as np

def sigmoid(Z):
    return 1 / (1 + np.exp(-Z))

def forward_propagation(X, parameters):
    W1, b1, W2, b2 = parameters["W1"], parameters["b1"], parameters["W2"], parameters["b2"]
    
    Z1 = np.dot(W1, X) + b1
    A1 = sigmoid(Z1)
    
    Z2 = np.dot(W2, A1) + b2
    A2 = sigmoid(Z2)
    
    cache = {
        "Z1": Z1,
        "A1": A1,
        "Z2": Z2,
        "A2": A2
    }
    
    return A2, cache


## √âtape 3 : R√©tropropagation (Back-Propagation)

**Th√©orie : Calcul des gradients**

_Objectif : Mettre √† jour les poids en minimisant la fonction de perte :_

![image.png](attachment:915ed869-4ccd-49c4-ab09-248459805f68.png)

_√âtapes de la r√©tropropagation :_

Pour un r√©seau de deux couches : 

1. Gradient de la couche de sortie :

![image.png](attachment:72a5db64-7cd6-40ca-aa02-66a40f0cc2a3.png)

2. Propagation vers la premi√®re couche :

![image.png](attachment:f5e8f8a6-94c2-46a5-97f4-4bd27d017a81.png)

In [9]:
import numpy as np

def back_propagation(X, Y, cache, parameters):
    """
    Calcule les gradients de la r√©tropropagation pour un r√©seau √† deux couches.
    
    Arguments:
    X -- donn√©es d'entr√©e de taille (n_x, m)
    Y -- labels de taille (1, m)
    cache -- dictionnaire contenant Z1, A1, Z2, A2
    parameters -- dictionnaire contenant W1, b1, W2, b2
    
    Retourne:
    grads -- dictionnaire contenant dW1, db1, dW2, db2
    """
    
    A1 = cache["A1"]
    A2 = cache["A2"]
    W2 = parameters["W2"]
    m = X.shape[1]
    
    # --- Gradients pour la couche de sortie ---
    dZ2 = A2 - Y  # d√©riv√©e de la fonction de co√ªt par rapport √† Z2
    dW2 = (1 / m) * np.dot(dZ2, A1.T)
    db2 = (1 / m) * np.sum(dZ2, axis=1, keepdims=True)
    
    # --- Propagation vers la couche cach√©e ---
    dA1 = np.dot(W2.T, dZ2)  # d√©riv√©e de la fonction de co√ªt par rapport √† A1
    dZ1 = dA1 * (A1 * (1 - A1))  # d√©riv√©e de la fonction sigmo√Øde
    dW1 = (1 / m) * np.dot(dZ1, X.T)
    db1 = (1 / m) * np.sum(dZ1, axis=1, keepdims=True)
    
    grads = {
        "dW1": dW1,
        "db1": db1,
        "dW2": dW2,
        "db2": db2
    }
    
    return grads


## √âtape 4 : Probl√®mes des Gradients

**Th√©orie :**

* _Gradients √©vanescents_ : Lorsqu‚Äôon utilise la sigmo√Øde, les gradients se r√©duisent √† des 
valeurs proches de z√©ro

* _Gradients explosifs :_  Amplification des gradients, entra√Ænement instable.

**Solutions :**

1. Utiliser ReLU pour √©viter l‚Äôatt√©nuation des gradients. `ReLU(Z) = max(0, Z)`
2. Initialisation adapt√©e des poids (Xavier). 

In [11]:
import numpy as np

def relu(Z):
    return np.maximum(0, Z)

def relu_derivative(Z):
    return np.where(Z > 0, 1, 0)