![image.png](attachment:90769a5a-a437-472b-b040-a4de261657d1.png)

# TP 2 - Réseau de neurones artificiels à deux couches
## ESSAMADI Oussama

---

## Étape 1 : Introduction aux couches d’un réseau

### Question conceptuelle

> Qu’est-ce qu’une couche dans un réseau de neurones artificiels ?

Une couche dans un réseau de neurones artificiels est une collection de neurones qui appliquent des transformations sur les données d'entrée, en utilisant des poids, des biais, et une fonction d'activation. Les couches sont des éléments fondamentaux qui structurent le réseau et permettent d'apprendre des relations entre les données.

> Décrivez brièvement le rôle d’une couche cachée et d’une couche de sortie.

Une couche cachée se trouve entre la couche d'entrée et la couche de sortie. Elle a pour rôle principal de transformer les données d'entrée en apprenant des caractéristiques abstraites et des relations complexes.
La couche de sortie est la dernière couche du réseau et a pour rôle de produire le résultat final, qui correspond à la prédiction ou à la décision du modèle.

### Exercice manuel

> Calculez `Z(1)`, `A(1)`, `Z(2)` et `A(2)` à la main pour les données suivantes


![1.png](attachment:c94a67d5-1d6a-47ef-8dc4-9c964e281fca.png)

![2.png](attachment:9bc8a60c-e97f-40ae-8e0c-b78537eed1a4.png)

![3.png](attachment:7913916f-ebeb-4285-a281-f9a301215358.png)

![4.png](attachment:ac0ee4f5-7eae-401c-975f-3a6ad1dcaa91.png)

## Étape 2 : Implémentation de la couche 1

### Implémentez la propagation avant pour la couche 1

> Créez une fonction Python qui calcule `Z(1)` et `A(1)`:

In [90]:
import numpy as np

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def forward_couche_1(X, W1, b1):
    Z1 = np.dot(X, W1.T) + b1
    A1 = sigmoid(Z1)
    
    return Z1, A1

> Testez votre implémentation

In [91]:
X = np.array([[0.5, 1.0]])
W1 = np.array([[0.2, 0.4], [0.3, 0.1]])
b1 = np.array([[0.1, -0.2]])

Z1, A1 = forward_couche_1(X, W1, b1)
Z1, A1

(array([[0.6 , 0.05]]), array([[0.64565631, 0.5124974 ]]))

### Questions

> Pourquoi applique-t-on une fonction d’activation comme la sigmoïde après `Z(1)`?

On applique la fonction d'activation sigmoïde après `Z(1)` pour introduire de la non-linéarité, ce qui permet au réseau de modéliser des relations complexes entre les données. Elle normalise également les sorties dans l'intervalle `[0, 1]`, ce qui facilite la stabilité des calculs et la convergence lors de l'entraînement. De plus, la sigmoïde offre une interprétation probabiliste des résultats, particulièrement utile pour les tâches de classification. Enfin, sa différentiabilité permet de calculer les gradients nécessaires à l'algorithme de rétropropagation, essentiel pour ajuster les paramètres du réseau.

> Que se passe-t-il si `W(1)` ou `b(1)` sont très grands ?

Si `W(1)` ou `b(1)` sont très grands, cela peut provoquer la saturation de la fonction sigmoïde, où les dérivées deviennent proches de zéro, rendant la rétropropagation inefficace (problème de gradients nuls). De plus, cela peut entraîner des sorties extrêmes, une instabilité numérique et ralentir l'apprentissage. Pour éviter cela, on initialise généralement les poids avec de petites valeurs et les biais proches de zéro, tout en normalisant les données pour stabiliser l'entraînement.

## Étape 3 : Implémentation de la couche 2

### Implémentez la propagation avant pour la couche 2

> Ajoutez une fonction Python pour calculer `Z(2)` et `A(2)`

In [92]:
def forward_couche_2(A1, W2, b2):
    Z2 = np.dot(A1, W2) + b2
    A2 = sigmoid(Z2)
    
    return Z2, A2

> Testez votre implémentation

In [93]:
W2 = np.array([[0.5], [-0.3]])
b2 = np.array([[0.2]])

Z2, A2 = forward_couche_2(A1, W2, b2)
Z2, A2

(array([[0.36907893]]), array([[0.5912364]]))

## Étape 4 : Vectorisation d’un réseau de neurones

> Implémentez une fonction Python qui effectue les calculs vectorisés pour les deux 
couches :

In [94]:
def forward_propagation_vectorized(X, W1, b1, W2, b2):
    Z1 = np.dot(X, W1) + b1
    A1 = sigmoid(Z1)
    
    Z2 = np.dot(A1, W2) + b2
    A2 = sigmoid(Z2)
    
    return Z1, A1, Z2, A2

> Testez cette fonction avec un lot de données `X` (par exemple, une matrice de dimension 
2×3, où chaque colonne représente un exemple) :

In [95]:
X_v = np.array([[0.5, 0.2, 0.8], [1.0, 0.8, 0.4]])

Z1_v, A1_v, Z2_v, A2_v = forward_propagation_vectorized(X_v.T, W1, b1, W2, b2)
Z1_v, A1_v, Z2_v, A2_v

(array([[ 0.5 ,  0.1 ],
        [ 0.38, -0.04],
        [ 0.38,  0.16]]),
 array([[0.62245933, 0.52497919],
        [0.5938731 , 0.49000133],
        [0.5938731 , 0.53991488]]),
 array([[0.35373591],
        [0.34993615],
        [0.33496209]]),
 array([[0.58752323],
        [0.5866021 ],
        [0.58296624]]))