### üìú Licence d'utilisation
Ce notebook est mis √† disposition sous licence **Creative Commons Attribution - Pas d‚ÄôUtilisation Commerciale - Partage dans les M√™mes Conditions 4.0 International**.

**Auteur** : Christie Vassilian



---



# üß† Mise en pratique des fonctions d‚Äôactivation
Dans ce notebook, nous allons entra√Æner un petit r√©seau de neurones pour reconna√Ætre des chiffres manuscrits (base MNIST r√©duite ou digits).
Nous testerons successivement diff√©rentes fonctions d‚Äôactivation : **sigmo√Øde, ReLU, Leaky ReLU, Swish**, et observerons l‚Äôimpact sur l‚Äôapprentissage.

Les cellules de code sont pr√©par√©es pour √™tre facilement modifi√©es. Les √©l√®ves sont invit√©s √† **ex√©cuter, observer, comparer et analyser**.

# üßÆ Comment √©valuer une fonction d‚Äôactivation ?
**Crit√®res principaux :**
- üîÅ Convergence de l‚Äôapprentissage (rapidit√©)
- üéØ Accuracy finale (qualit√© de pr√©diction)
- üß† Stabilit√© du mod√®le (√©viter saturation ou neurones morts)
- üìâ Forme des courbes `loss` / `accuracy` au fil des epochs

# üéØ Synth√®se des R√©sultats

### ‚úçÔ∏è Bloc de r√©ponse √† remplir (Sigmoid)
**1. Accuracy finale :**

**2. Forme de la courbe d‚Äôaccuracy :**

**3. Remarques personnelles sur cette fonction d‚Äôactivation :**


### ‚úçÔ∏è Bloc de r√©ponse √† remplir (ReLU)
**1. Accuracy finale :**

**2. Forme de la courbe d‚Äôaccuracy :**

**3. Remarques personnelles sur cette fonction d‚Äôactivation :**


### ‚úçÔ∏è Bloc de r√©ponse √† remplir (tanh)
**1. Accuracy finale :**

**2. Forme de la courbe d‚Äôaccuracy :**

**3. Remarques personnelles sur cette fonction d‚Äôactivation :**


### ‚úçÔ∏è Bloc de r√©ponse √† remplir (Swish)
**1. Accuracy finale :**

**2. Forme de la courbe d‚Äôaccuracy :**

**3. Remarques personnelles sur cette fonction d‚Äôactivation :**


### üìù Tableau de comparaison √† compl√©ter
Compl√®te ce tableau au fur et √† mesure de tes exp√©rimentations :

| Fonction d‚Äôactivation | Accuracy finale | Vitesse de convergence | Remarques |
|------------------------|------------------|--------------------------|-----------|
| Sigmo√Øde               |                  |                          |           |
| ReLU                   |                  |                          |           |
| Tanh                   |                  |                          |           |
| Swish                  |                  |                          |           |




---



# üëÅÔ∏è Chargement et Visualisation des donn√©es MNIST

In [None]:
from tensorflow.keras.datasets import mnist
from tensorflow.keras.utils import to_categorical

# Chargement et pr√©traitement
(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train = X_train.reshape(-1, 28*28) / 255.0
X_test = X_test.reshape(-1, 28*28) / 255.0
y_train = to_categorical(y_train, 10)
y_test = to_categorical(y_test, 10)

In [None]:
import matplotlib.pyplot as plt
(X_train_img, _), (_, _) = mnist.load_data()
plt.figure(figsize=(10,4))
for i in range(10):
    plt.subplot(2, 5, i+1)
    plt.imshow(X_train_img[i], cmap='gray')
    plt.axis('off')
    plt.title(f"Label : {i}")
plt.suptitle("Exemples d'images du dataset MNIST", fontsize=14)
plt.tight_layout()
plt.show()

# üèóÔ∏è Construction d‚Äôun mod√®le simple

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import CategoricalCrossentropy

def build_model(activation):
    model = Sequential([
        Dense(32, input_shape=(784,), activation=activation), # Corrected input shape
        Dense(16, activation=activation),
        Dense(10, activation='softmax')
    ])
    model.compile(optimizer=Adam(0.01),
                  loss=CategoricalCrossentropy(),
                  metrics=['accuracy'])
    return model



---



# ‚öôÔ∏è Entra√Ænement avec activation : `sigmoid`





Nous allons analyser ensemble les r√©sultats obtenus avec la fonction **sigmo√Øde**.

## √âtapes :
1. Entra√Æner le mod√®le avec `activation='sigmoid'`
2. Observer l‚Äô√©volution de l‚Äôaccuracy
3. Comparer les performances avec les autres fonctions
4. R√©fl√©chir aux avantages et inconv√©nients

In [None]:
model = build_model('sigmoid')
history = model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test), verbose=0)
test_loss, test_acc = model.evaluate(X_test, y_test)
print("Test accuracy avec activation sigmoid :", test_acc)

In [None]:
model = build_model('sigmoid')
history = model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test), verbose=0)
plt.plot(history.history['accuracy'], label='train')
plt.plot(history.history['val_accuracy'], label='val')
plt.title("Sigmo√Øde - Courbes d'accuracy")
plt.xlabel("Epoch")
plt.ylabel("Accuracy")
plt.legend()
plt.grid()
plt.show()

## ‚ùì Analyse pour la Sigmoid
1. Quelle est l‚Äôaccuracy finale obtenue ?  
2. Comment √©volue la courbe d‚Äôapprentissage ? Est-elle r√©guli√®re, lente, rapide ?  
3. As-tu remarqu√© un plateau, un pic, une stagnation ?  
4. Quels avantages ou limites observes-tu pour cette fonction dans ce contexte MNIST ?



---



# üîÅ √Ä vous d‚Äôanalyser les autres fonctions d‚Äôactivation !
Refais l‚Äôanalyse ci-dessus pour :
- `ReLU`
- `Tanh`
- `Swish`



---



# ‚öôÔ∏è Entra√Ænement avec activation : `relu`

In [None]:
model = build_model('relu')
history = model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test), verbose=0)
test_loss, test_acc = model.evaluate(X_test, y_test)
print("Test accuracy avec activation relu :", test_acc)




---



# ‚öôÔ∏è Entra√Ænement avec activation : `tanh`

In [None]:
model = build_model('tanh')
history = model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test), verbose=0)
test_loss, test_acc = model.evaluate(X_test, y_test)
print("Test accuracy avec activation tanh :", test_acc)




---



# ‚öôÔ∏è Entra√Ænement avec activation : Swish (custom)

In [None]:
from tensorflow.keras.layers import Activation
from tensorflow.keras.utils import get_custom_objects
import tensorflow as tf

def swish(x):
    return x * tf.keras.backend.sigmoid(x)
get_custom_objects().update({'swish': Activation(swish)})

model = build_model('swish')
history = model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test), verbose=0)
test_loss, test_acc = model.evaluate(X_test, y_test)
print("Test accuracy avec activation swish :", test_acc)




---



# üìâ Pour aller plus loin : Courbes de perte (loss)
Observer la courbe de loss peut aider √† comprendre la vitesse de convergence et les risques de surapprentissage.

```python
plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='val')
plt.title("√âvolution de la perte (loss)")
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.legend()
plt.grid()
plt.show()
```

üîé *On peut √©galement explorer une **matrice de confusion** dans un TD ult√©rieur, afin d‚Äô√©tudier plus finement les erreurs du mod√®le.*




---



# ‚úÖ Partie professeur ‚Äì R√©ponses d√©taill√©es et relecture compl√®te
Cette partie reprend toute l‚Äôactivit√© pas √† pas pour que tu puisses v√©rifier ta compr√©hension et tes r√©sultats.
Tu peux t'en servir comme **correction guid√©e** ou comme **support pour refaire toute l‚Äôanalyse** si tu as besoin d‚Äôaide.

### üîπ Analyse de la fonction d‚Äôactivation : Sigmo√Øde
- La courbe d‚Äôaccuracy monte lentement mais s√ªrement.
- L'accuracy finale se stabilise autour de **91% √† 93%**.
- Cette lenteur vient du fait que la **sigmo√Øde sature** quand les entr√©es sont grandes ou petites.
- La d√©riv√©e devient alors presque nulle (ph√©nom√®ne de **vanishing gradient**).

### üîπ Analyse de la fonction d‚Äôactivation : ReLU
- L‚Äôaccuracy monte beaucoup plus vite (~95% √† 97%).
- La convergence est rapide et stable.
- Attention : certains neurones peuvent rester bloqu√©s si leur entr√©e reste n√©gative (**neurones morts**).
- Mais dans un petit r√©seau, cela reste rare.


### üîπ Analyse de la fonction d‚Äôactivation : tanh
- Similaire √† la sigmo√Øde mais centr√©e en 0.
- L‚Äôapprentissage est plus rapide que sigmo√Øde mais moins rapide que ReLU.
- L‚Äôaccuracy finale est souvent autour de **94-96%**.

### üîπ Analyse de la fonction d‚Äôactivation : Swish
- Fonction r√©cente, douce et efficace.
- Comporte une partie n√©gative mais non nulle (√©vite les neurones morts).
- Bonne convergence, souvent entre **97-98% d‚Äôaccuracy** sur MNIST.
- Plus lente √† calculer que ReLU, mais tr√®s performante.

### üìä R√©sum√© comparatif (corrig√© indicatif)
| Fonction d‚Äôactivation | Accuracy finale | Vitesse de convergence | Remarques |
|------------------------|------------------|--------------------------|-----------|
| Sigmo√Øde               | 91‚Äì93 %          | Lente                   | Saturation, stable       |
| ReLU                   | 95‚Äì97 %          | Rapide                  | Simple et efficace       |
| Tanh                   | 94‚Äì96 %          | Moyenne                 | Bon compromis            |
| Swish                  | 97‚Äì98 %          | Bonne                   | Fluide, moderne          |

## üìâ Pour aller plus loin : courbe de perte (loss) ‚Äì Explication
- Le loss correspond √† l‚Äôerreur globale du mod√®le √† chaque epoch.
- Plus il diminue rapidement et r√©guli√®rement, mieux la fonction d‚Äôactivation permet l‚Äôapprentissage.
- On compare souvent `loss` et `val_loss` pour d√©tecter un **surapprentissage** (overfitting).
- Une fonction d‚Äôactivation efficace fera **descendre la loss rapidement**.
- Si la loss de validation remonte, cela peut signaler une **surcharge (overfit)**.

### üìú Licence d'utilisation
Ce notebook est mis √† disposition sous licence **Creative Commons Attribution - Pas d‚ÄôUtilisation Commerciale - Partage dans les M√™mes Conditions 4.0 International**.

**Auteur** : Christie Vassilian