### üìú Licence d'utilisation
Ce notebook est mis √† disposition sous licence **Creative Commons Attribution - Pas d‚ÄôUtilisation Commerciale - Partage dans les M√™mes Conditions 4.0 International**.

**Auteur** : Christie Vassilian

Vous √™tes libre de le r√©utiliser, de le modifier et de le partager, √† condition de citer l‚Äôauteur original et de ne pas en faire un usage commercial.

# üåü Fonctions d‚Äôactivation dans les r√©seaux de neurones

## üéØ Objectifs p√©dagogiques
- Comprendre ce qu‚Äôest une fonction d‚Äôactivation et son r√¥le dans un r√©seau de neurones.
- Revoir et mobiliser des notions math√©matiques (fonctions, d√©riv√©es, limites, variations).
- S‚Äôinitier √† la programmation Python appliqu√©e √† l‚Äôintelligence artificielle.

## üß† Partie 1 - Qu‚Äôest-ce qu‚Äôun r√©seau de neurones et une fonction d'activation ?

Un r√©seau de neurones artificiels est un mod√®le math√©matique inspir√© du cerveau humain. Il est constitu√© de couches de **neurones**, qui effectuent chacun un **calcul simple**.

Un **neurone** artificiel re√ßoit des entr√©es (des nombres), les pond√®re (multiplie par des coefficients), les additionne, puis applique une **fonction d‚Äôactivation** √† ce total pour produire une sortie.

Sans fonction d‚Äôactivation, le r√©seau ne pourrait **pas apprendre des relations complexes** entre les donn√©es. Les fonctions d‚Äôactivation introduisent **de la non-lin√©arit√©**, ce qui permet au r√©seau d‚Äôapproximer pratiquement n‚Äôimporte quelle fonction.

### üîé Partie 1 - Questions :
1. ‚úçÔ∏è *Qu‚Äôest-ce qu‚Äôun neurone artificiel ?*
2. ‚úçÔ∏è *Pourquoi utilise-t-on une fonction d‚Äôactivation ?*
3. ‚úçÔ∏è *Qu‚Äôest-ce qu‚Äôune fonction non-lin√©aire ? Donne un exemple math√©matique simple.*
4. ‚úçÔ∏è *Qu‚Äôest-ce que la r√©tropropagation dans un r√©seau de neurones ? Quel lien avec la d√©riv√©e de la fonction d‚Äôactivation ?*
5. ‚úçÔ∏è *Pourquoi utilise-t-on une fonction diff√©rente en sortie du r√©seau selon le probl√®me trait√© ? (ex : binaire vs multi-classes)*

## ‚öôÔ∏è Partie 2 - Fonction Sigmo√Øde


La fonction sigmo√Øde est une fonction en forme de S, tr√®s utilis√©e pour produire des sorties entre 0 et 1.  
Elle est d√©finie par : $$\sigma(x) = \frac{1}{1 + e^{-x}}$$

Elle permet d‚Äôinterpr√©ter la sortie comme une probabilit√©. Elle est souvent utilis√©e en **sortie de r√©seau** pour les probl√®mes de **classification binaire**.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.linspace(-6, 6, 100)
y = sigmoid(x)

plt.plot(x, y)
plt.title("Fonction sigmo√Øde")
plt.grid()
plt.show()

### ‚ùì Partie 2 - Questions
1. ‚úçÔ∏è *Calcule la valeur de œÉ(0), œÉ(2), et œÉ(-2). Que remarques-tu ?*
2. ‚úçÔ∏è *Montre que la fonction est strictement croissante. Pourquoi est-ce important en IA ?*
3. ‚úçÔ∏è *Quelle est la limite de œÉ(x) quand x tend vers -‚àû et +‚àû ?*
4. ‚úçÔ∏è *Quelle est la d√©riv√©e de œÉ(x) ? Que vaut-elle pour x = 0 ?*
5. ‚úçÔ∏è *Pourquoi l‚Äôutilisation de la sigmo√Øde peut poser probl√®me dans les couches profondes ?*


## ‚öôÔ∏è Partie 3 - Fonction ReLU


La fonction ReLU (Rectified Linear Unit) est d√©finie par :  
$\text{ReLU}(x) = \max(0, x)$

Elle est tr√®s utilis√©e dans les **couches cach√©es** des r√©seaux profonds car elle est simple, rapide et permet une meilleure propagation du gradient.

In [None]:
def relu(x):
    return np.maximum(0, x)

x = np.linspace(-5, 5, 100)
y = relu(x)

plt.plot(x, y)
plt.title("Fonction ReLU")
plt.grid()
plt.show()

### ‚ùì Partie 3 - Questions
1. ‚úçÔ∏è *Trace la courbe de ReLU. Quelle est sa pente √† droite de 0 ? Et √† gauche ?*
2. ‚úçÔ∏è *Que vaut la d√©riv√©e de ReLU pour x > 0 ? Pour x < 0 ?*
3. ‚úçÔ∏è *Pourquoi la ReLU permet-elle un apprentissage plus rapide que la sigmo√Øde ?*
4. ‚úçÔ∏è *En quoi consiste le ph√©nom√®ne de 'neurones morts' ?*
5. ‚úçÔ∏è *Impl√©mente ReLU en Python sur x = [-2, -1, 0, 1, 2]. Que remarques-tu ?*


## ‚öôÔ∏è Partie 4 - Fonction Leaky ReLU


La fonction Leaky ReLU introduit une l√©g√®re pente sur les valeurs n√©gatives :  
$ \text{LeakyReLU}(x) = \max(\varepsilon x, x) $

Cela permet de **limiter le probl√®me des neurones morts** rencontr√© avec ReLU.

In [None]:
def leaky_relu(x, epsilon=0.1):
    return np.where(x > 0, x, epsilon * x)

x = np.linspace(-5, 5, 100)
y = leaky_relu(x)

plt.plot(x, y)
plt.title("Fonction Leaky ReLU")
plt.grid()
plt.show()

### ‚ùì Partie 4 - Questions
1. ‚úçÔ∏è *Trace Leaky ReLU pour Œµ = 0.1. Compare avec ReLU.*
2. ‚úçÔ∏è *Que vaut la d√©riv√©e de Leaky ReLU pour x < 0 et x > 0 ?*
3. ‚úçÔ∏è *Explique comment Leaky ReLU limite le probl√®me des neurones morts.*
4. ‚úçÔ∏è *Est-elle continue et d√©rivable en x = 0 ?*
5. ‚úçÔ∏è *Modifie la valeur de Œµ (ex : 0.01, 0.5). Que remarques-tu ?*


## ‚öôÔ∏è Partie 5 -Fonction Swish


La fonction Swish est d√©finie par :  
$\text{swish}(x) = x \cdot \sigma(x)$

Elle est **continue, d√©rivable** et peut mieux fonctionner que ReLU sur certains r√©seaux.

In [None]:
def swish(x):
    return x * sigmoid(x)

x = np.linspace(-5, 5, 100)
y = swish(x)

plt.plot(x, y)
plt.title("Fonction Swish")
plt.grid()
plt.show()

### ‚ùì Partie 5 - Questions
1. ‚úçÔ∏è *Calcule Swish(-2), Swish(0), Swish(2).*
2. ‚úçÔ∏è *Trace sa courbe et compare avec ReLU.*
3. ‚úçÔ∏è *Pourquoi dit-on que Swish est une fonction 'douce' (smooth) ?*
4. ‚úçÔ∏è *Quels sont ses avantages en IA par rapport √† ReLU ?*
5. ‚úçÔ∏è *Impl√©mente Swish et observe sa forme compar√©e aux autres fonctions.*


## ‚öôÔ∏è Partie 6 - Fonction Softmax


La fonction softmax transforme un vecteur de nombres en **probabilit√©s** dont la somme vaut 1. Elle est utilis√©e **en sortie de r√©seau de classification multi-classes**.

In [None]:
def softmax(x):
    exp_x = np.exp(x - np.max(x))  # pour la stabilit√© num√©rique
    return exp_x / np.sum(exp_x)

x = np.array([1, 2, 3])
y = softmax(x)
print("R√©sultat de softmax([1, 2, 3]) :", y)
print("Somme des sorties :", np.sum(y))

### ‚ùì Partie 6 - Questions
1. ‚úçÔ∏è *Calcule √† la main la softmax de (1, 2, 3). Que vaut la somme ?*
2. ‚úçÔ∏è *Que se passe-t-il avec (100, 100, 100) ?*
3. ‚úçÔ∏è *Pourquoi softmax est-elle r√©serv√©e aux couches de sortie ?*
4. ‚úçÔ∏è *Quelle diff√©rence avec la sigmo√Øde ?*
5. ‚úçÔ∏è *Impl√©mente softmax et teste plusieurs vecteurs. Que constates-tu ?*


## üßæ Partie 7 - Bilan p√©dagogique

Cette activit√© a permis de :

- Comprendre ce qu‚Äôest une fonction d‚Äôactivation et ses usages en IA.
- Travailler les notions math√©matiques : fonctions, d√©riv√©es, limites, continuit√©.
- Manipuler Python de mani√®re guid√©e pour tracer et analyser des fonctions d‚Äôactivation.

### üìå R√©sum√© des cas d‚Äôusage des fonctions d‚Äôactivation

| Fonction      | Usage principal en IA                             | Sp√©cificit√©                                      |
|---------------|---------------------------------------------------|--------------------------------------------------|
| Sigmo√Øde      | Sortie binaire (0 ou 1)                           | Lisse, saturante, interpr√©tation probabiliste    |
| ReLU          | Couches cach√©es                                   | Simple, efficace, rapide mais neurones morts     |
| Leaky ReLU    | Couches cach√©es                                   | Variante de ReLU qui √©vite les neurones morts    |
| Swish         | Couches cach√©es profondes                         | Lisse, performant, nouvelle g√©n√©ration           |
| Softmax       | Sortie multi-classes                              | Donne une distribution de probabilit√©            |

## ‚úÖ Partie 8 - Partie professeur ‚Äì R√©ponses d√©taill√©es

Voici les r√©ponses comment√©es √† toutes les questions pos√©es dans le notebook, avec le code Python n√©cessaire lorsque c‚Äôest utile pour visualiser ou v√©rifier les r√©sultats.

L‚Äôobjectif est que l‚Äô√©l√®ve puisse **travailler en autonomie**, v√©rifier sa compr√©hension et apprendre de ses erreurs.

### üîπ Fonction Sigmo√Øde ‚Äì R√©ponses

1. **Valeurs** :
$
   \sigma(0) = \dfrac{1}{1 + e^{0}} = 0.5, \quad
   \sigma(2) \approx 0.88, \quad
   \sigma(-2) \approx 0.12
$

3. **Fonction strictement croissante** : La d√©riv√©e $\sigma'(x) = \sigma(x)(1 - \sigma(x))$ est strictement positive sur $\mathbb{R}$, donc la fonction est strictement croissante.

4. **Limites** : $$\lim_{x \to -\infty} \sigma(x) = 0$$ et $$\lim_{x \to +\infty} \sigma(x) = 1$$

6. **D√©riv√©e en x = 0** : $\sigma(0) = 0.5 \Rightarrow \sigma'(0) = 0.5 \times (1 - 0.5) = 0.25$

7. **Probl√®me en r√©seau profond** : Lorsque \( x \) devient grand ou petit, la d√©riv√©e de la sigmo√Øde tend vers 0. Ce ph√©nom√®ne est appel√© **vanishing gradient** : il emp√™che les couches profondes d‚Äôapprendre efficacement.

#### üîé Code de v√©rification :
```python
import numpy as np
def sigmoid(x):
    return 1 / (1 + np.exp(-x))
x_vals = np.array([-2, 0, 2])
print(sigmoid(x_vals))  # Donne environ [0.12, 0.5, 0.88]
```

### üîπ Fonction ReLU ‚Äì R√©ponses

1. **Pente** :
   - Pour \( x > 0 \), la pente est 1
   - Pour \( x < 0 \), la pente est 0
   - En x = 0, la d√©riv√©e n‚Äôest pas d√©finie (discontinuit√© de la pente)

2. **D√©riv√©e** :
   $\text{ReLU}'(x) = \begin{cases}
   1 & \text{si } x > 0 \\
   0 & \text{si } x < 0
   \end{cases}$

3. **Efficacit√©** : la ReLU permet un apprentissage rapide car elle ne sature pas (contrairement √† la sigmo√Øde) et garde des d√©riv√©es constantes pour les valeurs positives.

4. **Neurones morts** : un neurone est "mort" si sa sortie est toujours 0 (entr√©e n√©gative constante), ce qui g√®le son apprentissage.

5. **Code Python simple** :
```python
import numpy as np
def relu(x): return np.maximum(0, x)
relu(np.array([-2, -1, 0, 1, 2]))  # Renvoie [0 0 0 1 2]
```

### üîπ Fonction Leaky ReLU ‚Äì R√©ponses

1. Leaky ReLU pour $\varepsilon = 0.1$ :
   - identique √† ReLU pour $x > 0$
   - pente faible $\varepsilon$ pour $x < 0$

2. **D√©riv√©e** :
   $\text{LeakyReLU}'(x) = \begin{cases}
   1 & \text{si } x > 0 \\
   \varepsilon & \text{si } x < 0
   \end{cases}$

3. **Neurones morts** : elle les √©vite car m√™me les valeurs n√©gatives produisent une petite d√©riv√©e.

4. **Continuit√© / d√©rivabilit√©** : elle est continue et d√©rivable sur $\mathbb{R}$.

5. **Code Python** :
```python
def leaky_relu(x, epsilon=0.1):
    return np.where(x > 0, x, epsilon * x)

x = np.linspace(-5, 5, 100)
plt.plot(x, leaky_relu(x, 0.01), label='Œµ=0.01')
plt.plot(x, leaky_relu(x, 0.1), label='Œµ=0.1')
plt.plot(x, leaky_relu(x, 0.5), label='Œµ=0.5')
plt.legend(); plt.grid(); plt.title("Comparaison Leaky ReLU")
plt.show()
```

### üîπ Fonction Swish ‚Äì R√©ponses

1. **Calculs** :
   - Swish(-2) ‚âà -0.24
   - Swish(0) = 0
   - Swish(2) ‚âà 1.76

2. **Forme** : douce, lisse, non lin√©aire. Similaire √† ReLU pour $x > 0$, mais plus progressive autour de $0$.

3. **Smooth** : Swish est d√©rivable partout avec une d√©riv√©e continue.

4. **Avantage IA** : moins de neurones morts, meilleure capacit√© √† capturer des relations complexes (notamment sur des r√©seaux profonds).

5. **Code** :
```python
def sigmoid(x): return 1 / (1 + np.exp(-x))
def swish(x): return x * sigmoid(x)
x = np.linspace(-5, 5, 100)
plt.plot(x, swish(x), label='Swish')
plt.plot(x, relu(x), label='ReLU', linestyle='--')
plt.legend(); plt.grid(); plt.title("Swish vs ReLU")
plt.show()
```

### üîπ Fonction Softmax ‚Äì R√©ponses

1. **Calcul manuel** :
   $$\text{softmax}([1, 2, 3]) = \left[
   \frac{e^1}{e^1 + e^2 + e^3}, \frac{e^2}{...}, \frac{e^3}{...}
   \right] \approx [0.09, 0.24, 0.67]$$
   La somme fait 1.

2. **Vecteurs constants** : softmax([100, 100, 100]) = [1/3, 1/3, 1/3] car toutes les exponentielles sont √©gales.

3. **Usage** : couche de sortie pour **classification multi-classes**. Interpr√©table comme une distribution de probabilit√©.

4. **Diff√©rence avec sigmo√Øde** : la sigmo√Øde s‚Äôapplique ind√©pendamment sur chaque sortie, la softmax consid√®re le **contexte global** du vecteur.

5. **Code** :
```python
def softmax(x):
    e_x = np.exp(x - np.max(x))  # stabilit√© num√©rique
    return e_x / np.sum(e_x)

x = np.array([1, 2, 3])
print(softmax(x))  # [0.09, 0.24, 0.67]
print(np.sum(softmax(x)))  # 1.0
```

### üìú Licence d'utilisation
Ce notebook est mis √† disposition sous licence **Creative Commons Attribution - Pas d‚ÄôUtilisation Commerciale - Partage dans les M√™mes Conditions 4.0 International**.

**Auteur** : Christie Vassilian