## 2.1 ***Fonctions d'Activation***
___

Ayant compris comment les réseaux de neurones utilisent des poids et des biais pour effectuer des calculs, il est temps d'explorer comment ils introduisent de la non-linéarité et de la complexité dans ces calculs. C'est là que les **fonctions d'activation** entrent en jeu.

Examinons la formule du neurone :

Étant donné un neurone 𝑖, sa sortie $y_i$ est calculée par :

### $y_i = \phi\left(\sum_{j=1}^{n} w_{ij} x_j + b_i\right)$

Où :

- $x_j$ sont les valeurs d'entrée du neurone.
- $w_{ij}$ sont les poids associés aux entrées.
- $b_i$ est le terme de biais pour le neurone.
- $\sum_{j=1}^{n} w_{ij} x_j$ est la somme pondérée des entrées.
- $\phi(\cdot)$ est **la fonction d'activation** appliquée à la somme pondérée.

## Mais qu'est-ce qu'une fonction d'activation ?

Dans les réseaux de neurones, une fonction d'activation est une fonction mathématique appliquée à la sortie d'un neurone, introduisant de la non-linéarité dans le modèle (pensez à la linéarité comme $y = ax + b$, c'est-à-dire une droite). Cette non-linéarité permet au réseau de capturer et de représenter des motifs complexes dans les données, ce qui serait impossible si le réseau ne réalisait que des transformations linéaires. Sans fonctions d'activation, même avec plusieurs couches, le réseau agirait essentiellement comme un modèle de régression linéaire, limité à modéliser des relations linéaires.

La fonction d'activation détermine si un neurone doit être "activé". En appliquant une transformation non linéaire, la fonction d'activation permet au neurone de contribuer à l'apprentissage de correspondances complexes et non linéaires entre les entrées et les sorties.

Si un réseau de neurones n'utilisait que des transformations linéaires (à travers des multiplications et des additions de matrices), l'empilement de plusieurs couches donnerait toujours un modèle qui produit une fonction linéaire de ses entrées. La fonction d'activation non linéaire est donc essentielle pour la capacité du réseau à approximer des motifs complexes du monde réel.

![alt text](../../Source/linearregressionvsnonlinear.png)

## L'ennemi juré d'une fonction d'activation

Le pire ennemi d'une fonction d'activation est le **problème du gradient évanescent**. *(Évanescent : Qui s'amoindrit et disparaît graduellement)*

Cela se produit lorsque les gradients, qui sont utilisés pour mettre à jour les poids lors de la rétropropagation, deviennent extrêmement petits à mesure qu'ils se propagent à travers les couches d'un réseau de neurones. En conséquence, le réseau apprend très lentement ou cesse même d'apprendre complètement.

Le problème du gradient explosif est un autre défi majeur dans l'entraînement des réseaux de neurones profonds.

Il se produit lorsque les gradients deviennent excessivement grands lors de la rétropropagation, entraînant un entraînement instable et pouvant potentiellement faire diverger les poids du réseau.

*Nous aborderons les gradients plus tard, pour l'instant, rappelez-vous simplement qu'ils indiquent les corrections à apporter lors de l'entraînement d'un modèle :)*

![alt text](../../Source/vanishing-and-exploding-gradient-1.webp)


In [None]:
from matplotlib import pyplot
from numpy import exp

# définir les données d'entrée
inputs = [x for x in range(-10, 10)]

# exécutez simplement ce code pour l'initialisation

## Choisir une fonction d'activation

Voici une liste non exhaustive de certaines fonctions d'activation très courantes, leur cas d'usage et leurs formules respectives :

***Votre objectif est d'essayer de recréer chaque fonction mathématiquement et de la tracer pour obtenir le même graphique que l'exemple fourni !***
- **Sigmoïde :**

    La fonction sigmoïde peut traiter n'importe quel nombre réel et le mapper entre 0 et 1. Ce mappage la rend utile dans les problèmes de classification binaire en apprentissage automatique, où la sortie est modélisée comme une probabilité.
$$\sigma(x) = \frac{1} {1 + e^{-x}}$$ 
![alt text](../../Source/sigmoid_function.png)


In [None]:
def sigmoid(x):
    # TODO: Implémentez la fonction sigmoid
    return ...

sigmoid_outputs = [sigmoid(x) for x in inputs]

print("SIGMOID FUNCTION")
pyplot.plot(inputs, sigmoid_outputs)
pyplot.show()


___
- **Tanh (Tangente Hyperbolique) :**

    Historiquement, la fonction tanh est devenue préférée à la fonction sigmoïde car elle offrait de meilleures performances pour les réseaux de neurones à couches multiples. Mais elle n'a pas résolu le problème du gradient évanescent dont souffraient les sigmoïdes, problème qui a été abordé de manière plus efficace avec l'introduction des activations ReLU.
$$tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} = \frac{1 - e^{-2x}}{1 + e^{-2x}}$$

![alt text](../../Source/tanh_function.png)

In [None]:
def tanh(x):
    # TODO: Implémentez la fonction tanh
    return ...

tanh_outputs = [tanh(x) for x in inputs]
print("TANH FUNCTION")
pyplot.plot(inputs, tanh_outputs)
pyplot.show()

___
- **ReLU (Unité Linéaire Rectifiée) :**

    Au cours des dernières années, l'unité linéaire rectifiée (ReLU) a dépassé la fonction sigmoïde en popularité en tant que fonction d'activation dans les réseaux de neurones. ReLU améliore les résultats concernant le problème du gradient évanescent, s'adapte bien aux grands réseaux et offre un calcul plus rapide grâce à sa formule plus simple.
$$ReLU(x) = \max(0, x)$$
![alt text](../../Source/relu_function.png)


In [None]:
def relu(x):
    # TODO: Implémentez la fonction relu
    return ...

relu_outputs = [relu(x) for x in inputs]
print("RELU FUNCTION")
pyplot.plot(inputs, relu_outputs)
pyplot.show()

___
- **Leaky ReLU :**

    Bien que ReLU représente une amélioration significative par rapport aux fonctions d'activation traditionnelles comme la sigmoïde et la tanh, elle présente encore des limitations lorsqu'il s'agit de très profonds réseaux de neurones. Si l'entrée d'un neurone ReLU est négative, sa sortie est zéro. Si cela se produit de manière répétée, le neurone peut devenir "mort" et ne jamais se réactiver. Cela peut empêcher le neurone d'apprendre et de contribuer à la performance du réseau.
    Pour résoudre ces problèmes, les chercheurs ont développé diverses techniques, comme Leaky ReLU, qui introduit une petite pente pour les entrées négatives, empêchant ainsi les neurones de devenir complètement morts.
$$LeakyReLU(x) = \max(\alpha * x, x)$$

![alt text](../../Source/leaky_relu_function.png)


In [None]:
def leaky_relu(x): # on utilisera alpha = 0.1
    # TODO: Implémentez la fonction leaky_relu
    return ...

leaky_relu_outputs = [leaky_relu(x) for x in inputs]
print("LEAKY_RELU FUNCTION")
pyplot.plot(inputs, leaky_relu_outputs)
pyplot.show()

___
- **Softmax :**

    La fonction Softmax est une fonction d'activation couramment utilisée dans la couche de sortie d'un réseau de neurones pour les problèmes de classification multi-classe. Elle prend un vecteur de nombres réels en entrée et le normalise en une distribution de probabilité, où la somme des probabilités est égale à 1.
    Par exemple, le softmax standard de (1,2,8) est approximativement (0.001, 0.002, 0.997), ce qui revient à attribuer presque tout le poids unitaire total dans le résultat à la position de l'élément maximal du vecteur (de 8).
    La fonction Softmax est définie comme suit :
$$\sigma(x_i) = \frac{e^{x_{i}}}{\sum_{j=1}^K e^{x_{j}}} \ \ \ \text{pour } i=1,2,\dots,K$$


In [None]:
softmax_inputs = [1.0, 3.0, 2.0]

def softmax(x): # nous allons print celui-ci plutot que de le dessiner
    # TODO: Implémentez la fonction softmax
    return ...

softmax_outputs = softmax(softmax_inputs)
print("SOFTMAX FUNCTION")
print(softmax_outputs)
assert softmax_outputs.sum() == 1.0

### Dans quel but utilisons-nous les fonctions d'activation ?

Le choix de la fonction d'activation a un impact considérable sur la capacité et la performance du réseau de neurones, et différentes fonctions d'activation peuvent être utilisées dans différentes parties du modèle.

Un réseau peut avoir trois types de couches : **couches d'entrée** qui prennent des données brutes du domaine, **couches cachées** qui prennent des entrées d'une autre couche et passent des sorties à une autre couche, et **couches de sortie** qui font une prédiction.

Toutes les couches cachées utilisent généralement la même fonction d'activation. La couche de sortie utilisera généralement une fonction d'activation différente de celle des couches cachées et dépendra du type de prédiction requise par le modèle.

Il y a peut-être trois fonctions d'activation que vous voudrez considérer pour une utilisation dans la couche de sortie ; elles sont :

- **Linéaire :** typiquement $f(x) = x$
- **Sigmoïde :** utile pour la classification binaire
- **Softmax :** utile pour attribuer des scores de probabilité, c'est celle utilisée par les transformateurs (ex: ChatGPT)

Ce n'est pas une liste exhaustive des fonctions d'activation utilisées pour les couches de sortie, mais ce sont les plus couramment utilisées.


___
# ***Bonus***

### Essayons de visualiser l'impact qu'une fonction d'activation peut avoir sur l'entraînement d'un modèle :

L'objectif de cette activité est d'essayer de reproduire le problème du gradient évanescent.

Le code suivant génère deux groupes distincts de points de données sous la forme de croissants de lune. Il construit ensuite un réseau de neurones qui sera entraîné à différencier si un point de données appartient à un croissant de lune ou à l'autre.

Votre tâche est de lancer le code et de voir si la perte diminue au cours des époques. Vous pourriez observer peu ou pas de changements dans la valeur de la perte, auquel cas vous êtes probablement confronté à un problème de gradient évanescent. Pouvez-vous trouver comment le résoudre ? (Gardez à l'esprit qu'il peut être nécessaire d'essayer plusieurs fois en raison de la randomisation.)


In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons # jeux de données de classification
from sklearn.model_selection import train_test_split
from keras.layers import Dense
from keras.models import Sequential

X, y = make_moons(n_samples=250, noise=0.05, random_state=42) # créer nos 2 lunes

plt.scatter(X[:, 0], X[:, 1], c=y, s=100)
plt.show()

# construction d'un réseau de neurones complexe avec deux entrées et neuf couches avec 10 nœuds
model = Sequential()

# prend les coordonnées x et y d'un point de données comme entrée
model.add(Dense(10, activation='sigmoid', input_dim=2))

model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))

# la sortie utilise également une fonction d'activation sigmoïde car elle convient à la classification binaire (0-0.5 et 0.5-1)
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

model.get_weights()[0]

old_weights = model.get_weights()[0]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

model.fit(X_train, y_train, epochs=300)

new_weights = model.get_weights()[0]
