## 2.1 ***Fonctions d'Activation***
___

Ayant compris comment les r√©seaux de neurones utilisent des poids et des biais pour effectuer des calculs, il est temps d'explorer comment ils introduisent de la non-lin√©arit√© et de la complexit√© dans ces calculs. C'est l√† que les **fonctions d'activation** entrent en jeu.

Examinons la formule du neurone :

√âtant donn√© un neurone ùëñ, sa sortie $y_i$ est calcul√©e par :

### $y_i = \phi\left(\sum_{j=1}^{n} w_{ij} x_j + b_i\right)$

O√π :

- $x_j$ sont les valeurs d'entr√©e du neurone.
- $w_{ij}$ sont les poids associ√©s aux entr√©es.
- $b_i$ est le terme de biais pour le neurone.
- $\sum_{j=1}^{n} w_{ij} x_j$ est la somme pond√©r√©e des entr√©es.
- $\phi(\cdot)$ est **la fonction d'activation** appliqu√©e √† la somme pond√©r√©e.

## Mais qu'est-ce qu'une fonction d'activation ?

Dans les r√©seaux de neurones, une fonction d'activation est une fonction math√©matique appliqu√©e √† la sortie d'un neurone, introduisant de la non-lin√©arit√© dans le mod√®le (pensez √† la lin√©arit√© comme $y = ax + b$, c'est-√†-dire une droite). Cette non-lin√©arit√© permet au r√©seau de capturer et de repr√©senter des motifs complexes dans les donn√©es, ce qui serait impossible si le r√©seau ne r√©alisait que des transformations lin√©aires. Sans fonctions d'activation, m√™me avec plusieurs couches, le r√©seau agirait essentiellement comme un mod√®le de r√©gression lin√©aire, limit√© √† mod√©liser des relations lin√©aires.

La fonction d'activation d√©termine si un neurone doit √™tre "activ√©". En appliquant une transformation non lin√©aire, la fonction d'activation permet au neurone de contribuer √† l'apprentissage de correspondances complexes et non lin√©aires entre les entr√©es et les sorties.

Si un r√©seau de neurones n'utilisait que des transformations lin√©aires (√† travers des multiplications et des additions de matrices), l'empilement de plusieurs couches donnerait toujours un mod√®le qui produit une fonction lin√©aire de ses entr√©es. La fonction d'activation non lin√©aire est donc essentielle pour la capacit√© du r√©seau √† approximer des motifs complexes du monde r√©el.

![alt text](../../Source/linearregressionvsnonlinear.png)

## L'ennemi jur√© d'une fonction d'activation

Le pire ennemi d'une fonction d'activation est le **probl√®me du gradient √©vanescent**. *(√âvanescent : Qui s'amoindrit et dispara√Æt graduellement)*

Cela se produit lorsque les gradients, qui sont utilis√©s pour mettre √† jour les poids lors de la r√©tropropagation, deviennent extr√™mement petits √† mesure qu'ils se propagent √† travers les couches d'un r√©seau de neurones. En cons√©quence, le r√©seau apprend tr√®s lentement ou cesse m√™me d'apprendre compl√®tement.

Le probl√®me du gradient explosif est un autre d√©fi majeur dans l'entra√Ænement des r√©seaux de neurones profonds.

Il se produit lorsque les gradients deviennent excessivement grands lors de la r√©tropropagation, entra√Ænant un entra√Ænement instable et pouvant potentiellement faire diverger les poids du r√©seau.

*Nous aborderons les gradients plus tard, pour l'instant, rappelez-vous simplement qu'ils indiquent les corrections √† apporter lors de l'entra√Ænement d'un mod√®le :)*

![alt text](../../Source/vanishing-and-exploding-gradient-1.webp)


In [None]:
from matplotlib import pyplot
from numpy import exp

# d√©finir les donn√©es d'entr√©e
inputs = [x for x in range(-10, 10)]

# ex√©cutez simplement ce code pour l'initialisation

## Choisir une fonction d'activation

Voici une liste non exhaustive de certaines fonctions d'activation tr√®s courantes, leur cas d'usage et leurs formules respectives :

***Votre objectif est d'essayer de recr√©er chaque fonction math√©matiquement et de la tracer pour obtenir le m√™me graphique que l'exemple fourni !***
- **Sigmo√Øde :**

    La fonction sigmo√Øde peut traiter n'importe quel nombre r√©el et le mapper entre 0 et 1. Ce mappage la rend utile dans les probl√®mes de classification binaire en apprentissage automatique, o√π la sortie est mod√©lis√©e comme une probabilit√©.
$$\sigma(x) = \frac{1} {1 + e^{-x}}$$ 
![alt text](../../Source/sigmoid_function.png)


In [None]:
def sigmoid(x):
    # TODO: Impl√©mentez la fonction sigmoid
    return ...

sigmoid_outputs = [sigmoid(x) for x in inputs]

print("SIGMOID FUNCTION")
pyplot.plot(inputs, sigmoid_outputs)
pyplot.show()


___
- **Tanh (Tangente Hyperbolique) :**

    Historiquement, la fonction tanh est devenue pr√©f√©r√©e √† la fonction sigmo√Øde car elle offrait de meilleures performances pour les r√©seaux de neurones √† couches multiples. Mais elle n'a pas r√©solu le probl√®me du gradient √©vanescent dont souffraient les sigmo√Ødes, probl√®me qui a √©t√© abord√© de mani√®re plus efficace avec l'introduction des activations ReLU.
$$tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} = \frac{1 - e^{-2x}}{1 + e^{-2x}}$$

![alt text](../../Source/tanh_function.png)

In [None]:
def tanh(x):
    # TODO: Impl√©mentez la fonction tanh
    return ...

tanh_outputs = [tanh(x) for x in inputs]
print("TANH FUNCTION")
pyplot.plot(inputs, tanh_outputs)
pyplot.show()

___
- **ReLU (Unit√© Lin√©aire Rectifi√©e) :**

    Au cours des derni√®res ann√©es, l'unit√© lin√©aire rectifi√©e (ReLU) a d√©pass√© la fonction sigmo√Øde en popularit√© en tant que fonction d'activation dans les r√©seaux de neurones. ReLU am√©liore les r√©sultats concernant le probl√®me du gradient √©vanescent, s'adapte bien aux grands r√©seaux et offre un calcul plus rapide gr√¢ce √† sa formule plus simple.
$$ReLU(x) = \max(0, x)$$
![alt text](../../Source/relu_function.png)


In [None]:
def relu(x):
    # TODO: Impl√©mentez la fonction relu
    return ...

relu_outputs = [relu(x) for x in inputs]
print("RELU FUNCTION")
pyplot.plot(inputs, relu_outputs)
pyplot.show()

___
- **Leaky ReLU :**

    Bien que ReLU repr√©sente une am√©lioration significative par rapport aux fonctions d'activation traditionnelles comme la sigmo√Øde et la tanh, elle pr√©sente encore des limitations lorsqu'il s'agit de tr√®s profonds r√©seaux de neurones. Si l'entr√©e d'un neurone ReLU est n√©gative, sa sortie est z√©ro. Si cela se produit de mani√®re r√©p√©t√©e, le neurone peut devenir "mort" et ne jamais se r√©activer. Cela peut emp√™cher le neurone d'apprendre et de contribuer √† la performance du r√©seau.
    Pour r√©soudre ces probl√®mes, les chercheurs ont d√©velopp√© diverses techniques, comme Leaky ReLU, qui introduit une petite pente pour les entr√©es n√©gatives, emp√™chant ainsi les neurones de devenir compl√®tement morts.
$$LeakyReLU(x) = \max(\alpha * x, x)$$

![alt text](../../Source/leaky_relu_function.png)


In [None]:
def leaky_relu(x): # on utilisera alpha = 0.1
    # TODO: Impl√©mentez la fonction leaky_relu
    return ...

leaky_relu_outputs = [leaky_relu(x) for x in inputs]
print("LEAKY_RELU FUNCTION")
pyplot.plot(inputs, leaky_relu_outputs)
pyplot.show()

___
- **Softmax :**

    La fonction Softmax est une fonction d'activation couramment utilis√©e dans la couche de sortie d'un r√©seau de neurones pour les probl√®mes de classification multi-classe. Elle prend un vecteur de nombres r√©els en entr√©e et le normalise en une distribution de probabilit√©, o√π la somme des probabilit√©s est √©gale √† 1.
    Par exemple, le softmax standard de (1,2,8) est approximativement (0.001, 0.002, 0.997), ce qui revient √† attribuer presque tout le poids unitaire total dans le r√©sultat √† la position de l'√©l√©ment maximal du vecteur (de 8).
    La fonction Softmax est d√©finie comme suit :
$$\sigma(x_i) = \frac{e^{x_{i}}}{\sum_{j=1}^K e^{x_{j}}} \ \ \ \text{pour } i=1,2,\dots,K$$


In [None]:
softmax_inputs = [1.0, 3.0, 2.0]

def softmax(x): # nous allons print celui-ci plutot que de le dessiner
    # TODO: Impl√©mentez la fonction softmax
    return ...

softmax_outputs = softmax(softmax_inputs)
print("SOFTMAX FUNCTION")
print(softmax_outputs)
assert softmax_outputs.sum() == 1.0

### Dans quel but utilisons-nous les fonctions d'activation ?

Le choix de la fonction d'activation a un impact consid√©rable sur la capacit√© et la performance du r√©seau de neurones, et diff√©rentes fonctions d'activation peuvent √™tre utilis√©es dans diff√©rentes parties du mod√®le.

Un r√©seau peut avoir trois types de couches : **couches d'entr√©e** qui prennent des donn√©es brutes du domaine, **couches cach√©es** qui prennent des entr√©es d'une autre couche et passent des sorties √† une autre couche, et **couches de sortie** qui font une pr√©diction.

Toutes les couches cach√©es utilisent g√©n√©ralement la m√™me fonction d'activation. La couche de sortie utilisera g√©n√©ralement une fonction d'activation diff√©rente de celle des couches cach√©es et d√©pendra du type de pr√©diction requise par le mod√®le.

Il y a peut-√™tre trois fonctions d'activation que vous voudrez consid√©rer pour une utilisation dans la couche de sortie ; elles sont :

- **Lin√©aire :** typiquement $f(x) = x$
- **Sigmo√Øde :** utile pour la classification binaire
- **Softmax :** utile pour attribuer des scores de probabilit√©, c'est celle utilis√©e par les transformateurs (ex: ChatGPT)

Ce n'est pas une liste exhaustive des fonctions d'activation utilis√©es pour les couches de sortie, mais ce sont les plus couramment utilis√©es.


___
# ***Bonus***

### Essayons de visualiser l'impact qu'une fonction d'activation peut avoir sur l'entra√Ænement d'un mod√®le :

L'objectif de cette activit√© est d'essayer de reproduire le probl√®me du gradient √©vanescent.

Le code suivant g√©n√®re deux groupes distincts de points de donn√©es sous la forme de croissants de lune. Il construit ensuite un r√©seau de neurones qui sera entra√Æn√© √† diff√©rencier si un point de donn√©es appartient √† un croissant de lune ou √† l'autre.

Votre t√¢che est de lancer le code et de voir si la perte diminue au cours des √©poques. Vous pourriez observer peu ou pas de changements dans la valeur de la perte, auquel cas vous √™tes probablement confront√© √† un probl√®me de gradient √©vanescent. Pouvez-vous trouver comment le r√©soudre ? (Gardez √† l'esprit qu'il peut √™tre n√©cessaire d'essayer plusieurs fois en raison de la randomisation.)


In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons # jeux de donn√©es de classification
from sklearn.model_selection import train_test_split
from keras.layers import Dense
from keras.models import Sequential

X, y = make_moons(n_samples=250, noise=0.05, random_state=42) # cr√©er nos 2 lunes

plt.scatter(X[:, 0], X[:, 1], c=y, s=100)
plt.show()

# construction d'un r√©seau de neurones complexe avec deux entr√©es et neuf couches avec 10 n≈ìuds
model = Sequential()

# prend les coordonn√©es x et y d'un point de donn√©es comme entr√©e
model.add(Dense(10, activation='sigmoid', input_dim=2))

model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))

# la sortie utilise √©galement une fonction d'activation sigmo√Øde car elle convient √† la classification binaire (0-0.5 et 0.5-1)
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

model.get_weights()[0]

old_weights = model.get_weights()[0]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

model.fit(X_train, y_train, epochs=300)

new_weights = model.get_weights()[0]
