## 3.1 ***La Fonction d'Optimisation***
___


Une fonction d'optimisation dans un réseau de neurones est un algorithme qui ajuste les poids du modèle pour minimiser l'erreur (ou perte) entre les prédictions du réseau et les valeurs cibles réelles. Les fonctions d'optimisation courantes incluent la **Descente de Gradient** et ses variantes, comme **Adam** et **RMSprop**.

Aujourd'hui, nous allons nous concentrer sur celle qui est peut-être la plus simple : la **Descente de Gradient**

Avant de passer à l'activité ci-dessous, familiarisez-vous avec certains concepts clés en réalisant les deux activités suivantes :
- [Qu'est-ce qu'un gradient et comment descend-il ?](<3.1.1 la_descente_de_gradient.ipynb>)
- [Rétropropagation ou comment calculer les gradients ?](<3.1.2 concept_de_rétropropagation.ipynb>)

En résumé :
- Un **gradient** nous indique dans quelle direction ajuster nos paramètres.
- La **rétropropagation** nous permet de calculer les gradients depuis la couche de sortie jusqu'à l'entrée de notre modèle.
- La **Descente de Gradient** est un algorithme qui ajustera de manière itérative les paramètres de notre modèle afin de minimiser l'erreur (perte) de nos prédictions.

In [None]:
import numpy as np

input = np.array([1.0, 2.0, 3.0, 4.0])
target = np.array([2.0, 3.0, 4.0, 5.0])

W1 = np.array([[-0.2416, -0.2497, -0.3932,  0.2935],
                [-0.0396,  0.1421, -0.4436,  0.1714],
                [-0.3519,  0.4072, -0.0721, -0.1659],
                [ 0.2055, -0.0330, -0.2145,  0.1987]]) 
# poids pour la couche d'entrée qui sont initialisés de manière aléatoire pour un exemple, modifiez-les si vous souhaitez tester avec plus d'exemples

# TODO : faire la prédiction (rappelez-vous de la section 1.1)
prediction = np.dot(W1, input)  # en supposant que l'opération prévue est un produit scalaire (dot product)

print("prediction", prediction)
assert prediction.sum() == -0.8516999999999999

######################################################################
loss = np.mean((prediction - target) ** 2) # Mean Squared Error (MSE)
print("loss", loss)

gradient = np.mean((prediction - target) * input)
print("gradient", gradient)
# Le gradient ici est calculé en fonction de l'entrée et de la sortie,
# nous fournissant la pente de la fonction de perte par rapport aux valeurs d'entrée !


Maintenant que nous avons un gradient, essayons de minimiser la perte **en dessous de 2.96**. Faites de votre mieux !


In [None]:
# TODO : mettre à jour les poids avec le gradient
LEARNING_RATE = ...  # définir un taux d'apprentissage
New_W1 = ...

prediction = New_W1 @ input
loss = np.mean((prediction - target) ** 2)
print("new loss", loss)  # devrait être inférieur à la perte précédente

W1 = New_W1
# N'hésitez pas à exécuter le code plusieurs fois pour voir la perte diminuer ou augmenter


In [None]:
print("final W1", W1)
print("-" * 55)
prediction = input @ W1

print("prediction", prediction)
# Notez que les prédictions sont beaucoup plus proches des cibles que la première prédiction !
# Mais pas encore très proches... Si vous voulez vous rapprocher davantage, essayez avec une autre fonction de perte :)


Excellent travail ! Rappelez-vous, lors de la mise à jour des poids en utilisant le gradient, vous appliquez généralement une fraction du gradient, et cette fraction est contrôlée par le **taux d'apprentissage**. Vous pouvez définir le taux d'apprentissage manuellement ou utiliser des algorithmes avancés qui l'ajustent automatiquement.

Vous comprenez maintenant comment un modèle apprend et s'adapte en mettant à jour ses poids via la descente de gradient. Gardez à l'esprit que le gradient doit être recalculé et réinitialisé au début de chaque époque d'entraînement pour continuer à affiner le modèle de manière efficace.
