# <center> Descente de Gradient </center>

**Source :** LECUN Y., *Quand la machine apprend: la révolution des neurones artificiels et de l'apprentissage profond*, Odile Jacob, Paris, 2019, ISBN:9782738149312.

**Objectif :** Trouver le minimum de la fonction de coût.

Image de la vallée : La direction de la plus grande pente s’appelle le gradient de la fonction de coût. Le fond de la vallée est le minimum de la fonction de coût, et ses coordonnées sont les valeurs des paramètres qui minimisent le coût.

## Etapes de la Descente de Gradient :

    
1. Calculer le coût d’apprentissage pour la valeur actuelle du vecteur de paramètres (au point courant).


2. Mesurer les pentes dans chacun des axes et collecter les pentes dans un vecteur de gradient **g**.


3. Modifier le vecteur de paramètres dans la direction opposée au gradient. Pour ce faire, inverser les signes des composantes du gradient puis nous les multiplier par une constante **e** qu’on choisit, qui contrôle la taille du pas.


4. Ajouter le vecteur résultant au vecteur de paramètres. Remplacer chaque composante du vecteur de paramètres par sa valeur courante moins la composante correspondante du vecteur de gradient multiplié par la taille du pas **e**.


5. Cette taille du pas de gradient est importante : s’il est trop petit, on finira par trouver le minimum, mais cela prendra du temps, parce qu’à chaque pas, on avancera peu. Si le pas est trop grand, on risque de passer au-dessus du minimum et remonter de l’autre côté. Il faut donc que la constante **e** soit telle que les paramètres ne rebondissent pas d’un flanc de montagne au flanc opposé.


6. Répéter les opérations jusqu’à tomber au fond de la vallée. Autrement dit, jusqu’à ce que la valeur de coût d’apprentissage cesse de diminuer.


In [None]:
## Fonction de calcul de gradient par perturbation

# X : tableau des entrées de l’ensemble de données
x = [1, 2, 3, 4]

# Y : tableau des sorties désirées
y = [10, 20, 30, 40]

# w : vecteur de paramètres
w = [2, 2, 2, 2]

# dw : perturbation


def gradient(X,Y,w,dw) :

    h = L(X,Y,w) # calcul du coût

    wa = [0,0] # crée un vecteur wa

    wa[0] = w[0] + dw # perturbation de la 1re coordonnée

    wa[1] = w[1]

    a = L(X,Y,wa) # calcul du coût après perturbation

    wb = [0,0] # crée un vecteur wb

    wb[0] = w[0]

    wb[1] = w[1] + dw # perturbation de la 2e coordonnée

    b = L(X,Y,wb) # calcul du coût après perturbation

    g = [0,0] # crée un vecteur g

    g[0] = (a−h)/dw # pente dans la 1re coordonnée

    g[1] = (b−h)/dw # pente dans la 2e coordonnée

    return g # retourne le vecteur de gradient

In [4]:
# effectuer un pas de gradient

# X : tableau des entrées de l’ensemble de données
# Y : tableau des sorties désirées
# w : vecteur de paramètres
# e : pas de gradient
# dw : perturbation

def descend(X,Y,w,e,dw) :

    g = gradient(X,Y,w,dw) # calcul du vecteur de gradient

    w[0] = w[0] – e*g[0] # mise à jour de w[0]

    w[1] = w[1] – e*g[1] # mise à jour de w[1]

    return w # on renvoie le nouveau vecteur de paramètres

Les étapes de l’apprentissage par descente de gradient consistent à :

1. calculer le coût ;

2. calculer le gradient ;

3. mettre à jour les paramètres en soustrayant le gradient multiplié par une constante e, le pas de gradient.

À force de répéter cette procédure, et à condition que le pas de gradient soit suffisamment petit, la procédure convergera vers le fond de la vallée.

In [None]:
# procédure d’apprentissage

# n : nombre d’itérations de la descente de gradient

def learn(X,Y,w,e,dw,n) :

    for i in range(n) : # répétons n fois

        w = descend(X,Y,w,e,dw) # effectuons un pas

        print(L(X,Y,w)) # imprimons la valeur du coût

    return w # on renvoie le vecteur de poids

Cette méthode de calcul avec des perturbations est peu efficace.

Une méthode plus utile est la **méthode analytique de calcul du gradient**.

**Elle revient à calculer des dérivées du coût dans la direction de chacun des axes sans perturbation**.

La dérivée d'une fonction de plusieurs variables par rapport à une de ces variables, en considérant les autres variables comme des constants, s'appelle une **dérivée partielle**. C'est la pente de la fonction dans la direction de la variable considérée. 

Le vecteur formé par les dérivées partielles dans toutes les directions est le gradient.

Il est donc possible de calculer le vecteur gradient à chacun des points sans utiliser de perturbation en calculant les dérivées partielles d'une fonction à l'aide d'une formule.

In [None]:
# Prenons un modèle linéaire tel que le perceptron décrit au chapitre précédent qui calcule le produit scalaire entre w et x :

f(x,w) = dot(w,x)

# et prenons une fonction de coût qui mesure le carré de l’erreur :

C(x,y,w) = (y−f(x,w))**2

# Le gradient sera simplement :

dc_dw[0] = −2*(y−f(x,w))*x[0]

dc_dw[1] = −2*(y−f(x,w))*x[1]

…

dc_dw[n–1] = −2*(y−f(x,w))*x[n–1]

## Le gradient stochastique

Au lieu de calculer la moyenne du coût et de trouver le gradient de cette moyenne sur tous les exemples d’apprentissage pour faire un pas, on utilise les dérivées partielles pour calculer le gradient du coût pour un seul exemple et on effectue un pas dans la foulée.


= gain de temps/calcul considérable


Le système tire juste un exemple de manière aléatoire dans l’ensemble d’apprentissage, il calcule le gradient du coût pour cet exemple et il fait un pas de gradient. Ensuite, il pioche un autre exemple, il calcule le gradient du coût pour ce nouvel exemple et fait à nouveau un pas de gradient. On répète l’opération jusqu’à ce qu’on ne puisse plus descendre. La taille du pas doit diminuer au fur et à mesure qu’on se rapproche du fond de la vallée. En pratique, au lieu de prendre un seul exemple pour effectuer un pas, on fait la moyenne du gradient sur un petit groupe d’exemples qu’on appelle un « *mini-batch* ».

À chaque pas, le gradient pointe dans une direction différente, ce qui amène le vecteur de paramètres à suivre une trajectoire erratique au cours de l’apprentissage. Mais bon an mal an, il se dirige vers le fond de la vallée. Plus surprenant : il y parvient même plus rapidement qu’en calculant le gradient sur l’ensemble d’apprentissage complet.

In [None]:
# procédure d’apprentissage par gradient stochastique

# n : nombre d’itérations de la descente de gradient

def SGD(X,Y,w,e,n) :

p = len(X) # nombre d’exemples d’apprentissage

for i in range(n) : # répétons n fois

    k = random.randrange(0,p) # tirage nombre aléatoire

    g = gradC(X[k],Y[k],w) # calcul du gradient

    for j in range(len(w)) : # boucle sur les paramètres

        w[j]=w[j]−e*g[j] # mise à jour des paramètres

    return w # on renvoie le vecteur de paramètres

## Problème minimal local/minimal global

Problèmes récurrents pour les NN à 2 couches ou plus.

Solution = fonction convexe (un seul minimum) mais les NN multicouche sont non-convexe par nature.