# Gradient Descent 

Tout le monde a déjà entendu parler de l'algorithme de descente de gradient, mais... savez-vous vraiment comment il fonctionne et l'avez-vous déjà mis en œuvre par vous-même pour vous assurer que vous avez bien compris son fonctionnement ?

Utiliser des modules qui font les calculs à notre place, c'est bien.

Comprendre ce que l'on manipule, c'est mieux !

C'est ce que nous allons faire dans cet article, en trois étapes :

1. Qu'est-ce que la descente de gradient ?
2. Comment fonctionne-t-elle ?
3. Et quels sont les pièges à éviter ?

Les seuls prérequis pour cet article sont de savoir ce qu'est une dérivée.

Allons-y !

## What is gradient descent? 

Il s'agit d'un algorithme permettant de trouver le minimum d'une fonction.

C'est un problème que l'on retrouve partout en mathématiques.

Et c'est aussi le cas en science des données, notamment lorsqu'on veut minimiser le taux d'erreur qui est redressé lors de la rétropropagation.

**La descente de gradient propose une approche:**

- algorithmique
- itérative
- qui fonctionne assez bien dans la plupart des cas

Parfois, nous pouvons avoir [vanish gradient problem](https://en.wikipedia.org/wiki/Vanishing_gradient_problem), mais nous y reviendrons plus tard.

### How does it work?  
Imaginez que vous êtes au sommet d'une montagne, sans guide, sans carte, et que vous voulez descendre au point le plus bas de la montagne (c'est-à-dire là où l'altitude est la plus basse). (c'est-à-dire là où l'altitude est la plus basse).

Votre approche se fera face à la pente, et vous irez dans cette direction pendant quelques minutes.

![mountain](./img/montagne.png)

A few minutes later, you are at a new point.

Again, you face the slope and move in that direction for a few minutes.

And so on...

And after a while, always going down, you will go to the lowest point of altitude.

Easy!

### How does it work mathematically?

In math, the slope is the derivative:
![](./img/derivate.png)

### The value of the derivative corresponds to the inclination of the slope at a given point.

Donc...

- Si la dérivée est élevée, cela signifie que la pente est très forte.
- Et si la dérivée est faible, la pente est faible.
- Si la dérivée est égale à 0, la pente est plate. 
- Et si la dérivée est négative, cela signifie qu'elle descend (quand on va vers la droite !).

Alors, une fois qu'on a la valeur de la pente, comment fait-on pour descendre ?

On fait le tour de la pente dans l'autre sens !

Dérivée positive => pente qui monte vers la droite => on va vers la gauche.
Dérivée négative => pente descendante vers la droite => on va vers la droite.

Mais de combien ?

Faut-il faire un pas, deux pas, continuer pendant combien de temps ?

En fait, on aimerait faire un seul pas, reformuler la question de la dérivée, puis faire un autre pas, etc.

Sauf que cela va être très intensif en termes de calcul (nous allons prendre beaucoup de décisions) si nous faisons cela.

Mais d'un autre côté, si on fait de grands pas, on risque de rater le minimum, donc de revenir dans l'autre sens, de dépasser à nouveau le minimum, et ainsi de suite, sans jamais tomber dessus.

Il suffit de trouver le bon équilibre !

Pour ce faire, il faut spécifier ce que l'on appelle un taux d'apprentissage. Nous en reparlerons un peu plus tard.

### More concretely ...

Essayons de trouver le point le plus bas de cette courbe. L'objectif est de trouver le minimum que l'on voit à droite, autour de x entre 3 et 4.

![](./img/function.png)

Dans ce cas, nous pourrions calculer la dérivée égale à 0, mais l'objectif est de comprendre la descente du gradient, c'est donc ce que nous allons faire.

Consider the following function:

In [1]:
import numpy as np
def f(x):
    return 2 * x * x * np.cos(x) - 5 * x

Et étudions-le sur l'intervalle [-5,5] :

Il y a 3 étapes :

1. On prend un point au hasard x0.
2. On calcule la valeur de la pente à f(x0).
3. On se déplace dans la direction opposée à la pente. 

#### Première étape :
On prend un point au hasard, ici x0=-1. Cela correspond à f(x0)=6,08.

In [2]:
x = [-1.]
f(x[0])

6.0806046117362795

On the curve, it represents the following 
![](./img/function-2.png)

#### Step 2:
Calculate the value of the slope.

In [3]:
def df(x):
    return 4 * x * np.cos(x) - 2 * x * x * np.sin(x) - 5

slope = df(x[0])
slope

-5.478267253856766

Nous avons donc une pente négative égale à ``-5.47``

### Step 3 
 We move in the opposite direction to the slope:  
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <msub>
    <mi>x</mi>
    <mn>1</mn>
  </msub>
  <mo>=</mo>
  <msub>
    <mi>x</mi>
    <mn>0</mn>
  </msub>
  <mo>&#x2212;<!-- − --></mo>
  <mi>&#x03B1;<!-- α --></mi>
  <mo>&#x2217;<!-- ∗ --></mo>
  <msup>
    <mi>f</mi>
    <mo>&#x2032;</mo>
  </msup>
  <mo stretchy="false">(</mo>
  <msub>
    <mi>x</mi>
    <mn>0</mn>
  </msub>
  <mo stretchy="false">)</mo>
</math>

How to choose the value of ``α`` ?

This is the learning rate. I propose for the moment to test a small value α=0.05, and we will test other values a little later. 


In [4]:
alpha = 0.05
x.append(x[0] - alpha * slope)
x[1]

-0.7260866373071617

We have our new value for our point! Let's display it:
![](./img/function-3.png)


We moved a little bit. This approach is iterative, which means that the operation will have to be repeated several times to achieve the minimum.

Let's start over:


In [5]:
x.append(x[1] - alpha * df(x[1]))
x[2]

-0.4024997370140509

![](./img/function-4.png)

We're moving slowly.

After a little over a dozen iterations, our algorithm converges:

In [6]:
x = [-1.]
for i in range(20):
    x.append(x[i] - alpha * df(x[i]))
x

[-1.0,
 -0.7260866373071617,
 -0.4024997370140509,
 -0.08477906213634434,
 0.18205499002642517,
 0.39684580640116923,
 0.5797318757542436,
 0.7511409760238664,
 0.929843593497496,
 1.1379425635322518,
 1.4100262396071885,
 1.8111367982460322,
 2.4659523010837896,
 3.481091120446543,
 3.9840239754024296,
 3.5799142362878964,
 3.9342838641256046,
 3.6341484369757358,
 3.900044342976242,
 3.670089111844099,
 3.8747793435314155]

![](./img/gradientdescent-alpha0.05.gif)

Our little ball ends up reaching the minimum and staying there, at about x=3.8.

## Les pièges à éviter

Voilà, nous avons vu le principe de la descente de gradient.

Sur un exemple simple.

Mais dans la réalité, il arrive souvent que l'on rencontre des problèmes. Par exemple :

- Comment fixer le taux d'apprentissage ?
- Comment résoudre le problème du gradient qui s'évanouit ?
- Comment lutter contre les minima locaux ?


Comment fixer le taux d'apprentissage ?
Dans l'exemple précédent, nous nous sommes fixé α=0,05.

Pourquoi ? 

J'ai un peu triché.

Je l'ai testé avant et j'ai vu que c'était une valeur qui fonctionnait bien.

En fait, il faut trouver le bon équilibre en tenant compte de cela :

Plus la valeur α est élevée, plus on avancera vite, mais l'algorithme risque de ne jamais converger.
Plus la valeur α est petite, plus on avancera lentement, et donc plus il faudra de temps pour converger.  

Par exemple, avec une valeur α=0,2, on obtient :

![](./img/gradientdescent-alpha0.2.gif)

Nous voyons maintenant que nous avons un problème de convergence. La valeur α est trop élevée.

Par conséquent, lorsque le skieur fait face à la pente, il avance tellement qu'il se retrouve de l'autre côté de la montagne.

Si l'on prend une valeur trop petite, comme α=0.001

![](./img/gradientdescent-alpha0.001.gif)

Cela fonctionne, cela converge, mais cela prend beaucoup plus de temps ! (L'animation est accélérée 5 fois plus vite)

Pour notre problème simple, l'impact est faible, mais lorsque vous entraînez des réseaux neuronaux, cela fait une grande différence en termes de temps de calcul !

Malheureusement, il n'existe pas de formule magique pour trouver le taux d'apprentissage parfait.

Pour le trouver, il faut en tester plusieurs et obtenir le meilleur.


###  How to solve the problem of the vanishing gradient?

Il existe deux problèmes très courants dans le domaine de l'apprentissage profond : l'explosion du gradient et la disparition du gradient. Dans le premier cas, il s'agit d'un taux d'apprentissage trop élevé qui entraîne l'instabilité de l'algorithme. Dans le cas de l'apprentissage profond, cela peut se produire lorsque le réseau est très étendu. Comme les gradients de chaque couche sont multipliés entre eux, on peut très vite avoir un gradient qui explose de manière exponentielle. Dans le cas d'un gradient qui disparaît, c'est l'inverse.

Le gradient devient tellement faible que notre skieur ne progresse pratiquement pas. Cela peut arriver si le taux d'apprentissage est trop faible, comme nous l'avons vu. Mais cela peut aussi se produire si notre skieur est bloqué sur une sorte de plateau.

Imaginez la fonction suivante :
Comment résoudre le problème de l'évanouissement du gradient ?

Il existe deux problèmes très courants en Deep Learning, l'explosion du gradient et la disparition du gradient.

Dans le premier cas, il s'agit d'un taux d'apprentissage trop élevé qui entraîne l'instabilité de l'algorithme.

Dans le cas du Deep Learning, cela peut se produire lorsque le réseau est très étendu. Comme les gradients de chaque couche sont multipliés entre eux, on peut très vite avoir un gradient qui explose de manière exponentielle.

Dans le cas d'un gradient qui disparaît, c'est l'inverse.

Le gradient devient tellement faible que notre skieur ne progresse pratiquement pas. Cela peut arriver si le taux d'apprentissage est trop faible, comme nous l'avons vu.

Mais cela peut aussi se produire si notre skieur est bloqué sur une sorte de plateau.

Imaginons la fonction suivante :

<math xmlns="http://www.w3.org/1998/Math/MathML" display="block">
  <mi>f</mi>
  <mo stretchy="false">(</mo>
  <mi>x</mi>
  <mo stretchy="false">)</mo>
  <mo>=</mo>
  <mi>arctan</mi>
  <mo>&#x2061;</mo>
  <mo stretchy="false">(</mo>
  <msup>
    <mi>x</mi>
    <mn>2</mn>
  </msup>
  <mo stretchy="false">)</mo>
</math>

![plateau](./img/plate.png)


Clearly, the minimum is in x=0.

Suppose that the random point falls on a value far from 0, such as -20.

I choose a very high learning rate compared to the previous examples, at α=1, and I get a very long algorithm to converge:

![vanish](./img/vanish.gif) 

But imagine a more complex function that is a mixture of this one, with a long flat plateau, and roller coasters in other places. At that point, whatever the learning rate you choose, you will have problems. Either a very slow convergence or an instability of the algorithm.

In the Deep Learning, this type of problem is solved with the ReLU functions. We'll see about that later.

### How to fight against local minima?
Let us consider this time the following function:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block">
  <mi>f</mi>
  <mo stretchy="false">(</mo>
  <mi>x</mi>
  <mo stretchy="false">)</mo>
  <mo>=</mo>
  <mi>x</mi>
  <mi>cos</mi>
  <mo>&#x2061;<!-- ⁡ --></mo>
  <mo stretchy="false">(</mo>
  <mi>x</mi>
  <mo stretchy="false">)</mo>
</math>

![](./img/loc.png)

The problem with this function is that there are many local minima, i. e. troughs, which are not the global minimum (which, over this interval, is on the right, around x=9.5).

The following animation shows some examples where the starting point varies:
![](./img/var.gif)




We can see that the convergence point depends a lot on the initial point.

Sometimes he will be able to find the global minimum, and other times, the algorithm will get stuck in a local minimum.

One technique to avoid this problem is to run the algorithm several times,  
and to keep the smallest of the minima, but obviously it is more intensive for the cpu