# Méthodes de déscentes de gradients

Ce notebook est consacré à l'implémentation d'algorithmes de déscentes de gradients vus en cours. Nous abordons d'abord le problème sous un angle général en pointant les problèmes qu'on peut rencontrer dans ce cadre là. Dans la suite on s'attaque plutôt à des problématiques plus standards en analyse de données ; celles-ci ont des solutions dont le comportement est plus stable. 


In [1]:
from matplotlib import pyplot as plt

import numpy as np
import warnings

## Algo général

L'algo général de déscente prend le format suivant

In [2]:
def gradient_descent(x, ob_function, decay_function, tolerance, max_iter, d_direction, rate, hparams):
    """Gradient Descent.
    
    Computes minimal value of a convex function and local minimum of none convex function.
    
    Args:
        x: initial starting point for descent.
        ob_function: objective function of optimisation problem.
        decay_function: function computing decay.
        tolerance: float tolerance.
        max_iter: upper bound on number of iterations.
        d_direction: function computing descent direction
        rate: function computing learning rate
        hparams: hyperparameters for computing learning rate
        
    Output:
        Couple minimizer, minimal value.
        
    """
    n_iter = 0
    decay = tolerance + 5  #Make sure that we get into first loop
    y = tmp_y = ob_function(x)
    while decay > tolerance and n_iter < max_iter:
        x = x - rate(ob_function, **hparams)*d_direction(ob_function, x)
        y = ob_function(x)
        decay = decay_function(tmp_y, y)
        tmp_y = y
        n_iter += 1
    return (x, y) if decay <= tolerance else warn("Decay didn't get under tolerance rate.", RuntimeWarning)

Pour être en mesure d'utiliser cet algorithme qui couvre l'essentiel des cas auxquels on peut faire face, il est nécessaire de définir les différents paramètres en entrées selon les déscentes qu'on souhaite implémenter.
 

## Le pas de déscente

On a abordé trois manières de calculer le pas de déscente:

  - Un pas constant.
  - Calcul du pas optimal.
  - Le backtracking.
  
Seul la dernière stratégie nécessite l'affinage éventuel d'hyperparamètres, les fameux hyperparamètres $\alpha$ et $\beta$. Par défaut on les fixent respectivement à $0.01$ et $0.8$.

## Directions de déscentes

On a vu jusqu'à présent trois types de déscentes : 

 - La déscente standard : la direction de déscente est celle du gradient.
 - La déscente de plus forte pente dans le cas de la norme l1 : la direction de déscente suit le vecteur de la base canonique de plus grande dérivée partielle.
 - L'algorithme de Newton où il s'agit de calculer l'inverse des hessiennes au point courant. 
 
Avant de s'intéresser à chacune de ces approches il nous faut être en mesure de calculer la valeur du gradient en un point courant. Tous les algos de déscente font usage de ce calcul. On commence donc par un apparté sur ce point qui reste relativement technique. 

**Dans la pratique quand on fait face à un problème spécifique, et pour lequel on peut calculer le gradient de la fonction objective explicitement, on effectue se calcule préalablement. Il est donc codé en dur.**


### Calculer la différentielle d'une fonction

On a deux choix, le calcul numérique ou symbolique. Le second reconnaît la différentielle des fonctions usuelles.

### Calculer les directions de déscentes

## Visualiser la convergence

## Mesurer la convergence