## Méthode du second ordre


### Principe de la méthode de Newton

La méthode de Newton classique permet de trouver les zéros d'une fonction vectorielle. En l'appliquant l'appliquant à une fonction du type $x\mapsto \nabla f_x$, elle nous permet de trouver un $x$ tel que $\nabla f_x=0$, donc un extrémum local.


Voici l'itération de la méthode:
$$
x_{t+1} = x_t - G_t \nabla f(x_t)
$$
où $G_t$ est l'inverse de la matrice Hessienne $H$ evaluée en $x_t$:
$$
H[i,j] = {\partial^2 f\over x^ix^j}(x_t)
$$


***A vous:*** Si on remplace $f$ par $-f$ dans la formule ci-dessus, que devient-elle? En déduire que cette méthode peut tout à fait converger vers un maximum autant que vers un minimum.

Cette technique est souvent utilisée quand $f$ est une fonction convexe pour trouver son minimum: Elle est plus rapide que la descente de gradient classique. Quand $f$ est quadratique,  elle converge en 1 étape!



### Méthode de quasi-newton

Quand la variable à optimier $x$ est de grande dimension, la matrice hessienne est beaucoup trop grande.

Les méthodes de quasi-newton se contentent de trouver une matrice $G_t$ vérifiant la condition de séquente, càd:
$$
G_t\cdot (x_t-x_{t-1})=\nabla f(x_t) - \nabla f(x_{t-1})
$$




Notons que lorsque l'on travaille dans le contexte `full_batch` càd qu'il n'y a pas de tirage aléatoire dans la formation des batch,  l'algo est beaucoup plus simple.



https://github.com/hjmshi/PyTorch-LBFGS/blob/master/README.md

Cet algorithme est difficile à mettre au point en mode 'stochastique' (= quand les points sont tirés au hasard). Il en existe plusieurs variante, la plus connue est `strong_wolfe`

## Implémentation


In [2]:
import jax.numpy as jnp
from jaxopt import LBFGS

In [3]:

def objective_function(x):
  """A simple quadratic function to minimize."""
  return x**2 + 5. * x + 10.

Notez qu'il faut passer la fonction objectif en argument à l'optimiseur.

In [4]:
lbfgs = LBFGS(objective_function)

In [5]:
initial_params = jnp.array(0.)
result = lbfgs.run(initial_params)
print("Optimization result:", result)

In [6]:
optimized_params = result.params
minimum_value = result.state.value

print(f"Optimized parameters: {optimized_params}")
print(f"Minimum objective function value: {minimum_value}")