# Algorithme de base de région de confiance

In [1]:
using LinearAlgebra
# using Optim

In [2]:
struct BasicTrustRegion{T <: Real}
    η1:: T
    η2:: T
    γ1:: T
    γ2:: T
end

function BTRDefaults()
    return BasicTrustRegion(0.01,0.9,0.5,0.5)
end

BTRDefaults (generic function with 1 method)

L'état de l'algorithme est déclaré avec le mot clé addtionnel `mutable` comme le contenu peut être modifié d'itération en itération.

In [3]:
mutable struct BTRState
    iter::Int
    x::Vector
    xcand::Vector
    g::Vector
    step::Vector
    Δ::Float64
    ρ::Float64
    
    function BTRState()
        return new()
    end
end

In [4]:
function acceptCandidate!(state::BTRState, b::BasicTrustRegion)
    # If the iteration is successful, update the iterate
    if (state.ρ >= b.η1)
        state.x = copy(state.xcand) # x[:] = state.xcand
        return true
    else
        return false
    end
end

acceptCandidate! (generic function with 1 method)

In [5]:
function updateRadius!(state::BTRState, b::BasicTrustRegion)
    if (state.ρ >= b.η2)
        # very successful iterate
        state.Δ = min(1e20,max(4*norm(state.step),state.Δ))
    elseif (state.ρ >= b.η1)
        # successful iterate
        state.Δ *= b.γ2
    else
        # unsuccessful iterate
        state.Δ *= b.γ1
    end
end

updateRadius! (generic function with 1 method)

## Pas de Cauchy

Calculons et vérifions la valeur du pas de Cauchy.

On sait que
$$
\alpha^* =
\begin{cases}
\min \left\{ \frac{\Delta_k}{\| \nabla f(x_k) \|_k}, \frac{\| \nabla f(x_k) \|_2^2}{\nabla f(x_k)^T H_k \nabla f(x_k)}  \right\} & \text{si } \nabla f(x_k)^T H_k \nabla f(x_k) > 0 \\
\frac{\Delta_k}{\| \nabla f(x_k) \|_k} & \text{sinon.}
\end{cases}
$$
Le pas de Cauchy est alors
$$
s_k = -\alpha^*\nabla f(x^*).
$$
Dans la suite, nous utiliserons la norme euclidienne, i.e. $\| \cdot \|_k = \| \cdot \|_2$.

Soit
$$
q = \nabla f(x_k)^T H_k \nabla f(x_k)
$$
Si $q \leq 0$, nous sommes dans une direction de courbure non positive, et nous devons nous devons rendre à la frontière. Dès lors
$$
s_k = - \frac{\Delta_k}{\| \nabla f(x_k) \|_k} \nabla f(x_k).
$$

Si $q > 0$, nous devons vérifier si le minimum du modèle le long de la plus forte pente est à l'intérieur de la région de confiance. Si c'est le cas, nous avons
\begin{align*}
s_k &= - \frac{\| \nabla f(x_k) \|_2^2}{\nabla f(x_k)^T H_k \nabla f(x_k)} \nabla f(x_k) \\
&= - \frac{\| \nabla f(x_k) \|_2^2}{\nabla f(x_k)^T H_k \nabla f(x_k)} \nabla f(x_k) \frac{\Delta_k}{\| \nabla f(x_k) \|_k}
\frac{\| \nabla f(x_k) \|_k}{\Delta_k} \\
&= - \frac{\| \nabla f(x_k) \|_2^3}{\Delta_k \nabla f(x_k)^T H_k \nabla f(x_k)} \frac{\Delta_k}{\| \nabla f(x_k) \|_k} \nabla f(x_k) \\
&= - \tau \frac{\Delta_k}{\| \nabla f(x_k) \|_k} \nabla f(x_k),
\end{align*}
où
$$
\tau = \frac{\| \nabla f(x_k) \|_2^3}{\Delta_k q}.
$$

Si ce n'est pas le cas, nous nous arrêtons sur la frontière de la région de confiance, et nous avons à nouveau
$$
s_k = - \frac{\Delta_k}{\| \nabla f(x_k) \|_k} \nabla f(x_k).
$$

En regroupant ces deux cas, nous avons
$$
s_k = - \tau \frac{\Delta_k}{\| \nabla f(x_k) \|_k} \nabla f(x_k),
$$
avec
$$
\tau = \min \left\{ 1.0, \frac{\| \nabla f(x_k) \|_2^3}{\Delta_k q} \right\}.
$$
Ceci permet de construire le code ci-après.

In [6]:
function CauchyStep(g::Vector,H::Matrix,Δ::Float64)
    q = dot(g,H*g)
    normg = norm(g)

    if (q <= 0)
        # the curvature along g is non positive
        τ = 1.0
    else
        # the curvature along g is positive
        τ = min((normg*normg*normg)/(q*Δ),1.0)
    end

    return -τ*g*Δ/normg # return the step
end

CauchyStep (generic function with 1 method)

## Algorithme de base de région de confiance

In [7]:
function btr(f::Function, g!::Function, H!::Function,
    x0::Vector, tol::Float64 = 1e-6, verbose::Bool = false)
    
    b = BTRDefaults()
    state = BTRState()
    state.iter = 0
    state.x = x0
    n=length(x0)

    state.g = zeros(n)
    H = zeros(n,n)
    
    fx = f(x0)
    g!(state.g, x0)
    H!(H, x0)

    state.Δ = init_radius(state)
    
    nmax = 100000
    
    tol2 = tol*tol
    
    function model(s::Vector, g::Vector, H::Matrix)
        return dot(s, g)+0.5*dot(s, H*s)
    end
    
    if (verbose)
        println(state)
    end

    while (dot(state.g,state.g) > tol2 && state.iter < nmax)
        # Compute the step by approximately minimize the model
        state.step = CauchyStep(state.g, H, state.Δ)
        state.xcand = state.x+state.step

        # Compute the actual reduction over the predicted reduction
        fcand = f(state.xcand)
        state.ρ = (fcand-fx)/(model(state.step, state.g, H))

        if (acceptCandidate!(state, b))
            g!(state.g, state.x)
            H!(H, state.x)
            fx = fcand
        end

        if (verbose)
            println(state)
        end
        
        updateRadius!(state, b)
        state.iter += 1
    end
    
    return state
end

btr (generic function with 3 methods)

In [8]:
function init_radius(state:: BTRState)
    return 1.0
end

init_radius (generic function with 1 method)

## Exemple

### Fonction de Rosenbrock

In [9]:
function rosenbrock(x::Vector)
    return (1.0 - x[1])^2 + 100.0 * (x[2] - x[1]^2)^2
end

function rosenbrock_gradient!(storage::Vector, x::Vector)
    storage[1] = -2.0 * (1.0 - x[1]) - 400.0 * (x[2] - x[1]^2) * x[1]
    storage[2] = 200.0 * (x[2] - x[1]^2)
end

function rosenbrock_hessian!(storage::Matrix, x::Vector)
    storage[1, 1] = 2.0 - 400.0 * x[2] + 1200.0 * x[1]^2
    storage[1, 2] = -400.0 * x[1]
    storage[2, 1] = -400.0 * x[1]
    storage[2, 2] = 200.0
end

rosenbrock_hessian! (generic function with 1 method)

In [10]:
state = btr(rosenbrock, rosenbrock_gradient!, rosenbrock_hessian!, [0,0])

BTRState(8969, [0.9999989788350554, 0.9999979544900081], [0.9999989788350554, 0.9999979544900081], [-7.698729609220419e-7, -6.362291138373166e-7], [-1.715063547713886e-9, 2.0753233456701864e-9], 0.2462880346108132, 0.9999999955366584)

In [11]:
state.Δ

0.2462880346108132

Vérifions la première itération, en partant de (0,0). Afin de calculer la longueur du pas, nous devons d'abord connaître le gradient et la matrice hessienne en (0,0).

In [12]:
x = [0; 0]
grad=zeros(2)
hess=zeros(2,2)
rosenbrock_gradient!(grad,x)
rosenbrock_hessian!(hess,x)

200.0

Nous savons que
$$
\alpha^* = \min
\left\{
\frac{\Delta_k}{\| \nabla f(x_k) \|_k},
\frac{\| \nabla f(x_k) \|_2^2}{\nabla f(x_k)^T H_k \nabla f(x_k)}
\right\}
$$
Le premier terme de la minimisation est

In [13]:
1.0/norm(grad)

0.5

In [14]:
grad

2-element Vector{Float64}:
 -2.0
  0.0

Le second est

In [15]:
dot(grad,grad)/dot(grad,hess*grad)

0.5

Dès lors $\alpha^* = 0.5$ et $x_1 = (0,0) + 0.5*\nabla f(0.0) = (1,0)$. Nous pouvons facilement vérifier cette valeur en regardand les premières itérations de la procédure d'optimisation.

In [16]:
state = btr(rosenbrock, rosenbrock_gradient!, rosenbrock_hessian!, [0,0], 1.0, true)

BTRState(0, [0, 0], #undef, [-2.0, 0.0], #undef, 1.0, 0.0)
BTRState(0, [0, 0], [1.0, 0.0], [-2.0, 0.0], [1.0, -0.0], 1.0, -99.0)
BTRState(1, [0, 0], [0.5, 0.0], [-2.0, 0.0], [0.5, -0.0], 0.5, -7.333333333333333)
BTRState(2, [0.25, 0.0], [0.25, 0.0], [4.75, -12.5], [0.25, -0.0], 0.25, 0.10714285714285714)
BTRState(3, [0.23106741878274778, 0.04982258215066378], [0.23106741878274778, 0.04982258215066378], [-1.2079406438155806, -0.7139139744515923], [-0.018932581217252234, 0.04982258215066378], 0.125, 1.0118911526078314)
BTRState(4, [0.4146031514360326, 0.1582953991083784], [0.4146031514360326, 0.1582953991083784], [1.0847094833077477, -2.7200748144622757], [0.18353573265328482, 0.10847281695771462], 0.2131940833590836, 1.2474597336770723)
BTRState(5, [0.4110649159627491, 0.1671680653352532], [0.4110649159627491, 0.1671680653352532], [-0.8808675778439622, -0.3612599600417543], [-0.0035382354732835064, 0.008872666226874808], 0.8527763334363345, 1.0021125158850077)


BTRState(6, [0.4110649159627491, 0.1671680653352532], [0.4110649159627491, 0.1671680653352532], [-0.8808675778439622, -0.3612599600417543], [-0.0035382354732835064, 0.008872666226874808], 0.8527763334363345, 1.0021125158850077)

### Example 2

In [17]:
using ForwardDiff

f(x) = x[1]^4 + x[1]^2 + x[1]*x[2] + (1+x[2])^2
g = x -> ForwardDiff.gradient(f, x);
H = x -> ForwardDiff.hessian(f, x);
function g!(storage::Vector, x::Vector)
    s = g(x)
    storage[1:length(s)] = s[1:length(s)]
end
function H!(storage::Matrix, x::Vector)
    s = H(x)
    n, m = size(s)
    storage[1:n,1:m] = s[1:length(s)]
end

LoadError: ArgumentError: Package ForwardDiff not found in current path:
- Run `import Pkg; Pkg.add("ForwardDiff")` to install the ForwardDiff package.


In [None]:
import Pkg; Pkg.add("ForwardDiff")

In [18]:
state = btr(f, g!, H!, [0,0], 1e-6, true)

LoadError: UndefVarError: f not defined

## Initialisation du rayon de la région de confiance

Le code précédent défini arbitrairement le rayon initial de la région de confiance avec la valeur 1. Cette valeur peut se révéler trop petite, et un grand nombre d'itérations sont nécessaires avant d'obtenir un voisinage assez grand, ou trop grand, conduisant à de nombreuses itérations non réussies en début d'exécution.

Plusieurs approches ont été proposées dans la littérature. Une heuristique populaire, proposée initialement dans le logiciel `Lancelot`, est de définir
$$
\Delta_0 = \kappa \| \nabla f(x_0) \|,
$$
où $x_0$ est le point de départ et $\kappa > 0$. On pourra prendre $\kappa = 0.1$.

In [19]:
function init_radius(state:: BTRState)
    return 0.1*norm(state.g)
end

init_radius (generic function with 1 method)

In [20]:
state = btr(rosenbrock, rosenbrock_gradient!, rosenbrock_hessian!, [0,0])

BTRState(778, [0.9999990671639278, 0.9999981306190391], [0.9999990671639278, 0.9999981306190391], [-3.817988165479863e-7, -7.419373559969245e-7], [-5.970173309379062e-8, 3.0722767841762396e-8], 0.5578315950889445, 1.0000000474257087)

C'est nettement mieux!

In [21]:
state = btr(f, g!, H!, [0,0], 1.0, true)

LoadError: UndefVarError: f not defined

In [22]:
state = btr(f, g!, H!, [0,0], 1e-6, true)

LoadError: UndefVarError: f not defined

On voit que ce n'est pas toujours efficace!