$$ \min f(x) \qquad \mbox{suj. a} \qquad \ell \leq x \leq u. $$

In [7]:
using Plots
gr()

Plots.GRBackend()

In [None]:
f(x) = (x[1] - 1)^2 + 4*(x[2] - 1)^2
x = linspace(-0.5, 1.5, 100)
y = linspace(-0.5, 1.5, 100)
l = [-0.2 0.1]
u = [1.1 0.9]
contour(x, y, (x,y)->f([x;y]))
plot!([l[1], l[1], u[1], u[1], l[1]], [l[2], u[2], u[2], l[2], l[2]], c=:red, l=:dash)

Vamos considerar o problema com barreira

$$ \phi(x; \mu) = f(x) - \mu \log(x - l) - \mu \log(u - x). $$

In [None]:
f(x) = (x[1] - 1)^2 + 4*(x[2] - 1)^2
axis = [-0.5, 1.5, -0.5, 1.5]

l = [-0.2; 0.1]
u = [1.1; 0.9]
x = linspace(l[1]+1e-4, u[1]-1e-4, 100)
y = linspace(l[2]+1e-4, u[2]-1e-4, 100)

ϕ(x, μ) = f(x) - μ*(sum(log(x-l)) + sum(log(u-x)))

μ = 1.0
contour(x, y, (x,y)->ϕ([x;y], μ))
plot!([l[1], l[1], u[1], u[1], l[1]], [l[2], u[2], u[2], l[2], l[2]], c=:red, l=:dash)
xlims!(axis[1], axis[2])
ylims!(axis[3], axis[4])

In [None]:
using Interact

f(x) = (x[1] - 1)^2 + 4*(x[2] - 1)^2
axis = [-0.5, 1.5, -0.5, 1.5]

l = [-0.2; 0.1]
u = [1.1; 0.9]
x = linspace(l[1]+1e-4, u[1]-1e-4, 100)
y = linspace(l[2]+1e-4, u[2]-1e-4, 100)

ϕ(x, μ) = f(x) - μ*(sum(log(x-l)) + sum(log(u-x)))

@manipulate for μ = linspace(1.0, 10.0, 1000)
    contour(x, y, (x,y)->ϕ([x;y], log(μ)), levels=30)
    plot!([l[1], l[1], u[1], u[1], l[1]], [l[2], u[2], u[2], l[2], l[2]], c=:red, l=:dash)
    xlims!(axis[1], axis[2])
    ylims!(axis[3], axis[4])
end

As condições KKT desse problema são
$$ \nabla f(x) - \mu (X-L)^{-1}e + \mu (U-X)^{-1}e = 0, $$
onde $X$, $L$ e $U$ são matrizes diagonais com $x$, $\ell$ e $u$ na diagonal,
e $e$ é um vetor de uns. Note que, implicitamente $\ell < x < u$.

Agora, vamos definir vetores $z_L = \mu (X-L)^{-1}e$ e $z_U = \mu (U-X)^{-1}e$.
Desse modo, temos $(X-L)z_L = \mu e$ e $(U-X)z_U = \mu e$.
Ou ainda, $(X-L)Z_L e = \mu e$ e $(U-X)Z_U e = \mu e$.

Substituindo isso na condição KKT, temos
\begin{align*}
\nabla f(x) - z_L + z_U & = 0, \\
(X-L)Z_L e & = \mu e, \\
(U-X)Z_U e & = \mu e, \\
\end{align*}
De antes, temos $\ell < x < u$, e agora temos $z_L, z_U > 0$.
Essas condições, quando $\mu \to 0$, são as condições KKT do sistema original.

\begin{align*}
\nabla f(x) - z_L + z_U & = 0, \\
(X-L)Z_L e & = 0, \\
(U-X)Z_U e & = 0, \\
\end{align*}

Dessa maneira uma estratégia de resolução é usar um parâmetro $\sigma \in [0,1]$ para decidir o que seguir, usando as equações
\begin{align*}
\nabla f(x) - z_L + z_U & = 0, \\
(X-L)Z_L e & = \sigma\mu e, \\
(U-X)Z_U e & = \sigma\mu e, \\
\end{align*}

Novamente, vamos tentar aplicar Newton nesse sistema. Além disso, temos a preocupação dos sinais,
que serão tratados usando uma condição impedindo-os de atravessar a parede.

\begin{align*}
\left[
\begin{array}{ccc}
H(x) & -I & I \\
Z_L & X-L & 0 \\
-Z_U & 0 & U-X
\end{array}
\right]
\left[
\begin{array}{c}
d_x \\ d_L \\ d_U
\end{array}
\right]
=
-\left[
\begin{array}{c}
\nabla f(x) - z_L + z_U \\
(X-L)z_L - \mu e \\
(U-X)z_U - \mu e
\end{array}
\right]
\equiv
-\left[
\begin{array}{c}
r_x \\ r_L \\ r_U
\end{array}
\right]
\end{align*}

In [55]:
using ForwardDiff

f(x) = (x[1] - 1)^2 + 4*(x[2] - 1)^2
∇f(x) = ForwardDiff.gradient(f, x)
H(x) = ForwardDiff.hessian(f, x)

l = [-0.2; 0.1]
u = [1.1; 0.9]
x = [0.0; 0.5]
zL = 1.2ones(2)
zU = 1.3ones(2)
μ = 10.0

M = [H(x)  -eye(2)  eye(2); [diagm(zL); -diagm(zU)]  diagm([x-l; u-x])]

6x6 Array{Float64,2}:
  2.0   0.0  -1.0  -0.0  1.0  0.0
  0.0   8.0  -0.0  -1.0  0.0  1.0
  1.2   0.0   0.2   0.0  0.0  0.0
  0.0   1.2   0.0   0.4  0.0  0.0
 -1.3  -0.0   0.0   0.0  1.1  0.0
 -0.0  -1.3   0.0   0.0  0.0  0.4

In [56]:
rx = ∇f(x) - zL + zU
rL = (x-l).*zL - μ
rU = (u-x).*zU - μ
d = -M\[rx; rL; rU]

6-element Array{Float64,1}:
  4.67327 
  0.280702
 20.7604  
 22.9579  
 13.3139  
 24.6123  

In [57]:
dx, dL, dU = d[1:2], d[3:4], d[5:6]

([4.673267326732671,0.280701754385964],[20.760396039603954,22.9578947368421],[13.313861386138612,24.612280701754386])

In [58]:
l .< x + dx .< u

2-element BitArray{1}:
 false
  true

Quanto até a barreira? O maior $\alpha > 0$ tal que
$$ \ell \leq x + \alpha d \leq u. $$
Mas na prática, não podemos ir pra barreira, então colocar um valor pequeno para dentro
da barreira, (i.e., não pode ser 0.0, mas pode ser 1e-4).
Por fim, pra deixar mais interessante, o valor tem que ser relativo à quanto falta para chegar lá,
uma vez que um passo "cego" poderia resultar num $\alpha$ negativo ou zero.
Isso resulta na condição abaixo, chamada **fração-para-a-fronteira**:

$$ \ell + (1-\tau)(x-l) \leq x + \alpha d \leq u - (1-\tau)(u-x), $$

ou seja,

$$ -\tau(x-l) \leq \alpha d \leq \tau (u-x), $$

para algum $\tau \in (0,1)$. Quanto mais perto de $1$, maior o passo possível.

Daí,
Se $d_i > 0$, então $\alpha \leq \tau \dfrac{u_i - x_i}{d_i}.$
Se $d_i < 0$, então $\alpha \leq \tau \dfrac{x_i - \ell_i}{d_i}.$
Por outro lado, gostaria da andar todo o passo de Newton, então $\alpha = 1$ é o ideal.

In [59]:
τ = 0.9
α = 1.0
for i = 1:2
    if dx[i] > 0
        α = min(α, τ*(u[i] - x[i])/d[i])
    elseif dx[i] < 0
        α = min(α, -τ*(x[i] - l[i])/d[i])
    end
    if dL[i] < 0
        α = min(α, -τ*zL[i]/dL[i])
    end
    if dU[i] < 0
        α = min(α, -τ*zU[i]/dU[i])
    end
end
α

0.21184322033898317

In [60]:
x + α*dx, zL + α*dL, zU + α*dU

([0.9900000000000001,0.5594647636039249],[5.597949152542374,6.063474353256023],[4.120451271186442,6.513944803746658])

In [91]:
using ForwardDiff

function ponto_interior_caixa(f, x, l, u; tol = 1e-5, maxiter = 1000, maxtime = 60, τ = 0.9)
    exit_flag = 0
    ∇f(x) = ForwardDiff.gradient(f, x)
    H(x) = ForwardDiff.hessian(f, x)
    
    iter = 0
    start_time = time()
    elapsed_time = 0.0
    
    n = length(x)
    x = [l[i] < x[i] < u[i] ? x[i] : (l[i]+u[i])/2 for i = 1:n]
    fx = f(x)
    ∇fx = ∇f(x)
    Hx = H(x)
    zL = ones(n)
    zU = ones(n)
    
    μ = (dot(x-l,zL) + dot(u-x,zU))/2n    
    σ = 1.0
    
    rx = ∇fx - zL + zU
    rL = (x - l).*zL - μ*σ
    rU = (u - x).*zU - μ*σ
    
    
    while norm([rx;rL;rU]) > tol || μ > tol
        # Idealmente isso deveria ser esparso
        M = [Hx  -eye(n)  eye(n); [diagm(zL); -diagm(zU)]  diagm([x-l; u-x])]
        d = -M\[rx; rL; rU]
        dx, dL, dU = d[1:n], d[n+1:2n], d[2n+1:3n]
        # Tamanho do passo

        α = 1.0
        for i = 1:n
            if dx[i] > 0
                α = min(α, τ*(u[i] - x[i])/dx[i])
            elseif dx[i] < 0
                α = min(α, -τ*(x[i] - l[i])/dx[i])
            end
            if dL[i] < 0
                α = min(α, -τ*zL[i]/dL[i])
            end
            if dU[i] < 0
                α = min(α, -τ*zU[i]/dU[i])
            end
        end
        
        x = x + α*dx
        zL = zL + α*dL
        zU = zU + α*dU
        μ = (dot(x-l, zL) + dot(u-x, zU))/2n
        σ *= 0.9
        
        fx = f(x)
        ∇fx = ∇f(x)
        Hx = H(x)
        
        rx = ∇fx - zL + zU
        rL = (x - l).*zL - μ*σ
        rU = (u - x).*zU - μ*σ
        
        iter = iter + 1
        if iter >= maxiter
            exit_flag = 1
            break
        end
        elapsed_time = time() - start_time
        if elapsed_time >= maxtime
            exit_flag = 2
            break
        end
    end
    return x, fx, rx, exit_flag, iter, elapsed_time # Precisamos retornar o ponto encontrado
end

ponto_interior_caixa (generic function with 1 method)

In [92]:
f(x) = (x[1] - 1)^2 + 4*(x[2] - 1)^2
l = [-0.2; 0.1]
u = [1.1; 0.9]
x = [0.0; 0.5]
ponto_interior_caixa(f, x, l, u, maxiter=1000)

([0.9999924176556605,0.8999979338230314],0.04000165301614318,[5.288196096298048e-17,3.3306690738754696e-16],0,16,0.015563011169433594)

In [93]:
xx = linspace(-0.5, 1.5, 100)
yy = linspace(-0.5, 1.5, 100)
l = [-0.2; 0.1]
u = [1.1; 0.9]
contour(xx, yy, (x,y)->f([x;y]))
plot!([l[1], l[1], u[1], u[1], l[1]], [l[2], u[2], u[2], l[2], l[2]], c=:red, l=:dash)

x = [0.0; 0.5]
scatter!([x[1]], [x[2]], c=:blue, leg=false)
xn = copy(x)
for i = 1:100
    xp = copy(xn)
    xn, _ = ponto_interior_caixa(f, x, l, u, maxiter=i)
    plot!([xp[1], xn[1]], [xp[2], xn[2]], c=:blue)
    scatter!([xn[1]], [xn[2]], c=:blue, ms=2)
end
plot!()

In [94]:
f(x) = (x[1] - 1)^2 + 100*(x[2] - x[1]^2)^2
l = [-0.2; 0.1]
u = [1.1; 0.9]
x = [0.0; 0.5]
ponto_interior_caixa(f, x, l, u, maxiter=1000)

([-0.19999927917355065,0.10000014416333115],1.8000034599564416,[-2.473961759883703e-9,-1.546263835625644e-9],0,16,0.05794215202331543)

In [98]:
xx = linspace(-0.5, 1.5, 100)
yy = linspace(-0.5, 1.5, 100)
contour(xx, yy, (x,y)->f([x;y]))
plot!([l[1], l[1], u[1], u[1], l[1]], [l[2], u[2], u[2], l[2], l[2]], c=:red, l=:dash)

x = [0.4; 0.5]
scatter!([x[1]], [x[2]], c=:blue, leg=false)
xn = copy(x)
for i = 1:100
    xp = copy(xn)
    xn, _ = ponto_interior_caixa(f, x, l, u, maxiter=i)
    plot!([xp[1], xn[1]], [xp[2], xn[2]], c=:blue)
    scatter!([xn[1]], [xn[2]], c=:blue, ms=2)
end
plot!()