# Introdução à Métodos Computacionais de Otimização

**Def. (Algoritmo):** Um algoritmo é uma coleção de instruções para realizar alguma tarefa específica. Segundo Donald Knuth (The Art of Computer Programming, v.1), ele deve satisfazer as seguintes condições, parafraseadas aqui:
- **Finitude:** O algoritmo deve acabar em tempo finito;
- **Bem definido:** As intruções devem ser claras e sem ambiguidade;
- **Entrada:** O algoritmo tem zero ou mais entradas, que são valores determinados antes do algoritmo começar. Essas entradas são especificados a partir de conjuntos de objetos;
- **Saída:** O algoritmo tem uma ou mais saídas, que são quantidades relacionadas com as entradas;
- **Eficácia/Computabilidade:** As operações feitas no algoritmo devem ser suficientemente básicas para que a princípio possam ser executadas por uma pessoa num espaço finito e tempo finito com papel e caneta.

Um **método** é menos restrito, e uma **implementação** é a realização computacional de um algoritmo.

Pode-se dizer que, dado um problema, existem vários métodos para resolvê-lo, para cada método, existem vários algoritmos que o usam, para cada algoritmo, várias implementações.

# Condições de paradas

Um algoritmo de otimização será um algoritmo com o objetivo de encontrar pontos críticos de um problema informado pelo usuário. Alguns algoritmos podem verificar condições de segunda ordem, mas em geral estaremos olhando apenas para as condições de primeira ordem. No caso irrestrito continuamente diferenciável, isso quer dizer $\nabla f(\overline{x}) = 0$. Essa condição precisa ser relaxada para obtermos uma condição razoável de parada de sucesso, isto é, uma condição que diz que o ponto encontrado está suficientemente próximo de ser um ponto crítico do problema. Para tanto, utilizaremos uma *tolerância* para a condição de primeira ordem: Buscaremos um ponto onde o gradiente está suficientemente próximo de zero, por exemplo verificando
$\Vert \nabla f(x_k)\Vert < \varepsilon$ ou
$\Vert \nabla f(x_k)\Vert < \varepsilon \Vert \nabla f(x_0)\Vert$, ou ainda, uma combinação das duas:
$$\Vert \nabla f(x_k)\Vert < \varepsilon_a + \varepsilon_r \Vert \nabla f(x_0)\Vert.$$

Os métodos de otimização costumam ter alguma garantia de convergência perto da solução, ou em alguns casos, de gerar pontos de acumulação críticos. No entanto, pode acontecer de o método demorar demais na busca de uma solução, ou de encontrar um obstáculo que não pode ultrapassar. Para evitar que o seu programa tenha um *bug*, é preciso uma combinação de entendimento computacional e teórico do algoritmo para criar condições de parada adicionais. As mais comuns estão a seguir:

- Máximo de iterações, de avaliação de funções, de tempo decorrido, etc.
- Insatisfação de alguma condição teórica para o funcionamento do método, e.g., positividade da Hessiana em Newton, geração de uma direção que não seja de descida;
- Acontecimento computacional que não deveria acontecer na matemática exata, mas que ocorre devido ao uso de ponto flutuante, .e.g, má condicionamento da Hessiana, o passo de Armijo vira zero, divisão por algum número muito próximo de zero, a direção fica muito perto de ser ortogonal;
- Acontecimentos puramente computacionais, e.g., falta de memória;

Muitos problemas só são percebidos após a implementação é iniciada, por isso é preciso ficar atento e implementar testes para o seu código.

## Indicador de Saída - Exit Flag

O comum nessas situações de parada é indicar com alguma variável o que aconteceu. No passado, o costume era retornar $0$ se tudo correu bem, $>0$ para paradas previstas, e $<0$ para exceções.
Hoje em dia podemos retornar texto descrevendo a saída, por exemplo, `"sucesso"`, `"máximo de iterações"`, `"máximo de tempo"`, etc.

## Método de Newton Puro

1. Dados $x_0$, $\varepsilon > 0$, $k = 0$, $k_\max$.
2. Enquanto $\Vert\nabla f(x_k)\Vert > \varepsilon$
    1. Calcule $d_k$ resolvendo o sistema $\nabla^2 f(x_k) d = -\nabla f(x_k)$
    2. Calcule $x_{k+1} = x_k + d_k$
    3. $k = k + 1$
    4. Teste outras condições de parada e vá à 4 se alguma for satisfeita
3. Fim do Enquanto
4. Saída: $x_k$, $f(x_k)$, $\Vert\nabla f(x_k)\Vert$, Tempo, Iterações, exitflag

In [None]:
f(x) = (x[1] - 1)^2 + 100 * (x[2] - x[1]^2)^2
g(x) = [2 * (x[1] - 1) - 400 * x[1] * (x[2] - x[1]^2);
         200 * (x[2] - x[1]^2)]
H(x) = [2 - 400 * (x[2] - x[1]^2) + 800 * x[1]^2   -400 * x[1];
        -400 * x[1]  200]

# Ponto inicial
x = [-1.2; 1.0]

In [None]:
using Plots
gr()

In [None]:
contour(linspace(-2, 2, 100), linspace(-1, 2, 100), (x,y) -> f([x;y]), levels=50)
scatter!([x[1]], [x[2]], c=:red, ms=3, leg=false)

In [None]:
d = -H(x) \ g(x)

In [None]:
contour(linspace(-2, 2, 100), linspace(-1, 2, 100), (x,y) -> f([x;y]), levels=50)
scatter!([x[1]], [x[2]], c=:red, ms=3, leg=false)
dn = 0.25 * d / norm(d)
plot!([x[1], x[1] + dn[1]], [x[2], x[2] + dn[2]], c=:blue, l=:arrow)
scatter!([x[1] + d[1]], [x[2] + d[2]], c=:blue, ms=3)

In [None]:
x = [-1.2; 1.0]
contour(linspace(-2, 2, 100), linspace(-3.5, 2, 100), (x,y) -> f([x;y]), levels=50)
scatter!([x[1]], [x[2]], c=:red, ms=3, leg=false)

In [None]:
scatter!([x[1]], [x[2]], c=:red, ms=3)
d = -H(x) \ g(x)
dn = 0.25 * d / norm(d)
plot!([x[1], x[1] + dn[1]], [x[2], x[2] + dn[2]], c=:blue, l=:arrow)
x = x + d
scatter!([x[1]], [x[2]], c=:blue, ms=3)

In [None]:
function newton_puro(f, g, H, x;
                     tol = 1e-6, kmax = 1000, max_evals = 10_000, max_time = 30.0
                    )
    # Implementar em sala
end

In [None]:
newton_puro(f, g, H, x)

In [None]:
f(x) = x[1]^4 + x[2]^4
g(x) = 4 * [x[1]^3; x[2]^3]
H(x) = 12 * [x[1]  0.0; 0.0  x[2]]
x = ones(2)
newton_puro(f, g, H, x)

In [None]:
newton_puro(f, g, H, x, tol=1e-14)

## Coletâneas de problemas

Quando algoritmos eram criados há algumas décadas, era necessário criar também algumas funções para comparar esses algoritmos. Essas funções costumavam ser comparilhadas entre autores, para que todos pudessem fazer testes computacionais. Alguns artigos foram publicados descrevendo conjuntos de problemas que poderiam ser úteis em contextos específicos. Eis alguns:
- W. Hock, K. Schittkowski. **Test Examples for Nonlinear Programming Codes**, Springer, 1981
- Jorge J. Moré, Burton S. Garbow, and Kenneth E. Hillstrom. 1981. **Testing Unconstrained Optimization Software.** ACM Trans. Math. Softw. 7, 1 (1981), 17-41. DOI: https://doi.org/10.1145/355934.355936

Em 1995, com a publicação

- I. Bongartz, A. R. Conn, N. I. M. Gould, and Ph. L. Toint. CUTE: Constrained
and Unconstrained Testing Environment. ACM Transactions on Mathematical
Software, 21(1):123–160, 1995.

vários problemas foram colecionados num software que dava acesso à todas as qualidades de um problema de programação não-linear: função objetivo, restrições, gradientes, Hessianas, ponto inicial, etc. Essa biblioteca de testes, **CUTE** teve duas versões seguintes: **CUTEr** e **CUTEst**. Esta última, a mais atual, têm uma interface em Julia, que podemos acessar sem muita dificuldade.

### NLPModels.jl e CUTEst.jl

Vamos utilizar dois pacotes, parte do [JuliaSmoothOptimizers](https://github.com/JuliaSmoothOptimizers/), para criar/obter nossas funções $f$, $\nabla f$ e $\nabla^2 f$.

**NLPModels.jl** é um pacote para abstração de modelos de PNL. Em particular, um modelo que nos interessa é o `ADNLPModel`, que vai receber $f$ e calcular $\nabla f$ e $\nabla^2 f$ para nós.

In [None]:
using NLPModels

f(x) = (x[1] - 1)^2 + 100 * (x[2] - x[1]^2)^2

nlp = ADNLPModel(f, [-1.2; 1.0]) # Cria o modelo e guarda tudo na variável nlp

x = nlp.meta.x0 # Obtém o x0 a partir da variável nlp
obj(nlp, x) # Calcula o valor da função objetivo a partir do nlp

In [None]:
f(x)

In [None]:
x = rand(2)
obj(nlp, x) - f(x)

In [None]:
grad(nlp, x) # Calcula o gradiente usando diferenciação automática

In [None]:
g(x)

In [None]:
hess(nlp, x) # Calcula a Hessiana usando diferenciação automática

Por design, a Hessiana retornada é só a metade inferior. Num software mais avançado, utilizaríamos só a metade inferior para, por exemplo, calcular Cholesky, mas aqui vamos usar a Hessiana inteira para resolver sistemas sem preocupações.

In [None]:
Symmetric(hess(nlp, x), :L)

No lugar de fazer nossa função depender de `f, g, H, x`, podemos colocar como entrada apenas `nlp`.

In [None]:
function newton_puro(nlp; kwargs...)
    
end

In [None]:
nlp = ADNLPModel(x->x[1]^4 + x[2]^4, ones(2))
newton_puro(nlp, tol=1e-8)

In [None]:
nlp = ADNLPModel(x->sum(x.^4), ones(10))
newton_puro(nlp, tol=1e-8)

Usar o `ADNLPModel` nos permite criar exemplos rápido, mas para testes computacionais de verdade, precisamos de uma biblioteca de testes. A mais usada está disponível no `CUTEst.jl`.

In [None]:
using CUTEst

nlp = CUTEstModel("ROSENBR")
out = newton_puro(nlp)
finalize(nlp) # Necessário para fechar o problema
out

O `CUTEst` tem todas as informações de problema armazenadas internamente, incluindo o ponto inicial, as funções e como calcular suas derivadas. Para acessá-las, é necessário saber o nome do problema. Como não sabemos isso, escolhemos problemas pelas suas características

In [None]:
problemas = CUTEst.select(max_var=2, max_con=0, only_free_var=true)

In [None]:
nlp = CUTEstModel("HILBERTA")
out = newton_puro(nlp)
finalize(nlp)
out

In [None]:
nlp = CUTEstModel("HIMMELBB")
out = newton_puro(nlp)
finalize(nlp)
out

In [None]:
problemas = CUTEst.select(max_var = 2, max_con = 0, only_free_var=true)
sort!(problemas)
mtds = [newton_puro]

@printf("%-10s | ", "Problema")
for mtd in mtds
    @printf("%27s | ", mtd)
end
println("")
@printf("%10s | ", "")
for mtd in mtds
    @printf("%9s  %8s  %6s | ",
            "f(x)", "Δt", "Σ#f")
end
println("")

np, nmtds = length(problemas), length(mtds)
fx_matriz = zeros(np, nmtds)
Δt_matriz = zeros(np, nmtds)
Σf_matriz = zeros(Int, np, nmtds)
for (i,p) in enumerate(problemas)
    @printf("%-10s | ", p)
    nlp = CUTEstModel(p)
    try
        for (j,mtd) in enumerate(mtds)
            try
                reset!(nlp)
                x, fx, normgx, Δt, iters, exitflag = mtd(nlp, max_evals = 10_000, max_time = 3.0)
                Σf = sum_counters(nlp)
                @printf("%+8.2e  %8.2e  %6d | ", fx, Δt, Σf)
                fx_matriz[i,j] = fx
                Δt_matriz[i,j] = Δt
                Σf_matriz[i,j] = Σf
            catch ex
                @printf("%27s | ", "ERROR")
                fx_matriz[i,j] = Inf
                Δt_matriz[i,j] = Inf
                Σf_matriz[i,j] = 2^16
            end
        end
        println("")
    catch ex
        println(ex)
    finally
        finalize(nlp)
    end
end

Agora vamos criar uma implementação do método do Gradiente com busca de Armijo

## Método do Gradiente com Busca Inexata

1. Dados $x_0$, $\varepsilon > 0$, $k = 0$, $k_\max \in \mathbb{N}$, $\alpha, \sigma \in (0,1)$.
2. Enquanto $\Vert\nabla f(x_k)\Vert > \varepsilon$
    1. $d_k = -\nabla f(x_k)$
    2. Defina $t_k$ como o primeiro valor da sequência
        $\{1,\sigma,\sigma^2,\sigma^3,\dots\}$ tal que
$$f(x_k + t_k d_k) < f(x_k) + \alpha t_k \nabla f(x_k)^Td_k. $$
    3. Calcule $x_{k+1} = x_k + t_k d_k$
    4. $k = k + 1$
    5. Teste outras condições de parada e vá à 4 se alguma for satisfeita
3. Fim do Enquanto
4. Saída: $x_k$, $f(x_k)$, $\Vert\nabla f(x_k)\Vert$, Tempo, Iterações, exitflag

In [None]:
function gradiente_inexato(nlp;
                           tol = 1e-6, kmax = 1000, max_evals = 10_000, max_time = 30.0
                           )
    
end

In [None]:
nlp = CUTEstModel("HILBERTA")
out = gradiente_inexato(nlp)
finalize(nlp)
out

In [None]:
nlp = CUTEstModel("HIMMELBB")
out = gradiente_inexato(nlp)
finalize(nlp)
out

# Comparações entre algoritmos de otimização

In [None]:
problemas = CUTEst.select(max_var = 2, max_con = 0, only_free_var=true)
sort!(problemas)
mtds = [gradiente_inexato, newton_puro]

@printf("%-10s | ", "Problema")
for mtd in mtds
    @printf("%27s | ", mtd)
end
println("")
@printf("%10s | ", "")
for mtd in mtds
    @printf("%9s  %8s  %6s | ",
            "f(x)", "Δt", "Σ#f")
end
println("")

np, nmtds = length(problemas), length(mtds)
fx_matriz = zeros(np, nmtds)
Δt_matriz = zeros(np, nmtds)
Σf_matriz = zeros(Int, np, nmtds)
for (i,p) in enumerate(problemas)
    @printf("%-10s | ", p)
    nlp = CUTEstModel(p)
    try
        for (j,mtd) in enumerate(mtds)
            try
                reset!(nlp)
                x, fx, normgx, Δt, iters, exitflag = mtd(nlp, max_evals = 10_000, max_time = 3.0)
                Σf = sum_counters(nlp)
                @printf("%+8.2e  %8.2e  %6d | ", fx, Δt, Σf)
                fx_matriz[i,j] = fx
                Δt_matriz[i,j] = Δt
                Σf_matriz[i,j] = Σf
            catch ex
                @printf("%27s | ", "ERROR")
                fx_matriz[i,j] = Inf
                Δt_matriz[i,j] = Inf
                Σf_matriz[i,j] = 2^16
                throw(ex)
            end
        end
        println("")
    catch ex
        println(ex)
    finally
        finalize(nlp)
    end
end

Além de verificar o tempo ou avaliações de função, devemos garantir que os métodos funcionaram. Uma maneira de verificar isso, neste caso, é decidir que um algoritmo convergiu para a solução ótima se
$$ f \leq f_{\min} + \left\vert f_{\min}\right\vert \varepsilon_{R} + \varepsilon_{A},$$
onde $f$ é o valor de função de um algoritmo, $f_{\min}$ é o menor valor de função encontrado por qualquer algoritmo, e $\varepsilon_R$ e $\varepsilon_A$ são tolerâncias. Por exemplo, $\varepsilon_{R} = 10^{-3}$
e $\varepsilon_{A} = 10^{-6}$.

In [None]:
@printf("%-10s | ", "Problema")
for mtd in mtds
    @printf("%27s | ", mtd)
end
println("")
@printf("%10s | ", "")
for mtd in mtds
    @printf("%9s  %8s  %6s | ",
            "f(x)", "Δt", "Σ#f")
end
println("")

epsR, epsA = 1e-3, 1e-6
for i = 1:np
    @printf("%-10s | ", problemas[i])
    fmin = minimum(fx_matriz[i,:])
    for j = 1:nmtds
        fx, Δt, Σf = fx_matriz[i,j], Δt_matriz[i,j], Σf_matriz[i,j]
        if fx < fmin + abs(fmin) * epsR + epsA
            @printf("%+8.2e  %8.2e  %6d | ", fx, Δt, Σf)
        else
            @printf("%27s | ", "Falhou")
        end
    end
    println("")
end

Outro ponto de comparação é a velocidade de Newton quando funciona. Ele faz uma troca de **eficiência** por **robustez**. Isso fica pouco evidente na tabela acima, então vamos usar um gráfico específico.

## Perfil de Desempenho

O perfil de desempenho é um gráfico de comparação de algoritmos útil quando existe uma troca de eficiência e robustez. Em geral ele não é muito útil para algoritmos que sempre convergem.

A ideia do perfil de desempenho é "normalizar" a comparação. Problemas menores tendem a ser resolvidos mais rápido, enquanto problemas maiores podem demorar vários minutos. Nessa situação, 1 minuto de diferença pode ser muito ou pouco.

A normalização do perfil se dá pela divisão de cada custo pelo menor custo. Por exemplo, imagine que a matriz $T$ abaixo é uma matriz de comparação de tempo de 3 algoritmos (como $\Delta t$ acima). Cada linha corresponde a um problema diferente.

In [None]:
T = rand(15, 3) .* (1:15)

Aqui podemos ter algumas problemas que não convergem. Podemos denotá-los colocando $\infty$ nos valores correspondentes em $T$.

In [None]:
T[[7;11;13;19;23]] = Inf
T

O menor tempo de cada problema é calculado:

In [None]:
Tmin = minimum(T, 2)

A partir daí a razão é calculada:

In [None]:
R = T ./ Tmin

Veja que sempre temos ao menos um problema com custo relativo $1$, a não ser que todos os problemas falhem.

A partir destes custos, definimos a função do perfil:
$$ \rho_a(t) = \dfrac{\#\{p \ | \ r_{a,p} \leq t\}}{NP}, $$
onde $r_{a,p}$ é a razão do problema $p$ do algoritmo $a$, e $NP$ é o número de problemas.
Em outras palavras, $\rho_a(t)$ mede, para o algoritmo $a$, quantos problemas foram resolvidos com custo relativo até $t$. Veja que $t = 1$ é o menor possível, então representa quantos problemas o algoritmo $a$ resolveu mais rápido que os adversários. Para $t \to \infty$, $\rho_a(t)$ corresponde a quantos problemas o algoritmo $a$ resolveu. Definimos esses dois valores:
- Eficiência: $\rho_a(1)$;
- Robustez: $\displaystyle\lim_{t \to \infty} \rho_a(t)$.

Note que $\rho_a$ vai de $0$ a $1$, e que é descontínua.

In [None]:
τ = sort(unique(R))

if τ[end] == Inf
    τ = τ[1:end-1]
end

In [None]:
np = size(R, 1)
P = zeros(length(τ), 3)
for (i,τi) = enumerate(τ)
    for j = 1:3
        P[i,j] = sum(R[:,j] .<= τi) / np
    end
end
P

In [None]:
using Plots
gr()

plot(τ, P, t=:steppre, leg=:bottomright, lab=["Alg1", "Alg2", "Alg3"])
ylims!(0, 1)

plot(τ, P, t=:steppre, leg=:bottomright, lab=["Alg1", "Alg2", "Alg3"], xaxis=:log)
ylims!(0, 1)

O pacote `BenchmarkProfiles` tem um perfil de desempenho implementado.

In [None]:
using BenchmarkProfiles

performance_profile(T, ["Alg1", "Alg2", "Alg3"])

### Perfil de desempenho dos algoritmos que fizemos

In [None]:
epsR, epsA = 1e-3, 1e-6
np = size(fx_matriz, 1)
funcionou = fill(false, np, nmtds)
for i = 1:np
    fmin = minimum(fx_matriz[i,:])
    for j = 1:nmtds
        fx, Δt, Σf = fx_matriz[i,j], Δt_matriz[i,j], Σf_matriz[i,j]
        funcionou[i,j] = fx < fmin + abs(fmin) * epsR + epsA
    end
end

P = Δt_matriz + (.!funcionou) * Inf

In [None]:
P = Δt_matriz + (.!funcionou) * Inf # Truques
performance_profile(P, string.(mtds), leg=:bottomright)

In [None]:
P = Σf_matriz + (.!funcionou) * Inf
performance_profile(P, string.(mtds), leg=:bottomright)