# Método de Newton

Já implementamos o método do gradiente em detalhes, então não vamos levar tanto tempo com o método de Newton.
Na verdade, as diferenças são poucas, por enquanto.

O método de Newton é dado pelo passo $d^k$ que satisfaz
$$ \nabla^2 f(x^k)d^k = -\nabla f(x^k). $$

Uma parte extremamente importante desse método, é que ele resolve problemas quadráticos em uma iteração,
então vamos começar com um problema um pouco diferente.

In [1]:
f(x) = (exp(x[1]) - 1)^2 + (x[2] + exp(x[1]+1))^2
∇f(x) = [2*exp(x[1])*(exp(x[1])-1) + 2*exp(x[1]+1)*(x[2] + exp(x[1]+1));
    2*(x[2] + exp(x[1]+1))]
∇²f(x) = [4*exp(2*x[1])-2*exp(x[1])+2*x[2]*exp(x[1]+1)+4*exp(2*x[1]+2) 2*exp(x[1]+1);
    2*exp(x[1]+1) 2]
x0 = [0.5; 1.2];

In [2]:
using Plots
gr()
contour(linspace(-2,0.5,100), linspace(-4,0,100), (x,y)->f([x;y]), levels=100)

[Plots.jl] Initializing backend: gr


Para resolver sistemas lineares facilmente no Julia, podemos usar a barra invertida (`\`).

In [50]:
x = copy(x0);
d = -∇²f(x)\ ∇f(x);
x = x + d

2-element Array{Float64,1}:
  0.463436
 -4.31782 

In [51]:
d = -∇²f(x)\ ∇f(x);
x = x + d

2-element Array{Float64,1}:
  0.193888
 -3.15613 

In [52]:
d = -∇²f(x)\ ∇f(x);
x = x + d

2-element Array{Float64,1}:
  0.0762441
 -2.91167  

In [53]:
d = -∇²f(x)\ ∇f(x);
x = x + d

2-element Array{Float64,1}:
  0.0112067
 -2.74284  

In [54]:
d = -∇²f(x)\ ∇f(x);
x = x + d

2-element Array{Float64,1}:
  0.000360465
 -2.7191     

In [55]:
d = -∇²f(x)\ ∇f(x);
x = x + d

2-element Array{Float64,1}:
  3.52396e-7
 -2.71828   

In [56]:
norm(∇f(x))

1.7002054938085291e-6

Então o método de Newton convergiu, e com poucas iterações.
Em muitos casos, o passo puro, sem busca linear, já é suficiente.

In [109]:
function newton_method(f, ∇f, ∇²f, x0; tol = 1e-5, max_iter = 1000, max_time = 60)
    exit_flag = 0
    
    x = copy(x0) # Cópia de x0
    iter = 0
    start_time = time()
    elapsed_time = 0.0
    fx = f(x)
    ∇fx = ∇f(x)
    while norm(∇fx) > tol
        ∇²fx = ∇²f(x)
        d = -∇²fx\∇fx
        x = x + d
        fx = f(x)
        ∇fx = ∇f(x)
        iter = iter + 1
        if iter >= max_iter
            exit_flag = 1
            break
        end
        elapsed_time = time() - start_time
        if elapsed_time >= max_time
            exit_flag = 2
            break
        end
    end
    return x, fx, ∇fx, exit_flag, iter, elapsed_time # Precisamos retornar o ponto encontrado
end

newton_method (generic function with 1 method)

In [93]:
x, fx, ∇fx, exit_flag, iter, elapsed_time = newton_method(f, ∇f, ∇²f, x0)

([3.52396e-7,-2.71828],1.5526378286388286e-13,[1.66324e-6,3.52594e-7],0,6,5.3882598876953125e-5)

A implementação é essencialmente a mesma que a do método do gradiente sem a busca.

No entanto, veja que o método depende do ponto inicial.

In [94]:
x, fx, ∇fx, exit_flag, iter, elapsed_time = newton_method(f, ∇f, ∇²f, [-1.2;2.0])

([-13.3149,4.58709e-10],0.9999967007228948,[-3.29925e-6,8.96934e-6],0,13,7.104873657226562e-5)

O ponto que a função convergiu **não** é um ponto crítico.

In [113]:
x, fx, ∇fx, exit_flag, iter, elapsed_time = newton_method(f, ∇f, ∇²f, [-1.0,-0.9028])

([-1.0,-0.9028],0.409024240893728,[-0.270688,0.1944],4,0,0.0)

A primeira coisa a ver é que a matriz pode ser definida negativa, mas usando `\` não será possível.
Vamos usar o nosso código de LDLt.

In [96]:
function ldlt(A)
    (m,n) = size(A)
    if m != n
        error("Matriz tem que ser quadrada")
    end
    # Suporemos a matriz simétrica
    L = eye(A)
    D = zeros(n)
    ef = 0
    for j = 1:n
        s = 0.0;
        for k = 1:j-1
            s += L[j,k]^2*D[k]
        end
        D[j] = A[j,j] - s
        if abs(D[j]) < 1e-12
            ef = 1
        end
        for i = j+1:n
            s = 0.0
            for k = 1:j-1
                s += L[i,k]*L[j,k]*D[k]
            end
            L[i,j] = (A[i,j] - s)/D[j]
        end
    end
    return L, D, ef
end

ldlt (generic function with 1 method)

Agora adicionamos esse passo extra no método. Vamos continuar usando `\` para resolver o sistema triangular, mas para melhorar o método deveríamos mudar isso também.

In [111]:
function newton_method(f, ∇f, ∇²f, x0; tol = 1e-5, max_iter = 1000, max_time = 60)
    exit_flag = 0
    
    x = copy(x0) # Cópia de x0
    iter = 0
    start_time = time()
    elapsed_time = 0.0
    fx = f(x)
    ∇fx = ∇f(x)
    while norm(∇fx) > tol
        ∇²fx = ∇²f(x)
        L, D, ef = ldlt(∇²fx)
        if ef != 0
            exit_flag = 3
            break
        end
        if any(D .< 0)
            exit_flag = 4
            break
        end
        d = -L'\((L\∇fx)./D)
        x = x + d
        fx = f(x)
        ∇fx = ∇f(x)
        iter = iter + 1
        if iter >= max_iter
            exit_flag = 1
            break
        end
        elapsed_time = time() - start_time
        if elapsed_time >= max_time
            exit_flag = 2
            break
        end
    end
    return x, fx, ∇fx, exit_flag, iter, elapsed_time # Precisamos retornar o ponto encontrado
end

newton_method (generic function with 1 method)

In [106]:
x, fx, ∇fx, exit_flag, iter, elapsed_time = newton_method(f, ∇f, ∇²f, x0)
println("exit_flag = $exit_flag")

exit_flag = 0


In [107]:
x, fx, ∇fx, exit_flag, iter, elapsed_time = newton_method(f, ∇f, ∇²f, [-1.2;2.0])
println("exit_flag = $exit_flag")

exit_flag = 4


In [114]:
x, fx, ∇fx, exit_flag, iter, elapsed_time = newton_method(f, ∇f, ∇²f, [-1.0,-0.9028])
println("exit_flag = $exit_flag")

exit_flag = 4
