<a href="https://colab.research.google.com/github/amandatz/linear-programming/blob/main/Atividade1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Atividade 1



Amanda Topanotti Zanette (22100776)

**Importações e funções auxiliares**

In [16]:
using LinearAlgebra, Printf, Plots

Esse trecho de código é usado apenas para garantir a repetibilidade dos números aleatórios gerados.

In [17]:
using Random
Random.seed!(42)

TaskLocalRNG()

## Questão 1

**Gradiente com backtracking**

In [18]:
function steepest_descent_backtracking(fun, x0; sigma=1e-4, rho=0.5, max_iter=2000, tol=1e-6)
  x = copy(x0)

  for k = 0:max_iter-1
    f, g, _ = fun(x)
    gnorm = norm(g)

    if gnorm <= tol
      return x, k, gnorm
    end

    # backtracking
    t = 1.0
    xn = x - t*g
    fn, _, _= fun(xn)

    while fn > f - sigma*t*gnorm^2
      t *= rho
      xn = x - t*g
      fn, _, _ = fun(xn)
    end

    x = xn
  end

  _, g, _ = fun(x)
  gnorm = norm(g)
  return x, max_iter, gnorm
end


steepest_descent_backtracking (generic function with 1 method)

**Newton com backtracking**

O método de Newton é dado por
$$
  x_{k+1} = x_k - \alpha_k H(x_k)^{-1} \nabla f(x_k)
$$
em que
- $\nabla f(x_k)$: gradiente de f;
- $H(x_k)$: matriz hessiana de f;
- $\alpha_k$: tamanho do passo.

In [19]:
function newton_backtracking(fun, x0; sigma=1e-4, rho=0.5, max_iter=2000, tol=1e-6, fallback=nothing)
  x = copy(x0)

  for k = 0:max_iter-1
    f, g, H = fun(x)
    gnorm = norm(g)

    if gnorm <= tol
      return x, k, gnorm
    end

    p = -(H \ g)

    # se não for direção de descida, usa fallback se existir
    if fallback != nothing && g' * p >= 0
      p = fallback(g, H)
    end

    # backtracking
    t = 1.0
    xn = x + t*p
    fn, _, _ = fun(xn)

    while fn > f + sigma*t*(g' * p)
        t *= rho
        xn = x + t*p
        fn, _, _ = fun(xn)
    end

    x = xn
  end

  f, g, H = fun(x)
  return x, max_iter, norm(g)
end

newton_backtracking (generic function with 1 method)

## Questão 2

Considere a função de Rosenbrock

In [20]:
function rosenb(x)
  a = 1.0
  b = 10.0

  f = (a - x[1])^2 + b*(x[2] - x[1]^2)^2

  grad_f = [ -2*(a - x[1]) + 2*b*(x[2] - x[1]^2)*(-2*x[1]),
        2*b*(x[2] - x[1]^2)]

  hess_f = [
        2 - 4*b*(x[2] - x[1]^2) + 8*b*x[1]^2   -4*b*x[1];
        -4*b*x[1]                               2*b
  ]

  return f, grad_f, hess_f
end

rosenb (generic function with 1 method)

Comparemos ambos os métodos anteriores considerando os pontos iniciais $x_0 = (1.01, 1.01)$ e $x_0 = (-1.0, 1.2)$

In [21]:
x0 = [1.01, 1.01]

x, max_iter_sd, gnorm_sd = steepest_descent_backtracking(rosenb, x0)
@printf("Gradiente:\n  Número de iterações: %d\n  Gradiente final: %.6e\n  Ponto final: [%.6f, %.6f]\n\n",
        max_iter_sd, gnorm_sd, x[1], x[2])

x, max_iter_n, gnorm_n = newton_backtracking(rosenb, x0)
@printf("Newton:\n  Número de iterações: %d\n  Gradiente final (norma): %.6e\n  Ponto final: [%.6f, %.6f]\n\n",
        max_iter_n, gnorm_n, x[1], x[2])


Gradiente:
  Número de iterações: 1027
  Gradiente final: 9.818612e-07
  Ponto final: [1.000001, 1.000002]

Newton:
  Número de iterações: 3
  Gradiente final (norma): 4.895830e-10
  Ponto final: [1.000000, 1.000000]



Para $x_0 = (1.01, 1.01)$ próximo do mínimo $x^* = (1,1)$, o método de Newton converge quadraticamente, resultando em apenas 3 iterações, enquanto o método do gradiente precisou de 1027 iterações. Além disso, o método de Newton foi bem mais preciso quando comparado ao método do gradiente.

In [22]:
x1 = [-1.0, 1.2]

x, max_iter_sd, gnorm_sd = steepest_descent_backtracking(rosenb, x1)
@printf("Gradiente:\n  Número de iterações: %d\n  Gradiente final: %.6e\n  Ponto final: [%.6f, %.6f]\n\n",
        max_iter_sd, gnorm_sd, x[1], x[2])

x, max_iter_n, gnorm_n = newton_backtracking(rosenb, x1, max_iter=5000)
@printf("Newton:\n  Número de iterações: %d\n  Gradiente final (norma): %.6e\n  Ponto final: [%.6f, %.6f]\n\n",
        max_iter_n, gnorm_n, x[1], x[2])

Gradiente:
  Número de iterações: 1184
  Gradiente final: 9.714477e-07
  Ponto final: [0.999999, 0.999998]

Newton:
  Número de iterações: 5000
  Gradiente final (norma): 5.656854e+00
  Ponto final: [-1.000000, 1.200000]



Para $x_0 = (-1.0, 1.2)$, mais distante, Newton falha em convergir (5000 iterações) porque $H(x)$ longe do mínimo não é positiva definida, enquanto o gradiente ainda converge (1184 iterações).


Observe que, para a função de Rosenbrock

$$
  f(x_1, x_2) = (x_1 - 1)^2 + 10 (x_2 - x_1^2)^2,
$$

a Hessiana no ponto $x_0 = (-1, 1.2)$ é

$$
  H(x) =
  \begin{bmatrix}
  74 & 40 \\
  40 & 20
  \end{bmatrix}.
$$

e o determinante é

$$
  \det(H) = -120 < 0
$$

ou seja, a Hessiana **não é positiva definida** nesse ponto. Isso explica por que o método de Newton não converge a partir desse ponto inicial.


Podemos ajustar o algoritmo de Newton de modo que, caso a Hessiana não seja positiva definida, o método utilize o gradiente como alternativa.

In [23]:
gradient_fallback(g, H) = -g / norm(g)

x, max_iter_n, gnorm_n = newton_backtracking(rosenb, x1, max_iter=5000, fallback=gradient_fallback)
@printf("Newton:\n  Número de iterações: %d\n  Gradiente final (norma): %.6e\n  Ponto final: [%.6f, %.6f]\n\n",
        max_iter_n, gnorm_n, x[1], x[2])

Newton:
  Número de iterações: 12
  Gradiente final (norma): 8.406475e-08
  Ponto final: [1.000000, 1.000000]



## Questão 3

In [24]:
function exact_line_search_quadratic(A, b, x, d)
  numerator = dot(b, d) - dot(d, A * x)
  denominator = dot(d, A * d)

  if denominator <= 0 || abs(denominator) < 1e-14
    return 1e-6   # passo mínimo seguro
  end
  return numerator / denominator
end

exact_line_search_quadratic (generic function with 1 method)

In [25]:
function quadratic(x, A, b)
  f = 0.5 * dot(x, A * x) - dot(b, x)
  g = A * x - b
  H = A
  return f, g, H
end

quadratic (generic function with 1 method)

In [26]:
function householder_matrix(n)
  u = randn(n)
  u /= norm(u)
  U = Matrix(I, n, n) - 2.0 * (u * u')
  return U
end

householder_matrix (generic function with 1 method)

**Gradiente com busca linear exata**

In [27]:
function steepest_descent_exact(A, b, x0; max_iter=2000, tol=1e-6)
  x = copy(x0)

  for k = 0:max_iter-1
    f, g, _ = quadratic(x, A, b)

    gnorm = norm(g)
    if gnorm <= tol
      return x, k, gnorm
    end

    d = -g

    # Busca linear exata
    alpha = exact_line_search_quadratic(A, b, x, d)

    x = x + alpha * d
  end

  _, g, _ = quadratic(x, A, b)
  return x, max_iter, norm(g)
end

steepest_descent_exact (generic function with 1 method)

**Newton com busca linear exata**

In [28]:
function newton_exact(A, b, x0; max_iter=2000, tol=1e-6)
  x = copy(x0)

  for k = 0:max_iter-1
    f, g, H = quadratic(x, A, b)

    gnorm = norm(g)
    if gnorm <= tol
      return x, k, gnorm
    end

    p = - H \ g

    # passo exato
    alpha = exact_line_search_quadratic(A, b, x, p)

    x = x + alpha * p
  end

  _, g, _ = quadratic(x, A, b)
  return x, max_iter, norm(g)
end

newton_exact (generic function with 1 method)

O próximo código cria uma instância quadrática $f(x) = \tfrac{1}{2} x^T A x - b^T x$ de dimensão $n$ com as distribuições de autovalores:  
- `:equal`: todos os autovalores iguais;
- `:two`: apenas dois valores diferentes;
- `:spread`: autovalores variados de 1 até 1000.

In [29]:
function generate_quadratic_instance(n, case)
  U = householder_matrix(n)

  eigenvalues = zeros(n)

  if case == :equal
    eigenvalues .= 1.0
  elseif case == :two
    eigenvalues[1:div(n,2)] .= 2.0
    eigenvalues[div(n,2)+1:end] .= 5.0
    shuffle!(eigenvalues)
  elseif case == :spread
    eigenvalues .= collect(LinRange(1.0, 1000.0, n))
    shuffle!(eigenvalues)
  end

  Lambda = Diagonal(eigenvalues)
  A = U * Lambda * U'
  A = 0.5 * (A + A')   # garante simetria

  b = randn(n)
  x0 = randn(n)

  return A, b, x0, eigenvalues
end

generate_quadratic_instance (generic function with 1 method)

Neste bloco, aplicamos os métodos de otimização (`steepest_descent_exact` e `newton_exact`) com diferentes dimensões e distribuições de autovalores.

In [31]:
dimensions = [10, 100, 1000]
cases = [:equal, :two, :spread]

for n in dimensions, case in cases
  A, b, x0, eigenvalues = generate_quadratic_instance(n, case)

  # Gradiente
  t_sd = @elapsed x_sd, k_sd, gnorm_sd = steepest_descent_exact(A, b, x0, max_iter=10000)

  # Newton
  t_newt = @elapsed x_newt, k_newt, gnorm_newt = newton_exact(A, b, x0, max_iter=10000)

  println("Dimensão: $n, Caso: $case")
  println("  Gradiente:")
  println("    Iterações: $k_sd")
  println("    Tempo: $(round(t_sd, digits=6)) s")
  println("    Gradiente: $gnorm_sd")
  println("  Newton:")
  println("    Iterações: $k_newt")
  println("    Tempo: $(round(t_newt, digits=6)) s")
  println("    Gradiente: $gnorm_newt \n")
end

Dimensão: 10, Caso: equal
  Gradiente:
    Iterações: 1
    Tempo: 2.4e-5 s
    Gradiente: 4.0199198921899116e-16
  Newton:
    Iterações: 1
    Tempo: 2.3e-5 s
    Gradiente: 2.6588280504982636e-16 

Dimensão: 10, Caso: two
  Gradiente:
    Iterações: 19
    Tempo: 3.8e-5 s
    Gradiente: 4.5377253912453864e-7
  Newton:
    Iterações: 1
    Tempo: 1.3e-5 s
    Gradiente: 2.046397339490942e-15 

Dimensão: 10, Caso: spread
  Gradiente:
    Iterações: 6799
    Tempo: 0.017562 s
    Gradiente: 9.987694876074239e-7
  Newton:
    Iterações: 1
    Tempo: 2.4e-5 s
    Gradiente: 2.7753807806720287e-13 

Dimensão: 100, Caso: equal
  Gradiente:
    Iterações: 1
    Tempo: 4.6e-5 s
    Gradiente: 4.852626736724029e-15
  Newton:
    Iterações: 1
    Tempo: 0.000245 s
    Gradiente: 3.768423396013266e-15 

Dimensão: 100, Caso: two
  Gradiente:
    Iterações: 17
    Tempo: 0.000217 s
    Gradiente: 3.439588506899533e-7
  Newton:
    Iterações: 1
    Tempo: 0.000229 s
    Gradiente: 2.05102694230545

Observa-se que o método de Newton converge em apenas uma iteração para todos os casos testados, independentemente da dimensão da matriz ou da distribuição dos autovalores. Isso ocorre porque, para uma função quadrática, a direção de Newton aponta exatamente para o mínimo. O tempo de execução aumenta levemente com a dimensão devido à necessidade de resolver o sistema linear $H p = g$.

Por outro lado, o desempenho do método do gradiente dependente do condicionamento da matriz $A$. Nos casos de autovalores iguais ou com apenas dois distintos, o número de iterações necessárias é relativamente baixo. Mas quando os autovalores estão muito diferentes, o método precisa de mais iterações para convergir. O tempo de processamento cresce à medida que a dimensão da matriz aumenta.