# Trabalho Implementação PNL


`Função :` $f(x_1, x_2) = \sqrt{-\log{(x_1(1-x_1)x_2(1-x_2))}}$

`Domínio:` ${\rm I\!R}^2$

`Nome: ` Thiago Guimarães Rebello Mendonça de Alcântara

`DRE: ` 118053123

`Nome: ` Bruno Dantas de Paiva

`DRE: ` 118048097

# Bibliotecas

In [None]:
import sympy as sym
import numpy as np
import pandas as pd

# Função do trabalho

In [None]:
x1, x2 = sym.symbols('x1 x2')
vetor = (x1, x2)

In [None]:
funcao = sym.sqrt(-sym.log(x1*(1.0-x1)*x2*(1.0-x2)))

# Funções Auxiliares

## calcula_gradiente_da_funcao

In [None]:
def calcula_gradiente_da_funcao(f):
  """ Gera o gradiente da função f

  Args:
      f (Callable): Função que será calculado o gradiente.

  Returns:
      Matrix: Retorna uma matrix 1xN, onde N é o número de variáveis 
      da função f contendo o gradiente da função.
  """
  
  return sym.Matrix([
                     [
                      sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(2*x1*x2*(1.0 - x1)*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))),
                      sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x1) + x1*(1.0 - x1)*(1.0 - x2))/(2*x1*x2*(1.0 - x1)*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))
                     ]
                    ])

## calcula_hessiana_da_funcao

In [None]:
def calcula_hessiana_da_funcao(f):
  """ Gera a hessiana da função f

  Args:
      f (Callable): Função que será calculado o gradiente.

  Returns:
      Matrix: Retorna a matriz hessiana da função f.
  """
  return sym.Matrix([
                     [
                      -sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))/(x1*(1.0 - x1)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) + sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(2*x1*x2*(1.0 - x1)**2*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) - sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(2*x1**2*x2*(1.0 - x1)*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) - sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))**2/(4*x1**2*x2**2*(1.0 - x1)**2*(1.0 - x2)**2*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))**2),
                      sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(x1*x2 - x1*(1.0 - x2) - x2*(1.0 - x1) + (1.0 - x1)*(1.0 - x2))/(2*x1*x2*(1.0 - x1)*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) + sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(2*x1*x2*(1.0 - x1)*(1.0 - x2)**2*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) - sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(2*x1*x2**2*(1.0 - x1)*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) - sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x1) + x1*(1.0 - x1)*(1.0 - x2))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(4*x1**2*x2**2*(1.0 - x1)**2*(1.0 - x2)**2*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))**2)
                     ],
                     [
                       sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(x1*x2 - x1*(1.0 - x2) - x2*(1.0 - x1) + (1.0 - x1)*(1.0 - x2))/(2*x1*x2*(1.0 - x1)*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) + sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(2*x1*x2*(1.0 - x1)*(1.0 - x2)**2*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) - sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(2*x1*x2**2*(1.0 - x1)*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) - sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x1) + x1*(1.0 - x1)*(1.0 - x2))*(-x1*x2*(1.0 - x2) + x2*(1.0 - x1)*(1.0 - x2))/(4*x1**2*x2**2*(1.0 - x1)**2*(1.0 - x2)**2*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))**2),
                       -sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))/(x2*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) + sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x1) + x1*(1.0 - x1)*(1.0 - x2))/(2*x1*x2*(1.0 - x1)*(1.0 - x2)**2*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) - sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x1) + x1*(1.0 - x1)*(1.0 - x2))/(2*x1*x2**2*(1.0 - x1)*(1.0 - x2)*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))) - sym.sqrt(-sym.log(x1*x2*(1.0 - x1)*(1.0 - x2)))*(-x1*x2*(1.0 - x1) + x1*(1.0 - x1)*(1.0 - x2))**2/(4*x1**2*x2**2*(1.0 - x1)**2*(1.0 - x2)**2*sym.log(x1*x2*(1.0 - x1)*(1.0 - x2))**2)
                     ]
                     ])


## classifica_pontos_estacionarios

In [None]:
def classifica_pontos_estacionarios(autovalores, ponto):
  """ Dado uma lista de autovalores, retorna a classificação do ponto

  Args:
      autovalores (dict): Um dicionário onde a chave é o auto-valor e 
                          o valor é o número de vezes que ele aparece
                          na matriz.
      ponto (Tupla): Uma tupla contendo o par de pontos.

  Returns:
      str: Retorna a classificação do ponto.
  """
  
  if all(autovalor > 0 for autovalor in autovalores):
    return f"O ponto {ponto} é um ponto de mínimo local"
  elif all(autovalor < 0 for autovalor in autovalores):
    return f"O ponto {ponto} é um ponto de máximo local"
  elif (any(autovalor > 0 for autovalor in autovalores) and 
        any(autovalor < 0 for autovalor in autovalores)
      ):
    return f"O ponto {ponto} é um ponto de sela"
  else:
    return f"Não é possível classificar o ponto {ponto}"

## funcao_x1_x2

In [None]:
def funcao_x1_x2(equacao, ponto):
  """ Dado uma equação, substitui o ponto na equação e retorna o resultado

  Args:
      equacao (Callable): A função que terá seus valores substituidos.
      ponto (Tupla): Uma tupla contendo o par de pontos.

  Returns:
      float: Retorna o resultado da função no ponto.
  """
  
  equacao = sym.lambdify(vetor, equacao)
  return equacao(ponto[0], ponto[1])

## gradiente_x1_x2

In [None]:
def gradiente_x1_x2(gradiente, ponto):
  """ Dado um gradiente, substitui o ponto e retorna o resultado

  Args:
      gradiente (Matrix): Uma matriz contendo o gradiente da função.
      ponto (Tupla): Uma tupla contendo o par de pontos.

  Returns:
      Matrix: Uma matriz com os pontos substituidos.
  """
  
  return gradiente.subs(zip(vetor, ponto))

## hessiana_x1_x2

In [None]:
def hessiana_x1_x2(hessiana, ponto):
  """ Dado uma hessiana, substitui o ponto e retorna o resultado

  Args:
      hessiana (Matrix): Uma matriz contendo a hessiana da função.
      ponto (Tupla): Uma tupla contendo o par de pontos.

  Returns:
      Matrix: Uma matriz com os pontos substituidos.
  """
  
  return hessiana.subs(zip(vetor, ponto))

## transpoe_matriz

In [None]:
def transpoe_matriz(matriz):
  """ Dado uma matriz, retorna a sua transposta

  Args:
      matriz (Matrix): Uma matriz MxN.

  Returns:
      Matrix: Uma matriz transposta.
  """
  
  return matriz.transpose()

## sympy_to_numpy

In [None]:
def sympy_to_numpy(vetor):
  """ Converte um vetor no tipo sympy para um np array.

  Args:
      vetor (Matrix): Uma matriz MxN.

  Returns:
      np.array: Um np array do vetor inputado.
  """
  
  return np.array(vetor).astype(np.float64)

## ponto_aleatorio

In [None]:
def ponto_aleatorio():
  """ Gera um par de pontos aleatório entre 0.01 e 0.99.

  Returns:
      Tupla: Um par de floats.
  """
  
  numeros = np.random.uniform(low=0.1, high=1, size=2)
  return (float(numeros[0]), float(numeros[1]))

## modulo

In [None]:
def modulo(vetor):
  """ Gera o módulo de um vetor

  Args:
      vetor (Matrix): O vetor que terá a normal calculada.

  Returns:
      float: Módulo do vetor.
  """
  
  return np.linalg.norm(sympy_to_numpy(vetor))

## inversa

In [None]:
def inversa(matriz):
  """ Gera a matriz inversa de uma matriz

  Args:
      matriz (Matrix): A matriz que será invertida.

  Returns:
      Matrix: Matriz inversa.
  """
  return np.linalg.inv(sympy_to_numpy(matriz))

## gera_tabela_resultado

In [None]:
def gera_tabela_resultado(resultados):
  """ Gera a tabela de resultados dada uma lista de resultados contendo
    X0, Iter., Call. Armijo, Opt. Point, Opt. Value, Error e
    imprime essa tabela

  Args:
      resultados (list): Lista de resultados com o ponto em questão

  """

  pd.set_option('display.max_rows', None)
  pd.set_option('display.max_columns', None)
  pd.set_option('display.width', 1000)
  pd.set_option('display.colheader_justify', 'center')
  pd.set_option("display.precision", 15)

  tabela = {
    'X0': [], 
    'Iter.':[],
    'Call. Armijo':[],
    'Opt. Point':[],
    'Opt. Value':[],
    'Error':[]
  }

  for resultado in resultados:
    tabela['X0'].append(resultado[0])
    tabela['Iter.'].append(resultado[1])
    tabela['Call. Armijo'].append(resultado[2])
    tabela['Opt. Point'].append(resultado[3])
    tabela['Opt. Value'].append(resultado[4])
    tabela['Error'].append(resultado[5])
  display(
      (pd.DataFrame(tabela, columns = tabela.keys()))
      .style.hide_index()
      .set_properties(**{'text-align': 'center'})
  )

## define_precisao_do_float

In [None]:
def define_precisao_do_float(valor):
  """ Gera uma string garantindo a precisão do valor

  Args:
      valor (float): Float que terá seu formato alterado

  Returns:
      str: O valor formatado com precisão de 8 dígitos.
  """
  
  return format(valor, '.9f')

## gera_notacao_cientifica

In [None]:
def gera_notacao_cientifica(valor):
  """ Gera uma string garantindo a precisão do valor como notação científica

  Args:
      valor (float): Float que terá seu formato alterado

  Returns:
      str: O valor formatado como notação científica.
  """
  
  return "{:.2e}".format(valor)

# Estudo da função

## Pontos críticos

Para encontrar o ponto crítico dessa função é necessário primeiramente calcular o gradiente desta função, deste modo, temos:

\begin{equation}
  \nabla f(x_1, x_2) = (\frac{\partial{f(x_1, x_2)}}{\partial{x_1}}, \frac{\partial{f(x_1, x_2)}}{\partial{x_2}})
\end{equation}

Assim, para facilitar a leitura, podemos derivar a função primeiro quanto a $x_1$, desta forma temos:

\begin{equation}
  \frac{\partial{f(x_1, x_2)}}{\partial{x_1}} = \frac{1 - 2x_1}{2(x_1-1)x_1\sqrt{-\log{((x_1-1)x_1(x_2-1)x_2)}}}
\end{equation} 

Para a derivada parcial em $x_1$, temos que os pontos críticos serão:

\begin{equation}
  \frac{1 - 2x_1}{2(x_1-1)x_1\sqrt{-\log{((x_1-1)x_1(x_2-1)x_2)}}} = 0
\end{equation}

Observando melhor a função, temos que o ponto onde o numerador se iguala a 0, será o valor $x_1 = \frac{1}{2}$, assim, temos:

\begin{equation}
  \frac{0}{\frac{-1}{2}\sqrt{-\log{(-\frac{1}{4}(x_2 -1)x_2)}}}
\end{equation}

Assim, tendo que para qualquer valor de $x_2$, que satisfaça a condição de que:

$- \frac{1}{4}(x_2 -1)x_2 > 0$ e que $ \log{(- \frac{1}{4}(x_2 -1)x_2)} < 0$, assim a função será respeitada juntamente ao seu domínio.

Já para a derivada parcial com relação à $x_2$ temos a seguinte equação:

\begin{equation}
  \frac{\partial{f(x_1, x_2)}}{\partial{x_2}} = \frac{1 - 2x_2}{2(x_2-1)x_2\sqrt{-\log{((x_1-1)x_1(x_2-1)x_2)}}}
\end{equation}

Para a derivada parcial em $x_2$, temos que os pontos críticos serão:

\begin{equation}
  \frac{1 - 2x_2}{2(x_2-1)x_2\sqrt{-\log{((x_1-1)x_1(x_2-1)x_2)}}} = 0
\end{equation}

Observando melhor a função, temos que o ponto onde o numerador se iguala a 0, será o valor $x_2 = \frac{1}{2}$, assim, temos:

\begin{equation}
  \frac{0}{\frac{-1}{2}\sqrt{-\log{(-\frac{1}{4}(x_1 -1)x_1)}}}
\end{equation}

Desta forma, tal como a derivada parcial em $x_1$, teremos os mesmos limitantes pois a função se assemelha. Assim, temos que, para esta função, o único ponto crítico que temos é $(\frac{1}{2}, \frac{1}{2})$, sendo este um ponto de mínimo.

### Ponto crítico encontrado

In [None]:
ponto_critico = (1/2, 1/2)

## Gráfico da função

### 3D Plot (Parte Real)

![Plot 3D da Função](https://cdn.discordapp.com/attachments/499753935754756098/941503169094099024/unknown.png)


### Curva de Nível (Parte Real)

![Plot 3D da Função](https://cdn.discordapp.com/attachments/499753935754756098/941502885211021372/unknown.png)

# Métodos

## Detecção de mínimo

In [None]:
def detecta_minimo(equacao, ponto):
  """ Dada uma equação e um ponto, classifica este ponto
  
  Args:
      equacao (Callable): Equação à ter seu ponto avaliado
      ponto (Tupla): ponto que será avaliado.
  """

  hessiana = calcula_hessiana_da_funcao(equacao)

  hessiana_no_ponto = hessiana_x1_x2(hessiana, ponto)

  print(classifica_pontos_estacionarios(hessiana_no_ponto.eigenvals(), ponto))

In [None]:
detecta_minimo(funcao, ponto_critico)

O ponto (0.5, 0.5) é um ponto de mínimo local


## Armijo

In [None]:
def armijo(ponto, direcao, eta, gamma, passo):
  """ Teste de Armijo procura uma redução da função ao longo de
      uma direção não necessariamente minimizando, não garantindo o ótimo.
      
  Referência: 
      Slide COS360_NL_alg_descida.pdf

  Args:
      ponto (Tupla): Ponto atual
      direcao (Tupla): Direção de decréscimo.
      eta (Double): Erro (0, 1)
      gamma (Double): Fator de correção
      passo (Double): Tamanho do passo

  Returns:
        Tupla: Retorna uma tupla contendo o valor do passo e 
               o número de iteracoes para alcançar esse passo.
  """

  iteracoes = 0

  gradiente_de_f = calcula_gradiente_da_funcao(funcao)

  funcao_no_ponto = funcao_x1_x2(funcao, ponto)
  gradiente_no_ponto_transposto = sympy_to_numpy(transpoe_matriz(gradiente_x1_x2(gradiente_de_f, ponto)))
  
  while funcao_x1_x2(funcao, (float(ponto[0] + (passo * direcao)[0]), float(ponto[1] + (passo * direcao)[1]))) > funcao_no_ponto + eta * passo * (gradiente_no_ponto_transposto[0] * direcao[0] + gradiente_no_ponto_transposto[1] * direcao[1]):
    passo *= gamma
    iteracoes += 1
  return passo, iteracoes

## Gradiente

In [None]:
def metodo_do_gradiente(max_iteracoes, limite, ponto_inicial, eta, gamma, passo_inicial):
  """ O método de gradiente é um dos métodos mais simples, utilizando como direção
      a direção oposta ao gradiente em um ponto.
  
  Referência: 
      Slide COS360_NL_gradiente.pdf

  Args:
      max_iteracoes (Int): Número máximo de iterações
      limite (Double): Valor de controle do loop principal
      ponto_inicial (Tupla): Ponto inicial do método
      eta (Double): Erro (0, 1)
      gamma (Double): Fator de correção
      passo_inicial (Double): Tamanho do passo no armijo

  Returns:
        Tupla: Retorna uma tupla contendo o ponto escolhido, número de iteracoes do gradiente,
              número de iteracoes de armijo, o ponto ótimo, o valor ótimo e o erro obtido 
  """
  iteracoes_gradiente = 0
  iteracoes_armijo = 0
  ponto_otimo = ponto_inicial

  gradiente_de_f = calcula_gradiente_da_funcao(funcao)
  
  while modulo(gradiente_x1_x2(gradiente_de_f, ponto_otimo)) > limite and iteracoes_gradiente < max_iteracoes:
    direcao = -gradiente_x1_x2(gradiente_de_f, ponto_otimo)
    passo, iteracoes = armijo(ponto_otimo, direcao, eta, gamma, passo_inicial)

    ponto_otimo = (float(ponto_otimo[0] + (passo * direcao[0])), float(ponto_otimo[1] + (passo * direcao[1])))
    iteracoes_gradiente += 1
    iteracoes_armijo += iteracoes

  otimo = funcao_x1_x2(funcao, ponto_otimo)
  erro = modulo(gradiente_x1_x2(gradiente_de_f, ponto_otimo))
  return ponto_inicial, iteracoes_gradiente, iteracoes_armijo, (define_precisao_do_float(ponto_otimo[0]), define_precisao_do_float(ponto_otimo[1])), otimo, gera_notacao_cientifica(erro)


## Newton

In [None]:
def metodo_de_newton(max_iteracoes, limite, ponto_inicial, eta, gamma, passo_inicial):
  """ O método de newton utiliza o polinômio de Taylor de primeira ordem para
      aproximar o gradiente de f em x1 e x2 = 0. Utilizando a inversa da Hessiana
      para determinar a direção da busca.

  Referência: Slide COS360_NL_newton.pdf

  Args:
      max_iteracoes (Int): Número máximo de iterações
      limite (Double): Valor de controle do loop principal
      ponto_inicial (Tupla): Ponto inicial do método
      eta (Double): Erro (0, 1)
      gamma (Double): Fator de correção
      passo_inicial (Double): Tamanho do passo no armijo

  Returns:
        Tupla: Retorna uma tupla contendo o ponto escolhido, número de iteracoes do newton,
              número de iteracoes de armijo, o ponto ótimo, o valor ótimo e o erro obtido 
  """
  iteracoes_newton = 0
  iteracoes_armijo = 0
  ponto_otimo = ponto_inicial

  gradiente_de_f = calcula_gradiente_da_funcao(funcao)
  hessiana_de_f = calcula_hessiana_da_funcao(funcao)
  
  while modulo(gradiente_x1_x2(gradiente_de_f, ponto_otimo)) > limite and iteracoes_newton < max_iteracoes:
    inversa_hessiana = inversa(hessiana_x1_x2(hessiana_de_f, ponto_otimo))
    direcao = -np.dot(inversa_hessiana, sympy_to_numpy(transpoe_matriz(gradiente_x1_x2(gradiente_de_f, ponto_otimo))))
    passo, iteracoes = armijo(ponto_otimo, direcao, eta, gamma, passo_inicial)

    ponto_otimo = (float(ponto_otimo[0] + (passo * direcao[0])), float(ponto_otimo[1] + (passo * direcao[1])))
    iteracoes_newton += 1
    iteracoes_armijo += iteracoes

  otimo = funcao_x1_x2(funcao, ponto_otimo)
  erro = modulo(gradiente_x1_x2(gradiente_de_f, ponto_otimo))
  return ponto_inicial, iteracoes_newton, iteracoes_armijo, (define_precisao_do_float(ponto_otimo[0]), define_precisao_do_float(ponto_otimo[1])), otimo, gera_notacao_cientifica(erro)


## quase-Newton

O método bgfs de aproximação utiliza a seguinte aproximação para se aproximar da inversa da hessiana:


\begin{equation}
  H_{k+1} = H_k + \left(1 + \frac{q_k^TH_kq_k}{p_k^Tq_k}\right)\frac{p_k^Tp_k}{p_k^Tq_k} - \frac{p_kq_k^TH_k + q_kp_k^T}{p_k^Tq_k}
\end{equation}

In [None]:
def bfgs(H, p, q):
  """ 
  
  Referência: 
      Slide COS360_NL_quasenewton.pdf

  Args:
      H (Matrix): Matriz aproximada da hessiana
      p (Matrix): Vetor advindo da diferença entre o próximo ponto e o atual
      q (Matrix): Vetor advindo da diferença entre os gradientes no próximo ponto e no atual

  Returns:
        Matrix: Retorna nova Matriz aproximada da hessiana 
  """
  q_t = transpoe_matriz(q)
  p_t = transpoe_matriz(p)
  common_denom = np.dot(p_t, q)
  segundo_termo = 1 + (np.linalg.multi_dot([q_t, H, q])/common_denom)*(np.dot(p, p_t)/common_denom)
  terceiro_termo = (np.linalg.multi_dot([p, q_t, H]) + np.linalg.multi_dot([H, q, p_t]))/common_denom
  return H + segundo_termo - terceiro_termo
  

In [None]:
def metodo_quase_newton(max_iteracoes, limite, ponto_inicial, eta, gamma, passo_inicial):
  """ O método de quase-Newton tem como objetivo ser um algoritmo menos custoso
      computacionalmente que o método de Newton e que converge mais
      rapidamente que o método do Gradiente. Para isso, uma das aproximações
      da inversa da Hessiana utilizada para cada iteração (direção da busca)
      é o BGFS, que é a aproximação utilizada neste código.

  Referência: 
      Slide COS360_NL_quasenewton.pdf

  Args:
      max_iteracoes (Int): Número máximo de iterações
      limite (Double): Valor de controle do loop principal
      ponto_inicial (List): Ponto inicial do método
      eta (Double): Erro (0, 1)
      gamma (Double): Fator de correção
      passo_inicial (Double): Tamanho do passo do armijo

  Returns:
        Tupla: Retorna uma tupla contendo o ponto escolhido, número de iteracoes do quasenewton,
              número de iteracoes de armijo, o ponto ótimo, o valor ótimo e o erro obtido 
  """
  iteracoes_quasenewton = 0
  iteracoes_armijo = 0
  ponto_otimo = ponto_inicial
  H = np.array([[1,0],[0,1]])

  gradiente_de_f = calcula_gradiente_da_funcao(funcao)
  hessiana_de_f = calcula_hessiana_da_funcao(funcao)
  
  while modulo(gradiente_x1_x2(gradiente_de_f, ponto_otimo)) > limite and iteracoes_quasenewton < max_iteracoes:
    direcao = -np.dot(H, sympy_to_numpy(transpoe_matriz(gradiente_x1_x2(gradiente_de_f, ponto_otimo))))
    passo, iteracoes = armijo(ponto_otimo, direcao, eta, gamma, passo_inicial)
    
    proximo_ponto = (float(ponto_otimo[0] + (passo * direcao[0])), float(ponto_otimo[1] + (passo * direcao[1])))
    p = sym.Matrix([float(proximo_ponto[0] - ponto_otimo[0]), float(proximo_ponto[1] - ponto_otimo[1])])
    q = transpoe_matriz(sym.Matrix(gradiente_x1_x2(gradiente_de_f, proximo_ponto) - gradiente_x1_x2(gradiente_de_f, ponto_otimo)))
    
    ponto_otimo = proximo_ponto

    # Utilizando BFGS
    H = bfgs(H, p, q)
    iteracoes_quasenewton += 1
    iteracoes_armijo += iteracoes

  otimo = funcao_x1_x2(funcao, ponto_otimo)
  erro = modulo(gradiente_x1_x2(gradiente_de_f, ponto_otimo))
  return ponto_inicial, iteracoes_quasenewton, iteracoes_armijo, (define_precisao_do_float(ponto_otimo[0]), define_precisao_do_float(ponto_otimo[1])), otimo, gera_notacao_cientifica(erro)


# Resultados

## Critérios de Parada

Para os algoritmos acima, os critérios de parada definidos foram:

* Número máximo de iterações (40)
* Módulo do gradiente no ponto ótimo tendendo à um limite ($10^{-7}$)


In [None]:
limite = 0.0000001
maximo_iteracoes = 40

Além disso, para todos os algoritmos abaixo, escolhemos um conjunto de 7 pontos para executá-los. Assim, é possível comparar a eficiência dos métodos e seu tempo de convergência (número de iterações).

In [None]:
pontos = [(0.1, 0.1), (0.1, 0.9), (0.55, 0.58), (0.59, 0.4), (0.6, 0.54), (0.64, 0.34), (0.7, 0.4)]

Finalmente, porém não menos importante, para cada um dos algoritmos abaixo, os valores de $\gamma$, $\eta$ e $passo$ foram definidos conforme a execução de cada algoritmo.

## Gradiente

Para a escolha do $\eta$ no cálculo do gradiente descendente, foi construido um código simples, a fim de eleger um número de $\eta$ tal que o número de iteracoes de armijo fosse minimizada, sem perder a eficiência do algoritmo.

Assim, após este processo, o número escolhido estaria num intervalo de 0.28 e 0.48 para o valor de $\gamma = 0.6$.

Tendo observado qual seria o melhor possível valor de $\eta$, o mesmo processo foi repetido para $\gamma$, porém, desta vez respeitando o intervalo de eta anterior. Assim, após tal processo, o valor escolhido de $\gamma$ foi de 0.42,

Além disso, o valor do passo foi definido da mesma forma. No qual o valor de $passo = 0.4$ foi o que obteve o melhor resultado, trazendo um menor número de iterações do método e convergindo ao resultado.

Tendo o método definido e, os parâmetros também escolhidos, é possível definir a seguinte tabela de resultados

In [None]:
gamma = 0.42
eta = 0.32
passo = 0.4

resultados = []
for ponto in pontos:
  resultados.append(metodo_do_gradiente(maximo_iteracoes, limite, ponto, eta, gamma, passo))

gera_tabela_resultado(resultados)

X0,Iter.,Call. Armijo,Opt. Point,Opt. Value,Error
"(0.1, 0.1)",6,1,"('0.499999996', '0.499999996')",1.665109222315396,1.43e-08
"(0.1, 0.9)",6,1,"('0.499999996', '0.500000004')",1.665109222315396,1.43e-08
"(0.55, 0.58)",5,0,"('0.500000004', '0.500000004')",1.665109222315396,1.35e-08
"(0.59, 0.4)",5,0,"('0.500000004', '0.499999997')",1.665109222315395,1.21e-08
"(0.6, 0.54)",5,0,"('0.500000002', '0.500000004')",1.665109222315395,1.01e-08
"(0.64, 0.34)",5,0,"('0.499999997', '0.500000013')",1.665109222315396,3.27e-08
"(0.7, 0.4)",6,0,"('0.499999998', '0.500000000')",1.665109222315395,4.4e-09


## Newton

Para a escolha do $\eta$ no cálculo do método de newton, foi construido o mesmo código simples, a fim de eleger um número de $\eta$, $\gamma$ e $passo$ tal que o número de iteracoes do algoritmo fosse minimizado, atingindo assim a convergência ao resultado.

Assim, após a execução deste código, foram definidos os seguintes valores:

$gamma = 0.6$, $eta = 0.4$ e $passo = 0.9$

Tendo o método definido e, os parâmetros também escolhidos, é possível definir a seguinte tabela de resultados

In [None]:
gamma = 0.6
eta = 0.4
passo = 0.9

resultados = []
for ponto in pontos:
  resultados.append(metodo_de_newton(maximo_iteracoes, limite, ponto, eta, gamma, passo))

gera_tabela_resultado(resultados)

X0,Iter.,Call. Armijo,Opt. Point,Opt. Value,Error
"(0.1, 0.1)",10,0,"('0.499999996', '0.499999996')",1.665109222315395,1.23e-08
"(0.1, 0.9)",10,0,"('0.499999996', '0.500000004')",1.665109222315395,1.23e-08
"(0.55, 0.58)",7,0,"('0.500000005', '0.500000011')",1.665109222315396,2.89e-08
"(0.59, 0.4)",7,0,"('0.500000012', '0.499999985')",1.665109222315396,4.65e-08
"(0.6, 0.54)",7,0,"('0.500000016', '0.500000004')",1.665109222315396,3.91e-08
"(0.64, 0.34)",8,0,"('0.500000003', '0.499999996')",1.665109222315395,1.12e-08
"(0.7, 0.4)",8,0,"('0.500000008', '0.499999999')",1.665109222315396,1.83e-08


## quase-Newton

Para a escolha do $\eta$ no cálculo do método de quase-Newton, foi construido o mesmo código simples dos passos anteriores, a fim de eleger um número de $\eta$, $\gamma$ e $passo$ tal que o número de iteracoes do algoritmo fosse minimizado, atingindo assim a convergência ao resultado.

Assim, após a execução deste código, foram definidos os seguintes valores:

$gamma = 0.61$, $eta = 0.2$ e $passo = 0.3$

In [None]:
gamma = 0.61
eta = 0.20
passo = 0.3

resultados = []
for ponto in pontos:
  resultados.append(metodo_quase_newton(maximo_iteracoes, limite, ponto, eta, gamma, passo))

gera_tabela_resultado(resultados)

X0,Iter.,Call. Armijo,Opt. Point,Opt. Value,Error
"(0.1, 0.1)",18,1,"('0.500000027', '0.500000027')",1.665109222315397,9.21e-08
"(0.1, 0.9)",28,1,"('0.499999971', '0.499999997')",1.665109222315396,7.05e-08
"(0.55, 0.58)",19,0,"('0.500000016', '0.500000017')",1.665109222315396,5.57e-08
"(0.59, 0.4)",28,1,"('0.500000032', '0.500000004')",1.665109222315397,7.8e-08
"(0.6, 0.54)",20,0,"('0.499999985', '0.499999988')",1.665109222315396,4.59e-08
"(0.64, 0.34)",28,0,"('0.499999997', '0.499999971')",1.665109222315396,7e-08
"(0.7, 0.4)",29,1,"('0.499999997', '0.499999978')",1.665109222315396,5.43e-08
