## Zadatak 2.

Jedna od modifikacija osnovne metode gradijentnog spusta je Barzilai-Borvejn metoda u kojoj se korak gradijentnog spusta izračunava na osnovu vrednosti gradijenata u dvema tačkama $x_n$ i $x_{n-1}$ po formuli$$\gamma_n = \frac{(x_n-x_{n-1})^T(\nabla f(x_n)-\nabla f(x_{n-1}))}{||\nabla f(x_n)-\nabla f(x_{n-1})||^2}$$za $n>=2$, a sa namerom da se aproksimira Njutnova metoda i ubrza ceo proces konvergencije.

In [18]:
import numpy as np
from scipy import optimize as opt

In [19]:
def f(p):
    a, b = p[0], p[1]
    return (1 - a)**2 + 100*(b-a**2)**2

In [20]:
def g(p):
    a, b = p[0], p[1]
    x = -2*(1 - a) - 400*(b - a*a) * a
    y = 200*(b - a*a)
    return np.array([x, y])

a) Implementirati Barzilai-Borvejn metodu koja za zadatu funkciju $f$ dveju promenljivih, njen gradijent $\nabla f$, početnu tačku $x_0$ i vrednost koraka $\gamma_0$ koji se koristi za izračunavanje tačke $x_1$ standardnom gradijentnom iteracijom izračunava minimum funkcije $f$. Algoritam zaustaviti ukoliko je broj iteracija veći od zadatog ograničenja $max\_iterations$ ili ukoliko je norma gradijenta u tekućoj tački manja od zadate tačnosti $\epsilon$.

In [21]:
def gamma_n(xn, xn1, grad, eps):
    diff_pts = (xn - xn1)
    diff_grad = (grad(xn) - grad(xn1))
    denominator = np.linalg.norm(diff_grad)**2
    numerator = np.dot(diff_pts, diff_grad)
    return numerator / denominator

In [22]:
def bb(f : callable, grad : callable, x0, gamma0, max_iterations, eps):
    gradient = grad(x0)
    x1 = x0 - gamma0*gradient
    xn, xn1 = x1, x0

    for it in range(max_iterations):
        gamma = gamma_n(xn, xn1, grad, eps)
        if np.linalg.norm(gradient) < eps:
            break
        if gamma is None:
            break
        gradient = grad(xn)
        x_new = xn - gamma*gradient
        xn, xn1 = x_new, xn
    return xn
    

b) Primeniti implementiranu metodu na funkciju $$𝑓(a,b)=(1−a)^2+100(b−a^2)^2$$

Za početnu tačku uzeti $(2.1,1.3)$, za vrednost koraka $\gamma_0$ u prvoj iteraciji $0.01$, za maksimalan broj iteracija $100$, a za tačnost epsilon $10^{-8}$. 

In [23]:
eps = 10**-8
x0 = np.array((2.1, 1.3))
gamma0 = 0.01
max_iters = 100
my_res = bb(f, g, x0, gamma0, max_iters,eps)

c) Uporediti ovako dobijeno rešenje sa rešenjem neke od funkcija biblioteke `scipy.optimize`.

In [24]:
scipy_res = opt.minimize(f, x0, method='BFGS')
print(my_res)
print(scipy_res.x)


[1. 1.]
[0.99999506 0.99999011]
