# Analiza i projektiranje računalom - 3. domaća zadaća

U okviru ove domaće zadaće potrebno je implementirati sljedeće metode optimiranja:

---

## Funkcije cilja

### Funkcija 1 - Rosenbrockova "banana" funkcija

$$
\begin{equation}
    f_1 \left( \vec{x} \right) = 100 \left( x_1 - {x_0}^2 \right)^2 + \left( 1 - x_0 \right)^2
\end{equation}
$$

$$
\begin{equation}
    \vec{x_0} = 
    \begin{bmatrix}
        -1.9 & 2
    \end{bmatrix}
\end{equation}
$$

$$
\begin{equation}
    \vec{x_{min}} =
    \begin{bmatrix}
        1 & 1
    \end{bmatrix}
\end{equation}
$$

$$
\begin{equation}
    f_1 \left( \vec{x_{min}} \right) = 0
\end{equation}
$$

### Funkcija 2

$$
\begin{equation}
    f_2 \left( \vec{x} \right) = \left( x_0 - 4 \right)^2 + 4 \left( x_1 - 2 \right)^2
\end{equation}
$$

$$
\begin{equation}
    \vec{x_0} = 
    \begin{bmatrix}
        0.1 & 0.3
    \end{bmatrix}
\end{equation}
$$

$$
\begin{equation}
    \vec{x_{min}} =
    \begin{bmatrix}
        4 & 2
    \end{bmatrix}
\end{equation}
$$

$$
\begin{equation}
    f_2 \left( \vec{x_{min}} \right) = 0
\end{equation}
$$

### Funkcija 3

$$
\begin{equation}
    f_3 \left( \vec{x} \right) = \left( x_0 - 2 \right)^2 + \left( x_1 + 3 \right)^2
\end{equation}
$$

$$
\begin{equation}
    \vec{x_0} = 
    \begin{bmatrix}
        0 & 0
    \end{bmatrix}
\end{equation}
$$

$$
\begin{equation}
    \vec{x_{min}} =
    \begin{bmatrix}
        2 & -3
    \end{bmatrix}
\end{equation}
$$

$$
\begin{equation}
    f_3 \left( \vec{x_{min}} \right) = 0
\end{equation}
$$

### Funkcija 4

$$
\begin{equation}
    f_4 \left( \vec{x} \right) = \left( x_0 - 3 \right)^2 + {x_1}^2
\end{equation}
$$

$$
\begin{equation}
    \vec{x_0} = 
    \begin{bmatrix}
        0 & 0
    \end{bmatrix}
\end{equation}
$$

$$
\begin{equation}
    \vec{x_{min}} =
    \begin{bmatrix}
        3 & 0
    \end{bmatrix}
\end{equation}
$$

$$
\begin{equation}
    f_4 \left( \vec{x_{min}} \right) = 0
\end{equation}
$$

## Priprema za izvođenje

In [1]:
import os

CD_KEY = "--HW03_IN_ROOT"

In [2]:
if (
    CD_KEY not in os.environ
    or os.environ[CD_KEY] is None
    or len(os.environ[CD_KEY]) == 0
    or os.environ[CD_KEY] == "false"
):
    %cd ..
else:
    print(os.getcwd())
    
os.environ[CD_KEY] = "true"

/mnt/data/projekti/faks/AIPR/dz/dz-03


## Učitavanje paketa

In [3]:
import copy
import sys
import warnings

import array_to_latex as a2l
from IPython.display import display, Markdown
from matplotlib import pyplot as plt
import numpy as np

from src.searches.function import Function
from src.searches.gradient_descent import gradient_descent_search
from src.searches.newton_raphson import newton_raphson_search

In [4]:
warnings.filterwarnings('ignore')

## Definicija pomoćnih funkcija

In [5]:
def array_to_latex(array):
    return a2l.to_ltx(
        array,
        frmt="{:g}",
        arraytype="bmatrix",
        print_out=False
    )

## Definicija funkcija i početnih točaka

In [6]:
f1 = Function(lambda x: 100 * (x[1] - x[0] ** 2) ** 2 + (1 - x[0]) ** 2)
f1_derivative = Function(
    lambda x: np.array(
        [
            2 * (200 * x[0] ** 3 - 200 * x[0] * x[1] + x[0] - 1),
            200 * (x[1] - x[0] ** 2)
        ]
    )
)
f1_hesse = Function(
    lambda x: np.array(
        [
            [2 * (600 * x[0] ** 2 - 200 * x[1] + 1), -400 * x[0]],
            [-400 * x[0], 200]
        ]
    )
)
f1_derivative.derivative = f1_hesse
f1.derivative = f1_derivative

f1_start = np.array([-1.9, 2])

In [7]:
f2 = Function(lambda x: (x[0] - 4) ** 2 + 4 * (x[1] - 2) ** 2)
f2_derivative = Function(
    lambda x: np.array([2 * x[0] - 8, 8 * x[1] - 16])
)
f2_hesse = Function(
    lambda x: np.array(
        [
            [2, 0],
            [0, 8]
        ]
    )
)
f2_derivative.derivative = f2_hesse
f2.derivative = f2_derivative

f2_start = np.array([0.1, 0.3])

In [8]:
f3 = Function(lambda x: (x[0] - 2) ** 2 + (x[1] + 3) ** 2)
f3_derivative = Function(
    lambda x: np.array([2 * x[0] - 4, 2 * x[1] + 6])
)
f3_hesse = Function(
    lambda x: np.array(
        [
            [2, 0],
            [0, 2]
        ]
    )
)
f3_derivative.derivative = f3_hesse
f3.derivative = f3_derivative

f3_start = np.array([0, 0])

In [9]:
f4 = Function(lambda x: (x[0] - 3) ** 2 + x[1] ** 2)
f4_derivative = Function(
    lambda x: np.array([2 * x[0] - 6, 2 * x[1]])
)
f4_hesse = Function(
    lambda x: np.array(
        [
            [2, 0],
            [0, 2]
        ]
    )
)
f4.derivative = f4_derivative

f4_start = np.array([0, 0])

## Zadatci

### Zadatak 1

Primijenite postupak gradijentnog spusta na funkciju 3, uz i bez određivanje optimalnog iznosa koraka. Što možete zaključiti iz rezultata?

In [10]:
t1_start = copy.deepcopy(f1_start)

#### Uz određivanje optimalnog iznosa

In [11]:
t1_function_with_optimal_step = f3.get_new()

t1_result_with_optimal_step = gradient_descent_search(
    function=t1_function_with_optimal_step,
    start=t1_start,
    gradient_scaling="find optimal",
)
t1_value_with_optimal_step = t1_function_with_optimal_step(
    t1_result_with_optimal_step, dont_count=True
)

In [12]:
display(
    Markdown(
        "**Postupak gradijentnog spusta** pronašao je minimum"
        f"u točki ${array_to_latex(t1_result_with_optimal_step)}$ "
        f"vrijednosti ${t1_value_with_optimal_step:g}$ "
        f"(uz ${t1_function_with_optimal_step.call_count}$ poziva funkcije "
        f"i ${t1_function_with_optimal_step.derivative.call_count}$ "
        "poziva gradijenta)."
    )
)

**Postupak gradijentnog spusta** pronašao je minimumu točki $\begin{bmatrix}
  2  & -3 
\end{bmatrix}$ vrijednosti $1.04097e-26$ (uz $75$ poziva funkcije i $3$ poziva gradijenta).

#### Uz normalizaciju gradijenta

In [13]:
t1_function_with_normalize = f3.get_new()

t1_result_with_normalize = gradient_descent_search(
    function=t1_function_with_normalize,
    start=t1_start,
    gradient_scaling="normalize",
)
t1_value_with_normalize = t1_function_with_normalize(
    t1_result_with_normalize, dont_count=True
)

Gradient descent timed out after 100 iterations passed with no improvement.


In [14]:
display(
    Markdown(
        "**Postupak gradijentnog spusta** pronašao je minimum"
        f"u točki ${array_to_latex(t1_result_with_normalize)}$ "
        f"vrijednosti ${t1_value_with_normalize:g}$ "
        f"(uz ${t1_function_with_normalize.call_count}$ poziva funkcije "
        f"i ${t1_function_with_normalize.derivative.call_count}$ "
        "poziva gradijenta)."
    )
)

**Postupak gradijentnog spusta** pronašao je minimumu točki $\begin{bmatrix}
  1.79019 & -2.73101
\end{bmatrix}$ vrijednosti $0.116373$ (uz $107$ poziva funkcije i $106$ poziva gradijenta).

#### Bez modifikacija gradijenta

In [15]:
t1_function_vanilla = f3.get_new()

t1_result_vanilla = gradient_descent_search(
    function=t1_function_vanilla,
    start=t1_start,
    gradient_scaling="none",
)
t1_value_vanilla = t1_function_vanilla(
    t1_result_vanilla, dont_count=True
)

Gradient descent timed out after 100 iterations passed with no improvement.


In [16]:
display(
    Markdown(
        "**Postupak gradijentnog spusta** pronašao je minimum"
        f"u točki ${array_to_latex(t1_result_vanilla)}$ "
        f"vrijednosti ${t1_value_vanilla:g}$ "
        f"(uz ${t1_function_vanilla.call_count}$ poziva funkcije "
        f"i ${t1_function_vanilla.derivative.call_count}$ "
        "poziva gradijenta)."
    )
)

**Postupak gradijentnog spusta** pronašao je minimumu točki $\begin{bmatrix}
 -1.9 &  2 
\end{bmatrix}$ vrijednosti $40.21$ (uz $101$ poziva funkcije i $100$ poziva gradijenta).

**Odgovor**: Iz rezultata je jednostavno zaključiti da algoritam ne konvergira naivnim pristupom određivanja gradijenta. Konvergencija se događa samo kada odaberemo optimalan korak. U slučaju gdje ga normaliziramo, pretraga zapne. U slučaju kada ostavimo gradijent takav kakav je, zapnemo u nekoj drugoj točki dosta veće vrijednosti od slučaja kad ga normaliziramo.

### Zadatak 2

Primijenite postupak gradijentnog spusta i Newton-Raphsonov postupak na funkcije 1 i 2 s određivanjem optimalnog iznosa koraka. Ispišite broj izračuna funkcije, gradijenta i Hesseove matrice.

In [17]:
t2_f1_start = copy.deepcopy(f1_start)
t2_f2_start = copy.deepcopy(f2_start)

#### Funkcija 1

In [18]:
t2_f1_gd = f1.get_new()
t2_f1_nr = f1.get_new()

##### Gradijentni spust

In [19]:
t2_f1_gd_result = gradient_descent_search(
    function=t2_f1_gd,
    start=t2_f1_start,
    gradient_scaling="find optimal",
)
t2_f1_gd_value = t2_f1_gd(t2_f1_gd_result, dont_count=True)

In [20]:
display(
    Markdown(
        "**Postupak gradijentnog spusta** pronašao je minimum"
        f"u točki ${array_to_latex(t2_f1_gd_result)}$ "
        f"vrijednosti ${t2_f1_gd_value:g}$ "
        f"(uz ${t2_f1_gd.call_count}$ poziva funkcije "
        f"i ${t2_f1_gd.derivative.call_count}$ "
        "poziva gradijenta)."
    )
)

**Postupak gradijentnog spusta** pronašao je minimumu točki $\begin{bmatrix}
  1  &  1 
\end{bmatrix}$ vrijednosti $1.06955e-12$ (uz $150961$ poziva funkcije i $4081$ poziva gradijenta).

##### Newton-Raphson

In [21]:
t2_f1_nr_result = newton_raphson_search(
    function=t2_f1_nr,
    start=t2_f1_start,
    stride_scaling="find optimal",
)
t2_f1_nr_value = t2_f1_nr(t2_f1_nr_result, dont_count=True)

In [22]:
display(
    Markdown(
        "**Newton-Raphsonov postupak** pronašao je minimum"
        f"u točki ${array_to_latex(t2_f1_nr_result)}$ "
        f"vrijednosti ${t2_f1_nr_value:g}$ "
        f"(uz ${t2_f1_nr.call_count}$ poziva funkcije, "
        f"${t2_f1_nr.derivative.call_count}$ poziva gradijenta "
        f"i ${t2_f1_nr.derivative.derivative.call_count}$ "
        "poziva Hesseove matrice)."
    )
)

**Newton-Raphsonov postupak** pronašao je minimumu točki $\begin{bmatrix}
  1  &  1 
\end{bmatrix}$ vrijednosti $3.62541e-13$ (uz $541$ poziva funkcije, $15$ poziva gradijenta i $15$ poziva Hesseove matrice).

#### Funkcija 2

In [23]:
t2_f2_gd = f2.get_new()
t2_f2_nr = f2.get_new()

##### Gradijentni spust

In [24]:
t2_f2_gd_result = gradient_descent_search(
    function=t2_f2_gd,
    start=t2_f2_start,
    gradient_scaling="find optimal",
)
t2_f2_gd_value = t2_f2_gd(t2_f2_gd_result, dont_count=True)

In [25]:
display(
    Markdown(
        "**Postupak gradijentnog spusta** pronašao je minimum"
        f"u točki ${array_to_latex(t2_f2_gd_result)}$ "
        f"vrijednosti ${t2_f2_gd_value:g}$ "
        f"(uz ${t2_f2_gd.call_count}$ poziva funkcije "
        f"i ${t2_f2_gd.derivative.call_count}$ "
        "poziva gradijenta)."
    )
)

**Postupak gradijentnog spusta** pronašao je minimumu točki $\begin{bmatrix}
  4  &  2 
\end{bmatrix}$ vrijednosti $1.33413e-13$ (uz $1000$ poziva funkcije i $28$ poziva gradijenta).

##### Newton-Raphson

In [26]:
t2_f2_nr_result = newton_raphson_search(
    function=t2_f2_nr,
    start=t2_f2_start,
    stride_scaling="find optimal",
)
t2_f2_nr_value = t2_f2_nr(t2_f2_nr_result, dont_count=True)

In [27]:
display(
    Markdown(
        "**Newton-Raphsonov postupak** pronašao je minimum"
        f"u točki ${array_to_latex(t2_f2_nr_result)}$ "
        f"vrijednosti ${t2_f2_nr_value:g}$ "
        f"(uz ${t2_f2_nr.call_count}$ poziva funkcije, "
        f"${t2_f2_nr.derivative.call_count}$ poziva gradijenta "
        f"i ${t2_f2_nr.derivative.derivative.call_count}$ "
        "poziva Hesseove matrice)."
    )
)

**Newton-Raphsonov postupak** pronašao je minimumu točki $\begin{bmatrix}
  4  &  2 
\end{bmatrix}$ vrijednosti $1.12834e-12$ (uz $39$ poziva funkcije, $2$ poziva gradijenta i $2$ poziva Hesseove matrice).

Kako se Newton-Raphsonov postupak ponaša na ovim funkcijama?

**Odgovor**: Vidimo da oba algoritma pronalaze minimume. U slučaju **Newton-Raphsonovog postupka** nalaze se nešto precizniji minimumi (vjerojatno radi malo drukčkije formulacije kriterija zaustavljanja), ali je veća razlika znatno manji broj poziva funkcija, gradijenata i Hesseove matrice.