In [1]:
import matplotlib.pyplot as plt
import numpy as np
import math

## **JEDNODIMENZIONE NUMERIČKE METODE**
### **GRADIJENTNE METODE**
Uslov je da je funkcija diferencijabilna do reda koji je potreban:

In [2]:
def func(x):
  f = x ** 2 - np.sin(2 * x)
  return f

def dfunc(x):
  f = 2 * x - 2 * np.cos(2 * x)
  return f

def ddfunc(x):
  f = 2 + 4 * np.sin(2 * x)
  return f

#### 1. **Njutn-Rapsonov metod**

   $$ x_{n+1} = x_n - \frac{f'(x_n)}{f''(x_n)} $$
   - **Opis**: Njutn-Rapsonov metod koristi prve i druge izvode funkcije kako bi iterativno pronašao tačku minimuma ili maksimuma funkcije.
   - **Kako radi**: Algoritam započinje sa početnom tačkom $ x_0 $. Zatim koristi tangentu u toj tački i nalazi tačku preseka te tangente sa x-osom kako bi predvideo novu tačku koja je bliža rešenju. Taj proces se ponavlja dok ne dođemo dovoljno blizu rešenja.
   - **Prednosti**:
     - **Brza konvergencija**: Ako je početna tačka blizu rešenja i funkcija je konveksna, algoritam može brzo da konvergira do optimalnog rešenja.
     - **Tačnost**: Za funkcije sa jasnim tačkama minimuma/maksimuma, može biti veoma precizan.
   - **Mane**:
     - **Osetljivost na početnu tačku**: Ako početna tačka nije blizu rešenja ili funkcija ima više ekstrema, može konvergirati ka pogrešnoj tački.
     - **Nije univerzalan**: Pogodan je samo za funkcije koje su dvaput diferencijabilne.
   - **Korišćenje**: Najčešće se koristi za funkcije koje su glatke (diferencijabilne) i kada postoji potreba za brzim pronalaženjem optimizovanih vrednosti.
   - **Kriterijum zaustavljanja**: Iteracija se zaustavlja kada razlika između uzastopnih iteracija bude manja od zadatog praga $ \epsilon $ : $$ |x_n - x_{n-1}| < \epsilon$$


In [3]:
def newton_raphson_metod(x, epsilon):
    x1 = x
    x = math.inf
    while abs(x1 - x) > epsilon:
        x = x1
        x1 = x - dfunc(x) / ddfunc(x)
    return x1

#### 2. **Metod sečice**

   - **Formula**: $$x_{n+1} = x_n - f'(x_n) \frac{x_n - x_{n-1}}{f'(x_n) - f'(x_{n-1})} $$
   - **Opis**: Metod sečice koristi aproksimaciju drugog izvoda i koristi dve tačke kako bi pronašao bolju iterativnu tačku.
   - **Kako radi**: Počinje sa dve tačke $x_{n-1} $ i $x_n $, a zatim koristi te dve tačke da aproksimira tangentnu liniju kroz njih. Novu tačku dobija presekom tangentne linije sa x-osom.
   - **Prednosti**:
     - **Manja zavisnost od početne tačke**: Metod sečice može biti stabilniji od Njutn-Rapsonovog metoda jer koristi dve početne tačke.
   - **Mane**:
     - **Sporija konvergencija**: Generalno, metod sečice može da bude sporiji od Njutn-Rapsonovog metoda.
   - **Korišćenje**: Koristi se kada se ne može lako izračunati drugi izvod funkcije.
   - **Kriterijum zaustavljanja**: Slično kao kod Njutn-Rapsonovog metoda, zaustavlja se kada je razlika između uzastopnih iteracija manja od praga $\epsilon $.


In [4]:
def metod_secice(x0, x, epsilon):
    x1 = x
    x = x0
    while abs(x1 - x) > epsilon:
        x0 = x
        x = x1
        x1 = x - dfunc(x) * (x - x0) / (dfunc(x) - dfunc(x0))
    return x1

### **METODE DIREKTNOG PRETRAŽIVANJA**

Uslov je da je funkcija unimodalna.


#### 3. **Fibonačijev metod**

   - **Formula**: $$x_1 = a + \frac{F_{N-2}}{F_N} (b - a) \qquad \qquad \qquad x_2 = a + b - x_1 $$
   - **Opis**: Koristi Fibonačijeve brojeve kako bi smanjio interval pretrage na efikasan način i pronašao minimum unutar intervala.
   - **Kako radi**: Metod deli interval tako da novo područje istraživanja predstavlja deo zlatnog preseka koristeći omere Fibonačijevih brojeva.
   - **Prednosti**:
     - **Efikasnost kod unimodalnih funkcija**: Za funkcije koje imaju samo jedan minimum u zadatom intervalu, ovaj metod može brzo da pronađe rešenje.
   - **Mane**:
     - **Računska složenost**: Potrebno je pratiti niz Fibonačijevih brojeva, što može biti složenije za implementaciju.
   - **Korišćenje**: Koristi se kada je poznato da funkcija ima jedinstven minimum unutar intervala.
   - **Kriterijum zaustavljanja**: Proces se zaustavlja kada zadovolji uslov: $$F_N > \frac{b - a}{\epsilon} $$



In [5]:
cache = {0: 1, 1: 1, 2: 1}

def fib(n):
    if n in cache:
        return cache[n]
    else:
        cache[n] = fib(n - 1) + fib(n - 2)
        return cache[n]

Ako se traži minimum funkcije, $x$ koje ima manje $f(x)$ će postati novo $a$, odnosno $b$.

In [6]:
def fibonacijev_metod(a, b, epsilon):
    n = 1

    while fib(n) < (b - a) / epsilon:
        n += 1

    x1 = a + fib(n-2) / fib(n) * (b - a)
    x2 = a + b - x1

    for _ in range(1, n):
        if func(x1) < func(x2):
            b = x2
        else:
            a = x1
        x1 = a + fib(n-2) / fib(n) * (b - a)
        x2 = a + b - x1

    if func(x1) < func(x2):
        return x1
    else:
        return x2

#### 4. **Metod zlatnog preseka**

   - **Formula**: $$x_1 = a + c (b - a) \qquad \qquad \qquad x_2 = a + b - x_1 $$ gde je $c = \frac{3 - \sqrt{5}}{2} $
   
   
   - **Opis**: Ovo je još jedan metod pretrage intervala za pronalaženje minimuma, baziran na zlatnom preseku.
   - **Kako radi**: Metod deli interval na dva dela korišćenjem zlatnog preseka, kako bi se istražio deo koji najverovatnije sadrži minimum.
   - **Prednosti**:
     - **Jednostavnost i stabilnost**: Dobro radi za unimodalne funkcije i ne zahteva računanje izvoda.
   - **Mane**:
     - **Ograničenja u višedimenzionalnom prostoru**: Metod je najefikasniji za jednodimenzionalne probleme.
   - **Korišćenje**: Primenjuje se kod minimizacije funkcija koje su unimodalne na zadatom intervalu.
   - **Kriterijum zaustavljanja**: Iteracija se prekida kada je dužina intervala manja od praga $\epsilon$: $$b - a < \epsilon $$


In [7]:
def metod_zlatnog_preseka(a, b, epsilon):
    c = (3 - math.sqrt(5)) / 2
    x1 = a + c * (b - a)
    x2 = a + b - x1

    while b - a > epsilon:
        if func(x1) < func(x2):
            b = x2
        else:
            a = x1
        x1 = a + c * (b - a)
        x2 = a + b - x1

    if func(x1) < func(x2):
        return x1
    else:
        return x2

#
#### **Test:**

In [8]:
print(newton_raphson_metod(x=-1, epsilon=0.01))
print(metod_secice(x0=-1, x=1, epsilon=0.01))
print(fibonacijev_metod(a=-1, b=1, epsilon=0.01))
print(metod_zlatnog_preseka(a=-1, b=1, epsilon=0.01))

0.5149438521495289
0.514926765787982
0.5154524653206354
0.515441564939853


## **VIŠEDIMENZIONE NUMERIČKE METODE**

In [9]:
def func(x):
    return x[0] ** 2 + x[1] ** 2

def grad(x):
    x = np.array(x).reshape(np.size(x))
    return np.asarray([[2 * x[0]], [2 * x[1]]])

#### 5. **Metod najbržeg pada (Gradient Descent)**

   - **Formula**: $$\mathbf{x}_{k+1} = \mathbf{x}_k - \gamma \nabla f(\mathbf{x}_k) $$
   - **Opis**: Metod najbržeg pada koristi gradijent funkcije za traženje pravca u kojem funkcija opada najbrže.
   - **Kako radi**: Počinje sa nasumičnom tačkom $\mathbf{x}_0 $ i zatim se iterativno pomera niz gradijent funkcije koristeći korak veličine $\gamma $
   - **Prednosti**:
     - **Jednostavan za implementaciju** i široko primenljiv.
   - **Mane**:
     - **Može zapeti u lokalnim minimumima** i zahteva podešavanje parametra $\gamma $
   - **Korišćenje**: Koristi se u optimizaciji parametara u mašinskom učenju i drugim konveksnim problemima.
   - **Kriterijum zaustavljanja**: Iteracija se zaustavlja kada je norma gradijenta manja od $\epsilon $: $$\|\nabla f(\mathbf{x}_k)\| \leq \epsilon $$


Krećemo se niz gradijent promenljivom gama, jer tražimo minimum. On može da upadne u prvi lokalni minimum pa da ne nađe globalni. Kriterijum zaustavljanja je ?.

In [10]:
def metod_najbrzeg_pada(x, gamma, epsilon, N):
    x = np.array(x).reshape(len(x), 1)
    for _ in range(N):
        g = grad(x)
        x = x - gamma * g
        if np.linalg.norm(g) < epsilon:
            break
    return x

#### 6. **Metod najbržeg pada sa momentom**

   - **Formula**: $$\mathbf{v}_k = \omega \mathbf{v}_{k-1} + \gamma \nabla f(\mathbf{x}_k) \qquad \qquad \qquad \mathbf{x}_{k+1} = \mathbf{x}_{k} - \mathbf{v}_k $$
   - **Opis**: Dodaje momenat (smer prethodnog gradijenta) u izračunavanje kako bi se smanjile oscilacije ($ \mathbf{v} $ je vektor brzine koji sadrži informaciju o prethodnom pravcu kretanja, dok $ \omega $ predstavlja koeficijent momenta (tipično između 0 i 1) koji određuje koliko "pamtimo" prethodni pravac) 
   - **Kako radi**: Čuva pravac prethodnog koraka i koristi ga da bi stabilizovao putanju u pravcu minimuma.
   - **Prednosti**:
     - **Stabilnija konvergencija** i smanjenje oscilacija u blizini minimuma.
   - **Mane**:
     - **Podešavanje parametara** može biti kompleksno.
   - **Korišćenje**: Koristi se u treniranju modela gde osnovni metod najbržeg pada pokazuje oscilacije.



In [11]:
def metod_najbrzeg_pada_sa_momentom(x, gamma, epsilon, omega, N):
    x = np.array(x).reshape(len(x), 1)
    v = 0
    for _ in range(N):
        g = grad(x)
        v = omega * v + gamma * g
        x = x - v
        if np.linalg.norm(g) < epsilon:
            break
    return x

### **ADAPTIVNI GRADIJENTNI METODI**

Intenzitet promene u određenoj osi je specifičan za tu osu.


#### 7. **Adagrad (Adaptivni gradijent)**

   - **Formula**: $$x_{k+1,i} = x_{k,i} - \frac{\gamma}{\sqrt{G_{k,i} + \epsilon_1}} g_{k,i} $$
   - **Opis**: Adaptivno prilagođava učestalost učenja za svaku dimenziju posebno.

**$ \qquad \qquad g $** je gradijent funkcije u trenutnoj iteraciji, tj. izračunati smer promena za svaku promenljivu.


**$ \qquad \qquad G $** je suma kvadrata svih prethodnih gradijenata po svakoj dimenziji


**$ \qquad \qquad \epsilon_1 $** je mali broj (poput $ 10^{-8} $) dodat da bi se izbegla deljenje sa nulom.


**$ \qquad \qquad \gamma $** je početna učestalost učenja koja se skalira za svaku promenljivu u zavisnosti od vrednosti $ G $.


   - **Kako radi**: Računa sumu kvadrata prethodnih gradijenata kako bi prilagodio korak u svakoj iteraciji.
   - **Prednosti**:
     - **Automatska prilagodljivost** učestalosti učenja.
   - **Mane**:
     - **Smanjenje učestalosti učenja** može biti prebrzo, što usporava konvergenciju.
   - **Korišćenje**: Pogodan za probleme sa velikim brojem parametara, kao što su duboke neuronske mreže.


In [12]:
def adagrad(x, gamma, epsilon, epsilon1, N):
    x = np.array(x).reshape(len(x), 1)
    v = 0
    G = 0
    for _ in range(N):
        g = grad(x)
        G = G + np.multiply(g, g)
        v = gamma * g / np.sqrt(G + epsilon1)
        x = x - v
        if np.linalg.norm(g) < epsilon:
            break
    return x

#### **ADAM**

Pomoćne veličine: $$m_k = \omega_1 m_{k-1} + (1-\omega_1) g_k$$
$$v_k = \omega_2 v_{k-1} + (1-\omega_2) g_k^2$$
$$\hat m_k = \frac{m_k}{1-\omega_1}$$
$$\hat v_k = \frac{v_k}{1-\omega_2}$$


   - **Formula**:
     $$x_{k+1} = x_k - \frac{\gamma}{\sqrt{\hat v_k + \epsilon_1}} \hat m_k $$


 **$ \qquad \qquad g $** je gradijent funkcije u trenutnoj iteraciji, koji predstavlja smer u kojem se optimizacija vrši za svaku promenljivu.


 **$ \qquad \qquad m $** je **prosečni gradijent** (prvi moment) do trenutne iteracije, što pomaže da se uhvati dugoročni smer kretanja u optimizaciji.


 **$ \qquad \qquad v $** je **prosečan kvadrat gradijenta** (drugi moment), koji pomaže da se kontroliše veličina koraka i ublaže nagle promene u gradijentima.


 **$ \qquad \qquad \omega_1 $** i **$ \omega_2 $** su koeficijenti za eksponencijalno izravnjavanje prvog i drugog momenta (obično vrednosti 0,9 i 0,999).


 **$ \qquad \qquad\epsilon_1 $** je mali broj dodat da spreči deljenje sa nulom (poput $ 10^{-8} $).

 
 **$ \qquad\qquad\gamma $** je početna učestalost učenja, skalirana sa $ v $ kako bi koraci učenja bili stabilniji i prilagodljiviji različitim promenljivim.


   - **Opis**: Kombinuje prednosti Adagrad i RMSProp optimizatora kako bi stabilizovao učenje.
   - **Kako radi**: Koristi dva momenta (prvi momenat za prosečan gradijent, drugi za kvadratni gradijent).
   - **Prednosti**:
     - **Stabilna i efikasna konvergencija**, pogodan za probleme sa nelinearnim funkcijama.
   - **Mane**:
     - **Veći broj hiperparametara**, što može otežati podešavanje.
   - **Korišćenje**: Najčešće se koristi za treniranje dubokih neuronskih mreža.


In [13]:
def adam(x, gamma, omega1, omega2, epsilon, epsilon1, N):
    x = np.array(x).reshape(len(x), 1)
    v = 1
    m = 1
    for _ in range(N):
        g = grad(x)
        m = omega1 * m + (1 - omega1) * g
        v = omega2 * v + (1 - omega2) * np.multiply(g, g)
        hat_v = np.abs(v / (1 - omega2))
        hat_m = m / (1 - omega1)
        x = x - gamma * hat_m / np.sqrt(hat_v + epsilon1)
        if np.linalg.norm(g) < epsilon:
            break
    return x

#
#### **Test:**

In [14]:
print(metod_najbrzeg_pada(x=[-1, 1], gamma=0.1, epsilon=0.01, N=100))
print(metod_najbrzeg_pada_sa_momentom(x=[-1, 1], gamma=0.1, epsilon=0.01, omega=0.1, N=100))
print(adagrad(x=[-1, 1], gamma=0.3, epsilon=0.01, epsilon1=1e-8, N=100))
print(adam(x=[-1, 1], gamma=0.1, omega1=0.1, omega2=0.9, epsilon=0.01, epsilon1=1e-8, N=100))

[[-0.00241785]
 [ 0.00241785]]
[[-0.0025769]
 [ 0.0025769]]
[[-0.00275321]
 [ 0.00275321]]
[[-0.00217151]
 [ 0.00200796]]


## **FITOVANJE KRIVE**

In [15]:
x = [1, 2, 3, 4, 5]
y = [2.5, 4, 6.5, 8.2, 10]

p = np.polyfit(x, y, 1)

# plt.plot(x, y)
# plt.plot(x, np.polyval(p, x))
# plt.show()

print(f"y = {p[0]:.2} * x + {p[1]:.2}")

y = 1.9 * x + 0.48
