# Optimasi

Optimasi itu adalah dimana kita mencari nilai maksimum atau minimum dari sebuah fungsi. Fungsi bisa dari yang paling sederhana (polinomial) hingga yang multivariable. Optimasi semakin penting ketika proses deep learning, sehingga dia bisa membuat model seperti gpt, gemini, dan sebagainya. Itu dasarnya adalah proses optimasi, dimana ia meminimalisir error yang ada.

Ada dua hal penting yaitu fungsi dan kendala.

Secara analitik, nilai maks atau min dari persamaan dapat diperoleh pada harga x yang memenuhi:
\begin{align*}
y' = f'(x) = \frac{dy}{dx} = \frac{df}{dx} = 0
\end{align*}

Tidak semua fungsi memiliki turunan yang mudah diturunkan. Ada kalanya problem yang dihadapi tidak memiliki fungsi yang jelas, sehingga perlu pendekatan numerik.

Terdapat local maximum dan global maximum, keduanya punya turunan 0. Sehingga terdapat problem umum dimana beberapa algoritma hanya berhenti di local, padahal kita ingin cari yang global.

## Metode Golden Section Search

Metode untuk fungsi yan gbersifet unimodal, i.e., satu variabel. Punya pendekatan yang mirip dengan bisection untuk menentukan root persamaan non-linear. Jadi akan dibagi dua, lalu di test dan diambil nilai baru berdasarkan hasilnya. Dilakukan secara rekursif. Namun, di GSS tidak dibagi dua, melainkan dibagi dengan **golden ratio**.

\begin{align*}
R = \frac{\sqrt{5} - 1}{2} \approx 0,61803
\end{align*}

Mulai dari 2 nilai tebakan awal, yaitu xl dan xu yang mengapit titik maksimum. Kemudian tentukan nilai x1 dan x2 dalam rentang tersebut sesuai dengan golden ratio. x1 = xl + d dan x2 = xu -d, dimana d merupakan golden ratio.

\begin{align*}
d &= 0,61803(x_u-x_l)\\
x_1 &= x_l + d\\
x_2 &= x_u - d\\
\end{align*}

Jika $f(x_1) < f(x_2) \rightarrow xl = x_2$  
Jika $f(x_2) < f(x_1) \rightarrow xu = x_1$

Akan berhenti jika $x_l = x_u$

In [46]:
def golden_section_search(f, xl, xu, tol=1e-5):
    """
    Golden section search to find the minimum of f on [a, b].
    """
    print("i\txl\txu\td\tx1\tx2\tf(x1)\tf(x2)\te")
    golden_ratio = (5 ** 0.5 - 1) / 2
    d = golden_ratio * (xu - xl)
    x1 = xl + d
    x2 = xu - d
    i = 1
    while xu - xl > tol:
        print(i, round(xl, 3), round(xu, 3), round(d, 3), round(x1, 3), round(x2, 3), round(f(x1), 3), round(f(x2), 3), round(xu - xl, 3), sep="\t")
        i += 1
        if f(x1) < f(x2):
            xl = x2
        else:
            xu = x1
        d = golden_ratio * (xu - xl)
        x1 = xl + d
        x2 = xu - d
    return (xl + xu) / 2

In [47]:
import numpy as np
golden_section_search(lambda x: x**2 - 2*x + 1, -3, 2, 10e-6)

i	xl	xu	d	x1	x2	f(x1)	f(x2)	e
1	-3	2	3.09	0.09	-1.09	0.828	4.369	5
2	-1.09	2	1.91	0.82	0.09	0.033	0.828	3.09
3	0.09	2	1.18	1.271	0.82	0.073	0.033	1.91
4	0.09	1.271	0.729	0.82	0.541	0.033	0.211	1.18
5	0.541	1.271	0.451	0.992	0.82	0.0	0.033	0.729
6	0.82	1.271	0.279	1.098	0.992	0.01	0.0	0.451
7	0.82	1.098	0.172	0.992	0.926	0.0	0.005	0.279
8	0.926	1.098	0.106	1.033	0.992	0.001	0.0	0.172
9	0.926	1.033	0.066	0.992	0.967	0.0	0.001	0.106
10	0.967	1.033	0.041	1.007	0.992	0.0	0.0	0.066
11	0.992	1.033	0.025	1.017	1.007	0.0	0.0	0.041
12	0.992	1.017	0.016	1.007	1.001	0.0	0.0	0.025
13	0.992	1.007	0.01	1.001	0.998	0.0	0.0	0.016
14	0.998	1.007	0.006	1.004	1.001	0.0	0.0	0.01
15	0.998	1.004	0.004	1.001	1.0	0.0	0.0	0.006
16	0.998	1.001	0.002	1.0	0.999	0.0	0.0	0.004
17	0.999	1.001	0.001	1.001	1.0	0.0	0.0	0.002
18	0.999	1.001	0.001	1.0	1.0	0.0	0.0	0.001
19	1.0	1.001	0.001	1.0	1.0	0.0	0.0	0.001
20	1.0	1.0	0.0	1.0	1.0	0.0	0.0	0.001
21	1.0	1.0	0.0	1.0	1.0	0.0	0.0	0.0
22	1.0	1.0	0.0	1.0	1.0	0.0	0.0	0.0
23	1.0	

0.9999986320410061

## Metode Newton

Pendekatannya sama dengan metode newton dalam root persamaan non linear. Pada kondisi optimum berlaku:
- f'(x*) = g'(x*)
- x* : nilai optimum

Maka nilai x* dapat diperloleh secara iteratif sebagai berikut.
\begin{align*}
x_{i+1} = x_i - \frac{f'(x_i)}{f''(x_i)}
\end{align*}

In [14]:
def newton_maximum_search(f, x0, fd, sd, tol=1e-5):
    print("i\tx0\tf(x0)\tfd(x0)\tsd(x0)\te")
    i = 1
    e = x0
    print(i, round(x0, 3), round(f(x0), 3), round(fd(x0), 3), round(sd(x0), 3), round(e, 3), sep="\t")
    while e > tol:
        xn = x0 - fd(x0) / sd(x0)
        e = abs(x0 - xn)
        x0 = xn
        i += 1
        print(i, round(x0, 3), round(f(x0), 3), round(fd(x0), 3), round(sd(x0), 3), round(e, 3), sep="\t")
    return x0

In [15]:
newton_maximum_search(lambda x: x**2 - 2*x + 1, 2.5, lambda x: 2*x - 2, lambda x: 2, 0)

i	x0	f(x0)	fd(x0)	sd(x0)	e
1	2.5	2.25	3.0	2	2.5
2	1.0	0.0	0.0	2	1.5
3	1.0	0.0	0.0	2	0.0


1.0

## Quadratic Interpolation

In [100]:
def quadratic_interpolation(f, x0, x1, x2, tol=1e-5):
    print("i\tx0\tx1\tx2\tx3\tf(x0)\tf(x1)\tf(x2)\tf(x3)\te")
    i = 1
    e = abs(f(x0))
    x3 = x0
    while e > tol:
        x3 = (f(x0) * x1 * x2) / ((x0 - x1) * (x0 - x2)) + (f(x1) * x0 * x2) / ((x1 - x0) * (x1 - x2)) + (f(x2) * x0 * x1) / ((x2 - x0) * (x2 - x1))
        print(i, round(x0, 3), round(x1, 3), round(x2, 3), round(x3, 3), round(f(x0), 3), round(f(x1), 3), round(f(x2), 3), round(f(x3), 3), round(e, 3), sep="\t")
        if x3 < x0:
            x2 = x0
            x0 = x3
        elif x3 < x1:
            x0 = x1
            x1 = x3
        else:
            x0 = x2
            x2 = x3
        e = abs(f(x3))
        i += 1
    return x3

In [101]:
quadratic_interpolation(lambda x: x**2 - 2*x + 1, -10, 10, 14)

i	x0	x1	x2	x3	f(x0)	f(x1)	f(x2)	f(x3)	e
1	-10	10	14	1.0	121	81	169	0.0	121


1.0

## Steepest Ascent/Descent

### Gradient Descent

1. Asumsikan kita tidak tahu nilai optimum
2. Tentukan x0 secara random
3. Turunkan fungsi 
4. Substitusi x0 ke fungsi turunan

Jika f'(x) > 0, maka tentu berada di sebelah kanan, maka harus bergerak ke kiri.  
Jika f'(x) < 0, maka tentu berada di sebelah kiri, maka harus bergerak ke kanan.

\begin{align*}
x_{i+1} = x_i - \alpha f'(x_i)
\end{align*}

$\alpha$ merupakan step. Semakin besar semakin cpeat, tapi tidak teliti. Semakin kecil semakin lama, tetapi teliti.

In [1]:
def steepest_gradient_descent(f, x0, fd, step=0.1, tol=1e-5):
    print("i\tx0\tf(x0)\tfd(x0)")
    i = 1
    e = f(x0)
    while e > tol:
        print(i, round(x0, 3), round(f(x0), 3), round(fd(x0), 3), sep="\t")
        x0 = x0 - step * fd(x0)
        e = abs(fd(x0))
        i += 1
    return x0

In [2]:
steepest_gradient_descent((lambda x: x**2 - 2*x + 1), 3, (lambda x: 2*x - 2))

i	x0	f(x0)	fd(x0)
1	3	4	4
2	2.6	2.56	3.2
3	2.28	1.638	2.56
4	2.024	1.049	2.048
5	1.819	0.671	1.638
6	1.655	0.429	1.311
7	1.524	0.275	1.049
8	1.419	0.176	0.839
9	1.336	0.113	0.671
10	1.268	0.072	0.537
11	1.215	0.046	0.429
12	1.172	0.03	0.344
13	1.137	0.019	0.275
14	1.11	0.012	0.22
15	1.088	0.008	0.176
16	1.07	0.005	0.141
17	1.056	0.003	0.113
18	1.045	0.002	0.09
19	1.036	0.001	0.072
20	1.029	0.001	0.058
21	1.023	0.001	0.046
22	1.018	0.0	0.037
23	1.015	0.0	0.03
24	1.012	0.0	0.024
25	1.009	0.0	0.019
26	1.008	0.0	0.015
27	1.006	0.0	0.012
28	1.005	0.0	0.01
29	1.004	0.0	0.008
30	1.003	0.0	0.006
31	1.002	0.0	0.005
32	1.002	0.0	0.004
33	1.002	0.0	0.003
34	1.001	0.0	0.003
35	1.001	0.0	0.002
36	1.001	0.0	0.002
37	1.001	0.0	0.001
38	1.001	0.0	0.001
39	1.0	0.0	0.001
40	1.0	0.0	0.001
41	1.0	0.0	0.001
42	1.0	0.0	0.0
43	1.0	0.0	0.0
44	1.0	0.0	0.0
45	1.0	0.0	0.0
46	1.0	0.0	0.0
47	1.0	0.0	0.0
48	1.0	0.0	0.0
49	1.0	0.0	0.0
50	1.0	0.0	0.0
51	1.0	0.0	0.0
52	1.0	0.0	0.0
53	1.0	0.0	0.0
54	1.0	0.0	0.0
55	1.0	

1.0000047890485653