# Оптимізаційна задача

&emsp;&emsp;Загалом оптимізаційна задача – це задача знаходження мінімуму чи максимуму деякої функції при заданому наборі обмежень. 

&emsp;&emsp;У машинному навчанні постійно доводиться знаходити параметри алгоритму, що забезпечують мінімум чи максимум цільової функції. Такою функцією може бути помилка класифікації, середнє відхилення прогнозованих значень від фактичних тощо. Тобто будь-яка функція, здатна вимірювати наскільки добре працює той чи інший алгоритм.

&emsp;&emsp;Найпростішим і найпоширенішим алгоритмом знаходження мінімуму функції в машинному навчанні є алгоритм градієнтного спуску (задачу знаходження максимуму можна звести до задачі про мінімум домноживши початкову функцію на -1)

# Похідна функції

&emsp;&emsp;Визначимо середню швидкість зміни функції у точці "а" як показано на малюнку:

![title](derivative.svg)

&emsp;&emsp;Тобто, у точці $a$ функція дорівнює $f(a)$, у точці $(a + h)$, відповідно, функція дорівнює $f(a + h)$. Зміна функції становить $\Delta{y} = f(a + h) - f(a)$. Зміна аргументу у своїй $\Delta{a} = (a + h) - a = h$, що дає середню швидкість зміни функції $(f(a + h) - f(a)) / h$. Також домовимося, що $h$ завжди буде позитивним числом.

&emsp;&emsp;Звідси можна зробити 2 висновки: 
- Якщо середня швидкість зміни функції додатна, то функція (в середньому) зростає при переході від $a$ до $a + h$, оскільки це означає, що $\Delta{y} > 0$, і навпаки.
- Чим більша середня швидкість, тим швидше зростає або зменшується функція.

&emsp;&emsp;Однак середня швидкість зростання погано відповідає на питання чи зростає функція в даній точці. Ми можемо лише сказати, чи зростає вона в середньому при переході від однієї точки до іншої. Щоб вирішити цю проблему знаменник $h$ можна вибрати дуже маленьким числом (що прагне до 0). При такому виборі середня швидкість зміни функції дорівнюватиме похідної функції в даній точці.

$$ 
f'(a) = \lim \limits_{h\to 0} \frac{f(a+h)-f(a)}{h}
$$

&emsp;&emsp;Похідну функції можна отримати чисельно. Наприклад, розглянемо функцію $y = x^{2}$. Аналітично знаємо, що $y^{'} = 2x$. Таким чином значення похідної в точці $x = 2$ дорівнює $y' = 2 * 2 = 4$.

&emsp;&emsp;Для отримання чисельного результату необхідно імплементувати тільки початкову функцію.

In [1]:
original_func = lambda x: x**2  # функція, похідну якої шукатимемо
h = 1e-10 # визначимо малий приріст аргументу
x = 2. # задаємо точку, в якій хочемо обчислити похідну
delta_y = original_func(x + h) - original_func(x)  # знайдемо приріст функції у заданій точці
derivative = delta_y / h  #  обчислимо похідну
print(derivative)

4.000000330961484


&emsp;&emsp;Є більш складні методи обчислення похідних таким методом, проте в цілому, якщо є можливість знайти аналітичні рішення, то це завжди краще з двох причин:

1. Чисельні методи дають завжди лише наближений результат
2. Це уповільнює роботу алгоритму, тому що функція оцінюється 2 рази і з'являється додаткова дія з обчислення похідної

# Метод градієнтного спуску

&emsp;&emsp;Метод градієнтного спуску - це алгоритм, який дозволяє знайти значення аргументу, при якому функція набуває свого мінімального значення. Основна ідея алгоритму полягає в наступному:

&emsp;&emsp;1. Зробити здогад щодо того, яке значення відповідає мінімуму функції.

&emsp;&emsp;2. Обчислити похідну у запропонованій точці.

&emsp;&emsp;3. По знаку похідної зрозуміти зростає функція чи спадає. Якщо зростає, то нам слід зменшити аргумент, щоб зменшити функцію, а якщо спадає, то слід збільшити аргумент.

&emsp;&emsp;4. Зменшити або збільшити значення запропонованого аргументу та перейти до нового значення. При цьому змінювати значення аргументу ми можемо пропорційно до абсолютного значення похідної в точці, оскільки вона говорить нам про те, наскільки швидко зростає/зменшується функція.

&emsp;&emsp;5. Повторити дії з 2-ї по 4-ту доти, доки зміна аргументу не призводять до відчутних змін функції (досягнуто мінімум).

![title](gd.png)

&emsp;&emsp;Формально алгоритм градієнтного спуску можна описати так:

надати аргументу деяке початкове значення  
x = x0    

параметр швидкості навчання  
alpha = 0.1  

while True:

    # знаходимо похідну функції у точці х
    derivative = dy/dx

    # перевіряємо, чи не досягнуто ще мінімум
    if abs(alpha * derivative) < eps:
        break

    # знаходимо нове значення аргументу
    x = x – alpha * derivative

&emsp;&emsp;Задача 1: знайти значення х при якому наступна функція набуває мінімального значення

$$y = 4 \cdot x^{2} + 12 \cdot x + 3$$

&emsp;&emsp;Визначимо запропоновану функцію:

In [2]:
def y(x):    
    return 4 * x**2 + 12 * x + 3

&emsp;&emsp;Знайдемо та визначимо похідну функції: 

$$y^{'} = 8 \cdot x + 12$$

In [3]:
def dy(x):    
    return 8 * x + 12

In [4]:
# def dy(x): 
#     h = 1e-10 # визначимо малий приріст аргументу
#     return (y(x + h) - y(x)) / h

&emsp;&emsp;Процедура градієнтного спуску:

In [5]:
x0 = 0  # значення х, з якого ми почнемо пошук
alpha = 0.01  # крок алгоритма
epsilon = 0.00001  # критерій, якщо зміна в x менше "epsilon", то вважаємо, що рішення знайдено


while True:
    
    x = x0 - alpha * dy(x0)  # крок алгоритму, перехід до наступного значення х
    
    if abs(x - x0) <= epsilon:  # перевірка (тут, можливо, пошук варто припинити)
        break
    else:
        x0 = x  # оновлення попереднього значення
        
    print(x, y(x))  # виведення поточного значення х та y
    
print('=' * 100)
print('Значення х, при якому y набуває мінімального значення: ', x)
print('Мінімум y: ', y(x))



-0.12 1.6176000000000001
-0.2304 0.44753664000000004
-0.331968 -0.5428049879039998
-0.42541056 -1.3810301417619453
-0.5113777152 -2.0905039119873106
-0.590467497984 -2.69100251110606
-0.66323009814528 -3.199264525400169
-0.7301716902936576 -3.629457494298702
-0.791757955070165 -3.993572823174423
-0.8484173186645518 -4.30176003753483
-0.9005439331713877 -4.562609695769481
-0.9485004185176766 -4.7833928464992885
-0.9926203850362625 -4.970263705276998
-1.0332107542333615 -5.128431200146451
-1.0705538938946926 -5.262304167803954
-1.1049095823831172 -5.375614247629269
-1.1365168157924679 -5.471519899193414
-1.1655954705290705 -5.552694442677305
-1.192347832886745 -5.6214005762820705
-1.2169600062558052 -5.679553447765144
-1.2396032057553408 -5.728774038188419
-1.2604349492949136 -5.770434345922677
-1.2796001533513206 -5.805695630388955
-1.297232141083215 -5.83554078156121
-1.313453569796558 -5.860801717513409
-1.3283772842128332 -5.882182573703348
-1.3421071014758066 -5.900279330382514
-1.3

&emsp;&emsp;Параметр швидкості навчання дозволяє додатково контролювати розмір кроку під час оновлення аргументу. Занадто маленька швидкість призведе до того, що алгоритм сходитиметься надто повільно. При занадто великій швидкості є ризик розходження або менш точної оцінки значення аргументу, що забезпечує мінімум функції.

![title](convergence.jpg)

&emsp;&emsp;Якщо функція залежить від кількох змінних, похідна в точці замінюється градієнтом - вектором частинних похідних. Кожен елемент вектора градієнта визначає швидкість зростання функції вздовж однієї осі.

![title](gradvec.png)

&emsp;&emsp;Задача 2: знайти значення w, при якому функція набуває мінімального значення

$$f = (y - w^{T}x)^{2}$$

&emsp;&emsp;де  
&emsp;&emsp;y - задане число,  
&emsp;&emsp;х - заданий вектор  

In [6]:
import numpy as np
x = np.array([6, 1, 2, -9, 5])
y = 10

&emsp;&emsp;Знайдемо похідну за кожним елементом вектора w:

$$f^{'} = -2 * (y - w^{T}x) * (w^{T}x)^{'} = -2 * (y - w^{T}x) * (w_{1}x_{1} + w_{2}x_{2} + ...)^{'}$$

$$df/dw_{1} = -2x_{1} * (y - w^{T}x)$$

$$df/dw_{2} = -2x_{2} * (y - w^{T}x)$$

$$...$$

$$df/dw_{n} = -2x_{n} * (y - w^{T}x)$$

&emsp;&emsp;Визначимо функцію та її похідну:

In [7]:
def f(x, y, w):
    
    return (y - w.dot(x)) ** 2

def df(x, y, w):
    
    return -2 * x * (y - w.dot(x))

&emsp;&emsp;Процедура градієнтного спуску:

In [9]:
w0 = np.ones_like(x)  # значення w, з якого ми почнемо пошук
alpha = 0.01  # крок алгоритма
epsilon = 0.00001  # критерій, якщо зміна w менше "epsilon", то вважаємо, що рішення знайдено

print(w0, f(x, y, w0))

n = 0
while True:
    
    w = w0 - alpha * df(x, y, w0)  # крок алгоритму, перехід до наступного значення w
    
    if np.sum(np.abs(w - w0)) <= epsilon:  # перевірка (тут, можливо, пошук варто припинити)
        break
    else:
        w0 = w  # оновлення попереднього значення
    
    n += 1
    if n >= 10:
        break
        
    print(w, f(x, y, w))  # виведення поточного значення х та y

[1 1 1 1 1] 25
[1.6 1.1 1.2 0.1 1.5] 94.09000000000006
[0.436 0.906 0.812 1.846 0.53 ] 354.11712400000033
[ 2.69416  1.28236  1.56472 -1.54124  2.4118 ] 1332.7552078864016
[-1.6866704  0.5522216  0.1044432  5.0300056 -1.238892 ] 5015.957500401263
[ 6.81214058  1.9686901   2.93738019 -7.71821086  5.84345048] 18878.0576485102
[-9.67555272 -0.77925879 -2.55851757 17.01332908 -7.89629393] 71049.457765933
[ 22.31057227   4.55176205   8.10352409 -30.96585841  18.75881023] 267401.73924786533
[-39.74251021  -5.79041837 -12.58083674  62.11376531 -32.95209184] 1006393.185833266
[  80.6404698    14.27341163   27.54682327 -118.4607047    67.36705817] 3787661.3942020796


&emsp;&emsp;У прикладі вище замість того, щоб сходитися у бік зменшення функції, ми отримали протилежний ефект. Така ситуація називається розбіжністю. Зазвичай вона може бути викликана занадто великим кроком ("alpha") або дуже поганим початковим наближенням ("w0"). Спробуємо зробити крок поменше:

In [11]:
w0 = np.ones_like(x)  # значення w, з якого ми почнемо пошук
alpha = 0.0001  # крок алгоритма
epsilon = 0.00001  # критерій, якщо зміна w менше "epsilon", то вважаємо, що рішення знайдено

print(w0, f(x, y, w0))

while True:
    
    w = w0 - alpha * df(x, y, w0)  # крок алгоритму, перехід до наступного значення w
    
    if np.sum(np.abs(w - w0)) <= epsilon:  # перевірка (тут, можливо, пошук варто припинити)
        break
    else:
        w0 = w  # оновлення попереднього значення
            
    print(w, f(x, y, w))  # виведення поточного значення х та y
    

print('=' * 100)
print('Значення w, при якому f набуває мінімального значення: ', w)
print('Мінімум f: ', f(x, y, w))
print('Очікуване значення y: ', y)
print('Отримане значення y: ', w.dot(x))

[1 1 1 1 1] 25
[1.006 1.001 1.002 0.991 1.005] 23.551609000000024
[1.0118236 1.0019706 1.0039412 0.9822646 1.009853 ] 22.18713145955524
[1.01747599 1.00291266 1.00582533 0.97378602 1.01456332] 20.901705798681775
[1.02296219 1.00382703 1.00765406 0.96555671 1.01913516] 19.690752096143424
[1.0282871  1.00471452 1.00942903 0.95756934 1.02357259] 18.54995577137201
[1.03345546 1.00557591 1.01115182 0.94981681 1.02787955] 17.47525221178587
[1.03847187 1.00641198 1.01282396 0.94229219 1.03205989] 16.462812290734664
[1.0433408  1.00722347 1.01444693 0.9349888  1.03611733] 15.509028724471067
[1.04806658 1.0080111  1.01602219 0.92790013 1.04005548] 14.610503219540455
[1.05265342 1.00877557 1.01755114 0.92101987 1.04387785] 13.764034364794307
[1.05710541 1.00951757 1.01903514 0.91434188 1.04758784] 12.966606224887967
[1.06142651 1.01023775 1.0204755  0.90786023 1.05118876] 12.215377594621096
[1.06562057 1.01093676 1.02187352 0.90156914 1.05468381] 11.507671875835058
[1.06969133 1.01161522 1.02323

&emsp;&emsp;Вибір початкового наближення може грати важливу роль. Погане початкове значення точки призведе до більш тривалого пошуку. З іншого боку, у багатьох функцій є один і більше локальних мінімумів. 

&emsp;&emsp;Невдалий вибір початкового наближення може призвести до того, що алгоритм зупиниться саме в такому мінімумі так і не дійшовши до найкращого значення.

![title](localmin.png)

![title](localmin2.jpg)

Задача: Знайти мінімум функції
$$f(x, y) = x^2 + y^2$$ 

In [15]:
def f(x, y):
    
    return x ** 2 + y ** 2

def df(x, y):
    h = 1e-10
    f_x = (f(x + h, y) - f(x, y)) / h
    f_y = (f(x, y + h) - f(x, y)) / h
    return np.array([f_x, f_y])

In [16]:
df(1, 1)

array([2.00000017, 2.00000017])

In [20]:
w0 = np.ones(2)  # значення w, з якого ми почнемо пошук
alpha = 0.01  # крок алгоритма
epsilon = 0.00001  # критерій, якщо зміна w менше "epsilon", то вважаємо, що рішення знайдено

print(w0, f(w0[0], w0[1]))

while True:
    x = w0[0]
    y = w0[1]
    w = w0 - alpha * df(x, y)  # крок алгоритму, перехід до наступного значення w
    
    if np.sum(np.abs(w - w0)) <= epsilon:  # перевірка (тут, можливо, пошук варто припинити)
        break
    else:
        w0 = w  # оновлення попереднього значення
            
    print(w, f(w[0], w[1]))  # виведення поточного значення х та y
    

print('=' * 100)
print('Значення w, при якому f набуває мінімального значення: ', w)
print('Мінімум f: ', f(w[0], w[1]))

[1. 1.] 2.0
[0.98 0.98] 1.920799993513155
[0.96039999 0.96039999] 1.844736273292664
[0.941192 0.941192] 1.7716847507657365
[0.92236814 0.92236814] 1.7015259842917625
[0.90392079 0.90392079] 1.6341455846556385
[0.88584238 0.88584238] 1.5694334561261294
[0.86812553 0.86812553] 1.507283882433011
[0.85076302 0.85076302] 1.4475954380797853
[0.83374777 0.83374777] 1.3902706739475275
[0.81707282 0.81707282] 1.335215971622006
[0.80073135 0.80073135] 1.2823414024664728
[0.78471672 0.78471672] 1.2315606610073373
[0.76902239 0.76902239] 1.1827908578392854
[0.75364193 0.75364193] 1.1359523255091617
[0.7385691 0.7385691] 1.0909686334575235
[0.72379772 0.72379772] 1.0477662694958991
[0.70932176 0.70932176] 1.0062747268287406
[0.69513533 0.69513533] 0.9664262628019965
[0.68123262 0.68123262] 0.9281557673947921
[0.66760796 0.66760796] 0.8914007868784931
[0.65425581 0.65425581] 0.8561013328879832
[0.6411707 0.6411707] 0.8221997340847302
[0.62834729 0.62834729] 0.789640637198335
[0.61578036 0.61578036] 

[0.00303308 0.00303308] 1.839913493022465e-05
[0.00297242 0.00297242] 1.7670529171964184e-05
[0.00291297 0.00291297] 1.6970776203689385e-05
[0.00285471 0.00285471] 1.6298733453142194e-05
[0.00279762 0.00279762] 1.5653303596532585e-05
[0.00274166 0.00274166] 1.5033432761515955e-05
[0.00268683 0.00268683] 1.4438108812400474e-05
[0.00263309 0.00263309] 1.3866359693653723e-05
[0.00258043 0.00258043] 1.3317251839120746e-05
[0.00252882 0.00252882] 1.278988865638891e-05
[0.00247825 0.00247825] 1.2283409055286753e-05
[0.00242868 0.00242868] 1.1796986046693168e-05
[0.00238011 0.00238011] 1.1329825389988334e-05
[0.00233251 0.00233251] 1.088116429582185e-05
[0.00228586 0.00228586] 1.0450270180322383e-05
[0.00224014 0.00224014] 1.0036439471771877e-05
[0.00219534 0.00219534] 9.638996459944202e-06
[0.00215143 0.00215143] 9.257292191268242e-06
[0.0021084 0.0021084] 8.890703412294853e-06
[0.00206623 0.00206623] 8.538631549328811e-06
[0.00202491 0.00202491] 8.200501731606944e-06
[0.00198441 0.00198441]

# Вправи

1. Знайти значення m і b для яких функція набуває мінімального значення:

$$f = 1/n\sum_{i=1}^{n}{(y_{i} - (b + mx_{i}))^{2}}$$

&emsp;&emsp;де x,y - деякі задані вектори

In [None]:
np.random.seed(42)
x = np.random.normal(0, 5, 100)
y = 50 + 2 * x + np.random.normal(0, 2, len(x))

2. Знайти значення m і b для яких функція набуває мінімального значення:

$$f = 1/n\sum_{i=1}^{n}{[(y_{i} - (b + mx_{i}))^{2}]} + m^2 + b^2$$

&emsp;&emsp;де x,y - вектори з 1-го завдання

3. Знайти значення а, для якого функція набуває мінімального значення

$$f = -1/n\sum_{i=1}^{n}{[y_{i}\log(h(x_{i})) + (1 - y_{i})\log(1 - h(x_{i}))]}$$

$$h = \frac{1} {1 + exp^{-ax}}$$

In [None]:
np.random.seed(10)
num_observations = 100
x1 = np.random.normal(1, 1, 50)
x2 = np.random.normal(3, 1, 50)

x = np.concatenate([x1, x2])
y = np.concatenate([np.zeros_like(x1), np.ones_like(x2)])