Wzór na przykładową funkcję straty: $L(w) = w^{2}-4w $.

Pochodna tej funkcji to $\frac{dL}{dw}=2*w-4$

In [1]:
import tensorflow as tf
import numpy as np
import pandas as pd
import plotly.graph_objects as go

In [2]:
function = lambda w: w ** 2 - 4 * w # wzór funkcji
derivative = lambda w: 2 * w - 4 # pochodna funkcji

In [3]:
w = np.arange(-10, 14, 0.1) # generowanie danych
loss = function(w) # obliczanie f. straty
w_0 = -8 # losowy punkt startowy

tangent_line = lambda w: derivative(w_0) * (w - w_0) + function(w_0) # wyznaczanie linii stycznej do wykresu w punkcie w_0
tangent_line_values = tangent_line(w) # obliczanie wartości linii stycznej

In [4]:
df = pd.DataFrame({'w': w, 'loss': loss, 'tangent_line': tangent_line_values}) # tworzenie ramki danych dla dalszego wykresu
df.head()

Unnamed: 0,w,loss,tangent_line
0,-10.0,140.0,136.0
1,-9.9,137.61,134.0
2,-9.8,135.24,132.0
3,-9.7,132.89,130.0
4,-9.6,130.56,128.0


In [5]:
fig = go.Figure(data=[go.Scatter(x=df['w'], y=df['loss'], name='function'),
                      go.Scatter(x=df['w'][:100], y=df['tangent_line'][:100], name='tangent line'),
                      go.Scatter(x=[w_0], y=[function(w_0)], marker_size=10, name='point')],
                layout=go.Layout(width=800, title='Loss Function'))
fig.show()

In [6]:
# implementacja algorytmu

max_iters = 10000 # maksymalna liczba iteracji
iters = 0 # inicjacja licznika iteracji
w_0 = -3 # punkt startowy
previous_step_size = 1 # rozmiar kroku w danej iteracji
learning_rate = 0.01 # współczynnik uczenia
precision = 0.000001 # wartość pozwalająca skończyć działanie algorytmu po jej osiągnięciu
derivative = lambda w: 2 * w - 4
points = [] # lista punktów, po których idziemy do minimum

while previous_step_size > precision and iters < max_iters: # sprawdzamy dwa warunki
    w_prev = w_0 # przypisujemy wartość aktualną kroku
    w_0 = w_0 - learning_rate * derivative(w_prev) # aktualizujemy kolejny krok
    previous_step_size = abs(w_0 - w_prev) # obliczamy wartość kroku - od nowej wagi odejmujemy poprzednią
    iters += 1 # dodajemy kolejną iterację
    points.append(w_0) # dodajemy krok do listy
    print(f'Iteracja # {iters}: obecny punkt: {w_0}')

print(f'Minimum lokalne w punkcie: {w_0}')

Iteracja # 1: obecny punkt: -2.9
Iteracja # 2: obecny punkt: -2.802
Iteracja # 3: obecny punkt: -2.70596
Iteracja # 4: obecny punkt: -2.6118408
Iteracja # 5: obecny punkt: -2.519603984
Iteracja # 6: obecny punkt: -2.4292119043200002
Iteracja # 7: obecny punkt: -2.3406276662336003
Iteracja # 8: obecny punkt: -2.2538151129089283
Iteracja # 9: obecny punkt: -2.16873881065075
Iteracja # 10: obecny punkt: -2.085364034437735
Iteracja # 11: obecny punkt: -2.0036567537489804
Iteracja # 12: obecny punkt: -1.9235836186740007
Iteracja # 13: obecny punkt: -1.8451119463005208
Iteracja # 14: obecny punkt: -1.7682097073745104
Iteracja # 15: obecny punkt: -1.6928455132270201
Iteracja # 16: obecny punkt: -1.6189886029624798
Iteracja # 17: obecny punkt: -1.5466088309032302
Iteracja # 18: obecny punkt: -1.4756766542851656
Iteracja # 19: obecny punkt: -1.4061631211994623
Iteracja # 20: obecny punkt: -1.3380398587754732
Iteracja # 21: obecny punkt: -1.2712790615999636
Iteracja # 22: obecny punkt: -1.205853

In [7]:
# opakowanie algorytmu w funkcję

def gradient_descent(derivative_func, learning_rate=0.01, max_iters=10000,
                     precision=0.000001, w_0=-8, verbose=True):
    iters = 0
    previous_step_size = 1
    points = []

    while previous_step_size > precision and iters < max_iters:
        w_prev = w_0
        w_0 = w_0 - learning_rate * derivative_func(w_prev)
        previous_step_size = abs(w_0 - w_prev)
        iters += 1
        points.append(w_0)
        if verbose:
            print(f'Iteracja # {iters}: obecny punkt: {w_0}')
    print(f'Minimum lokalne w punkcie: {w_0}')
    return points

points = gradient_descent(derivative_func=derivative)

Iteracja # 1: obecny punkt: -7.8
Iteracja # 2: obecny punkt: -7.604
Iteracja # 3: obecny punkt: -7.41192
Iteracja # 4: obecny punkt: -7.2236816
Iteracja # 5: obecny punkt: -7.039207968
Iteracja # 6: obecny punkt: -6.8584238086400005
Iteracja # 7: obecny punkt: -6.681255332467201
Iteracja # 8: obecny punkt: -6.507630225817857
Iteracja # 9: obecny punkt: -6.3374776213015
Iteracja # 10: obecny punkt: -6.17072806887547
Iteracja # 11: obecny punkt: -6.007313507497961
Iteracja # 12: obecny punkt: -5.8471672373480015
Iteracja # 13: obecny punkt: -5.6902238926010416
Iteracja # 14: obecny punkt: -5.53641941474902
Iteracja # 15: obecny punkt: -5.38569102645404
Iteracja # 16: obecny punkt: -5.23797720592496
Iteracja # 17: obecny punkt: -5.09321766180646
Iteracja # 18: obecny punkt: -4.951353308570331
Iteracja # 19: obecny punkt: -4.812326242398925
Iteracja # 20: obecny punkt: -4.676079717550946
Iteracja # 21: obecny punkt: -4.542558123199927
Iteracja # 22: obecny punkt: -4.411706960735929
Iteracj

In [8]:
points = pd.DataFrame({'point': points})
points['value'] = function(points['point'])
points.head()

Unnamed: 0,point,value
0,-7.8,92.04
1,-7.604,88.236816
2,-7.41192,84.584238
3,-7.223682,81.076302
4,-7.039208,77.707281


In [9]:
fig = go.Figure(data=[go.Scatter(x=df['w'], y=df['loss'], name='function'),
                      go.Scatter(x=points['point'], y=points['value'], marker_size=5, name='point', mode='markers')],
                layout=go.Layout(width=1000, title='Loss Function'))
fig.show()

In [10]:
# funkcja pozwalająca na testowanie wskaźnika uczenia

def test_lr(func, derivative_func, learning_rate, w_0=-8):
    points = gradient_descent(derivative_func, learning_rate=learning_rate, w_0=w_0, verbose=False)
    points = pd.DataFrame({'point': points})
    points = points.reset_index()
    points['value'] = func(points['point'])

    fig = go.Figure(data=[go.Scatter(x=df['w'], y=df['loss'], name='function'),
                      go.Scatter(x=points['point'], y=points['value'], marker_size=5, name='point', mode='markers+lines')],
                layout=go.Layout(width=1000, title=f'Loss Function learning_rate:{learning_rate}'))
    fig.show()

test_lr(function, derivative, 0.01)

Minimum lokalne w punkcie: 1.9999518050127572


In [11]:
test_lr(function, derivative, 0.1)

Minimum lokalne w punkcie: 1.9999967861239116


In [12]:
test_lr(function, derivative, 0.06)

Minimum lokalne w punkcie: 1.999993120187399


In [13]:
test_lr(function, derivative, 0.0001)

Minimum lokalne w punkcie: 0.6469178472226906


In [14]:
# stworzymy funkcję wielomianową z kilkoma minimami lokalnymi

function_2 = lambda w: (w + 8) * (w - 5) * (w - 10) * (w + 5) * (w + 5) * (w - 2)

from sympy import Symbol, lambdify

w = Symbol('w')
f = (w + 8) * (w - 5) * (w - 10) * (w + 5) * (w + 5) * (w - 2)
f_diff = f.diff(w)
derivative_2 = lambdify(w, f_diff) # obliczenie pochodnej przy pomocy funkcji z SymPy
del w

In [15]:
# ponownie generujemy dane i wyświetlamy wykres z linią styczną do punktu inicjacji
# punkt startowy jest tym razem istotniejszy, bo możemy wpaść w minimum lokalne, gdy szukamy globalnego

w = np.arange(-9, 10, 0.1)
loss = function_2(w)
w_0 = -4

tangent_line = lambda w: derivative_2(w_0) * (w - w_0) + function_2(w_0)
tangent_line_values = tangent_line(w)

df = pd.DataFrame({'w': w, 'loss': loss,'tangent_line': tangent_line_values})
df.head()

fig = go.Figure(data=[go.Scatter(x=df['w'], y=df['loss'], name='function_2'),
                      go.Scatter(x=df['w'][20:80], y=df['tangent_line'][20:80], name='tangent line'),
                      go.Scatter(x=[w_0], y=[function_2(w_0)], marker_size=10, name='point')],
                layout=go.Layout(width=800, title='Loss Function'))
fig.show()

In [16]:
# gradient_descent(derivative_func=derivative_2, w_0=-4)
# wyrzuca błąd ze względu na zbyt wysoki wskaźnik uczenia

In [17]:
gradient_descent(derivative_func=derivative_2, learning_rate=0.0001, w_0=-4)

Iteracja # 1: obecny punkt: -3.4252000000000002
Iteracja # 2: obecny punkt: -2.651650485940974
Iteracja # 3: obecny punkt: -1.836250219809303
Iteracja # 4: obecny punkt: -1.256048703922183
Iteracja # 5: obecny punkt: -0.9814985612357862
Iteracja # 6: obecny punkt: -0.8782145208243866
Iteracja # 7: obecny punkt: -0.842236431855374
Iteracja # 8: obecny punkt: -0.8299809188485425
Iteracja # 9: obecny punkt: -0.8258348455511184
Iteracja # 10: obecny punkt: -0.8244353472730969
Iteracja # 11: obecny punkt: -0.8239633004173054
Iteracja # 12: obecny punkt: -0.8238041200243752
Iteracja # 13: obecny punkt: -0.8237504468123595
Iteracja # 14: obecny punkt: -0.8237323495319191
Iteracja # 15: obecny punkt: -0.8237262476344466
Iteracja # 16: obecny punkt: -0.82372419025167
Iteracja # 17: obecny punkt: -0.8237234965626467
Minimum lokalne w punkcie: -0.8237234965626467


[-3.4252000000000002,
 -2.651650485940974,
 -1.836250219809303,
 -1.256048703922183,
 -0.9814985612357862,
 -0.8782145208243866,
 -0.842236431855374,
 -0.8299809188485425,
 -0.8258348455511184,
 -0.8244353472730969,
 -0.8239633004173054,
 -0.8238041200243752,
 -0.8237504468123595,
 -0.8237323495319191,
 -0.8237262476344466,
 -0.82372419025167,
 -0.8237234965626467]

In [18]:
test_lr(function_2, derivative_2, 0.0001, w_0=-4) # utkwiliśmy w minimum lokalnym

Minimum lokalne w punkcie: -0.8237234965626467


In [19]:
gradient_descent(derivative_func=derivative_2, learning_rate=0.00001, w_0=3)

Iteracja # 1: obecny punkt: 2.9312
Iteracja # 2: obecny punkt: 2.856973569988088
Iteracja # 3: obecny punkt: 2.7772348015232864
Iteracja # 4: obecny punkt: 2.6919719909262554
Iteracja # 5: obecny punkt: 2.6012597452110104
Iteracja # 6: obecny punkt: 2.5052694070881443
Iteracja # 7: obecny punkt: 2.404276696401979
Iteracja # 8: obecny punkt: 2.298665454839686
Iteracja # 9: obecny punkt: 2.188926514510433
Iteracja # 10: obecny punkt: 2.0756510105580026
Iteracja # 11: obecny punkt: 1.959517915872319
Iteracja # 12: obecny punkt: 1.841276147904294
Iteracja # 13: obecny punkt: 1.7217222037145627
Iteracja # 14: obecny punkt: 1.6016748173669424
Iteracja # 15: obecny punkt: 1.4819485020450005
Iteracja # 16: obecny punkt: 1.363327963991837
Iteracja # 17: obecny punkt: 1.2465452317774088
Iteracja # 18: obecny punkt: 1.132260964229997
Iteracja # 19: obecny punkt: 1.0210508623991505
Iteracja # 20: obecny punkt: 0.9133975182124832
Iteracja # 21: obecny punkt: 0.8096874851103264
Iteracja # 22: obecny

[2.9312,
 2.856973569988088,
 2.7772348015232864,
 2.6919719909262554,
 2.6012597452110104,
 2.5052694070881443,
 2.404276696401979,
 2.298665454839686,
 2.188926514510433,
 2.0756510105580026,
 1.959517915872319,
 1.841276147904294,
 1.7217222037145627,
 1.6016748173669424,
 1.4819485020450005,
 1.363327963991837,
 1.2465452317774088,
 1.132260964229997,
 1.0210508623991505,
 0.9133975182124832,
 0.8096874851103264,
 0.710212928516849,
 0.6151769442967736,
 0.5247015228297539,
 0.4388371594924394,
 0.3575732295278216,
 0.2808484146081577,
 0.20856065394978146,
 0.14057626866808115,
 0.07673805869239338,
 0.016872290351560446,
 -0.03920542063280752,
 -0.09168526806167322,
 -0.14075935886799898,
 -0.18661864745616563,
 -0.22945058266897933,
 -0.26943735344425673,
 -0.306754628347916,
 -0.34157069581704996,
 -0.37404592443685,
 -0.40433247482864404,
 -0.4325742061040179,
 -0.45890673001448623,
 -0.4834575747779808,
 -0.5063464281040959,
 -0.5276854352573567,
 -0.5475795332183072,
 -0.566

In [20]:
test_lr(function_2, derivative_2, 0.0001, w_0=3) # ponownie wpadamy w minimum lokalne

Minimum lokalne w punkcie: -0.8237229322957624


In [21]:
gradient_descent(derivative_func=derivative_2, learning_rate=0.000001, w_0=4)

Iteracja # 1: obecny punkt: 4.004212
Iteracja # 2: obecny punkt: 4.008481962820532
Iteracja # 3: obecny punkt: 4.012810766364139
Iteracja # 4: obecny punkt: 4.017199303680127
Iteracja # 5: obecny punkt: 4.021648483263628
Iteracja # 6: obecny punkt: 4.0261592293611
Iteracja # 7: obecny punkt: 4.0307324822824055
Iteracja # 8: obecny punkt: 4.035369198719607
Iteracja # 9: obecny punkt: 4.040070352072604
Iteracja # 10: obecny punkt: 4.044836932781759
Iteracja # 11: obecny punkt: 4.049669948667649
Iteracja # 12: obecny punkt: 4.054570425278086
Iteracja # 13: obecny punkt: 4.05953940624253
Iteracja # 14: obecny punkt: 4.06457795363407
Iteracja # 15: obecny punkt: 4.069687148339075
Iteracja # 16: obecny punkt: 4.074868090434692
Iteracja # 17: obecny punkt: 4.080121899574312
Iteracja # 18: obecny punkt: 4.085449715381157
Iteracja # 19: obecny punkt: 4.090852697850124
Iteracja # 20: obecny punkt: 4.096332027758037
Iteracja # 21: obecny punkt: 4.10188890708243
Iteracja # 22: obecny punkt: 4.1075

[4.004212,
 4.008481962820532,
 4.012810766364139,
 4.017199303680127,
 4.021648483263628,
 4.0261592293611,
 4.0307324822824055,
 4.035369198719607,
 4.040070352072604,
 4.044836932781759,
 4.049669948667649,
 4.054570425278086,
 4.05953940624253,
 4.06457795363407,
 4.069687148339075,
 4.074868090434692,
 4.080121899574312,
 4.085449715381157,
 4.090852697850124,
 4.096332027758037,
 4.10188890708243,
 4.107524559429023,
 4.113240230468003,
 4.119037188379271,
 4.124916724306759,
 4.1308801528219705,
 4.136928812396852,
 4.143064065886124,
 4.149287301019184,
 4.1555999309016896,
 4.1620033945269235,
 4.168499157297041,
 4.175088711554271,
 4.181773577122168,
 4.188555301856955,
 4.195435462209037,
 4.202415663794709,
 4.20949754197808,
 4.21668276246324,
 4.223973021896648,
 4.231370048479716,
 4.238875602591541,
 4.246491477421709,
 4.254219499613076,
 4.2620615299144,
 4.270019463842655,
 4.278095232354857,
 4.286290802529143,
 4.294608178254875,
 4.303049400931421,
 4.31161655017

In [22]:
test_lr(function_2, derivative_2, 0.0001, w_0=4)
# wskaźnik uczenia nie został dobrany optymalnie i problem się rozjechał

Minimum lokalne w punkcie: -0.823723318814653


In [23]:
test_lr(function_2, derivative_2, 0.00001, w_0=4)
# po zmniejszeniu wskaźnika uczenia kroki są właściwe

Minimum lokalne w punkcie: 8.466977573412201
