<a href="https://colab.research.google.com/github/KamilBienias/neural-network-course/blob/main/02_basics/06_gradient_descent.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Implementacja stochastycznego Gradientu (Gradient Descent)
Użyjemy algorytmu stochastycznego spadku do znalezienia minimum funkcji straty określonej wzorem: $L(w) = w^{2}-4w $.

Pochodna tej funkcji to $\frac{dL}{dw}=2*w-4$

In [None]:
# ######################################################
# Etap 5. Odcinek: Spadek wzdłuż gradientu (Gradient Descent) - Implementacja.

%tensorflow_version 2.x
import tensorflow as tf
import numpy as np
import pandas as pd
import plotly.graph_objects as go
tf.__version__

'2.4.1'

In [None]:
# funkcja straty L(w). L jak loss, w jak weights
function = lambda w: w ** 2 - 4 * w
# pochodna funkcji straty dL/dw
derivative = lambda w: 2 * w - 4

In [None]:
# wagi są od -10 do 14 z krokiem 0.1
w = np.arange(-10, 14, 0.1)
# oblicza wartości dla argumentów ze zbioru w
loss = function(w)
# waga startowa
w_0 = -8

# funkcja zwracająca funkcję styczną do L(w) w punkcie w_0
tangent_line = lambda w: derivative(w_0) * (w - w_0) + function(w_0)
# obliczenie wartości tej stycznej we wszystkich wagach
tangent_line_values = tangent_line(w)

In [None]:
df = pd.DataFrame({'w': w, 
                   'loss': loss,
                   'tangent_line': tangent_line_values})
df.head()

Unnamed: 0,w,loss,tangent_line
0,-10.0,140.0,136.0
1,-9.9,137.61,134.0
2,-9.8,135.24,132.0
3,-9.7,132.89,130.0
4,-9.6,130.56,128.0


In [None]:
fig = go.Figure(data=[go.Scatter(x=df['w'], y=df['loss'], name='function'),
                      go.Scatter(x=df['w'][:100], y=df['tangent_line'][:100], name='tangent line'),
                      go.Scatter(x=[w_0], y=[function(w_0)], marker_size=10, name='point')],
                layout=go.Layout(width=800, title='Loss Function'))
fig.show()

In [None]:
# po tej ilości iteracji algorytm się zakańcza (chyba że wcześniej znalazł rozwiązanie)
max_iters = 10000 
# liczy ilość iteracji
iters = 0
# początkowa waga (tym razem bliżej żeby szybciej znalazł minimum)
w_0 = -1
# rozmiar kroku poprawy w danej iteracji
previous_step_size = 1  
# szybkość uczenia
learning_rate = 0.01
# zakańcza działanie algorytmu jeśli osiągnę zadowalającą wartość
precision = 0.000001
# przypomnienie
derivative = lambda w: 2 * w - 4
# punkty, po których idę do minimum
points = []

while previous_step_size > precision and iters < max_iters:
    w_prev = w_0
    w_0 = w_0 - learning_rate * derivative(w_prev)
    previous_step_size = abs(w_0 - w_prev)
    iters += 1
    points.append(w_0)
    print(f'Iteracja # {iters}: obecny punkt: {w_0}')

print(f'Minimum lokalne w punkcie: {w_0}')

Iteracja # 1: obecny punkt: -0.94
Iteracja # 2: obecny punkt: -0.8812
Iteracja # 3: obecny punkt: -0.823576
Iteracja # 4: obecny punkt: -0.76710448
Iteracja # 5: obecny punkt: -0.7117623904
Iteracja # 6: obecny punkt: -0.657527142592
Iteracja # 7: obecny punkt: -0.60437659974016
Iteracja # 8: obecny punkt: -0.5522890677453568
Iteracja # 9: obecny punkt: -0.5012432863904497
Iteracja # 10: obecny punkt: -0.4512184206626407
Iteracja # 11: obecny punkt: -0.40219405224938787
Iteracja # 12: obecny punkt: -0.3541501712044001
Iteracja # 13: obecny punkt: -0.3070671677803121
Iteracja # 14: obecny punkt: -0.26092582442470585
Iteracja # 15: obecny punkt: -0.21570730793621173
Iteracja # 16: obecny punkt: -0.1713931617774875
Iteracja # 17: obecny punkt: -0.12796529854193775
Iteracja # 18: obecny punkt: -0.08540599257109899
Iteracja # 19: obecny punkt: -0.04369787271967701
Iteracja # 20: obecny punkt: -0.002823915265283472
Iteracja # 21: obecny punkt: 0.0372325630400222
Iteracja # 22: obecny punkt: 

In [None]:
# dla wygody opakowuje ten algorytm w funckję
# Jeśli chcę mieć drukowaną wartość iteracji i obecnego punktu to zostawiam vervose=True
def gradient_descent(derivative_func, learning_rate=0.01, max_iters=10000,
                     precision=0.000001, w_0=-8, verbose=True):
    iters = 0
    previous_step_size = 1
    points = []

    while previous_step_size > precision and iters < max_iters:
        w_prev = w_0
        w_0 = w_0 - learning_rate * derivative_func(w_prev)
        previous_step_size = abs(w_0 - w_prev)
        iters += 1
        points.append(w_0)
        if verbose:
            print(f'Iteracja # {iters}: obecny punkt: {w_0}')

    
    print(f'Minimum lokalne w punkcie: {w_0}')
    return points

# uruchamia na poprzedno zdefiniowanej funkcji derivative = lambda w: 2 * w - 4
points = gradient_descent(derivative)

Iteracja # 1: obecny punkt: -7.8
Iteracja # 2: obecny punkt: -7.604
Iteracja # 3: obecny punkt: -7.41192
Iteracja # 4: obecny punkt: -7.2236816
Iteracja # 5: obecny punkt: -7.039207968
Iteracja # 6: obecny punkt: -6.8584238086400005
Iteracja # 7: obecny punkt: -6.681255332467201
Iteracja # 8: obecny punkt: -6.507630225817857
Iteracja # 9: obecny punkt: -6.3374776213015
Iteracja # 10: obecny punkt: -6.17072806887547
Iteracja # 11: obecny punkt: -6.007313507497961
Iteracja # 12: obecny punkt: -5.8471672373480015
Iteracja # 13: obecny punkt: -5.6902238926010416
Iteracja # 14: obecny punkt: -5.53641941474902
Iteracja # 15: obecny punkt: -5.38569102645404
Iteracja # 16: obecny punkt: -5.23797720592496
Iteracja # 17: obecny punkt: -5.09321766180646
Iteracja # 18: obecny punkt: -4.951353308570331
Iteracja # 19: obecny punkt: -4.812326242398925
Iteracja # 20: obecny punkt: -4.676079717550946
Iteracja # 21: obecny punkt: -4.542558123199927
Iteracja # 22: obecny punkt: -4.411706960735929
Iteracj

In [None]:
points = pd.DataFrame({'point': points})
# points = points.reset_index()
# function to wsześniej zdefiniowana funckcja straty L(w) 
# function = lambda w: w ** 2 - 4 * w
points['value'] = function(points['point'])
points.head()

Unnamed: 0,point,value
0,-7.8,92.04
1,-7.604,88.236816
2,-7.41192,84.584238
3,-7.223682,81.076302
4,-7.039208,77.707281


In [None]:
fig = go.Figure(data=[go.Scatter(x=df['w'], y=df['loss'], name='function'),
                      go.Scatter(x=points['point'], y=points['value'], marker_size=5, name='point', mode='markers')],
                layout=go.Layout(width=1000, title='Loss Function'))
fig.show()

In [None]:
# testowanie learning_rate
def test_lr(func, derivative_func, learning_rate, w_0=-8):
    points = gradient_descent(derivative_func, learning_rate=learning_rate, w_0=w_0, verbose=False)
    points = pd.DataFrame({'point': points})
    points = points.reset_index()
    points['value'] = func(points['point'])

    fig = go.Figure(data=[go.Scatter(x=df['w'], y=df['loss'], name='function'),
                      go.Scatter(x=points['point'], y=points['value'], marker_size=5, name='point', mode='markers+lines')],
                layout=go.Layout(width=1000, title=f'Loss Function learning_rate: {learning_rate}'))
    fig.show()

test_lr(function, derivative, 0.01)

Minimum lokalne w punkcie: 1.9999518050127572


In [None]:
test_lr(function, derivative, 0.1)

Minimum lokalne w punkcie: 1.9999967861239116


In [None]:
# lepiej niż dla 0.01
test_lr(function, derivative, 0.055)

Minimum lokalne w punkcie: 1.9999924804681353


In [None]:
# dłuższy czas wykonania
test_lr(function, derivative, 0.001)

Minimum lokalne w punkcie: 1.9995012093660485


In [None]:
# najdłuższy czas wykonania, a ponadto nawet nie osiągnął minimum,
# bo zatrzymał się po 10000 iteracjach
test_lr(function, derivative, 0.0001)

Minimum lokalne w punkcie: 0.6469178472226906


In [None]:
# druga funkcja jest wielomianem stopnia 6
function_2 = lambda w: (w + 8) * (w - 5) * (w - 10) * (w + 5) * (w + 5) * (w - 2)

from sympy import Symbol, lambdify

# argumentem jest symbol w
w = Symbol('w')
f = (w + 8) * (w - 5) * (w - 10) * (w + 5) * (w + 5) * (w - 2)
# oblicza pochodną funkcj f(w)
f_diff = f.diff(w)
# zwraca obiekt klasy <function numpy.<lambda>> czyli funkcję
derivative_2 = lambdify(w, f_diff)
del w

In [None]:
# pochodna dla w = -5 wynosi 0, bo tam odbija się od osi x
print(derivative_2(-5))

0


In [None]:
w = np.arange(-9, 10, 0.1)
# funkcją straty jest wielomian stopnia 6
loss = function_2(w)
# inicjacja punktu początkowego
w_0 = -4

# funkcja styczna do function_2 w punkcie w_0
tangent_line = lambda w: derivative_2(w_0) * (w - w_0) + function_2(w_0)
tangent_line_values = tangent_line(w)

df = pd.DataFrame({'w': w, 
                   'loss': loss,
                   'tangent_line': tangent_line_values})
print(df.head())

fig = go.Figure(data=[go.Scatter(x=df['w'], y=df['loss'], name='function_2'),
                      go.Scatter(x=df['w'][20:80], y=df['tangent_line'][20:80], name='tangent line'),
                      go.Scatter(x=[w_0], y=[function_2(w_0)], marker_size=10, name='point')],
                layout=go.Layout(width=800, title='Loss Function'))
fig.show()

     w          loss  tangent_line
0 -9.0  46816.000000       25716.0
1 -8.9  39198.985371       25141.2
2 -8.8  32368.149504       24566.4
3 -8.7  26269.235839       23991.6
4 -8.6  20850.379776       23416.8


In [None]:
# algorytm rozbieżny dlatego błąd (skacze z plus na minus ogromne liczby)
gradient_descent(derivative_2, learning_rate=0.01, w_0=-4)

Iteracja # 1: obecny punkt: 53.480000000000004
Iteracja # 2: obecny punkt: -25899820.713083908
Iteracja # 3: obecny punkt: 6.992541060320285e+35
Iteracja # 4: obecny punkt: -1.0030587633984323e+178


OverflowError: ignored

In [None]:
# znalazł pierwsze minimum po prawej od zielonego punktu
gradient_descent(derivative_2, learning_rate=0.0001, w_0=-4)

Iteracja # 1: obecny punkt: -3.4252000000000002
Iteracja # 2: obecny punkt: -2.651650485940974
Iteracja # 3: obecny punkt: -1.8362502198093027
Iteracja # 4: obecny punkt: -1.2560487039221826
Iteracja # 5: obecny punkt: -0.9814985612357856
Iteracja # 6: obecny punkt: -0.8782145208243864
Iteracja # 7: obecny punkt: -0.8422364318553737
Iteracja # 8: obecny punkt: -0.8299809188485427
Iteracja # 9: obecny punkt: -0.8258348455511186
Iteracja # 10: obecny punkt: -0.8244353472730969
Iteracja # 11: obecny punkt: -0.8239633004173054
Iteracja # 12: obecny punkt: -0.8238041200243751
Iteracja # 13: obecny punkt: -0.8237504468123593
Iteracja # 14: obecny punkt: -0.8237323495319191
Iteracja # 15: obecny punkt: -0.8237262476344467
Iteracja # 16: obecny punkt: -0.82372419025167
Iteracja # 17: obecny punkt: -0.8237234965626464
Minimum lokalne w punkcie: -0.8237234965626464


[-3.4252000000000002,
 -2.651650485940974,
 -1.8362502198093027,
 -1.2560487039221826,
 -0.9814985612357856,
 -0.8782145208243864,
 -0.8422364318553737,
 -0.8299809188485427,
 -0.8258348455511186,
 -0.8244353472730969,
 -0.8239633004173054,
 -0.8238041200243751,
 -0.8237504468123593,
 -0.8237323495319191,
 -0.8237262476344467,
 -0.82372419025167,
 -0.8237234965626464]

In [None]:
test_lr(function_2, derivative_2, learning_rate=0.0001, w_0=-4)

Minimum lokalne w punkcie: -0.8237234965626464


In [None]:
# inny punkt startowy
gradient_descent(derivative_2, learning_rate=0.0001, w_0=3)

Iteracja # 1: obecny punkt: 2.312
Iteracja # 2: obecny punkt: 1.219428649758084
Iteracja # 3: obecny punkt: 0.08332947020212012
Iteracja # 4: obecny punkt: -0.5194630425376046
Iteracja # 5: obecny punkt: -0.7239713986540125
Iteracja # 6: obecny punkt: -0.7904896265421475
Iteracja # 7: obecny punkt: -0.8125655597744105
Iteracja # 8: obecny punkt: -0.8199666479708717
Iteracja # 9: obecny punkt: -0.822457193964165
Iteracja # 10: obecny punkt: -0.8232963745590032
Iteracja # 11: obecny punkt: -0.8235792579138101
Iteracja # 12: obecny punkt: -0.8236746305905873
Iteracja # 13: obecny punkt: -0.8237067866156171
Iteracja # 14: obecny punkt: -0.8237176285830782
Iteracja # 15: obecny punkt: -0.8237212841633197
Iteracja # 16: obecny punkt: -0.8237225167156856
Iteracja # 17: obecny punkt: -0.8237229322957631
Minimum lokalne w punkcie: -0.8237229322957631


[2.312,
 1.219428649758084,
 0.08332947020212012,
 -0.5194630425376046,
 -0.7239713986540125,
 -0.7904896265421475,
 -0.8125655597744105,
 -0.8199666479708717,
 -0.822457193964165,
 -0.8232963745590032,
 -0.8235792579138101,
 -0.8236746305905873,
 -0.8237067866156171,
 -0.8237176285830782,
 -0.8237212841633197,
 -0.8237225167156856,
 -0.8237229322957631]

In [None]:
test_lr(function_2, derivative_2, learning_rate=0.0001, w_0=3)

Minimum lokalne w punkcie: -0.8237229322957631


In [None]:
# inny punkt startowy. Za duży skok
gradient_descent(derivative_2, learning_rate=0.0001, w_0=4)

Iteracja # 1: obecny punkt: 4.4212
Iteracja # 2: obecny punkt: 5.456516276006841
Iteracja # 3: obecny punkt: 8.120325057677842
Iteracja # 4: obecny punkt: 9.777216493859974
Iteracja # 5: obecny punkt: -2.944162906413837
Iteracja # 6: obecny punkt: -2.112815997505323
Iteracja # 7: obecny punkt: -1.4237015473654986
Iteracja # 8: obecny punkt: -1.0517679077725237
Iteracja # 9: obecny punkt: -0.9034817485009337
Iteracja # 10: obecny punkt: -0.8509235403178919
Iteracja # 11: obecny punkt: -0.8329283733103379
Iteracja # 12: obecny punkt: -0.8268307058529121
Iteracja # 13: obecny punkt: -0.8247713556546623
Iteracja # 14: obecny punkt: -0.8240766190370841
Iteracja # 15: obecny punkt: -0.8238423307266355
Iteracja # 16: obecny punkt: -0.8237633306739814
Iteracja # 17: obecny punkt: -0.8237366936280651
Iteracja # 18: obecny punkt: -0.823727712339652
Iteracja # 19: obecny punkt: -0.8237246841074616
Iteracja # 20: obecny punkt: -0.8237236630762744
Iteracja # 21: obecny punkt: -0.8237233188146531
Mi

[4.4212,
 5.456516276006841,
 8.120325057677842,
 9.777216493859974,
 -2.944162906413837,
 -2.112815997505323,
 -1.4237015473654986,
 -1.0517679077725237,
 -0.9034817485009337,
 -0.8509235403178919,
 -0.8329283733103379,
 -0.8268307058529121,
 -0.8247713556546623,
 -0.8240766190370841,
 -0.8238423307266355,
 -0.8237633306739814,
 -0.8237366936280651,
 -0.823727712339652,
 -0.8237246841074616,
 -0.8237236630762744,
 -0.8237233188146531]

In [None]:
test_lr(function_2, derivative_2, learning_rate=0.0001, w_0=4)

Minimum lokalne w punkcie: -0.8237233188146531


In [None]:
test_lr(function_2, derivative_2, learning_rate=0.00001, w_0=4)

Minimum lokalne w punkcie: 8.466977573412201
