In [2]:
import matplotlib.pyplot as plt
from matplotlib import cm
from matplotlib.ticker import LinearLocator, FormatStrFormatter

import numpy as np
from numpy.linalg import norm 
from pylab import meshgrid,cm

%matplotlib notebook

# WSI - ćwiczenie 1, zagadnienie przeszukiwania

***

### Tomasz Frankowski

***

## Funkcje rozważane w zadaniu

$ f(x) = 10x^4 + 3x^3-30x^2+10x $

$ g(x) = 10x_2^4 + 10x_1^4 + 3x_1^3 -30x_1^2 + 10x_1 $

## Rysunek funkcji f(x)

In [6]:
# Definicja funkcji f(x)
def fx(x):
    y = 10*x**4 + 3*x**3-30*x**2+10*x
    return y

In [7]:
# Funkcja odpowiedzialna za rysowanie funkcji fx
def fx_plot(x, y):
    # zdefiniowanie 1000 równie rozłożonych punktów na przedziale -2.6, 2.6

    fig = plt.figure()
    ax = fig.add_subplot(1, 1, 1)

    # ulozenie osi na wykresie
    ax.spines['left'].set_position('center')
    ax.spines['bottom'].set_position('zero')
    ax.spines['right'].set_color('none')
    ax.spines['top'].set_color('none')

    ax.set_title('F(x)', fontweight ="bold")

    plt.plot(x,y)
    plt.axis([-3, 3, -50, 100])

    plt.show()

fx_x = np.linspace(-3,3,1000)
fx_y = fx(fx_x) 
fx_plot(fx_x, fx_y)

<IPython.core.display.Javascript object>

## Rysunek funkcji g(x)

In [8]:
# Definicja funkcji g(x)
def gx(x):
    z = 10*x[1]**4 + 10*x[0]**4 +3*x[0]**3-30*x[0]**2+10*x[0]
    return z

In [10]:
# Funkcja odpowiedzialna za rysowanie g(x)
def gx_plot(x, y):
    X,Y = meshgrid(x, y)
    Z =  gx(np.array([X, Y]))


    fig = plt.figure()
    ax = fig.gca(projection='3d')
    surf = ax.plot_surface(X, Y, Z,
                      cmap=cm.coolwarm,linewidth=0, antialiased=False)

    ax.zaxis.set_major_locator(LinearLocator(10))

    fig.colorbar(surf, shrink=0.5, aspect=5)
    ax.set_title('G(x)', fontweight ="bold")
    plt.xlabel("x")
    plt.ylabel("y")

    plt.show()

# Definiowanie punktów w zakresie od -3 do 3 z krokiem równym 0.1
x = np.arange(-3.0,3.0,0.1)
y = np.arange(-3.0,3.0,0.1)

gx_plot(x,y)

<IPython.core.display.Javascript object>

  ax = fig.gca(projection='3d')


## Definiowanie funkcji gradientu f(x) oraz g(x)

$ gradient(f(x)) = 40x^3 + 9x^2 - 60x + 10 $

$ gradient_1(g(x_1)) = 10x_1^3 + 9x_1^2 - 60x + 10 $<br>
$ gradient_2(g(x_2)) = 40x_2^3  $

In [16]:
gradient_fx = lambda x: np.array([40*x[0]**3 + 9*x[0]**2 -60*x[0]+10])
gradient_gx = lambda x: np.array([40*x[0]**3 + 9*x[0]**2 -60*x[0]+10, 40*x[1]**3])

## Algorytmu najszybszego spadku

In [14]:
# Zbiór punktów odpowiedzialnych za wizualizację działania algorytmu
plot_x = []
plot_y = []
plot_z = []

def gradient_descent(gradient, x_start, learn_rate, tolerance):
    x_previous = x_start-10*tolerance
    x_now = x_start.copy()
    
    diffrence = 0
    
    plot_previous_x = 0
    itera = 0
    while norm(x_now - x_previous) > tolerance:
        x_previous = x_now.copy()
        itera +=1
        x_now -= learn_rate*gradient(x_now)
        
        # Zapisuje tylko punkty ktorych różnica jest znacząco większa, żeby wykres był czytelniejszy
        diffrence = abs(x_now - plot_previous_x)
        if(x_now.size == 1 and diffrence > 0.05):
            plot_x.append(x_now[0])
            plot_y.append(fx(x_now[0]))
            plot_previous_x = x_now.copy()
        elif(x_now.size == 2 and diffrence[0] > 0.05):
            plot_x.append(x_now[0])
            plot_y.append(x_now[1])
            plot_z.append(gx(x_now))
            plot_previous_x = x_now.copy()
    print(f"iterations = {itera}")
    return x_now
    

## Funkcje odpowiedzialne za wizualizację działania algorytmu

In [13]:
def fx_plot_scatter(x, y):
    # zdefiniowanie 1000 równie rozłożonych punktów na przedziale -2.6, 2.6
    fig = plt.figure()
    ax = fig.add_subplot(1, 1, 1)

    # ulozenie osi na wykresie
    ax.spines['left'].set_position('center')
    ax.spines['bottom'].set_position('zero')
    ax.spines['right'].set_color('none')
    ax.spines['top'].set_color('none')

    ax.set_title('F(x)', fontweight ="bold")
    plt.plot(fx_x, fx_y, '-b')
    plt.scatter(x,y, facecolors='none', edgecolors='r')

    plt.axis([-2, 2, -50, 100])

    plt.show()

    
def gx_plot_scatter(x_scatter, y_scatter, z_scatter):
    # zdefiniowanie 1000 równie rozłożonych punktów na przedziale -2.6, 2.6
    x = np.arange(-3.0,3.0,0.1)
    y = np.arange(-3.0,3.0,0.1)

    X,Y = meshgrid(x, y)
    Z =  gx(np.array([X, Y]))

    fig = plt.figure()
    ax = plt.axes(projection='3d')
    surf = ax.plot_surface(X, Y, Z,
                          cmap=cm.coolwarm,linewidth=0, antialiased=False)

    ax.zaxis.set_major_locator(LinearLocator(10))

    fig.colorbar(surf, shrink=0.5, aspect=5)
    ax.set_title('G(x)', fontweight ="bold")
    ax.scatter3D(np.asarray(x_scatter), np.asarray(y_scatter), np.asarray(z_scatter), c="limegreen");
    plt.xlabel("x")
    plt.ylabel("y")
    
    ax.axes.set_xlim3d(left=-3, right=3) 
    ax.axes.set_ylim3d(bottom=-3, top=3) 
    ax.axes.set_zlim3d(bottom=-50, top=1000) 
    
    plt.show()

## Minima globalne opisywanych funkcji

In [17]:
plot_x = []
plot_y = []
plot_z = []
result = gradient_descent(gradient_fx, np.array([-3.0]), 0.001, 1e-5)
print(f"f(x) minimum is for x = {result[0]} y = {fx(result[0])}.")
fx_plot_scatter(plot_x, plot_y)
plot_x = []
plot_y = []
plot_z = []
result = gradient_descent(gradient_gx, np.array([-6.0, 5.0]), 0.001, 1e-7)
print(f"g(x) minimum is for x = {result[0]} y = {result[1]} z = {gx(result)}.")
gx_plot_scatter(plot_x, plot_y, plot_z)


iterations = 54
f(x) minimum is for x = -1.412422612215024 y = -42.62767857084472.


<IPython.core.display.Javascript object>

iterations = 150
g(x) minimum is for x = 1.0125597058217595 y = 0.0 z = -7.0063221612024105.


<IPython.core.display.Javascript object>

## Wpływ rozmiaru kroku dla różnych punktów początkowych


### Dla ułatwienia przprowadzania testów stworzyłem interaktywną funkcje dla obu funkcji, dzięki której mogę w czasie rzeczywistym zmieniać wartości kroku oraz punkt startowy algorytmu

In [19]:
from scipy import *
import random
from ipywidgets import interact, FloatSlider, IntSlider

def interactive_gradient_descent(step, start_value):

    
    result = gradient_descent(gradient_fx, np.array([float(start_value)]), step, 1e-5)
    
    print(f"Fx minimum is for x = {result[0]} y = {fx(result[0])}.")
    print(f"step = {step}, start value = {start_value}")
    fx_plot_scatter(plot_x, plot_y)
    plot_x.clear()
    plot_y.clear()
    plot_z.clear()
## Generate our user interface.
interact(interactive_gradient_descent, step=FloatSlider(min=0, max=0.01, step=0.00001, value=0.0001), start_value = IntSlider(min=-100, max=100, value=0, description="start value"));

interactive(children=(FloatSlider(value=0.0001, description='step', max=0.01, step=1e-05), IntSlider(value=0, …

In [20]:
def interactive_gradient_descent(step, start_value_x, start_value_y):

    
    result = gradient_descent(gradient_gx, np.array([float(start_value_x), float(start_value_y)]), step, 1e-5)
    
    print(f"Gx minimum is for x = {result[0]} y = {result[1]} z = {gx(result)}.")
    print(f"step = {step}, start value x = {start_value_x} y = {start_value_y}")
    gx_plot_scatter(plot_x, plot_y, plot_z)
    plot_x.clear()
    plot_y.clear()
    plot_z.clear()
## Generate our user interface.
interact(interactive_gradient_descent, step=FloatSlider(min=0, max=0.001, step=0.00001, value=0.0), start_value_x = IntSlider(min=-10, max=10, value=0, description="start value x"), start_value_y = IntSlider(min=-10, max=10, value=0, description="start value y"));

interactive(children=(FloatSlider(value=0.0, description='step', max=0.001, step=1e-05), IntSlider(value=0, de…

### Otrzymane wyniki dla różnych punktów startowych oraz różnych kroków

#### Dla funkcji f(x), przykładowe wyniki:

**- gdy x_start = -3 i learn_rate = 0.00015:**<br>
algorytm zbiega do minimum globalnego x = -1.4124330569670163 y = -42.6276784788297<br>
liczba iteracji = 66<br>

**- gdy x_start = -3 i learn_rate = 0.0009:**<br>
algorytm zbiega do minimum globalnego x = -1.4124184820929844 y = -42.62767860259565<br>
liczba iteracji = 51<br>

**- gdy x_start = 3 i learn_rate = 0.00015:** <br>
algorytm zbiega do minimum lokalnego x = 1.012664041037798 y = -7.006321709937616<br>
liczba iteracji = 90<br>

**- gdy x_start = 3 i learn_rate = 0.00146:**<br>
algorytm zbiega do minimum lokalnego x = 1.012628232125359 y = -7.006321964533967<br>
liczba iteracji = 84<br>

### Generalnie im bliżej punkt jest minimum lokalnego tym szybciej do niego zbiega oraz im większy jest krok tym szybciej również algorytm zbiega do minimum lokalnego


#### Dla funkcji g(x), przykładowe wyniki:


**- gdy x_start = -5 y_start = -5 i learn_rate = 0.00012:**<br>
algorytm zbiega do minimum globalnego x = -1.4123706142922956 y = -0.2923888095210225 z = -42.554591298960304<br>
liczba iteracji = 6378<br>

**- gdy x_start = 4 y_start = 3 i learn_rate = 0.00012:**<br>
algorytm zbiega do minimum lokalnego x = 1.0125586528324044 y = 0.12770398723419615 z = -7.003662552033278<br>
liczba iteracji = 6376<br>

**- gdy x_start = 4 y_start = 3 i learn_rate = 0.00015:**<br>
algorytm zbiega do minimum lokalnego x = 1.0125586528324022 y = 0.11854325324318926 z = -7.00434743287288<br>
liczba iteracji = 5916<br>

**- gdy x_start = -5 y_start = -5 i learn_rate = 0.00017:**<br>
algorytm zbiega do minimum globalnego x = -1.4123706144776578 y = -0.1136999584614842 z = -42.62600752973244<br>
liczba iteracji = 5679<br>

### W przypadku funkcji g(x) wnioski są takie same jak dla funkcji f(x), czyli im dalej od minimum lokalnego tym dłużej algorytm najszybszego spadku dochodzi do celu, również im mniejszy krok tym dłużej to trwa

## Wnioski z przeprowadzonych eksperymentów
Dla funkcji f(x) oraz g(x) algorytym działa analogicznie. W przypadku zwiększania kroku do pewnego momentu algorytm działa coraz szybciej. W pewnym momencie dla zbyt dużego kroku dochodzi do przestrzelenia algorytmu i zaczyna on skakać z jednej części z lewej części funkcji na prawą z coraz większą korektą aż osiągane liczby są za duże dla komputera. W przypadku zbyt małego kroku dojście do mimimum trwa znaczący czas. W przypadku punktów startowych, im bliżej one są mimimum lokalnego tym szybciej algorytm je osiąga.

Wadą tego algorytmu jest to że jeśli mamy dwa minima lokalne w naszej funkcji to nie wiemy czy osiągnięte minimum jest minimum globalnym. Dlatego ważny jest dobór punktu startowego.

Dla obu funkcji za duży krok wynosi około 0.01.
