<div style="font-size:18pt; padding-top:20px; text-align:center; line-height: 1.5;">СЕМИНАР. <b>Оптимизация. Часть 1.</b> Исследование влияния значения коэффициента альфа в градиентном спуске</div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin.study@yandex.ru)</span></div>

In [None]:
import numpy as np
import pandas as pnd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm
%matplotlib inline

## Функция одной переменной

In [None]:
def gradient_descent(f, df, start_pos, alpha, max_iter=20, tol=0.0001, return_progress=False):
    """Градиентный спуск."""
    
    curr_pos = start_pos
    f_prev = f(*start_pos)
    
    if return_progress:
        progress = dict()
        progress["points"] = [curr_pos]
    
    
    for i in range(max_iter):
        
        curr_pos = curr_pos - alpha * df(*curr_pos)
        
        if return_progress:
             progress["points"].append(curr_pos)
    
        f_curr = f(*curr_pos)

        if abs(f_prev - f_curr) <= tol:
            break

        f_prev = f_curr
    
    if return_progress:
        progress["points"] = np.array(progress["points"])
        return (curr_pos, f_curr, i+1, progress)
    
    return (curr_pos, f_curr, i+1)

In [None]:
def plot_progress(x, f, points):
    
    for i in range(1, len(points)):
        start_xy = (points[i-1], f(points[i-1]))
        end_xy = (points[i], f(points[i]))
        plt.annotate("", 
                     xy=start_xy, xytext=end_xy, 
                     arrowprops=dict(
                         arrowstyle="<-", 
                         color="grey",  
                         linestyle ="dashed"), 
                     zorder=3)    
    plt.annotate("", 
                 xy=(points[0], f(points[0])), xytext=(points[-1], f(points[-1])), 
                 arrowprops=dict(arrowstyle="<-", color="red"), 
                 zorder=4)
    plt.plot(points[0], f(points[0]), "o", color="green", zorder=4)
    plt.plot(points[-1], f(points[-1]), "o", color="red", zorder=4)
    

def plot_function(x, f):
    plt.plot(x, f(x), '-', color = "blue", zorder=1)


def plot_derivative(x, df):
     plt.plot(x, df(x), '-', color = "orange", zorder=2)

$$f(x) = x^2 + 10 \cdot \cos(x)$$

In [None]:
# Функция и производная

f = lambda x: x**2 + 10*np.cos(x)
df = lambda x: 2*x - 10*np.sin(x)


x = np.arange(-10, 10, 0.5)


# Параметры

alpha = 0.05
max_iter = 20
alphas = [0.01, 0.05, 0.1, 0.15]


# Начальное значение

x_start = (8,)


# Количеста строк при отображении графиков

subplot_rows = int(np.ceil(len(alphas) / 2.0))


# Создание области отображения графиков

plt.figure(figsize=(10, 4*subplot_rows))
plt.suptitle("$x^2 + 10 \cos(x)$", fontsize=16, y=1.05)

# Поиск минимального значения функции при различных alpha

for i in range(len(alphas)):
    
    # Градиентный спуск
    final_x, final_f, num_iter, progress = gradient_descent(f, df, x_start, alphas[i], return_progress=True)
    
    # Отображение результата на графике
    plt.subplot(subplot_rows, 2, i+1)
    plt.title("$x_0=%s, \\alpha=%s$" % (x_start, alphas[i]))
    plot_function(x, f)
    plot_derivative(x, df)
    plot_progress(x, f, progress["points"])
    plt.xlabel("$x$")
    plt.ylabel("$f(x)$")
    plt.grid(True)

    
# Отбражения графиков

plt.tight_layout()
plt.show()

In [None]:
def show_plots(f, df, x_start, alphas, max_iter, tol, func):

    # Количеста строк при отображении графиков

    subplot_rows = int(np.ceil(len(alphas) / 2.0))


    # Количеста строк при отображении графиков

    subplot_rows = int(np.ceil(len(alphas) / 2.0))


    # Создание области отображения графиков

    plt.figure(figsize=(10, 4*subplot_rows))
    plt.suptitle("$x^2 + 10 \sin(x)$", fontsize=16, y=1.05)

    # Поиск минимального значения функции при различных alpha

    for i in range(len(alphas)):

        # Градиентный спуск
        final_x, final_f, num_iter, progress = func(f, df, x_start, alphas[i], max_iter=max_iter, tol=err, return_progress=True)

        # Отображение результата на графике
        plt.subplot(subplot_rows, 2, i+1)
        plt.title("$x_0=%s, \\alpha=%s$" % (x_start, alphas[i]))
        plot_function(x, f)
        plot_derivative(x, df)
        plot_progress(x, f, progress["points"])
        plt.xlabel("$x$")
        plt.ylabel("$f(x)$")
        plt.grid(True)


    # Отбражения графиков

    plt.tight_layout()
    plt.show()

In [None]:
# Функция и производная

f = lambda x: x**2 + 10 * np.sin(x)
df = lambda x: 2*x + 10 * np.cos(x)


x = np.arange(-10, 10, 0.5)


# Параметры

alpha = 0.05
max_iter = 20
alphas = [0.02, 0.05, 0.1, 0.2, 0.4, 0.6]
err = 1e-3  # минимальное изменение функции (ошибка)

In [None]:
# Начальное значение

x_start = (8,)
show_plots(f, df, x_start, alphas, max_iter, tol=err, func=gradient_descent)

In [None]:
# Начальное значение

x_start = (-8,)
show_plots(f, df, x_start, alphas, max_iter, tol=err, func=gradient_descent)

## Функция двух переменных

Функция с двумя переменными $f(x_1,x_2)$:

$$f(x_1, x_2) = 2x_1^2 + x_2^2 + x_1x_2$$

In [None]:
# Функция и частные производные по x1 и x2

f = lambda x1, x2: 2*x1**2 + x2**2 +x1*x2
dfx1 = lambda x1, x2: 4*x1 + x2
dfx2 = lambda x1, x2: 2*x2 + x1

df = lambda x1, x2: np.array((dfx1(x1, x2), dfx2(x1,x2)))

coord_x1 = np.arange(-4, 5, 0.1)  # Значения x1 c шагом 1
coord_x2 = np.arange(-4, 5, 0.1)  # Значения x2 c шагом 1

x1, x2 = np.meshgrid(coord_x1, coord_x2)


# Отображение фукции и её градиент

fig = plt.figure(1, figsize=(10, 10))

ax0 = fig.add_subplot(2, 2, 1, projection="3d")
ax0.plot_surface(x1, x2, f(x1,x2), rstride=1, cstride=1, cmap=cm.coolwarm,
                       linewidth=0, antialiased=True)
ax0.set_title("$f(x_1,x_2)=2x^2_{1}+x^2_{2}+x_{1}x_{2}$")
ax0.set_xlabel("$x_1$")
ax0.set_ylabel("$x_2$")
ax0.set_zlabel("$f(x_1,x_2)$")

ax1 = plt.subplot(2,2,2)
cf = ax1.contourf(x1, x2, f(x1,x2), 50, alpha=0.5, cmap=cm.coolwarm)
plt.colorbar(cf)
ax1.set_title("$f(x_1,x_2)=2x^2_{1}+x^2_{2}+x_{1}x_{2}$")
ax1.set_xlabel("$x_1$")
ax1.set_ylabel("$x_2$")

ax2 = plt.subplot(2,2,3)
ax2.set_title("Gradient")
ax2.set_xlabel("$x_1$")
ax2.set_ylabel("$x_2$")
ax2.quiver(x1[0::5, 0::5], x2[0::5, 0::5], dfx1(x1[0::5, 0::5],x2[0::5, 0::5]), dfx2(x1[0::5, 0::5],x2[0::5, 0::5]), scale=100)

ax3 = plt.subplot(2,2,4)
ax3.set_xlabel("$x_1$")
ax3.set_ylabel("$x_2$")
ax3.set_title("Gradient")
ax3.contourf(x1, x2, f(x1,x2), 50, cmap=cm.coolwarm)
ax3.quiver(x1[0::5, 0::5], x2[0::5, 0::5], dfx1(x1[0::5, 0::5],x2[0::5, 0::5]), dfx2(x1[0::5, 0::5],x2[0::5, 0::5]), scale=100)

plt.tight_layout()

plt.show()

In [None]:
def plot_progress_two(points):
    
    for i in range(1, len(points)):
        start_xy = points[i-1]
        end_xy = points[i]
        plt.plot(start_xy[0], start_xy[1], "o", color = "blue")
        plt.annotate("", xy=start_xy, xytext=end_xy, arrowprops=dict(arrowstyle="<-", color="grey",  
                                                                                   linestyle ="dashed"), zorder=3)
    
    plt.annotate("", xy=points[0], xytext=points[-1], 
                 arrowprops=dict(arrowstyle="<-", color="red",  linestyle ="dashed"), 
                 zorder=3)
    plt.plot(*points[0], "o", color="green", zorder=4)
    plt.plot(*points[-1], "o", color="red", zorder=4)

    
def plot_info_two(final_x, final_f, num_iter):
        text = "Number of iterations: "+str(num_iter) + "\n $x_{1,min} = " + \
            str(np.around(final_x[0], decimals = 2)) +"$, $x_{2,min} = " + str(np.around(final_x[1], decimals = 2)) +"$ \n" + \
            "$f(x_{1,min}, x_{2,min}) = " + str(np.around(final_f, decimals = 4)) + "$"
        plt.annotate(text, (0.10, 0.80), xytext=(0.10, 0.75), textcoords="axes fraction", size=14)
    

def plot_function_two(x1, x2, f):
    plt.contourf(x1, x2, f(x1, x2), 10, alpha=0.5, cmap=cm.coolwarm)
    

def show_plots_two(f, df, start_pos, alphas, max_iter, tol, func):

    # Количеста строк при отображении графиков

    subplot_rows = int(np.ceil(len(alphas) / 2.0))


    # Количеста строк при отображении графиков

    subplot_rows = int(np.ceil(len(alphas) / 2.0))


    # Создание области отображения графиков

    plt.figure(figsize=(10, 4*subplot_rows))
    plt.suptitle("$f(x_1, x_2) = 2x_1^2 + x_2^2 + x_1x_2$", fontsize=16, y=1.05)

    # Поиск минимального значения функции при различных alpha

    for i in range(len(alphas)):

        # Градиентный спуск
        final_x, final_f, num_iter, progress = func(f, df, start_pos, alphas[i], max_iter=max_iter, tol=err, return_progress=True)

        # Отображение результата на графике
        plt.subplot(subplot_rows, 2, i+1)
        plt.title("$x_0=%s, \\alpha=%s$" % (start_pos, alpha))
        plot_function_two(x1, x2, f)
        plot_info_two(final_x, final_f, num_iter)
        plot_progress_two(progress["points"])
        plt.xlabel("$x1$")
        plt.ylabel("$x2$")
        plt.grid(True)

    # Отбражения графиков

    plt.tight_layout()
    plt.show()

In [None]:
# Параметры

max_iter = 20
err = 0.0001
alphas = [0.01, 0.05, 0.1, 0.2, 0.3, 0.45]

In [None]:
# Начальное значение

start_pos = (3, 0)
show_plots_two(f, df, start_pos, alphas, max_iter, tol=err, func=gradient_descent)

In [None]:
# Начальное значение

start_pos = (-3, -2)
show_plots_two(f, df, start_pos, alphas, max_iter, tol=err, func=gradient_descent)