# Stochastic gradient descent (SGD)

<img src=".././photo/condition4.png" alt="photo" width="672" height="336">
<img src=".././photo/condition5.png" alt="photo" width="672" height="336">

In [5]:
import numpy as np

# исходная функция, которую нужно аппроксимировать моделью a(x)
def func(x):
    return 0.5 * x**2 - 0.1 * 1/np.exp(-x) + 0.5 * np.cos(2*x) - 2.

coord_x = np.arange(-5.0, 5.0, 0.1) # значения по оси абсцисс [-5; 5] с шагом 0.1
coord_y = func(coord_x) # значения функции по оси ординат

x_train = [[1, x, x**2, np.cos(2*x), np.sin(2*x)] for x in coord_x]

sz = len(coord_x)	# количество значений функций (точек)
eta = np.array([0.01, 0.001, 0.0001, 0.01, 0.01]) # шаг обучения для каждого параметра w0, w1, w2, w3, w4
w = np.array([0., 0., 0., 0., 0.]) # начальные значения параметров модели
N = 500 # число итераций алгоритма SGD
lm = 0.02 # значение параметра лямбда для вычисления скользящего экспоненциального среднего

Qe = np.sum([(np.dot(w, x_train[i]) - coord_y[i]) ** 2 for i in range(sz)]) / sz # начальное значение среднего эмпирического риска
np.random.seed(0) # генерация одинаковых последовательностей псевдослучайных чисел

for i in range(N):
    k = np.random.randint(0, sz)
    x_k = x_train[k]
    y_k = coord_y[k]
    loss_func = (np.dot(w, x_k) - y_k) ** 2 
    # SGD step
    diff_lf = 2 * np.dot((np.dot(w, x_k) - y_k), x_k) # lf - loss function
    w = w - eta * diff_lf
    # Qe recalculation
    Qe = lm * loss_func + (1 - lm) * Qe

Q = np.sum([(np.dot(w, x_train[i]) - coord_y[i]) ** 2 for i in range(sz)]) / sz
print(Q)
print(Qe)
print(w)

1.4323446928853572
1.8143849337851594
[-1.55870287 -0.77127223  0.28664769  0.8162054  -0.14011833]


# Same task

<img src=".././photo/condition6.png" alt="photo" width="672" height="336">
<img src=".././photo/condition7.png" alt="photo" width="672" height="336">

In [None]:
import numpy as np

# исходная функция, которую нужно аппроксимировать моделью a(x)
def func(x):
    return 0.5 * x + 0.2 * x ** 2 - 0.05 * x ** 3 + 0.2 * np.sin(4 * x) - 2.5

coord_x = np.arange(-4.0, 6.0, 0.1) # значения по оси абсцисс [-4; 6] с шагом 0.1
coord_y = func(coord_x) # значения функции по оси ординат

x_train = [[1, x, x ** 2, x ** 3] for x in coord_x]

sz = len(coord_x)	# количество значений функций (точек)
eta = np.array([0.1, 0.01, 0.001, 0.0001]) # шаг обучения для каждого параметра w0, w1, w2, w3
w = np.array([0., 0., 0., 0.]) # начальные значения параметров модели
N = 500 # число итераций алгоритма SGD
lm = 0.02 # значение параметра лямбда для вычисления скользящего экспоненциального среднего
batch_size = 50 # размер мини-батча (величина K = 50)

Qe = np.sum([(np.dot(w, x_train[i]) - coord_y[i]) ** 2 for i in range(batch_size)]) / (batch_size) # начальное значение среднего эмпирического риска
np.random.seed(0) # генерация одинаковых последовательностей псевдослучайных чисел 

for i in range(N):
    k = np.random.randint(0, sz - batch_size)
    arr_x_k = [x_train[j] for j in range(k, k + batch_size)]
    arr_y_k = [coord_y[j] for j in range(k, k + batch_size)]

    Qk = np.sum([(np.dot(w, x) - y) ** 2 for x, y in zip(arr_x_k, arr_y_k)]) / batch_size

    # it's (np.dot(w, x) - y) - a scalar, x - vector, if i use np.outer, x will be the vector (1, 4), but i need (4,) like following (np.array(x))
    diff_Qk = 2 * np.sum([(np.dot(w, x) - y) * np.array(x) for x, y in zip(arr_x_k, arr_y_k)], axis=0) / batch_size
    w = w - eta * diff_Qk
    
    Qe = lm * Qk + (1 - lm) * Qe

Q = np.sum([(np.dot(w, x_train[i]) - coord_y[i]) ** 2 for i in range(sz)]) / sz
print(Q)
print(Qe)
print(w)

0.02010989021755196
0.020450387266387284
[-2.49725214  0.49451654  0.19757031 -0.04967255]
