Более подробный пример смотри в https://colab.research.google.com/github/csc413-uoft/2021/blob/master/assets/tutorials/tut02_pytorch.ipynb#scrollTo=2xOx3qye69jn

# Обучение модели методом градиентного спуска



In [1]:
# Подключаем библиотеку, содержащую функции для автоматического вычисления градиента
import autograd.numpy as np
from autograd import grad

In [2]:
# Функция сигмоиды
def sigmoid(z):
    z = 1/(1+np.exp(-z))
    return z

In [3]:
# Функция, вычисляющая выход простого слоя стандартных нейронов
def dense_layer(x, W):
    y = sigmoid(np.dot(x,W))
    return y

In [4]:
# Loss, Error, Cost
# Функция  потерь (ошибки модели) на истинных значениях y_true
def mse(x, W, y_true): # mean absolute error
    y = dense_layer(x, W)
    y1 = dense_layer(y, W)
    # error = np.sum(np.abs(y_true-y1))
    error = np.sum(np.square(y_true-y1))
    return error

In [5]:
# Вход сети x0
x0 = np.array([1., 1.])
# Матрица весов первого слоя
W1 = np.array([
    [-2., 2.],
    [0.4, -0.9]
])
# выход первого слоя
y1 = dense_layer(x0, W1)
print(f"y1={y1}")

y1=[0.16798161 0.75026011]


In [6]:
# определяем функцию для вычисления градиента от функции mse
# первый параметр - функция ошибки mse, второй аргумент - номер парараметра mse, по которому считается градиент
mse_grad = grad(mse, 1)
# задаем истинные (желаемые) значения выхода
y_true = np.array([1.0, 0.0])
# вычисляем ошибку модели на истинных значениях
e = mse(x0, W1, y_true)
print(f"error={e}")
grad_value = mse_grad(x0, W1, y_true)
print(f"gradient=\n{grad_value}")


error=0.43208904098296796
gradient=
[[ 0.08487571 -0.01919841]
 [-0.06325601  0.09849232]]


In [7]:
# Уменьшаем значения весов связей на значение градиента
pairs_count = 32
x = np.array([
    [1., 1.],
    [0., 1.],
    [0.5, 0.],
    [0., 0.],
])
y_true = np.array(
    [1.0],
    [0.0],
    [0.0],
    [0.0]
)
# (x[i], y_true[i])
e = 0
for i in range(pairs_count):
    e += mse(x[i], W1, y_true[i])
e /= pairs_count    
W1 = W1 - grad_value
# e = mse(x0, W1, y_true)
print(f"error={e}")

error=0.4117398796685692


In [20]:
x0 = np.array([2.0, -4.0])
W1 = np.array([[4.0, -2.0], [-1.0, -2.0]])
y_true = np.array([0.0, 1.0])
# коэффициент шага обучения
k = 0.2
for i in range(64):
    y = dense_layer(x0, W1)
    e = mse(x0, W1, y_true)
    grad_value = mse_grad(x0, W1, y_true)
    W1 = W1 - k * grad_value
    print(f"n={i}, y={y}, error={e}")

n=0, y=[0.99999386 0.98201379], error=1.8720128308662338
n=1, y=[0.99999405 0.9817841 ], error=1.8686479260568558
n=2, y=[0.99999425 0.9815525 ], error=1.8651033145085103
n=3, y=[0.99999445 0.98131934], error=1.8613646106753716
n=4, y=[0.99999464 0.981085  ], error=1.8574159200895703
n=5, y=[0.99999483 0.98084997], error=1.853239648774896
n=6, y=[0.99999502 0.98061478], error=1.8488162856839332
n=7, y=[0.99999521 0.98038004], error=1.8441241542618754
n=8, y=[0.9999954  0.98014647], error=1.8391391287876213
n=9, y=[0.99999559 0.97991487], error=1.8338343107121453
n=10, y=[0.99999578 0.97968616], error=1.8281796598580864
n=11, y=[0.99999596 0.97946139], error=1.822141575147458
n=12, y=[0.99999614 0.97924173], error=1.8156824196189945
n=13, y=[0.99999632 0.97902849], error=1.808759985086807
n=14, y=[0.9999965  0.97882317], error=1.8013268931859043
n=15, y=[0.99999668 0.97862739], error=1.793329932206853
n=16, y=[0.99999685 0.97844298], error=1.784709333714841
n=17, y=[0.99999702 0.9782719

In [21]:
x0 = np.array([2.0, -4.0])
W1 = np.array([[4.0, -2.0], [-1.0, -2.0]])
y_true = np.array([0.0, 1.0])
# коэффициент шага обучения
k = 0.2
y = dense_layer(x0, W1)
e = mse(x0, W1, y_true)
grad_value = mse_grad(x0, W1, y_true)
grad_prev = grad_value
p_prev = grad_value
for i in range(64):
    y = dense_layer(x0, W1)
    e = mse(x0, W1, y_true)
    grad_value = mse_grad(x0, W1, y_true)
    beta = np.dot(grad_value, grad_value) / np.dot(grad_prev, grad_prev)
    p = grad_value + beta * p_prev
    W1 = W1 - k * p
    grad_prev = grad_value
    p_prev = p
    print(f"n={i}, y={y}, error={e}")

n=0, y=[0.99999386 0.98201379], error=1.8720128308662338
n=1, y=[0.99999424 0.98155153], error=1.8651951470438979
n=2, y=[0.99999485 0.98076658], error=1.8530053373239983
n=3, y=[0.99999569 0.97949076], error=1.8314128354920884
n=4, y=[0.99999683 0.97731208], error=1.7892229139355897
n=5, y=[0.99999827 0.97296852], error=1.6853503063096649
n=6, y=[0.99999965 0.96063227], error=1.313058409889357
n=7, y=[1.         0.90923445], error=0.7019131499534418
n=8, y=[1.         0.98709431], error=0.959890225239693
n=9, y=[1.        0.9873777], error=0.9618260408136913
n=10, y=[1.         0.98738901], error=0.9625939045295726
n=11, y=[1.         0.98716436], error=0.9623867829596695
n=12, y=[1.         0.98668846], error=0.9612162059671916
n=13, y=[1.         0.98589293], error=0.9589322975922829
n=14, y=[1.         0.98462473], error=0.9551587440494931
n=15, y=[1.         0.98255138], error=0.9490795470071106
n=16, y=[1.         0.97886116], error=0.9387911722297756
n=17, y=[1.         0.971038

In [17]:
# Все тоже самое, но делаем 8 итераций обучения
x0 = np.array([2.0, -4.0])
W1 = np.array([[4.0, -2.0], [-1.0, -2.0]])
y_true = np.array([0.0, 1.0])
# коэффициент шага обучения
k = 0.2
y = dense_layer(x0, W1)
e = mse(x0, W1, y_true)
grad_value = mse_grad(x0, W1, y_true)
grad_prev = grad_value
p_prev = grad_value
for i in range(64):
    y = dense_layer(x0, W1)
    e = mse(x0, W1, y_true)
    grad_value = mse_grad(x0, W1, y_true)
    beta = np.dot(grad_value, grad_value) / np.dot(grad_prev, grad_prev)
    p = grad_value + beta * p_prev
    W1 = W1 - k * p
    grad_prev = grad_value
    p_prev = p
    print(f"y={y}, error={e}")


y=[0.99999386 0.98201379], error=1.8720128308662338
y=[0.99999424 0.98155153], error=1.8651951470438979
y=[0.99999485 0.98076658], error=1.8530053373239983
y=[0.99999569 0.97949076], error=1.8314128354920884
y=[0.99999683 0.97731208], error=1.7892229139355897
y=[0.99999827 0.97296852], error=1.6853503063096649
y=[0.99999965 0.96063227], error=1.313058409889357
y=[1.         0.90923445], error=0.7019131499534418
y=[1.         0.98709431], error=0.959890225239693
y=[1.        0.9873777], error=0.9618260408136913
y=[1.         0.98738901], error=0.9625939045295726
y=[1.         0.98716436], error=0.9623867829596695
y=[1.         0.98668846], error=0.9612162059671916
y=[1.         0.98589293], error=0.9589322975922829
y=[1.         0.98462473], error=0.9551587440494931
y=[1.         0.98255138], error=0.9490795470071106
y=[1.         0.97886116], error=0.9387911722297756
y=[1.         0.97103871], error=0.9188874369706159
y=[1.         0.94679669], error=0.8670627777640111
y=[1.         0.