In [13]:
import torch

In [14]:
# Сперва создадим тензор x:
x = torch.tensor([[10., 20.]])
print("x", x.shape)

# Оригинальный полносвязный слой с 2-мя входами и 3-мя нейронами (выходами):
fc = torch.nn.Linear(2, 3)

# Веса fc-слоя хранятся в fc.weight, а bias'ы соответственно в fc.bias
# fc.weight и fc.bias по умолчанию инициализируются случайными числами

# Давайте проставим свои значения в веса и bias'ы:
w = torch.tensor([[11., 12.], [21., 22.], [31., 32]])
print("w", w.shape)
print("w.T", w.transpose(0,1).shape)
fc.weight.data = w

b = torch.tensor([[31., 32., 33.]])
print("b", b.shape)
fc.bias.data = b

# Получим выход fc-слоя:
fc_out = fc(x)

x torch.Size([1, 2])
w torch.Size([3, 2])
w.T torch.Size([2, 3])
b torch.Size([1, 3])


In [15]:
# Попробуем теперь получить аналогичные выходы с помощью матричного перемножения:
print("x * w.T", torch.matmul(x, w.transpose(0, 1)).shape)
fc_out_alternative =  torch.add(torch.matmul(x, w.transpose(0, 1)), b) # x * w^T + b

# Проверка осуществляется автоматически вызовом функции
print(fc_out == fc_out_alternative)
# (раскомментируйте, если решаете задачу локально)

x * w.T torch.Size([1, 3])
tensor([[True, True, True]])


In [16]:
# Просуммируем выход fc-слоя, чтобы получить скаляр:
fc_out_summed = fc_out.sum()
print("fc_out_summed", fc_out_summed)

# Посчитаем градиенты формулы fc_out_summed:
fc_out_summed.backward()
weight_grad = fc.weight.grad
bias_grad = fc.bias.grad

# Ok, теперь воспроизведем вычисления выше но без fc-слоя:
# Проставим, что у "w" и "b" нужно вычислять градиенты (для fc-слоя это произошло автоматически):
w.requires_grad_(True)
b.requires_grad_(True)

# Получим выход нашей формулы:
our_formula = torch.add(torch.matmul(x, w.transpose(0, 1)), b).sum() # SUM{x * w^T + b}
print("our_formula", our_formula)
# Сделайте backward для нашей формулы:
our_formula.backward()

# Проверка осуществляется автоматически, вызовом функций:
print('fc_weight_grad:', weight_grad)
print('our_weight_grad:', w.grad)
print('fc_bias_grad:', bias_grad)
print('out_bias_grad:', b.grad)
# (раскомментируйте, если работаете над задачей локально)

fc_out_summed tensor(2046., grad_fn=<SumBackward0>)
our_formula tensor(2046., grad_fn=<SumBackward0>)
fc_weight_grad: tensor([[10., 20.],
        [10., 20.],
        [10., 20.]])
our_weight_grad: tensor([[10., 20.],
        [10., 20.],
        [10., 20.]])
fc_bias_grad: tensor([[1., 1., 1.]])
out_bias_grad: tensor([[1., 1., 1.]])
