# torch.nn.Linear functional

In [12]:
import torch

# Сперва создадим тензор x:
x = torch.tensor([[10., 20.]])

# Оригинальный полносвязный слой с 2-мя входами и 3-мя нейронами (выходами):
fc = torch.nn.Linear(2, 3)

# Веса fc-слоя хранятся в fc.weight, а bias'ы соответственно в fc.bias
# fc.weight и fc.bias по умолчанию инициализируются случайными числами

# Давайте проставим свои значения в веса и bias'ы:
w = torch.tensor([[11., 12.], [21., 22.], [31., 32]])
fc.weight.data = w

b = torch.tensor([[31., 32., 33.]])
fc.bias.data = b

# Получим выход fc-слоя:
fc_out = fc(x)
print ('x@w + b = ', (x@w.T + b))
print ('fc_out = ', fc_out)
# print ('transposed w shape: ', (torch.transpose(w,0,1)).shape)
# Попробуем теперь получить аналогичные выходы с помощью матричного перемножения:
# fc_out_alternative =  x * w + torch.transpose(b,0,1)  #w^T + b
fc_out_alternative =  x @ w.T + b  #w^T + b

print ('fc_out_alternative shape: ', fc_out_alternative.shape)
print ('fc_out shape: ', fc_out.shape)
# Проверка осуществляется автоматически вызовом функции
print(fc_out == fc_out_alternative)
# (раскомментируйте, если решаете задачу локально)

x@w + b =  tensor([[381., 682., 983.]])
fc_out =  tensor([[381., 682., 983.]], grad_fn=<AddmmBackward0>)
fc_out_alternative shape:  torch.Size([1, 3])
fc_out shape:  torch.Size([1, 3])
tensor([[True, True, True]])


In [15]:
import torch

# Сперва создадим тензор x:
x = torch.tensor([[10., 20.]])

# Оригинальный полносвязный слой с 2-мя входами и 3-мя нейронами (выходами):
fc = torch.nn.Linear(2, 3)

# Веса fc-слоя хранятся в fc.weight, а bias'ы соответственно в fc.bias
# fc.weight и fc.bias по умолчанию инициализируются случайными числами

# Давайте проставим свои значения в веса и bias'ы:
w = torch.tensor([[11., 12.], [21., 22.], [31., 32]])
fc.weight.data = w

b = torch.tensor([[31., 32., 33.]])
fc.bias.data = b

# Получим выход fc-слоя:
fc_out = fc(x)
# Просуммируем выход fc-слоя, чтобы получить скаляр:
fc_out_summed = fc_out.sum()

# Посчитаем градиенты формулы fc_out_summed:
fc_out_summed.backward()
weight_grad = fc.weight.grad
bias_grad = fc.bias.grad

# Ok, теперь воспроизведем вычисления выше но без fc-слоя:
# Проставим, что у "w" и "b" нужно вычислять градиенты (для fc-слоя это произошло автоматически):
w.requires_grad_(True)
b.requires_grad_(True)

# Получим выход нашей формулы:
our_formula = x @ w.T + b # SUM{x * w^T + b}

# Сделайте backward для нашей формулы:
our_formula_summ = our_formula.sum()
our_formula_summ.backward()
our_weight_grad = fc.weight.grad
our_bias_grad = fc.bias.grad

# Проверка осуществляется автоматически, вызовом функций:
print('fc_weight_grad:', weight_grad)
print('our_weight_grad:', w.grad)
print('fc_bias_grad:', bias_grad)
print('our_bias_grad:', b.grad)
# (раскомментируйте, если работаете над задачей локально)

fc_weight_grad: tensor([[10., 20.],
        [10., 20.],
        [10., 20.]])
our_weight_grad: tensor([[10., 20.],
        [10., 20.],
        [10., 20.]])
fc_bias_grad: tensor([[1., 1., 1.]])
our_bias_grad: tensor([[1., 1., 1.]])
