In [1]:
import numpy as np
import random
import torch
import torch.nn as nn

In [2]:
dtype = torch.float
device = torch.device("cpu")

batch_size = 64
input_size = 3
hidden_size = 2
output_size = 1

learning_rate = 1e-6

In [3]:
x = torch.randn(batch_size, input_size, device=device, dtype=dtype)
y = torch.randn(batch_size, output_size, device=device, dtype=dtype)

w1_auto = torch.randn(input_size, hidden_size, device=device, dtype=dtype, requires_grad=True)
w2_auto= torch.randn(hidden_size, output_size, device=device, dtype=dtype, requires_grad=True)

w1_manual = w1_auto.clone()
w2_manual = w2_auto.clone()


b1_auto = torch.randn(1, 2, device=device, dtype=dtype, requires_grad=True)
b2_auto = torch.randn(1, device=device, dtype=dtype, requires_grad=True)

b1_manual = b1_auto.clone()
b2_manual = b2_auto.clone()

### Manually

In [4]:
for t in range(500):
    # Forward pass:

    h_1 = x.mm(w1_manual) + b1_manual
    h_relu = h_1.clamp(min=0)
    out = h_relu.mm(w2_manual) + b2_manual
    
    # Compute and print loss
    loss = (out - y).pow(2).sum().item()
    if t % 100 == 99:
        print('LOSS:',loss)
    
    # Backward pass: 
    dloss_dout = 2 * (out - y)
    
    grad_w2_manual = h_relu.T.mm(dloss_dout) 
    
    grad_h_relu = dloss_dout.mm(w2_manual.T)
    
    grad_h_relu[h_1 < 0] = 0
    
    grad_w1_manual = x.T.mm(grad_h_relu)
    
    grad_b1_manual = grad_h_relu
    grad_b2_manual = dloss_dout
       
    with torch.no_grad():
        w1_manual -= learning_rate * grad_w1_manual
        w2_manual -= learning_rate * grad_w2_manual
        
        b1_manual -= learning_rate * torch.sum(grad_b1_manual, dim=0)
        b2_manual -= learning_rate * torch.sum(grad_b2_manual, dim=0)
        
    if t % 100 == 99:
        print('B1',torch.sum(grad_b1_manual, dim=0).detach().numpy(), 'B2',torch.sum(grad_b2_manual, dim=0).detach().numpy(),'\n')
#         print(grad_w1_manual)

LOSS: 73.56558227539062
B1 [15.048255   1.0010177] B2 [67.00683] 

LOSS: 70.79010772705078
B1 [13.287901    0.94068897] B2 [63.19552] 

LOSS: 68.35774993896484
B1 [11.740544    0.88444906] B2 [59.629677] 

LOSS: 66.22496795654297
B1 [10.379638  0.831991] B2 [56.292084] 

LOSS: 64.35396575927734
B1 [9.182055   0.78302985] B2 [53.166954] 



### AutoGrad

In [5]:

for t in range(500):
    y_pred = (x.mm(w1_auto) + b1_auto).clamp(min=0).mm(w2_auto) + b2_auto

    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print('LOSS:', loss.item())
    
    # Теперь подсчет градиентов для весов происходит при вызове backward
    loss.backward()
   
    # Обновляем значение весов, но укзаываем, чтобы PyTorch не считал эту операцию, 
    # которая бы учавствовала бы при подсчете градиентов в chain rule
    with torch.no_grad():
        w1_auto -= learning_rate * w1_auto.grad
        w2_auto -= learning_rate * w2_auto.grad
        b1_auto -= learning_rate * b1_auto.grad
        b2_auto -= learning_rate * b2_auto.grad
        
        if t % 100 == 99:
#             print(b1.grad, b2.grad)
#             print(w1_auto.grad)
            print('B1', b1_auto.grad.detach().numpy(), 'B2', b2_auto.grad.detach().numpy(), '\n')
        # Теперь обнуляем значение градиентов, чтобы на следующем шаге 
        # они не учитывались при подсчете новых градиентов,
        # иначе произойдет суммирвоание старых и новых градиентов
        w1_auto.grad.zero_()
        w2_auto.grad.zero_()
        b1_auto.grad.zero_()
        b2_auto.grad.zero_()
        

LOSS: 73.56558227539062
B1 [[15.048255   1.0010177]] B2 [67.00683] 

LOSS: 70.79010772705078
B1 [[13.287901    0.94068897]] B2 [63.19552] 

LOSS: 68.35774993896484
B1 [[11.740544    0.88444906]] B2 [59.629677] 

LOSS: 66.22496795654297
B1 [[10.379638  0.831991]] B2 [56.292084] 

LOSS: 64.35396575927734
B1 [[9.182055   0.78302985]] B2 [53.166954] 



### Получаются одинаковые градиенты