In [3]:
import numpy as np
# N - размер батча, 
# D_in - размерность входного слоя
# H - размерность скрытого слоя
# D_out - размерность выходного слоя
N, D_in, H, D_out = 64, 1000, 100, 10

# Создаём случайные входные данные и выходные данные
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# Инициализируем случайным образом веса
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

# Настраиваем параметры обучения
learning_rate = 1e-6
epochs = 500

# Описываем цикл обучения
for epoch in range(epochs):
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)
    
    # подсчитываем loss
    loss = np.square(y_pred - y).sum()
    print(epoch, loss)
    
    # Backproping, чтобы подсчитать dL/dw1; dl/dw2
    grad_y_pred = 2 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)
    
    # обновляем веса
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 28051797.329232562
1 23931208.22344046
2 23542614.18892489
3 23408498.551968083
4 21422103.837112475
5 17142518.849975973
6 11938358.443706807
7 7444777.068303665
8 4417414.444738898
9 2640979.611424666
10 1666136.4984679765
11 1131366.2220868915
12 826717.8039549686
13 641080.9495490635
14 518573.99343109626
15 431371.2703409762
16 365509.0238187737
17 313468.2032678287
18 271124.067404908
19 235951.54145159913
20 206350.00618635415
21 181222.62728973705
22 159802.1048421493
23 141373.58081658307
24 125450.15252979532
25 111623.51836291935
26 99570.37293338255
27 89036.29457790358
28 79795.9618657381
29 71671.20209554258
30 64512.60237354849
31 58177.17209626183
32 52560.50447373785
33 47566.9326328094
34 43120.8860146566
35 39149.25521968766
36 35595.39116500631
37 32410.793773484635
38 29550.403989945087
39 26979.195324329987
40 24663.243322417795
41 22573.594520204708
42 20685.419809987892
43 18976.122176769255
44 17425.947428134918
45 16020.600071619667
46 14743.189639444394
47 

In [7]:
import torch

dtype = torch.float
device = torch.device('cuda:0')
N, D_in, H, D_out = 64, 1000, 100, 10

#Аналогично генерируем данные
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# Генерируем веса
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

# Настраиваем параметры обучения
lr = 1e-6
epochs = 500

# Запускаем обучающий цикл
for epoch in range(epochs):
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)
    
    # Подсчитаем loss
    loss = (y_pred - y).pow(2).sum().item()
    print(epoch, loss)
    
    # Подсчитаем градиенты
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)
    
    # Обновляем веса
    w1 -= lr * grad_w1
    w2 -= lr * grad_w2
    

0 29461972.0
1 26082846.0
2 25723544.0
3 24630016.0
4 21053866.0
5 15547498.0
6 10022070.0
7 5972076.0
8 3509021.5
9 2156890.5
10 1427217.375
11 1022271.875
12 781352.625
13 626164.5625
14 518029.28125
15 437557.46875
16 374728.125
17 324041.5625
18 282239.9375
19 247254.78125
20 217683.78125
21 192457.28125
22 170828.5625
23 152198.15625
24 136049.625
25 122007.6328125
26 109740.46875
27 98985.46875
28 89527.703125
29 81176.5703125
30 73782.953125
31 67214.796875
32 61365.4140625
33 56141.1484375
34 51458.9921875
35 47258.03125
36 43480.53125
37 40075.0390625
38 36998.0703125
39 34211.87109375
40 31688.28515625
41 29394.611328125
42 27304.8984375
43 25398.375
44 23656.169921875
45 22061.65625
46 20599.37109375
47 19255.4453125
48 18018.73046875
49 16878.28125
50 15825.970703125
51 14853.3984375
52 13953.12109375
53 13118.9365234375
54 12344.537109375
55 11625.185546875
56 10956.14453125
57 10332.83984375
58 9752.2734375
59 9210.20703125
60 8703.861328125
61 8230.7861328125
62 7787.861

## Преимущество использования автограда

In [21]:
import torch

dtype = torch.float
device = torch.device('cuda:0')
N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

lr = 1e-6
epochs = 500
losses = []
for epoch in range(epochs):
    # Так же проходим forward pass, но теперь нет необходимости хранить промежуточные значения
    # потому что мы будем использовать автоград
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    
    loss = (y_pred - y).pow(2).sum()
    print(epoch, loss)
    
    loss.backward()
    
    with torch.no_grad():
        w1 -= lr * w1.grad
        w2 -= lr * w2.grad
    w1.grad.zero_()
    w2.grad.zero_()
    losses.append(loss.item())
    
    


0 tensor(38434096., device='cuda:0', grad_fn=<SumBackward0>)
1 tensor(41306388., device='cuda:0', grad_fn=<SumBackward0>)
2 tensor(51119088., device='cuda:0', grad_fn=<SumBackward0>)
3 tensor(54829600., device='cuda:0', grad_fn=<SumBackward0>)
4 tensor(42874892., device='cuda:0', grad_fn=<SumBackward0>)
5 tensor(21843110., device='cuda:0', grad_fn=<SumBackward0>)
6 tensor(8351170., device='cuda:0', grad_fn=<SumBackward0>)
7 tensor(3291554.5000, device='cuda:0', grad_fn=<SumBackward0>)
8 tensor(1782699.7500, device='cuda:0', grad_fn=<SumBackward0>)
9 tensor(1256270., device='cuda:0', grad_fn=<SumBackward0>)
10 tensor(997637.7500, device='cuda:0', grad_fn=<SumBackward0>)
11 tensor(826857.2500, device='cuda:0', grad_fn=<SumBackward0>)
12 tensor(697299.3750, device='cuda:0', grad_fn=<SumBackward0>)
13 tensor(593602.1250, device='cuda:0', grad_fn=<SumBackward0>)
14 tensor(508864.9375, device='cuda:0', grad_fn=<SumBackward0>)
15 tensor(438802.0938, device='cuda:0', grad_fn=<SumBackward0>)
16

In [17]:
import torch
import torch.optim as optim

dtype = torch.float
device = torch.device('cuda:0')
N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

lr = 1e-3
epochs = 500
optimizer = optim.RMSprop([w1, w2], lr=lr)

for epoch in range(epochs):
    # Так же проходим forward pass, но теперь нет необходимости хранить промежуточные значения
    # потому что мы будем использовать автоград
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    
    loss = (y_pred - y).pow(2).sum()
    print(epoch, loss)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    


0 tensor(32795936., device='cuda:0', grad_fn=<SumBackward0>)
1 tensor(25020650., device='cuda:0', grad_fn=<SumBackward0>)
2 tensor(20667412., device='cuda:0', grad_fn=<SumBackward0>)
3 tensor(17617548., device='cuda:0', grad_fn=<SumBackward0>)
4 tensor(15294176., device='cuda:0', grad_fn=<SumBackward0>)
5 tensor(13443612., device='cuda:0', grad_fn=<SumBackward0>)
6 tensor(11922718., device='cuda:0', grad_fn=<SumBackward0>)
7 tensor(10648485., device='cuda:0', grad_fn=<SumBackward0>)
8 tensor(9559418., device='cuda:0', grad_fn=<SumBackward0>)
9 tensor(8618542., device='cuda:0', grad_fn=<SumBackward0>)
10 tensor(7802354., device='cuda:0', grad_fn=<SumBackward0>)
11 tensor(7085511.5000, device='cuda:0', grad_fn=<SumBackward0>)
12 tensor(6449344., device='cuda:0', grad_fn=<SumBackward0>)
13 tensor(5885885., device='cuda:0', grad_fn=<SumBackward0>)
14 tensor(5383743., device='cuda:0', grad_fn=<SumBackward0>)
15 tensor(4933069.5000, device='cuda:0', grad_fn=<SumBackward0>)
16 tensor(4526313.