In [2]:
import torch
import numpy as np

In [32]:
x = np.arange(1, 13).reshape(3, 4)*1.0
x = torch.Tensor(x)
x

tensor([[ 1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.],
        [ 9., 10., 11., 12.]])

In [40]:
# requires_grad=True показывае, что в дальнейшем будем считать производные
# то есть по сути он превращают константу в переменную, чтобы можно было считать производные
x.requires_grad=True
x

tensor([[ 1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.],
        [ 9., 10., 11., 12.]], requires_grad=True)

In [36]:
function = 10 * (x**2).sum()

In [37]:
# метод backward вычисляет производную с конца

function.backward()

In [39]:
# в самом тензоре х в итоге хранится значение проихводной, через атрибут .grad
x.grad 

tensor([[ 20.,  40.,  60.,  80.],
        [100., 120., 140., 160.],
        [180., 200., 220., 240.]])

In [41]:
x

tensor([[ 1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.],
        [ 9., 10., 11., 12.]], requires_grad=True)

In [53]:
torch.log(x)

tensor([[0.0000, 0.6931, 1.0986, 1.3863],
        [1.6094, 1.7918, 1.9459, 2.0794],
        [2.1972, 2.3026, 2.3979, 2.4849]], grad_fn=<LogBackward0>)

In [69]:
import torch
from torch import log, prod
import numpy as np

w =  torch.tensor([[5, 10], [1, 2]], requires_grad=True, dtype=torch.float)
function = prod(torch.log1p(torch.log1p(w + 7)))
function.backward()

print(w.grad) # Код для самопроверки

tensor([[0.0407, 0.0252],
        [0.0717, 0.0608]])


In [72]:
# нам не хватает обновления весов тензора х

x.data # сами !!! данные в тензоре,  для него обновляем веса!!

x.data = x.data - 0.001 * x.grad

In [73]:
# если не обнулять градиент, то он будет накапливаться, исправим это

x.grad.zero_() # это важно, очищать на каждом шаге!!!

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

In [74]:
x

tensor([[ 0.9800,  1.9600,  2.9400,  3.9200],
        [ 4.9000,  5.8800,  6.8600,  7.8400],
        [ 8.8200,  9.8000, 10.7800, 11.7600]], requires_grad=True)

In [83]:
# Реализуем это в виде функций

w =  torch.tensor([[5, 10], [1, 2]], requires_grad=True, dtype=torch.float)

def function_loss(variable):
    return 10 * (variable**2).sum()

def grad_step(variable, function):
    func = function(variable)
    func.backward()
    variable.data -= 0.001 * variable.grad
    variable.grad.zero_()
    
for _ in range(10):
    grad_step(w, function_loss)
    print(w)


tensor([[4.9000, 9.8000],
        [0.9800, 1.9600]], requires_grad=True)
tensor([[4.8020, 9.6040],
        [0.9604, 1.9208]], requires_grad=True)
tensor([[4.7060, 9.4119],
        [0.9412, 1.8824]], requires_grad=True)
tensor([[4.6118, 9.2237],
        [0.9224, 1.8447]], requires_grad=True)
tensor([[4.5196, 9.0392],
        [0.9039, 1.8078]], requires_grad=True)
tensor([[4.4292, 8.8584],
        [0.8858, 1.7717]], requires_grad=True)
tensor([[4.3406, 8.6813],
        [0.8681, 1.7363]], requires_grad=True)
tensor([[4.2538, 8.5076],
        [0.8508, 1.7015]], requires_grad=True)
tensor([[4.1687, 8.3375],
        [0.8337, 1.6675]], requires_grad=True)
tensor([[4.0854, 8.1707],
        [0.8171, 1.6341]], requires_grad=True)


In [None]:
# optimizer

optimizer = torch.optim.SGD([w], lr=0.001) # некотрая обертка над x


In [88]:
# Реализуем это в виде функций

w =  torch.tensor([[5, 10], [1, 2]], requires_grad=True, dtype=torch.float)
optimizer = torch.optim.SGD([w], lr=0.001) # некотрая обертка над x


def function_loss(variable):
    return 10 * (variable**2).sum()

def grad_step(variable, function):
    func = function(variable)
    func.backward()
    optimizer.step()
    optimizer.zero_grad()
    
for _ in range(10):
    grad_step(w, function_loss)
    print(w)


tensor([[4.9000, 9.8000],
        [0.9800, 1.9600]], requires_grad=True)
tensor([[4.8020, 9.6040],
        [0.9604, 1.9208]], requires_grad=True)
tensor([[4.7060, 9.4119],
        [0.9412, 1.8824]], requires_grad=True)
tensor([[4.6118, 9.2237],
        [0.9224, 1.8447]], requires_grad=True)
tensor([[4.5196, 9.0392],
        [0.9039, 1.8078]], requires_grad=True)
tensor([[4.4292, 8.8584],
        [0.8858, 1.7717]], requires_grad=True)
tensor([[4.3406, 8.6813],
        [0.8681, 1.7363]], requires_grad=True)
tensor([[4.2538, 8.5076],
        [0.8508, 1.7015]], requires_grad=True)
tensor([[4.1687, 8.3375],
        [0.8337, 1.6675]], requires_grad=True)
tensor([[4.0854, 8.1707],
        [0.8171, 1.6341]], requires_grad=True)
