In [2]:
import torch



In [3]:
# O padrão do pytorch é float 32, mas do numpy é float 64
x = torch.tensor(1., requires_grad=True)

y = 4*x**2

y

tensor(4., grad_fn=<MulBackward0>)

In [4]:
# utiliza backpropagation, calcula gradiente da variável y e armazena em variáveis folhas
y.backward()

dydx = x.grad

dydx

tensor(8.)

In [5]:
def function(x1,x2,x3,x4):
    y = x1*x2 + x3 **2 - x4/x2
    
    return y

def gradient(y,x1,x2,x3,x4):
    
    y.backward()
    grad = [x1.grad, x2.grad, x3.grad, x4.grad]
    
    return grad

x1 = torch.tensor(2., requires_grad=True)
x2 = torch.tensor(3., requires_grad=True)
x3 = torch.tensor(1., requires_grad=True)
x4 = torch.tensor(4., requires_grad=True)

y = function(x1, x2, x3, x4)
grad = gradient(y,x1,x2,x3,x4)

print(grad)

[tensor(3.), tensor(2.4444), tensor(2.), tensor(-0.3333)]


O método y.backward() calcula a gradiente da variável y em relação às variáveis:

        1. a variável que foi utilizada para calcular o valor de y
        2. a variavel possui o atributo requires_grad=True
        3. a variável é folha do grafo de computação

(Variáveis são folha se não foram definidas a partir de calculo com outras variáveis)

In [6]:
def y_func(x):
    return 3*x**2

def z_func(y):
    return y**4


x = torch.tensor(2., requires_grad=True)
y = y_func(x)
z = z_func(y)

y.retain_grad()
z.backward()

print(x.grad)
print(y.grad)

tensor(82944.)
tensor(6912.)


In [33]:
x = torch.tensor(2., requires_grad=True)
y = torch.tensor(5., requires_grad=True)

z = x+y
print(z.grad_fn)

z = x-y
print(z.grad_fn)

z = x/y
print(z.grad_fn)

z = x**y
print(z.grad_fn)

z = x*y
print(z.grad_fn)


<AddBackward0 object at 0x0000020AE0D9ABF0>
<SubBackward0 object at 0x0000020AE1458FA0>
<DivBackward0 object at 0x0000020AE1458FA0>
<PowBackward1 object at 0x0000020AE1458FA0>
<MulBackward0 object at 0x0000020AE1458FA0>


In [34]:
print(z.grad_fn)
print(z.grad_fn._saved_other)
print(z.grad_fn._saved_self)

<MulBackward0 object at 0x0000020AE1459870>
tensor(5., requires_grad=True)
tensor(2., requires_grad=True)


In [41]:
z.grad_fn(torch.tensor(2.))

(tensor(10., grad_fn=<MulBackward0>), tensor(4., grad_fn=<MulBackward0>))

## Detalhes ao trabalhar com pytorch
O pytorch acumula todos os gradientes calculados.

In [75]:
w = torch.tensor(1., requires_grad=True)

lr = 0.1
data = [4, 7 , 2, 8]
for x in data:
    y = w*x
    w.grad = None
    y.backward()
    print(w)
    print(w.grad)
    with torch.no_grad():
        # Desativa o gradiente para poder permitir a atualização da variável para não-folha
        w -= lr*w.grad


tensor(1., requires_grad=True)
tensor(4.)
tensor(0.6000, requires_grad=True)
tensor(7.)
tensor(-0.1000, requires_grad=True)
tensor(2.)
tensor(-0.3000, requires_grad=True)
tensor(8.)


In [65]:
# Copia o espaço de memoria x para y
x = torch.rand(5,requires_grad = True)
y = x
print(x)
print(y)

tensor([0.8158, 0.4766, 0.0148, 0.2619, 0.2250], requires_grad=True)
tensor([0.8158, 0.4766, 0.0148, 0.2619, 0.2250], requires_grad=True)


In [67]:
# Copia apenas o conteudo de x para y
y = x.clone()
print(y)

tensor([0.8158, 0.4766, 0.0148, 0.2619, 0.2250], grad_fn=<CloneBackward0>)


In [69]:
# Para de armazenar o gradiente da variável e copia o conteúdo de x
y = x.detach().clone()
print(y)

tensor([0.8158, 0.4766, 0.0148, 0.2619, 0.2250])


In [73]:
x = torch.tensor(2., requires_grad=True)


with torch.no_grad():
    y = x.clone()
y.requires_grad

False