In [20]:
import torch
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('dark_background')

In [21]:
torch.__version__

'2.1.0+cpu'

In [22]:
np.array([10])

array([10])

In [23]:
x = torch.tensor([2.0], requires_grad=True)
y = torch.sin(x)
y.backward()  # Computes gradients
print(x.grad) 

tensor([-0.4161])


In [24]:
x.stride()

(1,)

In [25]:
A = torch.ones(10,10)
B = A.t()
print(A.stride(), B.stride())

(10, 1) (1, 10)


In [26]:
B[1] = 10
A

tensor([[ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1., 10.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.]])

In [27]:
dump = lambda **kwargs: kwargs

In [28]:
dump(**{'x':3,'c': 4})

{'x': 3, 'c': 4}

In [29]:
f = lambda x: 3*x**2 - 4*x

In [30]:
for h in 10**np.arange(-1,-6, -1, dtype=float):
    print(f'h={h:.5f}, numerical limit= {(f(1+h) - f(1)) / h:.5f}')

h=0.10000, numerical limit= 2.30000
h=0.01000, numerical limit= 2.03000
h=0.00100, numerical limit= 2.00300
h=0.00010, numerical limit= 2.00030
h=0.00001, numerical limit= 2.00003


In [31]:
x = torch.arange(4.0, requires_grad=True)
y = 2 * x @ x
y.backward()
dy_dx = x.grad
y, dy_dx

(tensor(28., grad_fn=<DotBackward0>), tensor([ 0.,  4.,  8., 12.]))

In [32]:
x.grad == 4*x

tensor([True, True, True, True])

In [33]:
x.grad.zero_()
y = 2 * x.sum()
y.backward()
x.grad

tensor([2., 2., 2., 2.])

In [34]:
y

tensor(12., grad_fn=<MulBackward0>)

In [35]:
x.sum()

tensor(6., grad_fn=<SumBackward0>)

Invoking backward on a non-scalar elicits an error unless we tell PyTorch how to reduce the object to a scalar. More formally, we need to provide some vector 
 such that backward will compute $\mathbf{v}^\top \partial_{\mathbf{x}} \mathbf{y}$
 rather than $\partial_{\mathbf{x}} \mathbf{y}$


In [36]:
x.grad.zero_()
y = x*x
y.backward(gradient=torch.ones(len(y))) #gradient representing v
x.grad

tensor([0., 2., 4., 6.])

In [37]:
y

tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)

In [38]:
x.grad.zero_()
y = x*x
u = y.detach()
z = u * x

out = z.sum()
out.backward()

x.grad == u

tensor([True, True, True, True])