In [2]:
import numpy as np
import torch

Посчитаем с помощью pytorch производные простых функций:

$$y = ax + b$$

$$y'_x = a$$

In [3]:
x = torch.tensor(5.0, requires_grad=True)
assert x.grad is None

In [4]:
y = 10 * x - 1
print(f"{x.grad = }")

x.grad = None


In [5]:
y.backward()
print(f"{x.grad = }")

x.grad = tensor(10.)


$$y = \sin(x)$$

$$y' = \cos(x)$$

In [7]:
x = torch.tensor(np.pi, requires_grad=True)
y = torch.sin(x)
y.backward()

print(f"{x.grad = }")

x.grad = tensor(-1.)


$$y = \ln(x)$$

$$y' = \frac{1}{x}$$

In [8]:
x = torch.tensor(10.0, requires_grad=True)
y = torch.log(x)
y.backward()

print(f"{x.grad = }")

x.grad = tensor(0.1000)


Попробуем посчитать такой же градиент еще раз:

<!-- x.grad.zero_() -->

In [20]:
x.grad.zero_()
y = torch.log(x)
y.backward()

print(f"{x.grad = }")

x.grad = tensor(0.1000)


Вывод: не забываем на каждом шаге градиентного спуска обнулять градиенты наших параметров.

$$y = \exp(- \frac{x^2 - x + 1}{\cos^2 ( \ln x)})$$

$$y' = 😉$$

In [21]:
x = torch.tensor(1.0, requires_grad=True)

numerator = x ** 2 - x + 1
denominator = torch.cos( torch.log(x) ) ** 2
fraction = numerator / denominator
y = torch.exp(-fraction)
y.backward()

print(f"{x.grad = }")

x.grad = tensor(-0.3679)


$$y = 2x_1 + 3x_2$$

$$\frac{\partial}{\partial x_1}y = 2$$
$$\frac{\partial}{\partial x_2}y = 3$$

In [22]:
x = torch.tensor([10.0, -10.0], requires_grad=True)
y = torch.dot(
    x,
    torch.tensor([2.0, 3.0])
)
y.backward()

print(f"{x.grad = }")

x.grad = tensor([2., 3.])


Посчитаем градиент для линейной регресии и квадратичной функции потерь:

$$x=(3, 5)\quad y = 100\quad w=(10, 10)$$
$$a(x, w) = x_1 w_1 + x_2 w_2$$
$$Q(w) = \Big ( a(x, w) - y \Big )^ 2 = \Big ( x_1 w_1 + x_2 w_2 - y \Big )^ 2$$

$$\frac{\partial}{\partial w_1} Q = 2x_1\Big ( x_1 w_1 + x_2 w_2 - y \Big ) = -120$$
$$\frac{\partial}{\partial w_2} Q = 2x_2\Big ( x_1 w_1 + x_2 w_2 - y \Big ) = -200$$

In [23]:
w = torch.tensor([10.0, 10.0], requires_grad=True)
x = [3.0, 5.0]
y = 100
a = torch.dot(
    w,
    torch.tensor(x)
)
Q = (y - a) ** 2
Q.backward()

print(f"{w.grad = }")

w.grad = tensor([-120., -200.])


Таким образом, в атрибуте `grad` лежит градиент (вектор из производных) тензора, у которого применили метод `backward()` по элементам данного тензора.