# PyTorch. Основы: синтаксис, torch.cuda и torch.autograd

На этом занятии мы рассмотрим основы фреймворка глубокого обучения PyTorch.  

Инструкция по установке PyTorch есть на [официальном сайте PyTorch](https://pytorch.org/).

## Синтаксис

In [1]:
import torch

Сначала немного фактов про PyTorch:  
- динамический граф вычислений
- удобные модули `torch.nn` и `torchvision` для написания нейросетей с минимальными усилиями
- в некоторых задачах даже быстрее TensorFlow
- легко проводить вычисления на GPU

Если PyTorch представить формулой, то она будет такой:  

$$PyTorch = NumPy + CUDA + Autograd$$

Посмотрим, как в PyTorch выполняются операции с тензорами.  

**Тензором** называется многомерный вектор, то есть:  

x = np.array([1,2,3]) - вектор = тензор размерности 1 (то есть (1,))  
y = np.array([[1, 2, 3], [4, 5, 6]]) - матрица = тензор размерности 2 (в данном случае тензор (2, 3))  
z = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]],  
    [[1, 2, 3], [4, 5, 6], [7, 8, 9]],  
              [[1, 2, 3], [4, 5, 6], [7, 8, 9]]]) - "кубик" (3, 3, 3) = тензор размерности 3 (в данном случае (3, 3, 3))

Простейшим примером 3-мерного тензора является **картинка** - это "параллелепипед" из чисел, у которого три размерности - высота, ширина и количество каналов, значит это тензор размерности 3.

Понятие тензора нужно знать потому, что в PyTorch мы оперируем переменными типа `torch.Tensor` (`FloatTensor`, `IntTensor`, `ByteTensor`), и пугаться их названий совершенно не нужно - это просто векторы, у которых несколько размерностей.

Все типы тензоров:

In [None]:
torch.HalfTensor      # 16 бит, с плавающей точкой
torch.FloatTensor     # 32 бита,  с плавающей точкой
torch.DoubleTensor    # 64 бита, с плавающей точкой

torch.ShortTensor     # 16 бит, целочисленный, знаковый
torch.IntTensor       # 32 бита, целочисленный, знаковый
torch.LongTensor      # 64 бита, целочисленный, знаковый

torch.CharTensor      # 8 бит, целочисленный, знаковый
torch.ByteTensor      # 8 бит, целочисленный, беззнаковый

Мы будем использовать только `torch.FloatTensor()` и `torch.IntTensor()`. 

Перейдём к делу:

* Создание тензоров:

In [2]:
a = torch.FloatTensor([1, 2])
a

tensor([1., 2.])

In [3]:
a.shape

torch.Size([2])

In [4]:
b = torch.FloatTensor([[1,2,3], [4,5,6]])
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

In [5]:
b.shape

torch.Size([2, 3])

In [6]:
x = torch.FloatTensor(2,3,4)

In [None]:
x

tensor([[[1.0833e-35, 0.0000e+00, 7.0065e-44, 6.7262e-44],
         [6.3058e-44, 6.8664e-44, 6.8664e-44, 6.3058e-44],
         [7.0065e-44, 6.7262e-44, 1.1771e-43, 6.8664e-44]],

        [[7.7071e-44, 8.1275e-44, 6.7262e-44, 6.8664e-44],
         [8.1275e-44, 6.8664e-44, 7.2868e-44, 6.4460e-44],
         [7.8473e-44, 7.1466e-44, 7.4269e-44, 7.1466e-44]]])

In [7]:
x = torch.FloatTensor(100)
x

tensor([1.7805e-35, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00,
        0.0000e+00, 0.0000e+00, 0.0000e+

In [8]:
x = torch.IntTensor(45, 57, 14, 2)
x.shape

torch.Size([45, 57, 14, 2])

**Обратите внимание** - если вы создаёте тензор через задание размерностей (как в примере выше), то он изначально заполняюстя случайным "мусором". Что инициализировать нулями, нужно написать .zero_() в конце:

In [9]:
x = torch.IntTensor(3, 2, 4)
x

tensor([[[107069824,         0,        50,        48],
         [       45,        49,        49,        45]],

        [[       51,        48,        84,        49],
         [       48,        58,        53,        53]],

        [[       58,        48,        49,        46],
         [       54,        55,        57,        56]]], dtype=torch.int32)

In [10]:
x = torch.IntTensor(3, 2, 4).zero_()
x

tensor([[[0, 0, 0, 0],
         [0, 0, 0, 0]],

        [[0, 0, 0, 0],
         [0, 0, 0, 0]],

        [[0, 0, 0, 0],
         [0, 0, 0, 0]]], dtype=torch.int32)

Аналог функции `np.reshape()` == `torch.view()`:

In [11]:
b.view(3, 2)

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])

In [None]:
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

**Обратите внимание** - torch.view() создаёт новый тензор, а не изменяет старый!

In [12]:
b.view(-1)

tensor([1., 2., 3., 4., 5., 6.])

In [13]:
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

* Изменение типа тензора:

In [14]:
a = torch.FloatTensor([1.5, 3.2, -7])

In [15]:
a.type_as(torch.IntTensor())

tensor([ 1,  3, -7], dtype=torch.int32)

In [16]:
a.type_as(torch.ByteTensor())

tensor([  1,   3, 249], dtype=torch.uint8)

Обратите внимание, что при `.type_as()` создаётся новый тензор (старый не меняется), то есть это не in-place операция:

In [17]:
a

tensor([ 1.5000,  3.2000, -7.0000])

* Индексация точная такая же, как и в NumPy:

In [18]:
a = torch.FloatTensor([[100, 20, 35], [15, 163, 534], [52, 90, 66]])
a

tensor([[100.,  20.,  35.],
        [ 15., 163., 534.],
        [ 52.,  90.,  66.]])

In [19]:
a[0, 0]

tensor(100.)

In [20]:
a[0][0]

tensor(100.)

In [21]:
a[0:2, 0:2]

tensor([[100.,  20.],
        [ 15., 163.]])

**Арифметика и булевы операции** работаю также, как и в NumPy, **НО** лучше использовать не опреаторы `+`, `-`, `*`, `/`, а их аналоги:  

| Оператор | Аналог |
|:-:|:-:|
|`+`| `torch.add()` |
|`-`| `torch.sub()` |
|`*`| `torch.mul()` |
|`/`| `torch.div()` |

* Сложение:

In [22]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [23]:
a + b

tensor([[  0.,   0.,   0.],
        [  0.,   0.,   0.],
        [200., 400., 600.]])

Лучше:

In [24]:
a.add(b)

tensor([[  0.,   0.,   0.],
        [  0.,   0.,   0.],
        [200., 400., 600.]])

In [25]:
b = -a
b

tensor([[  -1.,   -2.,   -3.],
        [ -10.,  -20.,  -30.],
        [-100., -200., -300.]])

In [26]:
a + b

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

* Вычитание:

In [27]:
a - b

tensor([[  2.,   4.,   6.],
        [ 20.,  40.,  60.],
        [200., 400., 600.]])

Лучше:

In [None]:
a.sub(b)

tensor([[  2.,   4.,   6.],
        [ 20.,  40.,  60.],
        [200., 400., 600.]])

* Умножение (поэлементное):

In [None]:
a * b

tensor([[-1.0000e+00, -4.0000e+00, -9.0000e+00],
        [-1.0000e+02, -4.0000e+02, -9.0000e+02],
        [-1.0000e+04, -4.0000e+04, -9.0000e+04]])

Лучше:

In [None]:
a.mul(b)

tensor([[-1.0000e+00, -4.0000e+00, -9.0000e+00],
        [-1.0000e+02, -4.0000e+02, -9.0000e+02],
        [-1.0000e+04, -4.0000e+04, -9.0000e+04]])

* Деление (поэлементное):

In [None]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [None]:
a / b

tensor([[-1., -1., -1.],
        [-1., -1., -1.],
        [ 1.,  1.,  1.]])

Лучше:

In [None]:
a.div(b)

tensor([[-1., -1., -1.],
        [-1., -1., -1.],
        [ 1.,  1.,  1.]])

Заметьте, все эти операции **не меняют исходные тензоры**, а **создают новые**:

In [None]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [None]:
b

tensor([[ -1.,  -2.,  -3.],
        [-10., -20., -30.],
        [100., 200., 300.]])

* **Операторы сравнения**:

In [28]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [29]:
a == b

tensor([[False, False, False],
        [False, False, False],
        [ True,  True,  True]])

In [30]:
a != b

tensor([[ True,  True,  True],
        [ True,  True,  True],
        [False, False, False]])

In [None]:
a < b

tensor([[False, False, False],
        [False, False, False],
        [False, False, False]])

In [None]:
a > b

tensor([[ True,  True,  True],
        [ True,  True,  True],
        [False, False, False]])

* **Булевы маски**:

In [None]:
a[a > b]

tensor([ 1.,  2.,  3., 10., 20., 30.])

In [None]:
b[a == b]

tensor([100., 200., 300.])

Опять же, тензоры не меняются:

In [None]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [None]:
b

tensor([[ -1.,  -2.,  -3.],
        [-10., -20., -30.],
        [100., 200., 300.]])

Применение **стандартных функций** такое же, как и в numpy - поэлементное:

In [None]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])

In [None]:
a.sin()

tensor([[ 0.8415,  0.9093,  0.1411],
        [-0.5440,  0.9129, -0.9880],
        [-0.5064, -0.8733, -0.9998]])

In [None]:
torch.sin(a)

tensor([[ 0.8415,  0.9093,  0.1411],
        [-0.5440,  0.9129, -0.9880],
        [-0.5064, -0.8733, -0.9998]])

In [None]:
a.cos()

tensor([[ 0.5403, -0.4161, -0.9900],
        [-0.8391,  0.4081,  0.1543],
        [ 0.8623,  0.4872, -0.0221]])

In [None]:
a.exp()

tensor([[2.7183e+00, 7.3891e+00, 2.0086e+01],
        [2.2026e+04, 4.8517e+08, 1.0686e+13],
        [       inf,        inf,        inf]])

In [None]:
a.log()

tensor([[0.0000, 0.6931, 1.0986],
        [2.3026, 2.9957, 3.4012],
        [4.6052, 5.2983, 5.7038]])

In [None]:
b = -a
b

tensor([[  -1.,   -2.,   -3.],
        [ -10.,  -20.,  -30.],
        [-100., -200., -300.]])

In [None]:
b.abs()

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

**Сумма, среднее, максимум, минимум**:

In [None]:
a.sum()

tensor(666.)

In [None]:
a.mean()

tensor(74.)

По осям:

In [None]:
a.sum(0)

tensor([111., 222., 333.])

In [None]:
a.sum(1)

tensor([  6.,  60., 600.])

In [None]:
a.max()

tensor(300.)

In [None]:
a.max(0)

torch.return_types.max(values=tensor([100., 200., 300.]), indices=tensor([2, 2, 2]))

In [None]:
a.min()

tensor(1.)

In [None]:
a.min(0)

torch.return_types.min(values=tensor([1., 2., 3.]), indices=tensor([0, 0, 0]))

Обратите внимание - второй тензор при вызове функций .max() и .min() - это индексы этих максимальных/минимальных элементов по указанной размерности (то есть в данном случае a.min() вернул (1, 2, 3) - минимумы по 0 оси (по столбцам), и их индексы по 0-ой оси (0,0,0) (номер каждого элемента в своём столбце)).

**Матричные операции:**

* Транспонирование матрицы (тензора):

In [None]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [None]:
a.t()

tensor([[  1.,  10., 100.],
        [  2.,  20., 200.],
        [  3.,  30., 300.]])

И снова - сам тензор не меняется (то есть при вызове создаётся новый):

In [None]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

* Скалярное произведение векторов (1-мерных тензоров):

In [None]:
a = torch.FloatTensor([1, 2, 3, 4, 5, 6])
b = torch.FloatTensor([-1, -2, -4, -6, -8, -10])

In [None]:
a.dot(b)

tensor(-141.)

In [None]:
a @ b

tensor(-141.)

In [None]:
type(a)

torch.Tensor

In [None]:
type(b)

torch.Tensor

In [None]:
type(a @ b)

torch.Tensor

* Матричное умножение:

In [None]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [None]:
a.mm(b)

tensor([[  279.,   558.,   837.],
        [ 2790.,  5580.,  8370.],
        [27900., 55800., 83700.]])

In [None]:
a @ b

tensor([[  279.,   558.,   837.],
        [ 2790.,  5580.,  8370.],
        [27900., 55800., 83700.]])

Тензоры неизменны:

In [None]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [None]:
b

tensor([[ -1.,  -2.,  -3.],
        [-10., -20., -30.],
        [100., 200., 300.]])

In [None]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1], [-10], [100]])

In [None]:
print(a.shape, b.shape)

torch.Size([3, 3]) torch.Size([3, 1])


In [None]:
a @ b

tensor([[  279.],
        [ 2790.],
        [27900.]])

Если "развернуть" тензор b просто в массив элементов (`torch.view(-1)`), умножение будет как на столбец:

In [None]:
b

tensor([[ -1.],
        [-10.],
        [100.]])

In [None]:
b.view(-1)

tensor([ -1., -10., 100.])

In [None]:
a @ b.view(-1)

tensor([  279.,  2790., 27900.])

In [None]:
a.mv(b.view(-1))

tensor([  279.,  2790., 27900.])

**Перевод из NumPy в PyTorch**:

In [None]:
import numpy as np

a = np.random.rand(3, 3)
a

array([[0.81713093, 0.61841828, 0.07754066],
       [0.89685556, 0.09221319, 0.46242194],
       [0.29015058, 0.43015601, 0.56769028]])

In [None]:
b = torch.from_numpy(a)
b

tensor([[0.8171, 0.6184, 0.0775],
        [0.8969, 0.0922, 0.4624],
        [0.2902, 0.4302, 0.5677]], dtype=torch.float64)

**НО!** Обратите внимание - a и b в этом случае будут ссылаться на одно и то же значение, то есть измение одного тензора будет менять и другой:

In [None]:
b -= b
b

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]], dtype=torch.float64)

In [None]:
a

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

**Перевод из PyTorch в NumPy:**

In [None]:
a = torch.FloatTensor(2, 3, 4)
a

tensor([[[3.9216e-35, 0.0000e+00, 7.0065e-44, 6.7262e-44],
         [6.3058e-44, 6.8664e-44, 6.8664e-44, 6.3058e-44],
         [7.0065e-44, 7.9874e-44, 1.1771e-43, 6.8664e-44]],

        [[7.4269e-44, 8.1275e-44, 7.1466e-44, 7.2868e-44],
         [8.1275e-44, 7.1466e-44, 7.2868e-44, 6.4460e-44],
         [7.5670e-44, 7.7071e-44, 7.4269e-44, 7.5670e-44]]])

In [None]:
type(a)

torch.Tensor

In [None]:
x = a.numpy()
x

array([[[3.9216328e-35, 0.0000000e+00, 7.0064923e-44, 6.7262326e-44],
        [6.3058431e-44, 6.8663625e-44, 6.8663625e-44, 6.3058431e-44],
        [7.0064923e-44, 7.9874012e-44, 1.1770907e-43, 6.8663625e-44]],

       [[7.4268819e-44, 8.1275311e-44, 7.1466222e-44, 7.2867520e-44],
        [8.1275311e-44, 7.1466222e-44, 7.2867520e-44, 6.4459729e-44],
        [7.5670117e-44, 7.7071416e-44, 7.4268819e-44, 7.5670117e-44]]],
      dtype=float32)

In [None]:
x.shape

(2, 3, 4)

In [None]:
type(x)

numpy.ndarray

Напишем функцию `forward_pass(X, w)` ($w_0$ входит в $w$) для одного нейрона (с сигмоидой) с помощью PyTorch:

In [31]:
def forward_pass(X, w):
    return torch.sigmoid(X @ w)

In [32]:
X = torch.FloatTensor([[-5, 5], [2, 3], [1, -1]])
w = torch.FloatTensor([[-0.5], [2.5]])
result = forward_pass(X, w)
print('result: {}'.format(result))

result: tensor([[1.0000],
        [0.9985],
        [0.0474]])


## <a href="https://ru.wikipedia.org/wiki/CUDA">CUDA</a>

Все вычисления в PyTorch можно проводить как на CPU, так и на GPU (Graphical Processing Unit) (если она у вас есть). В PyTorch переключение между ними делается очень просто, что является одной из ключевых его особенностей.

In [33]:
x = torch.FloatTensor(1024, 1024).uniform_()
x

tensor([[0.3112, 0.1494, 0.1156,  ..., 0.6632, 0.1922, 0.8129],
        [0.3850, 0.2428, 0.2154,  ..., 0.0498, 0.8260, 0.4689],
        [0.8727, 0.6248, 0.1136,  ..., 0.4542, 0.7552, 0.1103],
        ...,
        [0.9833, 0.6292, 0.3958,  ..., 0.6187, 0.7452, 0.7326],
        [0.3819, 0.8338, 0.4708,  ..., 0.4866, 0.4137, 0.9578],
        [0.8838, 0.6843, 0.6487,  ..., 0.5914, 0.9496, 0.9579]])

In [34]:
x.is_cuda

False

Переместим на GPU (для этого в Colab нужно сменить среду выполнения):

In [None]:
import torch

In [35]:
x = torch.FloatTensor(1024, 1024).uniform_()

In [36]:
x = x.cuda()

In [37]:
x.is_cuda

True

In [38]:
x

tensor([[0.8747, 0.9976, 0.5557,  ..., 0.6105, 0.3332, 0.3293],
        [0.0563, 0.4729, 0.5853,  ..., 0.3068, 0.5070, 0.8800],
        [0.2730, 0.8286, 0.4034,  ..., 0.3354, 0.0130, 0.3449],
        ...,
        [0.3243, 0.1082, 0.5432,  ..., 0.4083, 0.7542, 0.0582],
        [0.1658, 0.7816, 0.0411,  ..., 0.7705, 0.9783, 0.0188],
        [0.9070, 0.2796, 0.9944,  ..., 0.0812, 0.5781, 0.6693]],
       device='cuda:0')

Перемножим две тензора на GPu и вернём результат вычисления на CPU:

In [39]:
a = torch.FloatTensor(10000, 10000).uniform_()
b = torch.FloatTensor(10000, 10000).uniform_()
c = a.cuda().mul(b.cuda()).cpu()

In [40]:
c

tensor([[0.7413, 0.0741, 0.2316,  ..., 0.0778, 0.0816, 0.1440],
        [0.0461, 0.1805, 0.3599,  ..., 0.3210, 0.4611, 0.2091],
        [0.5593, 0.3360, 0.1142,  ..., 0.0437, 0.2748, 0.2966],
        ...,
        [0.2446, 0.1219, 0.1367,  ..., 0.7174, 0.1892, 0.1090],
        [0.0491, 0.2520, 0.0674,  ..., 0.2592, 0.3181, 0.1231],
        [0.5892, 0.4373, 0.0093,  ..., 0.4234, 0.2797, 0.2124]])

In [41]:
a

tensor([[0.9432, 0.4678, 0.2821,  ..., 0.7093, 0.2271, 0.2754],
        [0.4494, 0.2067, 0.8169,  ..., 0.3819, 0.7635, 0.4311],
        [0.6196, 0.4269, 0.1636,  ..., 0.2397, 0.7811, 0.5150],
        ...,
        [0.4455, 0.8849, 0.7320,  ..., 0.8337, 0.5345, 0.9923],
        [0.0782, 0.4926, 0.0866,  ..., 0.5649, 0.9305, 0.3911],
        [0.7614, 0.5336, 0.3266,  ..., 0.7190, 0.3164, 0.6617]])

Тензоры, лежащие на CPU, и тензоры, лежащие на GPU, недоступны друг для друга:

In [42]:
a = torch.FloatTensor(10000, 10000).uniform_().cpu()
b = torch.FloatTensor(10000, 10000).uniform_().cuda()

In [43]:
a + b

RuntimeError: ignored

## Autograd

Расшифровывается как Automatic Gradients (автоматическое взятие градиентов) - собственно, из названия понятно, что это модуль PyTorch, отвечающий за взятие производных.  

PyTorch (и любой фреймворк глубокого обучения) может продифференцировать функцию практически любой сложности.

Импортируем нужный класс:

In [44]:
from torch.autograd import Variable

Идея такая: оборачиваем тензор в класс Variable(), получаем тоже тензор, но он имеет способность вычислять себе градиенты.  

Если а - тензор, обёрнутый в Variable(), то при вызове a.backward() берутся градиенты по всем переменным, от которых зависит тензор a.

Примеры:

In [45]:
x = torch.FloatTensor(3, 1).uniform_()
y = torch.FloatTensor(3, 1).uniform_()
w = torch.FloatTensor(3, 3).uniform_() 
b = torch.FloatTensor(3, 1).uniform_()

x = Variable(x, requires_grad=True)
y = Variable(x, requires_grad=False)
w = Variable(w, requires_grad=True)
b = Variable(b, requires_grad=True)

y_pred = (w @ x).add_(b)

loss = (y_pred - y).sum()

# берём градиенты
loss.backward()

In [46]:
x.grad

tensor([[1.7594],
        [1.3443],
        [1.9075]])

In [47]:
w.grad

tensor([[0.9294, 0.1540, 0.7891],
        [0.9294, 0.1540, 0.7891],
        [0.9294, 0.1540, 0.7891]])

In [48]:
b.grad

tensor([[1.],
        [1.],
        [1.]])

**Обратите внимание** - градиенты лежат в поле `.grad` у тех тензоров (Variable'ов), по которым брали эти градиенты. Градиенты **не лежат** в той Variable, от которой они брались.

Получить тензор из `Variable()` можно с помощью поля `.data`:

In [49]:
x

tensor([[0.9294],
        [0.1540],
        [0.7891]], requires_grad=True)

In [50]:
x.data

tensor([[0.9294],
        [0.1540],
        [0.7891]])

<h3 style="text-align: center;">Полезные ссылки:<b></b></h3>

*1). Статья по PyTorch (на русском): https://habr.com/post/334380/*

*2). Туториалы от самих разработчиков фреймворка: https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py*

*3). Статья на arXiv о сравнении фреймворков глубокого обучения: https://arxiv.org/pdf/1511.06435.pdf*

4). *Ещё туториалы: https://github.com/yunjey/pytorch-tutorial*

*5). Сайт Facebook AI Research - отдела, который разрабатывает PyTorch и другие активно вкладывается в разработку инструментов для AI: https://facebook.ai/developers/tools*