<a href="https://colab.research.google.com/github/lovgon/stepik-fast-start_to_AI/blob/main/2_2_Intro_Pytorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch. Основы: синтаксис, torch.cuda и torch.autograd

---

<p style="align: center;"><img src="https://upload.wikimedia.org/wikipedia/commons/9/96/Pytorch_logo.png" width=1205 height=205></p>

На этом занятии мы рассмотрим основы фреймворка глубокого обучения PyTorch.  

Когда хочется написать какую-нибудь нейросеть, решающую определённую задачу, будь то какая-нибудь простая классификация чего-либо или обнаружение лиц людей на видео. Всё, конечно, всегда начинается со **сбора данных**, а уже потом реализуются модели и проводятся эксперименты.  

Однако люди быстро поняли, что писать свои нейронные сети каждый раз с нуля ну очень уж долго и неразумно, поэтому придумали так называемые **фреймворки** - модули, в которых есть функционал, с помощью которого можно быстро и просто решать типовые задачи, и уже с помощью этих средств писать решения к более сложным задачам.

Есть много различных фремворков глубокого обучения. Разница между ними прежде всего в том, каков общий принцип вычислений. 
Например, в **Caffe и Caffe2** вы пишете код, по сути, составляя его из готовых "кусочков", как в Lego, в **TensorFlow и Theano** вы сначала объявляете вычислительный граф, потом компилируете его и запускаете (sees.run()), в то время как в **Torch и PyTorch** вы пишете почти точно так же, как на NumPy, а граф вычислений создаётся только при запуске (то есть существует только во время выполнения, потом он "разрушается"). **Keras** позволяет как строить блоки, так и компилировать свой граф:

<p style="align: center;"><img src="https://habrastorage.org/web/e3e/c3e/b78/e3ec3eb78d714a7993a6b922911c0866.png" width=500></p>  
<p style="text-align: center;"><i>Картинка взята из этой [статьи на Хабре](https://habr.com/post/334380/)</i><p>

## Установка

Инструкция по установке PyTorch есть на [официальном сайте PyTorch](https://pytorch.org/).

## Синтаксис

In [1]:
import torch

Сначала немного фактов про PyTorch:  
- динамический граф вычислений
- удобные модули `torch.nn` и `torchvision` для написания нейросетей с минимальными усилиями
- в некоторых задачах даже быстрее TensorFlow
- легко проводить вычисления на GPU

Если PyTorch представить формулой, то она будет такой:  

$$PyTorch = NumPy + CUDA + Autograd$$

(CUDA - [wiki](https://ru.wikipedia.org/wiki/CUDA))

Посмотрим, как в PyTorch выполняются операции с векторами.  

Напоминание: **тензором** называется многомерный вектор, то есть:  

x = np.array([1,2,3]) - вектор = тензор размерности 1 (то есть (1,))  
y = np.array([[1, 2, 3], [4, 5, 6]]) - матрица = тензор размерности 2 (в данном случае тензор (2, 3))  
z = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]],  
    [[1, 2, 3], [4, 5, 6], [7, 8, 9]],  
              [[1, 2, 3], [4, 5, 6], [7, 8, 9]]]) - "кубик" (3, 3, 3) = тензор размерности 3 (в данном случае (3, 3, 3))

Простейшим примером 3-мерного тензора является **картинка** - это "параллелепипед" из чисел, у которого три размерности - высота, ширина и количество каналов, значит это тензор размерности 3.

Понятие тензора нужно знать потому, что в PyTorch мы оперируем переменными типа `torch.Tensor` (`FloatTensor`, `IntTensor`, `ByteTensor`), и пугаться их названий совершенно не нужно - это просто векторы, у которых несколько размерностей.

Типы тензоров, которые мы будем использовать:

In [2]:
torch.FloatTensor     # 32 бита,  с плавающей точкой
torch.IntTensor       # 32 бита, целочисленный, знаковый

torch.IntTensor

Мы будем использовать только `torch.FloatTensor()` и `torch.IntTensor()`. 

**Когда мы работаем с обучения нейросети, все данные для обучения и все слои нейронных сетей представляются в виде тензоров.**

Поэтому важно научиться работать с тензорами.

Перейдём к делу:

### Базовые операции с тензорами

* Создание тензоров:

In [3]:
a = torch.FloatTensor([1, 2])
a

tensor([1., 2.])

In [4]:
a.shape

torch.Size([2])

In [5]:
b = torch.FloatTensor([[1,2,3], [4,5,6]])
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

In [6]:
b.shape

torch.Size([2, 3])

In [7]:
x = torch.FloatTensor(2,3,4)

In [8]:
x

tensor([[[1.5012e-35, 0.0000e+00, 7.0065e-44, 6.7262e-44],
         [6.3058e-44, 6.8664e-44, 7.0065e-44, 6.3058e-44],
         [6.7262e-44, 7.4269e-44, 1.1771e-43, 7.0065e-44]],

        [[7.1466e-44, 8.1275e-44, 7.4269e-44, 7.1466e-44],
         [8.1275e-44, 7.1466e-44, 7.1466e-44, 6.4460e-44],
         [7.8473e-44, 6.8664e-44, 7.7071e-44, 7.8473e-44]]])

In [9]:
x = torch.FloatTensor(100).zero_()
x

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.])

In [10]:
x = torch.IntTensor(45, 57, 14, 2)
x.shape

torch.Size([45, 57, 14, 2])

**Обратите внимание** - если вы создаёте тензор через задание размерностей (как в примере выше), то он изначально заполняюстя случайным "мусором". Что инициализировать нулями, нужно написать .zero_() в конце:

In [11]:
x = torch.IntTensor(3, 2, 4)
x

tensor([[[94347776,        0,       50,       48],
         [      45,       49,       50,       45]],

        [[      48,       53,       84,       50],
         [      51,       58,       53,       51]],

        [[      58,       51,       51,       46],
         [      56,       50,       52,       55]]], dtype=torch.int32)

In [12]:
x = torch.IntTensor(3, 2, 4).zero_()
x

tensor([[[0, 0, 0, 0],
         [0, 0, 0, 0]],

        [[0, 0, 0, 0],
         [0, 0, 0, 0]],

        [[0, 0, 0, 0],
         [0, 0, 0, 0]]], dtype=torch.int32)

Аналог функции `np.reshape()` == `torch.view()`:

In [13]:
b.view(3, 2)

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])

In [14]:
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

**Обратите внимание** - torch.view() создаёт новый тензор, а не изменяет старый!

In [15]:
b.view(-1)

tensor([1., 2., 3., 4., 5., 6.])

In [16]:
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

* Изменение типа тензора:

In [17]:
a = torch.FloatTensor([1.5, 3.2, -7])

In [18]:
a.type_as(torch.IntTensor())

tensor([ 1,  3, -7], dtype=torch.int32)

Обратите внимание, что при `.type_as()` создаётся новый тензор (старый не меняется), то есть это не in-place операция:

In [19]:
a

tensor([ 1.5000,  3.2000, -7.0000])

* Индексация точная такая же, как и в NumPy:

In [20]:
a = torch.FloatTensor([[100, 20, 35], [15, 163, 534], [52, 90, 66]])
a

tensor([[100.,  20.,  35.],
        [ 15., 163., 534.],
        [ 52.,  90.,  66.]])

In [21]:
a[0, 0]

tensor(100.)

In [22]:
a[0][0]

tensor(100.)

In [23]:
a[0:2, 0:2]

tensor([[100.,  20.],
        [ 15., 163.]])

### Арифметика и булевы операции

работают также, как и в NumPy, но у стандартных операторов `+`, `-`, `*`, `/`, есть аналоги:  

| Оператор | Аналог |
|:-:|:-:|
|`+`| `torch.add()` |
|`-`| `torch.sub()` |
|`*`| `torch.mul()` |
|`/`| `torch.div()` |

* Сложение:

In [24]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [25]:
a + b

tensor([[  0.,   0.,   0.],
        [  0.,   0.,   0.],
        [200., 400., 600.]])

Или:

In [26]:
a.add(b)


tensor([[  0.,   0.,   0.],
        [  0.,   0.,   0.],
        [200., 400., 600.]])

In [27]:
b = -a
b

tensor([[  -1.,   -2.,   -3.],
        [ -10.,  -20.,  -30.],
        [-100., -200., -300.]])

In [28]:
a + b

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

* Вычитание:

In [29]:
a - b

tensor([[  2.,   4.,   6.],
        [ 20.,  40.,  60.],
        [200., 400., 600.]])

Или:

In [30]:
a.sub(b)

tensor([[  2.,   4.,   6.],
        [ 20.,  40.,  60.],
        [200., 400., 600.]])

* Умножение (поэлементное):

In [31]:
a * b

tensor([[-1.0000e+00, -4.0000e+00, -9.0000e+00],
        [-1.0000e+02, -4.0000e+02, -9.0000e+02],
        [-1.0000e+04, -4.0000e+04, -9.0000e+04]])

Или:

In [32]:
a.mul(b)

tensor([[-1.0000e+00, -4.0000e+00, -9.0000e+00],
        [-1.0000e+02, -4.0000e+02, -9.0000e+02],
        [-1.0000e+04, -4.0000e+04, -9.0000e+04]])

* Деление (поэлементное):

In [33]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [34]:
a / b

tensor([[-1., -1., -1.],
        [-1., -1., -1.],
        [ 1.,  1.,  1.]])

Или:

In [35]:
a.div(b)

tensor([[-1., -1., -1.],
        [-1., -1., -1.],
        [ 1.,  1.,  1.]])

Заметьте, все эти операции **не меняют исходные тензоры**, а **создают новые**:

In [36]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [37]:
b

tensor([[ -1.,  -2.,  -3.],
        [-10., -20., -30.],
        [100., 200., 300.]])

* **Операторы сравнения**:

In [38]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [39]:
a == b

tensor([[False, False, False],
        [False, False, False],
        [ True,  True,  True]])

In [40]:
a != b

tensor([[ True,  True,  True],
        [ True,  True,  True],
        [False, False, False]])

In [41]:
a < b

tensor([[False, False, False],
        [False, False, False],
        [False, False, False]])

In [42]:
a > b

tensor([[ True,  True,  True],
        [ True,  True,  True],
        [False, False, False]])

Применение **стандартных функций** такое же, как и в numpy - поэлементное:

In [43]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])

In [44]:
a.sin()

tensor([[ 0.8415,  0.9093,  0.1411],
        [-0.5440,  0.9129, -0.9880],
        [-0.5064, -0.8733, -0.9998]])

In [45]:
torch.sin(a)

tensor([[ 0.8415,  0.9093,  0.1411],
        [-0.5440,  0.9129, -0.9880],
        [-0.5064, -0.8733, -0.9998]])

In [46]:
a.cos()

tensor([[ 0.5403, -0.4161, -0.9900],
        [-0.8391,  0.4081,  0.1543],
        [ 0.8623,  0.4872, -0.0221]])

In [47]:
a.exp()

tensor([[2.7183e+00, 7.3891e+00, 2.0086e+01],
        [2.2026e+04, 4.8517e+08, 1.0686e+13],
        [       inf,        inf,        inf]])

In [48]:
a.log()

tensor([[0.0000, 0.6931, 1.0986],
        [2.3026, 2.9957, 3.4012],
        [4.6052, 5.2983, 5.7038]])

In [49]:
b = -a
b

tensor([[  -1.,   -2.,   -3.],
        [ -10.,  -20.,  -30.],
        [-100., -200., -300.]])

In [50]:
b.abs()

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

**Сумма, среднее, максимум, минимум**:

In [51]:
a.sum()

tensor(666.)

In [52]:
a.mean()

tensor(74.)

По осям:

In [53]:
a.sum(0)

tensor([111., 222., 333.])

In [54]:
a.sum(1)

tensor([  6.,  60., 600.])

In [55]:
a.max()

tensor(300.)

In [56]:
a.max(0)

torch.return_types.max(values=tensor([100., 200., 300.]), indices=tensor([2, 2, 2]))

In [57]:
a.min()

tensor(1.)

In [58]:
a.min(0)

torch.return_types.min(values=tensor([1., 2., 3.]), indices=tensor([0, 0, 0]))

Обратите внимание - второй тензор при вызове функций .max() и .min() - это индексы этих максимальных/минимальных элементов по указанной размерности (то есть в данном случае a.min() вернул (1, 2, 3) - минимумы по 0 оси (по столбцам), и их индексы по 0-ой оси (0,0,0) (номер каждого элемента в своём столбце)).

### Матричные операции:

* Транспонирование матрицы (тензора):

In [59]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [60]:
a.t()

tensor([[  1.,  10., 100.],
        [  2.,  20., 200.],
        [  3.,  30., 300.]])

И снова - сам тензор не меняется (то есть при вызове создаётся новый):

In [61]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

* Скалярное произведение векторов (1-мерных тензоров):

In [62]:
a = torch.FloatTensor([1, 2, 3, 4, 5, 6])
b = torch.FloatTensor([-1, -2, -4, -6, -8, -10])

In [63]:
a.dot(b)

tensor(-141.)

In [64]:
a @ b

tensor(-141.)

In [65]:
type(a)

torch.Tensor

In [66]:
type(b)

torch.Tensor

In [67]:
type(a @ b)

torch.Tensor

* Матричное умножение:

In [68]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [69]:
a.mm(b)

tensor([[  279.,   558.,   837.],
        [ 2790.,  5580.,  8370.],
        [27900., 55800., 83700.]])

In [70]:
a @ b

tensor([[  279.,   558.,   837.],
        [ 2790.,  5580.,  8370.],
        [27900., 55800., 83700.]])

Тензоры неизменны:

In [71]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [72]:
b

tensor([[ -1.,  -2.,  -3.],
        [-10., -20., -30.],
        [100., 200., 300.]])

In [73]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1], [-10], [100]])

In [74]:
print(a.shape, b.shape)

torch.Size([3, 3]) torch.Size([3, 1])


In [75]:
a @ b

tensor([[  279.],
        [ 2790.],
        [27900.]])

Если "развернуть" тензор b просто в массив элементов (`torch.view(-1)`), умножение будет как на столбец:

In [76]:
b

tensor([[ -1.],
        [-10.],
        [100.]])

In [77]:
b.view(-1)

tensor([ -1., -10., 100.])

In [78]:
a @ b.view(-1)

tensor([  279.,  2790., 27900.])

In [79]:
a.mv(b.view(-1))

tensor([  279.,  2790., 27900.])

### Перевод из NumPy в PyTorch:

In [80]:
import numpy as np

a = np.random.rand(3, 3)
a

array([[0.9130812 , 0.46370452, 0.31824989],
       [0.69063797, 0.96764746, 0.55343201],
       [0.01366541, 0.68140856, 0.34524489]])

In [81]:
b = torch.from_numpy(a)
b

tensor([[0.9131, 0.4637, 0.3182],
        [0.6906, 0.9676, 0.5534],
        [0.0137, 0.6814, 0.3452]], dtype=torch.float64)

**НО!** Обратите внимание - a и b в этом случае будут использовать одно и то же хранилище данных, то есть измение одного тензора будет менять и другой:

In [82]:
b -= b
b

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]], dtype=torch.float64)

In [83]:
a

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### Перевод из PyTorch в NumPy:

In [84]:
a = torch.FloatTensor(2, 3, 4)
a

tensor([[[1.5013e-35, 0.0000e+00, 7.0065e-44, 6.7262e-44],
         [6.3058e-44, 6.8664e-44, 7.0065e-44, 6.3058e-44],
         [6.7262e-44, 7.4269e-44, 1.1771e-43, 7.0065e-44]],

        [[7.1466e-44, 8.1275e-44, 7.4269e-44, 7.1466e-44],
         [8.1275e-44, 7.1466e-44, 7.1466e-44, 6.4460e-44],
         [7.9874e-44, 6.7262e-44, 7.1466e-44, 7.2868e-44]]])

In [85]:
type(a)

torch.Tensor

In [86]:
x = a.numpy()
x

array([[[1.501345e-35, 0.000000e+00, 7.006492e-44, 6.726233e-44],
        [6.305843e-44, 6.866362e-44, 7.006492e-44, 6.305843e-44],
        [6.726233e-44, 7.426882e-44, 1.177091e-43, 7.006492e-44]],

       [[7.146622e-44, 8.127531e-44, 7.426882e-44, 7.146622e-44],
        [8.127531e-44, 7.146622e-44, 7.146622e-44, 6.445973e-44],
        [7.987401e-44, 6.726233e-44, 7.146622e-44, 7.286752e-44]]],
      dtype=float32)

In [87]:
x.shape

(2, 3, 4)

In [88]:
type(x)

numpy.ndarray

Напишем функцию `forward_pass(X, w)` ($w_0$ входит в $w$) для одного нейрона (с сигмоидой) с помощью PyTorch:

In [89]:
def forward_pass(X, w):
    return torch.sigmoid(X @ w)

In [90]:
X = torch.FloatTensor([[-5, 5], [2, 3], [1, -1]])
w = torch.FloatTensor([[-0.5], [2.5]])
result = forward_pass(X, w)
print('result: {}'.format(result))

result: tensor([[1.0000],
        [0.9985],
        [0.0474]])


## <a href="https://ru.wikipedia.org/wiki/CUDA">CUDA</a>

[Краткое видео про то, как GPU используется в обучении нейросетей](https://www.youtube.com/watch?v=EobhK0UZm80)

Все вычисления в PyTorch можно проводить как на CPU, так и на GPU (Graphical Processing Unit) (если она у вас есть). В PyTorch переключение между ними делается очень просто, что является одной из ключевых его особенностей.

In [91]:
x = torch.FloatTensor(1024, 1024).uniform_()
x

tensor([[0.6048, 0.4921, 0.6467,  ..., 0.6063, 0.1674, 0.6874],
        [0.2501, 0.4819, 0.8079,  ..., 0.7932, 0.2908, 0.8723],
        [0.6577, 0.3179, 0.5385,  ..., 0.2423, 0.4261, 0.8870],
        ...,
        [0.9257, 0.8082, 0.2281,  ..., 0.1380, 0.4913, 0.5556],
        [0.3243, 0.8531, 0.6133,  ..., 0.5472, 0.5069, 0.9328],
        [0.2791, 0.4800, 0.4015,  ..., 0.1851, 0.1039, 0.5714]])

In [92]:
x.is_cuda

False

Переместим на GPU:

In [93]:
x = x.cuda()

In [94]:
x.is_cuda

True

In [95]:
x

tensor([[0.6048, 0.4921, 0.6467,  ..., 0.6063, 0.1674, 0.6874],
        [0.2501, 0.4819, 0.8079,  ..., 0.7932, 0.2908, 0.8723],
        [0.6577, 0.3179, 0.5385,  ..., 0.2423, 0.4261, 0.8870],
        ...,
        [0.9257, 0.8082, 0.2281,  ..., 0.1380, 0.4913, 0.5556],
        [0.3243, 0.8531, 0.6133,  ..., 0.5472, 0.5069, 0.9328],
        [0.2791, 0.4800, 0.4015,  ..., 0.1851, 0.1039, 0.5714]],
       device='cuda:0')

Перемножим две тензора на GPu и вернём результат вычисления на CPU:

In [96]:
a = torch.FloatTensor(10000, 10000).uniform_()
b = torch.FloatTensor(10000, 10000).uniform_()
c = a.cuda().mul(b.cuda()).cpu()

In [97]:
c

tensor([[0.3292, 0.0029, 0.0274,  ..., 0.0657, 0.3693, 0.1328],
        [0.0018, 0.0957, 0.1861,  ..., 0.5312, 0.0325, 0.2666],
        [0.3690, 0.0010, 0.5003,  ..., 0.1754, 0.0608, 0.3771],
        ...,
        [0.3785, 0.3021, 0.0105,  ..., 0.2025, 0.0462, 0.1163],
        [0.6887, 0.8870, 0.1893,  ..., 0.0389, 0.4826, 0.0872],
        [0.6686, 0.2843, 0.7397,  ..., 0.0909, 0.2081, 0.1887]])

In [98]:
a

tensor([[0.5762, 0.0393, 0.4507,  ..., 0.3668, 0.4634, 0.5371],
        [0.0021, 0.4826, 0.2192,  ..., 0.8257, 0.2552, 0.4476],
        [0.6105, 0.0159, 0.8198,  ..., 0.4032, 0.3299, 0.5445],
        ...,
        [0.7423, 0.6745, 0.5532,  ..., 0.4200, 0.1275, 0.3732],
        [0.7863, 0.9379, 0.6299,  ..., 0.0528, 0.6091, 0.1057],
        [0.6695, 0.5643, 0.7445,  ..., 0.3789, 0.7090, 0.2504]])

Тензоры, лежащие на CPU, и тензоры, лежащие на GPU, недоступны друг для друга:

In [99]:
a = torch.FloatTensor(10000, 10000).uniform_().cpu()
b = torch.FloatTensor(10000, 10000).uniform_().cuda()

In [103]:
# a + b

Вот ещё немного про то, как можно работать с GPU:

In [104]:
x = torch.FloatTensor(5, 5, 5).uniform_()

# проверяем, есть ли CUDA (то есть NVidia GPU)
if torch.cuda.is_available():
    # так можно получить имя устройства, которое связано с CUDA
    # (полезно в случае с несколькими видеокартами)
    device = torch.device('cuda')          # CUDA-device объект
    y = torch.ones_like(x, device=device)  # создаём тензор на GPU
    x = x.to(device)                       # тут можно просто ``.to("cuda")``
    z = x + y
    print(z)
    # с помощью``.to`` можно и изменить тип при перемещении
    print(z.to("cpu", torch.double))

tensor([[[1.5958, 1.6335, 1.3159, 1.3656, 1.0420],
         [1.2454, 1.8831, 1.1432, 1.8761, 1.2664],
         [1.3255, 1.8134, 1.9480, 1.2148, 1.1486],
         [1.7573, 1.6801, 1.2953, 1.3066, 1.4380],
         [1.8411, 1.7731, 1.9387, 1.9034, 1.6928]],

        [[1.2635, 1.6100, 1.2396, 1.3648, 1.8019],
         [1.3398, 1.2445, 1.6930, 1.7776, 1.1605],
         [1.7363, 1.7533, 1.4844, 1.3626, 1.4624],
         [1.2715, 1.0775, 1.2368, 1.8442, 1.4397],
         [1.8295, 1.0552, 1.5231, 1.4067, 1.1740]],

        [[1.1064, 1.0773, 1.4475, 1.2868, 1.0129],
         [1.4879, 1.1771, 1.1405, 1.1063, 1.7942],
         [1.0779, 1.2790, 1.0674, 1.6702, 1.8185],
         [1.5256, 1.1330, 1.2151, 1.6975, 1.3108],
         [1.1828, 1.8495, 1.2489, 1.0019, 1.1963]],

        [[1.4830, 1.0682, 1.8809, 1.4283, 1.1560],
         [1.6823, 1.0051, 1.5902, 1.4953, 1.7525],
         [1.9446, 1.6477, 1.3539, 1.3860, 1.3849],
         [1.2426, 1.8093, 1.6948, 1.8673, 1.9369],
         [1.2736, 1.8901,

## Autograd

Расшифровывается как Automatic Gradients (автоматическое взятие градиентов) - собственно, из названия понятно, что это модуль PyTorch, отвечающий за взятие производных.  

Возможно, для вас это бдет шок, но PyTorch (и любой фреймворк глубокого обучения) может продифференцировать функцию практически любой сложности.

Импортируем нужный класс:

In [105]:
from torch.autograd import Variable

Идея такая: оборачиваем тензор в класс Variable(), получаем тоже тензор, но он имеет способность вычислять себе градиенты.  

Если а - тензор, обёрнутый в Variable(), то при вызове a.backward() берутся градиенты по всем переменным, от которых зависит тензор a.

**Примечание:** Если вы используете версию `pytorch 0.4.0` или более новую, то ***`torch.Tensor` позволяет брать по нему градиенты, класс `Variable()` использовать не нужно.*** (`torch.Variable()` - deprecated).

Примеры:

In [106]:
x = torch.FloatTensor(3, 1).uniform_()
y = torch.FloatTensor(3, 1).uniform_()
w = torch.FloatTensor(3, 3).uniform_() 
b = torch.FloatTensor(3, 1).uniform_()

x = Variable(x, requires_grad=True)
y = Variable(x, requires_grad=False)
w = Variable(w, requires_grad=True)
b = Variable(b, requires_grad=True)

y_pred = (w @ x).add_(b)

loss = (y_pred - y).sum()

# берём градиенты
loss.backward()

In [107]:
x.grad

tensor([[1.1780],
        [0.9314],
        [0.8046]])

In [108]:
w.grad

tensor([[0.1376, 0.8212, 0.1744],
        [0.1376, 0.8212, 0.1744],
        [0.1376, 0.8212, 0.1744]])

In [109]:
b.grad

tensor([[1.],
        [1.],
        [1.]])

In [110]:
y.grad

**Обратите внимание** - градиенты лежат в поле `.grad` у тех тензоров (Variable'ов), по которым брали эти градиенты. Градиенты **не лежат** в той Variable, от которой они брались!

Получить тензор из `Variable()` можно с помощью поля `.data`:

In [111]:
x

tensor([[0.1376],
        [0.8212],
        [0.1744]], requires_grad=True)

In [112]:
x.data

tensor([[0.1376],
        [0.8212],
        [0.1744]])

## Полезные ссылки

*1). Статья по PyTorch (на русском): https://habr.com/post/334380/*

*2). Туториалы от самих разработчиков фреймворка: https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py*

*3). Статья на arXiv о сравнении фреймворков глубокого обучения: https://arxiv.org/pdf/1511.06435.pdf*

4). *Ещё туториалы: https://github.com/yunjey/pytorch-tutorial*

*5). Сайт Facebook AI Research - отдела, который разрабатывает PyTorch и другие активно вкладывается в разработку инструментов для AI: https://facebook.ai/developers/tools*