# 3 занятие: основы PyTorch

### Практикум на ЭВМ для 317 группы, ВМК МГУ, кафедра ММП

### Попов Артём, кафедра ММП ВМК МГУ

В данном ноутбуке рассмотрены базовые составляющие библиотеки Pytorch: тензорные вычисления и автоматическое дифференцирование.

Официальные туториалы pytorch по этим темам:

* [What is pytorch?](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py)

* [Autograd: automatic differentiation](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py)



In [1]:
import torch
import numpy as np

## Тензоры

В интерфейсе базовых операций Tensor почти не отличается от np.array:

In [2]:
x = torch.Tensor(5, 3)

In [3]:
x = torch.zeros(5, 3)

In [4]:
x

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [5]:
x = torch.ones(5, 3)

In [6]:
x * 5

tensor([[5., 5., 5.],
        [5., 5., 5.],
        [5., 5., 5.],
        [5., 5., 5.],
        [5., 5., 5.]])

In [7]:
x = torch.randn(5, 3)
x

tensor([[-0.7260,  2.0154,  1.1196],
        [-0.1888, -1.1978, -0.4201],
        [ 0.6758,  0.3957,  1.4339],
        [-0.8191, -0.6980, -0.6786],
        [-0.6118, -0.8117, -2.8477]])

In [8]:
print(x.transpose(0, 1))
print(x.size())

tensor([[-0.7260, -0.1888,  0.6758, -0.8191, -0.6118],
        [ 2.0154, -1.1978,  0.3957, -0.6980, -0.8117],
        [ 1.1196, -0.4201,  1.4339, -0.6786, -2.8477]])
torch.Size([5, 3])


In [9]:
print(x.shape)

torch.Size([5, 3])


In [10]:
print(torch.transpose(x, 0, 1))
print(x.size())

tensor([[-0.7260, -0.1888,  0.6758, -0.8191, -0.6118],
        [ 2.0154, -1.1978,  0.3957, -0.6980, -0.8117],
        [ 1.1196, -0.4201,  1.4339, -0.6786, -2.8477]])
torch.Size([5, 3])


Сложение

In [11]:
y = torch.rand(5, 3)
print(x + y)

tensor([[ 0.1171,  2.0324,  1.7581],
        [ 0.1048, -0.7105,  0.3708],
        [ 0.8515,  1.2744,  2.0757],
        [-0.4519, -0.1867, -0.1241],
        [-0.5059, -0.3064, -1.8987]])


Операции с _ — inplace операции:

In [12]:
print(x.add(y))
print(x.add_(y))
print(x)

tensor([[ 0.1171,  2.0324,  1.7581],
        [ 0.1048, -0.7105,  0.3708],
        [ 0.8515,  1.2744,  2.0757],
        [-0.4519, -0.1867, -0.1241],
        [-0.5059, -0.3064, -1.8987]])
tensor([[ 0.1171,  2.0324,  1.7581],
        [ 0.1048, -0.7105,  0.3708],
        [ 0.8515,  1.2744,  2.0757],
        [-0.4519, -0.1867, -0.1241],
        [-0.5059, -0.3064, -1.8987]])
tensor([[ 0.1171,  2.0324,  1.7581],
        [ 0.1048, -0.7105,  0.3708],
        [ 0.8515,  1.2744,  2.0757],
        [-0.4519, -0.1867, -0.1241],
        [-0.5059, -0.3064, -1.8987]])


Матричное умножение:

In [13]:
a = torch.randn(5, 3) 
b = torch.randn(3, 4)

In [14]:
a @ b

tensor([[ 0.4845, -0.4809,  2.6858,  1.0818],
        [-0.4284,  0.1743, -1.1044, -0.9887],
        [-0.0048, -0.1065, -0.0015, -0.4132],
        [-0.7619,  0.2908, -2.5714, -2.2692],
        [ 0.0795,  0.2257, -0.8189,  0.4205]])

In [15]:
print(torch.mm(a,b))
print(a.mm(b))

tensor([[ 0.4845, -0.4809,  2.6858,  1.0818],
        [-0.4284,  0.1743, -1.1044, -0.9887],
        [-0.0048, -0.1065, -0.0015, -0.4132],
        [-0.7619,  0.2908, -2.5714, -2.2692],
        [ 0.0795,  0.2257, -0.8189,  0.4205]])
tensor([[ 0.4845, -0.4809,  2.6858,  1.0818],
        [-0.4284,  0.1743, -1.1044, -0.9887],
        [-0.0048, -0.1065, -0.0015, -0.4132],
        [-0.7619,  0.2908, -2.5714, -2.2692],
        [ 0.0795,  0.2257, -0.8189,  0.4205]])


Изменение размера:

In [16]:
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8)  # the size -1 is inferred from other dimensions
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


Перевод в numpy:

In [17]:
a = torch.ones(5)
print(a)

b = a.numpy()
print(b)

tensor([1., 1., 1., 1., 1.])
[1. 1. 1. 1. 1.]


In [18]:
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


In [19]:
a = np.ones(5)
b = torch.from_numpy(a)
print(a)
print(b)

[1. 1. 1. 1. 1.]
tensor([1., 1., 1., 1., 1.], dtype=torch.float64)


In [20]:
a += 1
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


Перевод на GPU:

In [21]:
if torch.cuda.is_available():
    x = x.cuda()
    y = y.cuda()

Обратите внимание на параметр device:

In [22]:
x

tensor([[-1.5209,  0.5774,  1.6496,  0.7023],
        [ 2.0977,  0.7196, -0.0587,  0.5817],
        [ 0.1851, -0.3995,  0.4192,  1.0880],
        [ 0.2289, -0.4521,  0.3990,  0.9767]], device='cuda:0')

## Графы вычислений, автоматическое дифференцирование

Раньше для построения графов вычислений нужно было использовать специальную сущность — Variable.

Например, это делалось так:

```
from torch.autograd import Variable

x = Variable(torch.ones(2, 2), requires_grad=True)
```

Сейчас это не нужно, вся функциональность Variable помещена в Tensor. 

Обозначим, что для x нужно считать градиенты:

In [23]:
x = torch.rand((3, 3), requires_grad=True)

Производя операции с переменными, по которым нужно считать градиенты, мы конструируем граф вычислений:

In [24]:
y = x + 2

В каждой переменной есть информация о том, как именно она была получена при проходе вперёд:

In [25]:
y.grad_fn

<AddBackward at 0x7fd2b7661898>

In [26]:
y.requires_grad

True

In [27]:
z = y * y * 3

In [28]:
z.grad_fn

<MulBackward at 0x7fd2b7661b70>

In [29]:
out = z.mean()

In [30]:
print(out)

tensor(17.4769, grad_fn=<MeanBackward1>)


Проход назад выполняется с помощью вызова метода .backward():

In [31]:
out.backward()

После выполнения .backward() у листовых переменных графа (у которых .requires_grad = True) появится атрибут .grad:

In [32]:
x.grad, y.grad, z.grad

(tensor([[1.3893, 1.3342, 1.4827],
         [1.7615, 1.4939, 1.4594],
         [1.9885, 1.7392, 1.7176]]), None, None)

Можно считать граф для не листовых переменных, для этого необходимо воспользоваться методом .retain_graph:

In [33]:
x = torch.rand((3, 3), requires_grad=True)
y = x + 2
y.retain_grad()

z = torch.mean(y)
z.backward()

In [34]:
y.grad

tensor([[0.1111, 0.1111, 0.1111],
        [0.1111, 0.1111, 0.1111],
        [0.1111, 0.1111, 0.1111]])

Inplace операции:

In [35]:
x = torch.rand((3, 3), requires_grad=True)
x

tensor([[0.3348, 0.6986, 0.9106],
        [0.0116, 0.8406, 0.2262],
        [0.6519, 0.8541, 0.5219]], requires_grad=True)

In [36]:
x += 2

RuntimeError: a leaf Variable that requires grad has been used in an in-place operation.

Inplace операции заменяем на not-inplace с помощью введения дополнительных промежуточных переменных.

Нужно помнить про работу присваивания в языке Python:

In [37]:
x = torch.rand((3, 3), requires_grad=True)
x = x + 2
x.sum().backward()

In [38]:
x.grad

Можно строить граф вычислений с помощью циклов:

In [39]:
x = torch.rand((3, 3), requires_grad=True)
y = x

while x.data.norm() < 1000:
    x = x * 2


z = x.mean()
z.backward()

Какой будет результат:

In [40]:
y.grad

tensor([[113.7778, 113.7778, 113.7778],
        [113.7778, 113.7778, 113.7778],
        [113.7778, 113.7778, 113.7778]])

In [41]:
x.grad

Т.к. y указывает на самый первый x, а x на самый последний (для которого не вызывался .retain_graph).

Можно вычислять производную по направлению:

In [42]:
x = torch.Tensor([1, 2, 3])
x.requires_grad = True

y = x * 2

In [43]:
gradients = torch.FloatTensor([0, 1, 0.0001])
y.backward(gradients)
print(x.grad)

tensor([0.0000, 2.0000, 0.0002])


Градиенты накапливаются! Т.е. если несколько раз вызвать .backward, значения в .grad будут суммироваться:

In [44]:
gradients = torch.FloatTensor([0, 1, 0.0001])
y.backward(gradients)
print(x.grad)

tensor([0.0000, 4.0000, 0.0004])


In [45]:
#gradients = torch.FloatTensor([0.1, 1.0, 0.0001])
gradients = torch.FloatTensor([0, 1, 0.0001])
y.backward(gradients)
print(x.grad)

tensor([0.0000, 6.0000, 0.0006])


С помощью специального мененджера контекста, можно не считать градиенты при вычислениях (например, для ускорения работы):

In [46]:
x = torch.Tensor([1, 2, 3])
x.requires_grad = True

with torch.no_grad():
    y = x * 2
    
y.grad_fn