# Основы PyTorch

## Математические методы анализа текстов, 2020

## Попов Артём

В данном ноутбуке рассмотрены базовые составляющие библиотеки Pytorch: тензорные вычисления и автоматическое дифференцирование.

Официальные туториалы pytorch по этим темам:

* [What is pytorch?](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py)

* [Autograd: automatic differentiation](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py)



In [1]:
import torch
import numpy as np

## Тензоры

В интерфейсе базовых операций Tensor почти не отличается от np.array:

In [2]:
x = torch.Tensor(5, 3)

In [4]:
x

tensor([[7.1118e-04, 1.7444e+28, 7.3909e+22],
        [4.5828e+30, 3.2483e+33, 1.9690e-19],
        [6.8589e+22, 1.3340e+31, 1.1708e-19],
        [7.2128e+22, 9.2216e+29, 7.5546e+31],
        [1.6932e+22, 3.0728e+32, 2.9514e+29]])

In [5]:
x = torch.zeros(5, 3)

In [6]:
x

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [7]:
type(x)

torch.Tensor

In [8]:
x = torch.ones(5, 3)

In [9]:
x * 5

tensor([[5., 5., 5.],
        [5., 5., 5.],
        [5., 5., 5.],
        [5., 5., 5.],
        [5., 5., 5.]])

In [12]:
x = torch.randn(5, 3)
x

tensor([[ 1.3508, -0.8261, -1.0995],
        [-1.4397,  0.3349,  0.8214],
        [ 0.4103, -0.5048, -0.3590],
        [ 0.3913, -0.3321,  1.1700],
        [ 0.0361, -0.6539,  0.3596]])

In [13]:
print(x.transpose(0, 1))
print(x.shape)
print(x.size())

tensor([[ 1.3508, -1.4397,  0.4103,  0.3913,  0.0361],
        [-0.8261,  0.3349, -0.5048, -0.3321, -0.6539],
        [-1.0995,  0.8214, -0.3590,  1.1700,  0.3596]])
torch.Size([5, 3])
torch.Size([5, 3])


In [14]:
print(torch.transpose(x, 0, 1))
print(x.shape)
print(x.size())

tensor([[ 1.3508, -1.4397,  0.4103,  0.3913,  0.0361],
        [-0.8261,  0.3349, -0.5048, -0.3321, -0.6539],
        [-1.0995,  0.8214, -0.3590,  1.1700,  0.3596]])
torch.Size([5, 3])
torch.Size([5, 3])


Сложение

In [17]:
y = torch.rand(5, 3)
print(x + y)

tensor([[ 1.6164, -0.8128, -0.4678],
        [-1.2136,  0.5285,  1.5376],
        [ 0.9532,  0.4519,  0.3358],
        [ 0.4025,  0.1224,  1.9493],
        [ 0.3197, -0.2858,  1.0654]])


Операции с _ — inplace операции:

In [18]:
print(x.add(y))
print(x.add_(y))
print(x)

tensor([[ 1.6164, -0.8128, -0.4678],
        [-1.2136,  0.5285,  1.5376],
        [ 0.9532,  0.4519,  0.3358],
        [ 0.4025,  0.1224,  1.9493],
        [ 0.3197, -0.2858,  1.0654]])
tensor([[ 1.6164, -0.8128, -0.4678],
        [-1.2136,  0.5285,  1.5376],
        [ 0.9532,  0.4519,  0.3358],
        [ 0.4025,  0.1224,  1.9493],
        [ 0.3197, -0.2858,  1.0654]])
tensor([[ 1.6164, -0.8128, -0.4678],
        [-1.2136,  0.5285,  1.5376],
        [ 0.9532,  0.4519,  0.3358],
        [ 0.4025,  0.1224,  1.9493],
        [ 0.3197, -0.2858,  1.0654]])


Матричное умножение:

In [19]:
a = torch.randn(5, 3) 
b = torch.randn(3, 4)

In [20]:
a @ b

tensor([[-1.0138,  0.8269,  0.4714, -1.4878],
        [ 2.8575, -2.8601, -0.3185,  0.3229],
        [ 2.7084, -2.6616,  0.7172,  0.3635],
        [ 2.2819, -2.0405,  0.4465,  1.7203],
        [ 0.7335, -0.6931, -1.2588,  0.6825]])

In [24]:
print(torch.mm(a,b))
print(a.mm(b))

tensor([[-1.0138,  0.8269,  0.4714, -1.4878],
        [ 2.8575, -2.8601, -0.3185,  0.3229],
        [ 2.7084, -2.6616,  0.7172,  0.3635],
        [ 2.2819, -2.0405,  0.4465,  1.7203],
        [ 0.7335, -0.6931, -1.2588,  0.6825]])
tensor([[-1.0138,  0.8269,  0.4714, -1.4878],
        [ 2.8575, -2.8601, -0.3185,  0.3229],
        [ 2.7084, -2.6616,  0.7172,  0.3635],
        [ 2.2819, -2.0405,  0.4465,  1.7203],
        [ 0.7335, -0.6931, -1.2588,  0.6825]])


Изменение размера:

In [26]:
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8)  # the size -1 is inferred from other dimensions
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


Перевод в numpy:

In [31]:
a = torch.ones(5)
print(a)

b = a.numpy()
print(b)

tensor([1., 1., 1., 1., 1.])
[1. 1. 1. 1. 1.]


In [32]:
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


In [33]:
a = np.ones(5)
b = torch.from_numpy(a)
print(a)
print(b)

[1. 1. 1. 1. 1.]
tensor([1., 1., 1., 1., 1.], dtype=torch.float64)


In [34]:
a += 1
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


Перевод на GPU:

In [35]:
if torch.cuda.is_available():
    x = x.cuda()
    y = y.cuda()

In [41]:
x = x.to('cpu')

In [42]:
x

tensor([[ 1.0000, -1.5303, -2.1708, -1.2409],
        [ 1.1143,  0.1901,  0.4472,  0.0644],
        [-0.3072,  0.8485,  0.6883, -1.4604],
        [ 0.1533,  0.1766,  0.4999,  0.5292]])

In [44]:
x = torch.zeros(2, 3).to(0)
y = torch.ones(2, 3).to('cpu')

Обратите внимание на параметр device:

In [46]:
x

tensor([[0., 0., 0.],
        [0., 0., 0.]], device='cuda:0')

## Графы вычислений, автоматическое дифференцирование

Раньше для построения графов вычислений нужно было использовать специальную сущность — Variable.

Например, это делалось так:

```
from torch.autograd import Variable

x = Variable(torch.ones(2, 2), requires_grad=True)
```

Сейчас это не нужно, вся функциональность Variable помещена в Tensor. 

Обозначим, что для x нужно считать градиенты:

In [47]:
x = torch.rand((3, 3), requires_grad=True)

Производя операции с переменными, по которым нужно считать градиенты, мы конструируем граф вычислений:

In [48]:
y = x + 2

В каждой переменной есть информация о том, как именно она была получена при проходе вперёд:

In [50]:
y.grad_fn

<AddBackward0 at 0x2463994ad48>

In [51]:
y.requires_grad

True

In [52]:
z = y * y * 3

In [53]:
z.grad_fn

<MulBackward0 at 0x24639af73c8>

In [54]:
out = z.mean()

In [55]:
out.grad_fn

<MeanBackward0 at 0x24639d8c508>

In [56]:
print(out)

tensor(16.1721, grad_fn=<MeanBackward0>)


Проход назад выполняется с помощью вызова метода .backward():

In [57]:
out.backward()

После выполнения .backward() у листовых переменных графа (у которых .requires_grad = True) появится атрибут .grad:

In [58]:
x.grad, y.grad, z.grad

  """Entry point for launching an IPython kernel.


(tensor([[1.4884, 1.5250, 1.4889],
         [1.6359, 1.3703, 1.6422],
         [1.4685, 1.4105, 1.8461]]),
 None,
 None)

Можно считать граф для не листовых переменных, для этого необходимо воспользоваться методом .retain_graph:

In [59]:
x = torch.rand((3, 3), requires_grad=True)
y = x + 2
y.retain_grad()

z = torch.mean(y)
z.backward()

In [60]:
y.grad

tensor([[0.1111, 0.1111, 0.1111],
        [0.1111, 0.1111, 0.1111],
        [0.1111, 0.1111, 0.1111]])

Inplace операции:

In [61]:
x = torch.rand((3, 3), requires_grad=True)
x

tensor([[0.4648, 0.0733, 0.8782],
        [0.6297, 0.2181, 0.1124],
        [0.3685, 0.6645, 0.6081]], requires_grad=True)

In [62]:
x += 2

RuntimeError: a leaf Variable that requires grad is being used in an in-place operation.

Inplace операции заменяем на not-inplace с помощью введения дополнительных промежуточных переменных.

Нужно помнить про работу присваивания в языке Python:

In [63]:
x = torch.rand((3, 3), requires_grad=True)
x = x + 2 # x += 2
x.sum().backward()

In [None]:
x.grad

Можно строить граф вычислений с помощью циклов:

In [61]:
x = torch.rand((3, 3), requires_grad=True)
y = x

while x.data.norm() < 1000:
    x = x * 2


z = x.mean()
z.backward()

Какой будет результат:

In [62]:
y.grad

tensor([[56.8889, 56.8889, 56.8889],
        [56.8889, 56.8889, 56.8889],
        [56.8889, 56.8889, 56.8889]])

In [63]:
x.grad

  """Entry point for launching an IPython kernel.


Т.к. y указывает на самый первый x, а x на самый последний (для которого не вызывался .retain_graph).

Можно вычислять производную по направлению:

In [69]:
x = torch.Tensor([1, 2, 3])
x.requires_grad = True

y = x * 2

gradients = torch.FloatTensor([0, 1, 0.0001])
y.backward(gradients)
print(x.grad)

tensor([0.0000e+00, 2.0000e+00, 2.0000e-04])


Градиенты накапливаются! Т.е. если несколько раз вызвать .backward, значения в .grad будут суммироваться:

In [64]:
x = torch.Tensor([1, 2, 3])
x.requires_grad = True

y = (x * 2).mean()
y.backward()

print(x.grad)

tensor([0.6667, 0.6667, 0.6667])


In [65]:
y = (x * 2).mean()
y.backward()

print(x.grad)

tensor([1.3333, 1.3333, 1.3333])


С помощью специального мененджера контекста, можно не считать градиенты при вычислениях (например, для ускорения работы):

In [67]:
x = torch.Tensor([1, 2, 3])
x.requires_grad = True

with torch.no_grad():
    y = x * 2
    
y.grad_fn