## Манипулирование данными

Невозможно что-либо сделать, если мы не умеем манипулировать данными. Две основные операции, которые нам нужно сделать с данными - (i) получить их и (ii) обработать. Нет смысла собирать данные, если мы даже не знаем, как их хранить, поэтому давайте сначала поработаем с синтетическими данными. Мы начнем с torch.tensor. Это основной инструмент для хранения и преобразования данных в torch. Если вы раньше работали с NumPy, вы заметите, что он по своей конструкции очень похож на многомерный массив NumPy. Тем не менее, он даёт несколько ключевых преимуществ. Во-первых, torch.tensor поддерживает асинхронные вычисления на CPU и GPU. Во-вторых, он обеспечивает поддержку автоматического дифференцирования.

Начнем с импорта torch

In [None]:
import torch

Tensor - есть массив (возможно, многомерный) числовых значений. tensor с одной осью называется (в математике) вектором, с двумя - матрицей. Для массивов с более чем двумя осями нет специальных имен - их называют просто тензорами.
Самый простой объект, который мы можем создать - это вектор. Для начала мы можем использовать arange для создания вектора строки с 12 последовательными целыми числами.

In [None]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
xx = torch.Tensor([[x, x**2, x**3] for x in range(12)])
xx

tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00],
        [1.0000e+00, 1.0000e+00, 1.0000e+00],
        [2.0000e+00, 4.0000e+00, 8.0000e+00],
        [3.0000e+00, 9.0000e+00, 2.7000e+01],
        [4.0000e+00, 1.6000e+01, 6.4000e+01],
        [5.0000e+00, 2.5000e+01, 1.2500e+02],
        [6.0000e+00, 3.6000e+01, 2.1600e+02],
        [7.0000e+00, 4.9000e+01, 3.4300e+02],
        [8.0000e+00, 6.4000e+01, 5.1200e+02],
        [9.0000e+00, 8.1000e+01, 7.2900e+02],
        [1.0000e+01, 1.0000e+02, 1.0000e+03],
        [1.1000e+01, 1.2100e+02, 1.3310e+03]])

In [None]:
torch.Tensor([1])

tensor([1.])

Мы можем получить форму экземпляра tensor через свойство shape.

In [None]:
x.shape, xx.shape

(torch.Size([12]), torch.Size([12, 3]))

Узнать расположен ли он на gpu или cpu можно через специальный аттрибут - device

In [None]:
x.device

device(type='cpu')

Мы используем функцию view, чтобы изменить форму одного (возможно многомерного) массива на другой, который содержит такое же количество элементов. Например, мы можем преобразовать форму нашего векторного вектора x в (3, 4), который содержит те же значения, но интерпретирует их как матрицу, содержащую 3 строки и 4 столбца. Обратите внимание, что, хотя форма изменилась, элементы в x не изменились. Причем количество элементов осталось прежним.

In [None]:
x.view((2,-1,2)).shape

torch.Size([2, 3, 2])

Указывать каждое измерение вручную достаточно утомительно. К счастью, torch может автоматически выводить одно измерение, учитывая другие. Мы можем указать -1 для измерения, которое мы хотели бы, чтобы torch автоматически выводил. В нашем случае вместо x.view((3, 4)) мы могли бы использовать x.view ((- 1, 4)) или x.view((3, -1)).

In [None]:
x.view((-1, 4))

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

Другие две полезные функции - zeros и ones. Они создают массивы из всех нулей и всех единиц. Они принимают форму создаваемого тензора в качестве параметра

In [None]:
torch.zeros((2,3,4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [None]:
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

Конечно же, можно создать тензор явно указав все значения

In [None]:
torch.tensor([[1,2,3], [4,5,6], [10,11,0]])

tensor([[ 1,  2,  3],
        [ 4,  5,  6],
        [10, 11,  0]])

Иногда бывает полезно создать массив, заполненный случайными значениями. Для этого используются функции torch.rand и torch.randn. Первое использовает равномерное распределение, второе - нормальное

In [None]:
torch.rand((2,3,4))

tensor([[[0.2173, 0.6062, 0.0537, 0.4660],
         [0.3831, 0.2635, 0.0673, 0.3020],
         [0.6908, 0.5494, 0.2803, 0.5469]],

        [[0.7247, 0.1493, 0.8373, 0.7565],
         [0.0360, 0.8271, 0.3002, 0.4821],
         [0.8326, 0.7319, 0.7634, 0.6156]]])

In [None]:
torch.randn((2,3,4))

tensor([[[-1.2285, -0.1473, -0.9562, -0.2663],
         [ 1.3126, -0.2898,  1.9049, -2.2608],
         [-2.3366,  2.3067,  0.6867,  0.5259]],

        [[-0.0970,  0.0955, -0.1397, -1.6852],
         [-1.2128, -1.4040,  0.3999, -4.2533],
         [ 0.1919,  0.1557, -0.3187, -1.2822]]])

## Операции

Обычно мы хотим не только создавать массивы, но и применять к ним функции. Самые простые и полезные из них - это поэлементные функции. Они работают, выполняя одну скалярную операцию над соответствующими элементами двух массивов. 

In [None]:
x = torch.tensor([1., 2., 4., 8.])
y = torch.ones_like(x) * 2
print('x =', x)
print('y =', y)
print('x + y', x + y)
print('x - y', x - y)
print('x * y', x * y)
print('x / y', x / y)

x = tensor([1., 2., 4., 8.])
y = tensor([2., 2., 2., 2.])
x + y tensor([ 3.,  4.,  6., 10.])
x - y tensor([-1.,  0.,  2.,  6.])
x * y tensor([ 2.,  4.,  8., 16.])
x / y tensor([0.5000, 1.0000, 2.0000, 4.0000])


Еще больше операций может быть выполненно поэлементно. Например - операции exp

In [None]:
x.exp()

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

В дополнение к поэлементным вычислениям, мы также можем выполнять матричные операции. Например, матричное умножение. Для этого используется функция mm.

In [None]:
x1 = torch.arange(12)
x2 = torch.arange(12)
x3 = torch.arange(12)

In [None]:
x = torch.arange(12).reshape((3,4))
y = torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.mm(x, y.T)

tensor([[ 18,  20,  10],
        [ 58,  60,  50],
        [ 98, 100,  90]])

Мы также можем объединить несколько тензоров. Для этого нам нужно указать, по какому измерению производить объединение. В приведенном ниже примере объединяются две матрицы по измерению 0 (по строкам) и измерению 1 (по столбцам) соответственно.

In [None]:
torch.cat((x, y), dim=0)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [ 2,  1,  4,  3],
        [ 1,  2,  3,  4],
        [ 4,  3,  2,  1]])

In [None]:
torch.cat((x, y), dim=1)

tensor([[ 0,  1,  2,  3,  2,  1,  4,  3],
        [ 4,  5,  6,  7,  1,  2,  3,  4],
        [ 8,  9, 10, 11,  4,  3,  2,  1]])

Для получения булевых тензоров можно использовать булевы операторы. Например, можно сравнить два тензора при помощи оператора ==

In [None]:
(x <= y).int()

tensor([[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]], dtype=torch.int32)

In [None]:
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

Суммирование всех элементов тезора дает тензор с одним элементом.

In [None]:
x.sum(dim=1)

tensor([48, 48, 38])

Мы можем преобразовать результат в скаляр в Python, используя функцию item

In [None]:
x.sum().item()

66

Преобразование типов

In [None]:
x.dtype

torch.int64

In [None]:
x.double()

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]], dtype=torch.float64)

In [None]:
x.type('torch.DoubleTensor')

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]], dtype=torch.float64)

##Изменение размерности

In [None]:
x.shape

torch.Size([3, 4])

In [None]:
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [None]:
x.unsqueeze(0).shape

torch.Size([1, 3, 4])

In [None]:
x.unsqueeze(0)[0]

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]]])

In [None]:
x.unsqueeze(1).shape

torch.Size([3, 1, 4])

In [None]:
x.unsqueeze(1)

tensor([[[ 0,  1,  2,  3]],

        [[ 4,  5,  6,  7]],

        [[ 8,  9, 10, 11]]])

In [None]:
x.unsqueeze(2).shape

torch.Size([3, 4, 1])

In [None]:
x.unsqueeze(2)

tensor([[[ 0],
         [ 1],
         [ 2],
         [ 3]],

        [[ 4],
         [ 5],
         [ 6],
         [ 7]],

        [[ 8],
         [ 9],
         [10],
         [11]]])

In [None]:
x.unsqueeze(2).unsqueeze(1).squeeze().shape

torch.Size([3, 4])

In [None]:
x.T

tensor([[ 0,  4,  8],
        [ 1,  5,  9],
        [ 2,  6, 10],
        [ 3,  7, 11]])

In [None]:
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [None]:
x.unsqueeze(0).squeeze().shape

torch.Size([3, 4])

##Транспонирование

In [None]:
x.T

tensor([[ 0,  4,  8],
        [ 1,  5,  9],
        [ 2,  6, 10],
        [ 3,  7, 11]])

In [None]:
x.permute(1,0)

tensor([[ 0,  4,  8],
        [ 1,  5,  9],
        [ 2,  6, 10],
        [ 3,  7, 11]])

In [None]:
xx = torch.rand((2,3,4))

In [None]:
xx

tensor([[[0.3352, 0.9391, 0.2458, 0.2017],
         [0.7368, 0.8841, 0.1105, 0.8151],
         [0.1584, 0.3403, 0.8842, 0.1486]],

        [[0.5301, 0.3763, 0.3034, 0.8674],
         [0.5109, 0.1184, 0.1318, 0.9318],
         [0.2854, 0.9216, 0.5774, 0.5125]]])

In [None]:
xx.permute(1,2,0)

tensor([[[0.3352, 0.5301],
         [0.9391, 0.3763],
         [0.2458, 0.3034],
         [0.2017, 0.8674]],

        [[0.7368, 0.5109],
         [0.8841, 0.1184],
         [0.1105, 0.1318],
         [0.8151, 0.9318]],

        [[0.1584, 0.2854],
         [0.3403, 0.9216],
         [0.8842, 0.5774],
         [0.1486, 0.5125]]])

In [None]:
x.sum()

tensor(66)

In [None]:
x.shape

torch.Size([3, 4])

In [None]:
x.sum(dim=1).shape

torch.Size([3])

In [None]:
x.sum(dim=1, keepdim=True).shape

torch.Size([3, 1])

In [None]:
x.sum(dim=0, keepdim=True).shape

torch.Size([1, 4])

## Индексирование

Как и в любом другом массиве Python, элементы в тензоре могут быть доступны по их индексу. По традиции первый элемент имеет индекс 0, а диапазоны указываются для включения первого, но не последнего элемента. По этой логике `1: 3` выбирает второй и третий элемент из тензора

In [None]:
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [None]:
x[1:3,1:3]

tensor([[ 5,  6],
        [ 9, 10]])

Мы так же можем изменять значения в тензоре

In [None]:
x[1:2, 2:3] = 9
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5, 29,  7],
        [ 8,  9, 10, 11]])

Если мы хотим присвоить нескольким элементам одно и то же значение, мы просто индексируем все из них (при помощи оператора `:`), а затем присваиваем им значение. Например, `[0:2,:]` обращается к первой и второй строчкам.

In [None]:
x[0:2, :] = 12
x

tensor([[12, 12, 12, 12],
        [12, 12, 12, 12],
        [ 8,  9, 10, 11]])

## В numpy и назад

In [None]:
x.numpy()

array([[12, 12, 12, 12],
       [12, 12, 12, 12],
       [ 8,  9, 10, 11]])

In [None]:
y = torch.tensor(x.numpy())
y

tensor([[12, 12, 12, 12],
        [12, 12, 12, 12],
        [ 8,  9, 10, 11]])

## Автоматическое дифференцирование

In [None]:
import torch
from torch import autograd

In [None]:
x = torch.arange(4).type(torch.float)
print(x)

tensor([0., 1., 2., 3.])


## Присоединение градиента к `x`

- Говорит системе, что мы хотим хранить градиент

In [None]:
x.requires_grad

False

In [None]:
x = x.requires_grad_()

In [None]:
x.requires_grad

True

In [None]:
x.grad

## Forward (вычисление функции)

вычислим 

$$y = 2\mathbf{x}^{\top}\mathbf{x}$$

In [None]:
y = 2 * x.dot(x.T)
y2 = 2 * x.dot(x.T)

In [None]:
y

tensor(28., grad_fn=<MulBackward0>)

## Backward (вычисление частных производных функции)

In [None]:
y.backward()

## Получение градиента

$y = 2\mathbf{x}^{\top}\mathbf{x}$, значит 

$$\frac{\partial y}{\partial \mathbf x} = 4\mathbf{x}$$

Проверим:

In [None]:
x.grad

tensor([ 0.,  4.,  8., 12.])

In [None]:
4 * x == x.grad

tensor([True, True, True, True])