# PyTorch: основы

**PyTorch** - это библиотека (или фреймворк) с функционалом для решения задач глубокого обучения. Есть несколько такого типа библиотек. Разница между ними в общем принципе вычислений. В **PyTorch** граф вычислений динамический, он создаётся по ходу вычисления выражений (то есть существует только во время выполнения, потом он "разрушается", в отличие от статических графов, которые компилируются один раз и затем используются без изменения). 

Условно **PyTorch** можно описать формулой:  

$$PyTorch = NumPy + CUDA + Autograd$$

Установленную версию **PyTorch** можно узнать следующей командой

In [1]:
import torch
torch.__version__

'2.6.0+cpu'

При использовании Google Colab чтобы использовать GPU как среду выполнения команд, надо в меню Runtime выбрать Change runtime type и в появившемся окне выбрать GPU. Характеристики GPU в Google Colab можно узнать командой

    !nvidia-smi

### Тензоры: создание

Основным типом данных для работы в **PyTorch** является тензор. В контексте глубокого обучения, под тензором понимается многомерный массив. Например, тензор размерности 2 - то числовая матрица, тензор размерности 3 - это матрица, элементами которой являются вектора из некоторого ${\mathbb R}^d$ и т.д. В рамках глубокого обучения данные представляются именно в виде тензоров (изображения, аудио, видео и т.д.)

Рассмотрим простейшие способы создать тензоры различных размеров. Основные характеристики тензора - это его размерность и размер.

In [42]:
# Тензор-скаляр
scalar = torch.tensor(7)
print(scalar)
print(scalar.ndim)
print(scalar.shape)

tensor(7)
0
torch.Size([])


In [43]:
# получить число с типом данных int в данном случае (только для одно-элементных тензоров)
scalar.item()

7

In [30]:
# Команда type для тензоров 
type(scalar)

torch.Tensor

In [10]:
# Тензор-вектор
vector = torch.tensor([7, 7])
print(vector)
print(vector.ndim)
print(vector.shape)

tensor([7, 7])
1
torch.Size([2])


In [11]:
# Тензор-матрица
MATRIX = torch.tensor([[7, 8], 
                       [9, 10]])
print(MATRIX)
print(MATRIX.ndim)
print(MATRIX.shape)

tensor([[ 7,  8],
        [ 9, 10]])
2
torch.Size([2, 2])


In [12]:
# 3-мерный тензор
TENSOR = torch.tensor([[[1, 2, 3],
                        [3, 6, 9],
                        [2, 4, 5]]])
print(TENSOR)
print(TENSOR.ndim)
print(TENSOR.shape)


tensor([[[1, 2, 3],
         [3, 6, 9],
         [2, 4, 5]]])
3
torch.Size([1, 3, 3])


Часто необходимо создать тензор заданного размера со случаными значениями. 
Это делается командой torch.rand() отправив туда размер тензора. Значения являются реализацией случайной величины с нормальным распределением. 

In [51]:
# Создание матрицы размера (3, 4)
random_tensor = torch.rand(3, 4)
# либо так
random_tensor = torch.rand(size=(3, 4))
random_tensor

tensor([[0.9180, 0.1817, 0.6840, 0.2881],
        [0.5334, 0.0741, 0.2673, 0.4864],
        [0.4803, 0.3563, 0.3182, 0.1908]])

Также, часто необходимо создать тензор, заданного размера, со значениями 0 или 1. Для этого также есть специальные команды.

Кроме того, есть возможность создать тензор из нулей или единиц того же размера, что и заданный тензор.

In [25]:
# Тензор из нулей
zeros = torch.zeros(size=(3, 4))

# Тензор из единиц
ones = torch.ones(size=(4, 3))
print(zeros,'\n',ones)

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]) 
 tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])


In [26]:
new_zeros = torch.zeros_like(input=ones) 
print(new_zeros)
new_ones = torch.ones_like(input=zeros) 
print(new_ones)

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])


Также, можно создавать тензоры с помощью итератора. Это делается командой `torch.arange(start, end, step)`

In [20]:
v = torch.arange(start=0, end=10, step=1)
v

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Также тензор можно создать, передав размеры специальному конструктору тензоров, например torch.FloatTensor(). По умолчанию значения при этом заполняются случайными близкими к нулю значениями. Для иницализации именно нулями, можно использовать метод zero_()

In [61]:
x = torch.FloatTensor(size=(2,3,3)) 
print(x)
x = torch.FloatTensor(size=(10,)).zero_() # для инициализации нулями
print(x)

tensor([[[1.7753e+28, 1.3458e-14, 2.5171e-12],
         [2.5455e-12, 8.2495e+17, 7.2296e+31],
         [5.6015e-02, 4.4721e+21, 1.8042e+28]],

        [[3.9569e-14, 7.2143e+22, 4.7428e+30],
         [1.3583e-19, 1.3567e-19, 1.4586e-19],
         [8.3408e+17, 7.2296e+31, 5.6015e-02]]])
tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])


### Тензоры: типы данных

В **PyTorch** для тензоров используется несколько специальных типов данных, например `FloatTensor`, `IntTensor`, `ByteTensor`. См. подробнее по ссылке

https://pytorch.org/docs/stable/tensors.html#data-types
    
Создать тензор с нужным типов данных можно из массивов в **Python**, приведя их к одному из тензорных типов. Тип данных для чисел с плавающей точкой по умолчанию - это 32-битное число с плавающей точкой `torch.float32` или `torch.float`

Тип данных для целых чисел по умолчанию - это 64-битное целое число `torch.int64`

In [1]:
import torch

v = torch.tensor([7, 7])
print(v.dtype) # тип данных в тензоре

torch.int64


In [49]:
b = torch.tensor([[1.0,2,3], [4,5,6]])
print(b.dtype) # тип данных в тензоре

torch.float32


In [53]:
float_tensor = torch.tensor([3.0, 6.0, 9.0],
                               dtype=torch.float16, # если None или ничего, то torch.float32
                               device=None, # размещение тензора для вычислений на CPU или GPU
                               requires_grad=False) # если True, то операции над тензором записываются

float_tensor.shape, float_tensor.dtype, float_tensor.device

(torch.Size([3]), torch.float16, device(type='cpu'))

Меньшая точность - быстрые, но менее точные вычисления.

Самые частые ошибки при работе с тензорами:
1. несовместный размер для проведения той или иной операции
2. не одиннаковый тип данных при проведении операции
3. тензоры на разных device

Три самых важных аттрибута тензоров:

    shape - размерность
    dtype - тип данных
    device - на каком из device (GPU or CPU)


In [56]:
some_tensor = torch.rand(3, 4)

print(some_tensor)
print(f"Размерность: {some_tensor.shape}")
print(f"Тип данных: {some_tensor.dtype}")
print(f"Device для хранения: {some_tensor.device}") # по умолчанию на CPU


tensor([[0.4052, 0.2472, 0.7881, 0.2938],
        [0.1416, 0.1619, 0.3780, 0.4837],
        [0.5292, 0.2393, 0.8241, 0.1893]])
Размерность: torch.Size([3, 4])
Тип данных: torch.float32
Device для хранения: cpu


Для изменения типа данных тензора: используется метод`type_as()`. При этом создаётся новый тензор (старый не меняется).

Второй способ это функция `torch.Tensor.type(dtype=None)`, где параметром dtype можно задать тот тип данных, который требуется.

In [37]:
a = torch.tensor([1.5, 3.2, -7])
print(a.type_as(torch.IntTensor()))
print(a.type_as(torch.ByteTensor()))
print(a.type(torch.float16))
print(a.type(torch.int8))
print(a)

tensor([ 1,  3, -7], dtype=torch.int32)
tensor([  1,   3, 249], dtype=torch.uint8)
tensor([ 1.5000,  3.1992, -7.0000], dtype=torch.float16)
tensor([ 1,  3, -7], dtype=torch.int8)
tensor([ 1.5000,  3.2000, -7.0000])


### Тензоры: арифметические и матричные операции

Сначала рассмотрим операции, где операнды это тензор и число. В этом случае действие с числом применяется к каждому элементу тензора. Все эти операции не меняют исходные тензоры, а создают новые.

In [6]:
tensor = torch.tensor([1, 2, 3])
print(tensor + 10)
print(tensor * 10)
print(tensor - 10)
print(tensor / 10)
print(tensor)

tensor([11, 12, 13])
tensor([10, 20, 30])
tensor([-9, -8, -7])
tensor([0.1000, 0.2000, 0.3000])
tensor([1, 2, 3])


Поэлементнтые **Арифметические операции**, где операнды это тензора одного размера, работают также, как и в NumPy, но рекомендуется использовать их **PyTorch** аналоги  

| Оператор | Аналог |
|:-:|:-:|
|`+`| `torch.add()` |
|`-`| `torch.sub()` |
|`*`| `torch.mul()` |
|`/`| `torch.div()` |

Все эти операции не меняют исходные тензоры, а создают новые.

In [52]:
a = torch.tensor([1, 2, 3])
b = torch.tensor([10, 20, 30])
print(torch.add(a,b),",",a+b)
print(torch.sub(a,b),",",a-b)
print(torch.mul(a,b),",",a*b)
print(torch.div(a,b),",",a/b)
print(a,",",b)

tensor([11, 22, 33]) , tensor([11, 22, 33])
tensor([ -9, -18, -27]) , tensor([ -9, -18, -27])
tensor([10, 40, 90]) , tensor([10, 40, 90])
tensor([0.1000, 0.1000, 0.1000]) , tensor([0.1000, 0.1000, 0.1000])
tensor([1, 2, 3]) , tensor([10, 20, 30])


Матричные операции также реализованы в специальных методах: умножение матриц, умножение матрицу на вектор и скаларное произведение векторов. Эти методы также создают новый тензор для результата.

In [16]:
x = torch.rand(size=(2,3))+1
y = torch.rand(size=(3,2))+2
v = torch.rand(size=(3,))+3

# Умножение матриц: 5 различных способов записи
z = x.mm(y) 
z = x.matmul(y)
z = torch.mm(x, y)
z = torch.matmul(x, y)
z = x @ y  
print(z)
 
# Умножение матрицы на вектор
z = x.mv(v) 
z = torch.mv(x, v)
print(z)

# Скалярное умножение векторов
z = v.dot(v)  
z = torch.dot(v, v)
z = v @ v
print(z)

tensor([[11.0778, 11.1836],
        [ 9.8551, 10.0431]])
tensor([14.7985, 13.0741])
tensor(33.3321)


Самая типичная ошибка при перемножении матриц - это не соответствие размерностей.

In [17]:
x = torch.rand(size=(3,2))+1
y = torch.rand(size=(3,2))+2
z = torch.matmul(x, y)
print(z)

RuntimeError: mat1 and mat2 shapes cannot be multiplied (3x2 and 3x2)

Ещё одна полезна операция - это транспозиция, то есть смена размерностей в тензоре. Есть два способа. Простой способ `tensor.T` или `torch.t(tensor)` для матриц, где tensor тензор, который надо транспонировать. Если на вход подаются вектора, то они не изменяются. Тензоры размерности больше 2 выдают ошибку. Опять же при вызове создаётся новый тензор, а не меняется старый.

Более общий способ `torch.transpose(input, dim0, dim1)`, где input тензор на входе, dim0 и dim1 размерности, который надо поменять местами.

In [15]:
x = torch.rand(size=(3,2))+1
print(x)
print(x.T)
print(torch.t(x))

tensor([[1.1443, 1.3227],
        [1.7052, 1.3934],
        [1.8932, 1.5606]])
tensor([[1.1443, 1.7052, 1.8932],
        [1.3227, 1.3934, 1.5606]])
tensor([[1.1443, 1.7052, 1.8932],
        [1.3227, 1.3934, 1.5606]])


Матричное умножение также можно осуществлять как перемножение вектора матриц на вектор матриц (или перемножение батчей с матрицами)
То есть первый батч или тензор имеет размер $(b \times n \times m)$, второй --  $(b \times m \times p)$, тогда результат имеет размер $(b \times n \times p)$. Для этого есть специальная функция `bmm()`

In [7]:
bx = torch.FloatTensor(5,2,3)+1 
by = torch.FloatTensor(5,3,2)+2

bz = bx.bmm(by)  #Перемножает батчей матриц
bz = torch.bmm(bx, by)
bz.size()

torch.Size([5, 2, 2])

### Тензоры: прочие стандартные операции

Также в классе тензоров реализованы методы для поиска суммы элементов, среднего, максимума, минимума вдоль той или иной оси. Методы .max() и .min() также возвращают индексы максимальных/минимальных элементов по указанной оси.

In [6]:
a = torch.tensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]], dtype=torch.float)

# сумма всех элементов тензора и среднее всех элементов тензора, 2 формы записи
print(a.sum(),",",torch.sum(a))
print(a.mean(),",",torch.mean(a))

tensor(666.) , tensor(666.)
tensor(74.) , tensor(74.)


Функция mean() работает не со всеми типами данных, тензор целых чисел вызовет ошибку

In [7]:
b = torch.tensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])

print(b.mean(),",",torch.mean(b))

RuntimeError: mean(): could not infer output dtype. Input dtype must be either a floating point or complex dtype. Got: Long

In [8]:
a = torch.tensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]], dtype=torch.float)

# в аргументе можно также указать индекс оси, вдоль которой проводить сумимрование или искать среднее
print(a.sum(0),",",torch.sum(a,0))
print(a.sum(1),",",torch.sum(a,1))

tensor([111., 222., 333.]) , tensor([111., 222., 333.])
tensor([  6.,  60., 600.]) , tensor([  6.,  60., 600.])


In [28]:
# максимальный и минимальный элемент массива
print(a.max(),",",torch.max(a))
print(a.min(),",",torch.min(a))

# максимальный и минимальный элемент массива вдоль оси, возвращаются также индексы соответствующих элементов
# например, минимум вдоль оси 0 выдаст строку минимумов  (min(a[0,:]), min(a[1,:]),...)
print(a.min(0),",",torch.min(a,0))

tensor(300.) , tensor(300.)
tensor(1.) , tensor(1.)
torch.return_types.min(
values=tensor([1., 2., 3.]),
indices=tensor([0, 0, 0])) , torch.return_types.min(
values=tensor([1., 2., 3.]),
indices=tensor([0, 0, 0]))


Например, рассмотрим тензор `a` размерности (100, 780, 780, 3), который можно интерпретировать как 100 изображений размера 780х780 с тремя цветовыми каналами. Тогда среднее элементов по 1-ой оси, означает усреднённое изображение по всем изображениям. А среднее по 4-ой оси значит усреднение каналов для каждого изображения.

Помимо нахождения максимума или минимума полезно также возвращать позицию этих значений в тензоре. Для этого используются функции `torch.argmax()` и `torch.argmin()`. Если значений максимума и минимума несколько, то возвращается индекс первого.

In [36]:
tensor = torch.tensor([0,1,2,3,2,1,0,3])
print(f"Tensor: {tensor}")


print(f"Индекс максимума: {tensor.argmax()}")
print(f"Индекс минимума: {tensor.argmin()}")

Tensor: tensor([0, 1, 2, 3, 2, 1, 0, 3])
Индекс максимума: 3
Индекс минимума: 0


Для тензоров равного размера можно также определить **булевы операции**. Они работают также, как и в NumPy, но рекомендуется использовать их **PyTorch** аналоги  

In [11]:
# Булевы операции
a = torch.tensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.tensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])
print(a == b)
print(a != b)
print(a < b)
print(a > b)

tensor([[False, False, False],
        [False, False, False],
        [ True,  True,  True]])
tensor([[ True,  True,  True],
        [ True,  True,  True],
        [False, False, False]])
tensor([[False, False, False],
        [False, False, False],
        [False, False, False]])
tensor([[ True,  True,  True],
        [ True,  True,  True],
        [False, False, False]])


К тензорам можно поэлементно применять **стандартные функции**, которые являются методами класса тензоров. Как и выше, есть два способа записи.

In [60]:
a = torch.tensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
print(a.sin(),",\n",torch.sin(a))
print(a.cos(),",\n",torch.cos(a))
print(a.exp(),",\n",torch.exp(a))
print(a.log(),",\n",torch.log(a))
b = -a
print(b.abs(),",\n",torch.abs(b))

tensor([[ 0.8415,  0.9093,  0.1411],
        [-0.5440,  0.9129, -0.9880],
        [-0.5064, -0.8733, -0.9998]]) ,
 tensor([[ 0.8415,  0.9093,  0.1411],
        [-0.5440,  0.9129, -0.9880],
        [-0.5064, -0.8733, -0.9998]])
tensor([[ 0.5403, -0.4161, -0.9900],
        [-0.8391,  0.4081,  0.1543],
        [ 0.8623,  0.4872, -0.0221]]) ,
 tensor([[ 0.5403, -0.4161, -0.9900],
        [-0.8391,  0.4081,  0.1543],
        [ 0.8623,  0.4872, -0.0221]])
tensor([[2.7183e+00, 7.3891e+00, 2.0086e+01],
        [2.2026e+04, 4.8517e+08, 1.0686e+13],
        [       inf,        inf,        inf]]) ,
 tensor([[2.7183e+00, 7.3891e+00, 2.0086e+01],
        [2.2026e+04, 4.8517e+08, 1.0686e+13],
        [       inf,        inf,        inf]])
tensor([[0.0000, 0.6931, 1.0986],
        [2.3026, 2.9957, 3.4012],
        [4.6052, 5.2983, 5.7038]]) ,
 tensor([[0.0000, 0.6931, 1.0986],
        [2.3026, 2.9957, 3.4012],
        [4.6052, 5.2983, 5.7038]])
tensor([[  1,   2,   3],
        [ 10,  20,  30],
      

### Тензоры: манипуляция с формой матриц

Часто требуется изменить форму тензора, не меняя сами значения тензора. 

|`Method` |	`One-line description`|
|:-:|:-:|
|`torch.reshape(input, shape)`|Смена формы тензора input в форму shape (если возможно), также можно использовать torch.Tensor.reshape().|
|`torch.Tensor.view(shape)`|	Представление тензора в другой форме.|
|`torch.stack(tensors, dim=0)`|Конкатенация тензоров вдоль новой размерности (dim), все тензоры одного размера.|
|`torch.squeeze(input)` |Сжимает input удаляя все размерности со значением 1.|
|`torch.unsqueeze(input, dim)` |Возвращает input с новой размерностью dim со значением 1.|
|`torch.permute(input, dims)`| Новый вид тензора input с перестановками  порядка размерностей, указанному dims.|



Для смены формы тензора используется метод view(), это аналог np.reshape(). Возвращаемый тензор является представлением (view) исходного тензора,  изменения в новом тензоре изменят и исходный тензор

In [73]:
b = torch.tensor([[1,2,3], [4,5,6]])
c = b.view(3, 2)
print(c)
print(b.view(-1).shape) # к одномерному массиву

tensor([[1, 2],
        [3, 4],
        [5, 6]])
torch.Size([6])


In [74]:
# изменения c изменят и b
c[0,1]=50
b,c

(tensor([[ 1, 50,  3],
         [ 4,  5,  6]]),
 tensor([[ 1, 50],
         [ 3,  4],
         [ 5,  6]]))

Метод torch.reshape() также как и используется для смены формы torch.view() (отличие см. в документации). В большинстве случаев возвращаемый тензор является представлением (view) исходного тензора, изменения в новом тензоре изменят и исходный тензор

In [75]:
x = torch.arange(0., 8.)
print(x, x.shape)

x_reshaped = x.reshape(2,4)
x_reshaped, x_reshaped.shape

tensor([0., 1., 2., 3., 4., 5., 6., 7.]) torch.Size([8])


(tensor([[0., 1., 2., 3.],
         [4., 5., 6., 7.]]),
 torch.Size([2, 4]))

In [76]:
x_reshaped[0,1] = 4
x,x_reshaped

(tensor([0., 4., 2., 3., 4., 5., 6., 7.]),
 tensor([[0., 4., 2., 3.],
         [4., 5., 6., 7.]]))

Тензоры одинаковой размерности можно состыковывать командой `torch.stack()` с указанием размерности, вдоль которой будет стыковка.

In [3]:
import torch
x = torch.arange(0., 8.)

# стыковка тензоров
x_stacked = torch.stack([x, x, x, x], dim=0) # стыковка как строк. Можно сменить на dim=1 
x_stacked


tensor([[0., 1., 2., 3., 4., 5., 6., 7.],
        [0., 1., 2., 3., 4., 5., 6., 7.],
        [0., 1., 2., 3., 4., 5., 6., 7.],
        [0., 1., 2., 3., 4., 5., 6., 7.]])

Часто при работе с массивом могут получаться лишние скобки, или ненужные размерности, вдоль которых лежит всего один элемент. Эти скобки можно убрать методом  `torch.squeeze()`. Либо наоборот эти скобки можно добавить методом `torch.unsqueeze()`

In [9]:
x = torch.tensor([[1,2,3,4,5]])
print(f"Исходный тензор: {x}")
print(f"Размер: {x.shape}")

# убрать лишнюю размерность
x_squeezed = x.squeeze()
print(f"\nНовый тензор: {x_squeezed}")
print(f"Размер: {x_squeezed.shape}")

## добавить
x_unsqueezed = x_squeezed.unsqueeze(dim=1) # можно указать, какую рамерность добавить
print(f"\nNew tensor: {x_unsqueezed}")
print(f"New shape: {x_unsqueezed.shape}")

Исходный тензор: tensor([[1, 2, 3, 4, 5]])
Размер: torch.Size([1, 5])

Новый тензор: tensor([1, 2, 3, 4, 5])
Размер: torch.Size([5])

New tensor: tensor([[1],
        [2],
        [3],
        [4],
        [5]])
New shape: torch.Size([5, 1])


Также есть возможность сменить порядок размерности, указав явно новый порядок. На выходе будет представление того же самого тензора.

In [10]:
x_original = torch.rand(size=(120, 160, 3))

x_permuted = x_original.permute(2, 0, 1) # смена осей 0->1, 1->2, 2->0

print(f"Previous shape: {x_original.shape}")
print(f"New shape: {x_permuted.shape}")


Previous shape: torch.Size([120, 160, 3])
New shape: torch.Size([3, 120, 160])


In [18]:
# Прочие примеры
b=torch.tensor(list(range(8)))
print(b.view(2, 2, 2))
c = b.view(2, 2, 2)
print(c.sum(0)) 
print(c.sum(1))
print(c.max(0))

tensor([[[0, 1],
         [2, 3]],

        [[4, 5],
         [6, 7]]])
tensor([[ 4,  6],
        [ 8, 10]])
tensor([[ 2,  4],
        [10, 12]])
torch.return_types.max(
values=tensor([[4, 5],
        [6, 7]]),
indices=tensor([[1, 1],
        [1, 1]]))


### Тензоры: индексация

Индексация точная такая же, как и в NumPy.

In [16]:
import torch 
a = torch.rand(size=(1,3,3))
print(a[0, 0])
print(a[0][0])
print(a[:,0:2, 0:2])
print(a[:,0:2, :])

tensor([0.2941, 0.1218, 0.2471])
tensor([0.2941, 0.1218, 0.2471])
tensor([[[0.2941, 0.1218],
         [0.5342, 0.9453]]])
tensor([[[0.2941, 0.1218, 0.2471],
         [0.5342, 0.9453, 0.6203]]])


Можно также использовать логическую индексацию, но результатом будет одномерный массив значений.

In [14]:
a = torch.arange(9).reshape(1,3,3)
b = torch.arange(8,-1,-1).reshape(1,3,3)
print(a)
print(b)
print(a[a != b])
print(b[a >= b])

tensor([[[0, 1, 2],
         [3, 4, 5],
         [6, 7, 8]]])
tensor([[[8, 7, 6],
         [5, 4, 3],
         [2, 1, 0]]])
tensor([0, 1, 2, 3, 5, 6, 7, 8])
tensor([4, 3, 2, 1, 0])


## Тензоры: матричные операции и связь с NumPy

**Перевод массива из NumPy в PyTorch**: с помощью метода torch.from_numpy()

In [37]:
import numpy as np

a = np.random.rand(3, 3)
b = torch.from_numpy(a)
print("NumPy: ",a)
print("Tensor: ",b)

NumPy:  [[0.99992837 0.18847704 0.99989629]
 [0.59303675 0.74072888 0.99108414]
 [0.59364077 0.02347271 0.17819951]]
Tensor:  tensor([[0.9999, 0.1885, 0.9999],
        [0.5930, 0.7407, 0.9911],
        [0.5936, 0.0235, 0.1782]], dtype=torch.float64)


Важно отметим, что по умолчанию NumPy массив имеет тип данных float64 и при конвертации в **PyTorch** тензор этот тип сохранится.

Однако, базовым типом данных для вычислений в **PyTorch** является float32. Для конвертации
    
    NumPy array (float64) -> PyTorch tensor (float64) -> PyTorch tensor (float32)
    
можно использовать команду вида `tensor = torch.from_numpy(array).type(torch.float32)`.


Ещё одна *Особенность* в том, что переменные a и b, заданные выше, будут ссылаться на одно и тоже место в памяти, то есть измение одного массива будет менять и другой. Однако, если менять тип данных, то ссылка будет уже на разные места в памяти. 

In [38]:
b[0,0]=10
a[0,0]=a[0,0]+9
print(a,'\n',b)

[[19.          0.18847704  0.99989629]
 [ 0.59303675  0.74072888  0.99108414]
 [ 0.59364077  0.02347271  0.17819951]] 
 tensor([[19.0000,  0.1885,  0.9999],
        [ 0.5930,  0.7407,  0.9911],
        [ 0.5936,  0.0235,  0.1782]], dtype=torch.float64)


In [40]:
# Хотя при такой операции не меняется
array = np.arange(1.0, 8.0)
tensor = torch.from_numpy(array)

# меняем массив, тензор не меняется
array = array + 1
array, tensor

(array([2., 3., 4., 5., 6., 7., 8.]),
 tensor([1., 2., 3., 4., 5., 6., 7.], dtype=torch.float64))

**Перевод из PyTorch в NumPy:** с помощью метода torch.numpy(). По умолчанию тензор создается с типом данных float32. NumPy массив будет иметь тот же тип данных. В данном случае также оба массива будут ссылаться на одно и то же место в памяти.

In [43]:
a = torch.rand(2, 3)
x = a.numpy()
print(type(x))
x

<class 'numpy.ndarray'>


array([[0.6328181 , 0.58345234, 0.9202209 ],
       [0.16245031, 0.26275432, 0.60898954]], dtype=float32)

In [44]:
a[0,0]=10
x

array([[10.        ,  0.58345234,  0.9202209 ],
       [ 0.16245031,  0.26275432,  0.60898954]], dtype=float32)

In [45]:
x[1,1]=7
a

tensor([[10.0000,  0.5835,  0.9202],
        [ 0.1625,  7.0000,  0.6090]])

### Тензоры: использование в ИНС

Один из стандартных компонентов ИНС - это полносвязный слой. Он реализуется модулем `torch.nn.Linear()`, и работает по формуле

$$
y=x \cdot A^T+b.
$$

Здесь
    
    x входные данные
    A матрица с параметрами
    b смещение, тоже вектор в параметрами
    y выходные данные

**Пример** Реализовать функцию `forward_pass(X, w)` ($w_0$ входит в $w$) для одного нейрона (с сигмоидой) с помощью PyTorch.

In [32]:
# 
torch.manual_seed(42)
x = torch.rand(size=(3,2), dtype=torch.float32)

# создание полносвязного слоя
linear = torch.nn.Linear(in_features=2, # in_features равна внутренней размерности входных данных
                         out_features=6) # out_features = размерность вектора выходных данных

output = linear(x)
print(f"Input shape: {x.shape}\n")
print(f"Output:\n{output}\n\nOutput shape: {output.shape}")

# Сравнение с непосредственной реализацией
A = linear.weight 
b = linear.bias  

output2 = torch.mm(tensor_A,A.T)+b
print(f"Output 2:\n{output2}")

Input shape: torch.Size([3, 2])

Output:
tensor([[-0.2539,  0.2555,  0.3376,  0.4656, -0.0777,  1.0456],
        [-0.0635, -0.0787,  0.0365,  0.2090, -0.2524,  0.7780],
        [-0.2150,  0.1119, -0.0063,  0.1786, -0.2141,  0.7447]],
       grad_fn=<AddmmBackward0>)

Output shape: torch.Size([3, 6])
Output 2:
tensor([[-0.2539,  0.2555,  0.3376,  0.4656, -0.0777,  1.0456],
        [-0.0635, -0.0787,  0.0365,  0.2090, -0.2524,  0.7780],
        [-0.2150,  0.1119, -0.0063,  0.1786, -0.2141,  0.7447]],
       grad_fn=<AddBackward0>)


In [58]:
### Куда ???

def forward_pass(X, w):
    return torch.sigmoid(X.mv(w.view(-1)))
    #либо X @ w
    
X = torch.FloatTensor([[-5, 5], [2, 3], [1, -1]])
w = torch.FloatTensor([[-0.5], [2.5]])
result = forward_pass(X, w)
print('result: {}'.format(result))
# result: tensor([1.0000, 0.9985, 0.0474])

result: tensor([1.0000, 0.9985, 0.0474])


## Особенности

Methods which end in an underscore change the tensor in-place. 
That means that no new memory is being allocated by doing the operation, 
which in general increase performance, but can lead to problems and worse performance in PyTorch.

## Autograd

AutoGrad (Automatic Gradients, автоматическое взятие градиентов) -- это модуль PyTorch, отвечающий за взятие производных. Из тензоров и дейсвтий с ними формируется функция многих переменных $Q$, у которой можно вычислить производные по всем интересующим переменным в текущей точке методом `backward()` (интересующие переменные можно отметимть при задании тензоров  указав опцию `requires_grad=True`)

In [61]:
x = torch.randn((3, 1), requires_grad=True)
w = torch.randn((3, 3), requires_grad=True)
b = torch.randn((3, 1), requires_grad=False)

y = (w @ x).add(b)

Q = y.sum() # итоговая функция
# берём градиенты по всем "листьям" - в данном случае это тензоры x, w
Q.backward()

In [62]:
print(w)
print(x)

tensor([[-0.0293, -0.0408, -0.0260],
        [ 0.6972,  0.3295, -1.0734],
        [-1.0426, -0.6452,  0.9046]], requires_grad=True)
tensor([[-1.4422],
        [-0.1731],
        [ 1.5914]], requires_grad=True)


In [64]:
print(x.grad,"|",type(x.grad))

print(w.grad)

tensor([[-0.3747],
        [-0.3565],
        [-0.1949]]) | <class 'torch.Tensor'>
tensor([[-1.4422, -0.1731,  1.5914],
        [-1.4422, -0.1731,  1.5914],
        [-1.4422, -0.1731,  1.5914]])


В данном случае функция $Q$ имеет вид

$$Q = \sum_{j=1}^m (\sum_{j=1}^n w_{i,j} x_j + b_i)
$$

Значит

$$\frac{\partial Q}{\partial x_j} = \sum_{j=1}^m  w_{i,j}, \quad
\frac{\partial Q}{\partial w_{i,j}} = x_j
$$

Важно обратить внимание, что градиенты лежат в поле `.grad` у тех тензоров, по которым брали эти градиенты.

- Объявите тензор `a` размера (2, 3, 4) и тензор `b` размера (1, 8, 3), иницилизируйте их случайно равномерно 
- Затем измените форму тензора `b`, чтобы она совпадала с формой тензора `a`, получите тензор `c`  
- Объявите тензор `L = torch.mean((c - a) `**` 2)` и посчитайте градиент `L` по `c` ( то есть $\frac{\partial{L}}{\partial{c}})$

In [68]:
a = torch.randn((2, 3, 4))
c = torch.randn((2, 3, 4), requires_grad=True)
L = torch.mean((c - a)**2)
L.backward()
c.grad

tensor([[[ 0.2144, -0.0658,  0.0049,  0.1751],
         [ 0.0227,  0.0932,  0.0030, -0.0307],
         [-0.1526, -0.0410, -0.0062,  0.0918]],

        [[-0.1257, -0.0128,  0.0008, -0.0187],
         [ 0.1459, -0.0208, -0.0793,  0.0358],
         [-0.0175,  0.0957,  0.1700,  0.0304]]])