# Введение в PyTorch

В этом блокноте рассмотрим основную информацию, необходимую для реализации обучения нейронных сетей: тензоры, градиенты, слои нейронной сети, оптимизаторы.

Тензоры
=======

Тензоры - это специализированная структура данных, которая очень похожа на массивы и матрицы. В PyTorch используются тензоры для кодирования входных и выходных данных модели, а также ее параметров.

Тензоры похожи на массивы NumPy, за исключением того, что тензоры могут работать на GPU или другом специализированном оборудовании для ускорения вычислений. Если вы знакомы с ndarrays, то легко привыкните к тензорам.


In [None]:
%matplotlib inline

import torch
import numpy as np

##Инициализация тензоров

Тензоры можно инициализировать различными способами.

**Непосредственно из данных**.

Тензоры можно создавать непосредственно из данных, при этом тип данных определяется автоматически.


In [None]:
data = [[1, 2], [3, 4]]
x_data = torch.tensor(data)

**Из массивов NumPy**

Тензоры можно создавать из массивов NumPy и наоборот.


In [None]:
np_array = np.array(data)
x_np = torch.from_numpy(np_array)

**Из другого тензора**

Новый тензор сохраняет свойства (shape, тип данных) аргумента
тензора, если он не был явно переопределен.


In [None]:
x_ones = torch.ones_like(x_data) # retains the properties of x_data
print(f"Ones Tensor: \n {x_ones} \n")

x_rand = torch.rand_like(x_data, dtype=torch.float) # overrides the datatype of x_data
print(f"Random Tensor: \n {x_rand} \n")

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 

Random Tensor: 
 tensor([[0.1876, 0.2977],
        [0.8114, 0.3004]]) 



**Случайным значением или константой:**

`shape` - кортеж размерностей тензора. В приведенных ниже функциях он определяет размерность тензора.


In [None]:
shape = (2, 3,)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor}")

Random Tensor: 
 tensor([[0.9112, 0.1112, 0.7517],
        [0.8409, 0.1488, 0.7270]]) 

Ones Tensor: 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0.],
        [0., 0., 0.]])


------------------------------------------------------------------------


##Атрибуты тензоров

Атрибуты тензора описывают его `shape`, тип данных и устройство, на котором он хранится.


In [None]:
tensor = torch.rand(3, 4)

print(f"Shape of tensor: {tensor.shape}")
print(f"Datatype of tensor: {tensor.dtype}")
print(f"Device tensor is stored on: {tensor.device}")

Shape of tensor: torch.Size([3, 4])
Datatype of tensor: torch.float32
Device tensor is stored on: cpu


------------------------------------------------------------------------


##Операции над тензорами

Доступны такие операции, как: транспонирование, индексирование, срезы,
математические операции, линейная алгебра, выборка и [многие другие](https://pytorch.org/docs/stable/torch.html).

Каждая из них может быть выполнена на GPU (обычно с более высокой скоростью, чем на
CPU).

In [None]:
# We move our tensor to the GPU if available
if torch.cuda.is_available():
  tensor = tensor.to('cuda')
  print(f"Device tensor is stored on: {tensor.device}")

Device tensor is stored on: cuda:0


**Индексирование и срезы:**


In [None]:
tensor = torch.ones(4, 4)
tensor[:,1] = 0
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


**Объединение тензоров** `torch.cat`, `torch.cat`.


In [None]:
print(tensor.shape)
t1 = torch.cat([tensor, tensor, tensor], dim=1)
print(t1.shape)
print(t1)
t2 = torch.stack([tensor, tensor, tensor], dim=1)
print(t2.shape)
print(t2)

torch.Size([4, 4])
torch.Size([4, 12])
tensor([[6., 5., 6., 6., 6., 5., 6., 6., 6., 5., 6., 6.],
        [6., 5., 6., 6., 6., 5., 6., 6., 6., 5., 6., 6.],
        [6., 5., 6., 6., 6., 5., 6., 6., 6., 5., 6., 6.],
        [6., 5., 6., 6., 6., 5., 6., 6., 6., 5., 6., 6.]])
torch.Size([4, 3, 4])
tensor([[[6., 5., 6., 6.],
         [6., 5., 6., 6.],
         [6., 5., 6., 6.]],

        [[6., 5., 6., 6.],
         [6., 5., 6., 6.],
         [6., 5., 6., 6.]],

        [[6., 5., 6., 6.],
         [6., 5., 6., 6.],
         [6., 5., 6., 6.]],

        [[6., 5., 6., 6.],
         [6., 5., 6., 6.],
         [6., 5., 6., 6.]]])


**Умножение тензоров**


In [None]:
# This computes the element-wise product
print(f"tensor.mul(tensor) \n {tensor.mul(tensor)} \n")
# Alternative syntax:
print(f"tensor * tensor \n {tensor * tensor}")

tensor.mul(tensor) 
 tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor * tensor 
 tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


Матричное умножение двух тензоров.


In [None]:
print(f"tensor.matmul(tensor.T) \n {tensor.matmul(tensor.T)} \n")
# Alternative syntax:
print(f"tensor @ tensor.T \n {tensor @ tensor.T}")

tensor.matmul(tensor.T) 
 tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]]) 

tensor @ tensor.T 
 tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])


**In-place операции** с суффиксом `_`: `x.copy_(y)`, `x.t_()`, изменят содержимое `x`.


In [None]:
print(tensor, "\n")
tensor.add_(5)
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor([[6., 5., 6., 6.],
        [6., 5., 6., 6.],
        [6., 5., 6., 6.],
        [6., 5., 6., 6.]])


<div style="background-color: #54c7ec; color: #fff; font-weight: 700; padding-left: 10px; padding-top: 5px; padding-bottom: 5px"><strong>NOTE:</strong></div>
<div style="background-color: #f3f4f7; padding-left: 10px; padding-top: 10px; padding-bottom: 10px; padding-right: 10px">
<p>In-place операции экономят немного памяти, но могут быть проблематичны при вычислении градиентов из-за потери истории. Поэтому их использование не рекомендуется.</p>
</div>


------------------------------------------------------------------------


##Совместимость с NumPy

Тензоры на CPU и массивы NumPy могут совместно использовать свои базовые области памяти и изменение одного из них приведет к изменению другого.


##Tensor to NumPy array


In [None]:
t = torch.ones(5)
print(f"t: {t}")
n = t.numpy()
print(f"n: {n}")

t: tensor([1., 1., 1., 1., 1.])
n: [1. 1. 1. 1. 1.]


Изменения тензора повлекут изменения массива NumPy.


In [None]:
t.add_(1)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.])
n: [2. 2. 2. 2. 2.]


##NumPy array to Tensor


In [None]:
n = np.ones(5)
t = torch.from_numpy(n)

Изменения массива NumPy повлекут изменения тензора.


In [None]:
np.add(n, 1, out=n)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
n: [2. 2. 2. 2. 2.]


In [None]:
# For tips on running notebooks in Google Colab, see
# https://pytorch.org/tutorials/beginner/colab
%matplotlib inline

Введение в `torch.autograd`
===========================

`torch.autograd` - это движок автоматического дифференцирования PyTorch, который обеспечивает обучение нейронных сетей.

Нейронные сети
--------------

Нейронные сети (НС) - это набор вложенных функций, которые выполняются на некоторых входных данных. Эти функции определяются *параметрами*
(состоящими из весов (weights) и смещений (biases)), которые в PyTorch хранятся в виде тензоров.

Обучение НС происходит в два этапа:

**Forward Propagation**: При прямом распространении НС делает свое лучшее предположение о правильном выходе. Он прогоняет входные данные через каждую из своих функции, чтобы сделать это предположение.

**Backward Propagation**: При обратном распространении НС изменяет свои параметры пропорционально ошибке в своем предположении. Для этого он проходит
назад от выхода, собирая производные ошибок относительно параметров функций, и оптимизирует параметры с помощью градиентного спуска.

Использование в PyTorch
-----------------------

Давайте рассмотрим один шаг обучения. Для этого примера мы загрузим
предварительно обученную модель resnet18 из `torchvision`. Мы создаем случайный тензор для представления одного изображения с 3 каналами, высотой и шириной по 64, и соответствующие `label`, инициализированные некоторыми случайными значениями.
Метки в предварительно обученных моделях имеет форму (1,1000).


In [None]:
import torch
from torchvision.models import resnet18, ResNet18_Weights
model = resnet18(weights=ResNet18_Weights.DEFAULT)
data = torch.rand(1, 3, 64, 64)
labels = torch.rand(1, 1000)

Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to /root/.cache/torch/hub/checkpoints/resnet18-f37072fd.pth
100%|██████████| 44.7M/44.7M [00:00<00:00, 110MB/s]


**Forward pass** - прогоним входные данные через все слои модели, чтобы сделать предсказание.


In [None]:
prediction = model(data) # forward pass

Используем предсказание модели и истинные значения `label`, чтобы вычислить ошибку (`loss`). **Backward propagation** запускается когда мы вызываем
`.backward()` у тензора с ошибками. Autograd вычисляет и сохраняет градиенты для кажого параметра модели в его атрибуте `.grad`.


In [None]:
loss = (prediction - labels).sum()
loss.backward() # backward pass

Далее мы загружаем оптимизатор (например, SGD) с нужным learning rate (например, 0.01) и [momentum](https://towardsdatascience.com/stochastic-gradient-descent-with-momentum-a84097641a5d)
0.9. Фиксируем все параметры модели в оптимизаторе.


In [None]:
optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

Осталось вызвать метод `.step()` для запуска шага градиентного спуска. Оптимизатор изменит каждый параметр в соответсвии с их градиентом, сохраненном в `.grad`.


In [None]:
optim.step() #gradient descent

Этого достаточно, чтобы самостоятельно реализовать обучение нейронной сети.


Neural Networks
===============

Neural networks can be constructed using the `torch.nn` package.

Now that you had a glimpse of `autograd`, `nn` depends on `autograd` to
define models and differentiate them. An `nn.Module` contains layers,
and a method `forward(input)` that returns the `output`.

For example, look at this network that classifies digit images:

![convnet](https://pytorch.org/tutorials/_static/img/mnist.png)

It is a simple feed-forward network. It takes the input, feeds it
through several layers one after the other, and then finally gives the
output.

A typical training procedure for a neural network is as follows:

-   Define the neural network that has some learnable parameters (or
    weights)
-   Iterate over a dataset of inputs
-   Process input through the network
-   Compute the loss (how far is the output from being correct)
-   Propagate gradients back into the network's parameters
-   Update the weights of the network, typically using a simple update
    rule: `weight = weight - learning_rate * gradient`

##Define the network

Let's define this network:


In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120)  # 5*5 from image dimension
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, input):
        # Convolution layer C1: 1 input image channel, 6 output channels,
        # 5x5 square convolution, it uses RELU activation function, and
        # outputs a Tensor with size (N, 6, 28, 28), where N is the size of the batch
        c1 = F.relu(self.conv1(input))
        # Subsampling layer S2: 2x2 grid, purely functional,
        # this layer does not have any parameter, and outputs a (N, 6, 14, 14) Tensor
        s2 = F.max_pool2d(c1, (2, 2))
        # Convolution layer C3: 6 input channels, 16 output channels,
        # 5x5 square convolution, it uses RELU activation function, and
        # outputs a (N, 16, 10, 10) Tensor
        c3 = F.relu(self.conv2(s2))
        # Subsampling layer S4: 2x2 grid, purely functional,
        # this layer does not have any parameter, and outputs a (N, 16, 5, 5) Tensor
        s4 = F.max_pool2d(c3, 2)
        # Flatten operation: purely functional, outputs a (N, 400) Tensor
        s4 = torch.flatten(s4, 1)
        # Fully connected layer F5: (N, 400) Tensor input,
        # and outputs a (N, 120) Tensor, it uses RELU activation function
        f5 = F.relu(self.fc1(s4))
        # Fully connected layer F6: (N, 120) Tensor input,
        # and outputs a (N, 84) Tensor, it uses RELU activation function
        f6 = F.relu(self.fc2(f5))
        # Gaussian layer OUTPUT: (N, 84) Tensor input, and
        # outputs a (N, 10) Tensor
        output = self.fc3(f6)
        return output


net = Net()
print(net)

You just have to define the `forward` function, and the `backward`
function (where gradients are computed) is automatically defined for you
using `autograd`. You can use any of the Tensor operations in the
`forward` function.

The learnable parameters of a model are returned by `net.parameters()`


In [None]:
params = list(net.parameters())
print(len(params))
print(params[0].size())  # conv1's .weight

Let\'s try a random 32x32 input. Note: expected input size of this net
(LeNet) is 32x32. To use this net on the MNIST dataset, please resize
the images from the dataset to 32x32.


In [None]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

Zero the gradient buffers of all parameters and backprops with random
gradients:


In [None]:
net.zero_grad()
out.backward(torch.randn(1, 10))

<div style="background-color: #54c7ec; color: #fff; font-weight: 700; padding-left: 10px; padding-top: 5px; padding-bottom: 5px"><strong>NOTE:</strong></div>
<div style="background-color: #f3f4f7; padding-left: 10px; padding-top: 10px; padding-bottom: 10px; padding-right: 10px">
<p><code>torch.nn</code> only supports mini-batches. The entire <code>torch.nn</code>package only supports inputs that are a mini-batch of samples, and nota single sample.For example, <code>nn.Conv2d</code> will take in a 4D Tensor of<code>nSamples x nChannels x Height x Width</code>.If you have a single sample, just use <code>input.unsqueeze(0)</code> to adda fake batch dimension.</p>
</div>

Before proceeding further, let\'s recap all the classes you've seen so
far.

**Recap:**

:   -   `torch.Tensor` - A *multi-dimensional array* with support for
        autograd operations like `backward()`. Also *holds the gradient*
        w.r.t. the tensor.
    -   `nn.Module` - Neural network module. *Convenient way of
        encapsulating parameters*, with helpers for moving them to GPU,
        exporting, loading, etc.
    -   `nn.Parameter` - A kind of Tensor, that is *automatically
        registered as a parameter when assigned as an attribute to a*
        `Module`.
    -   `autograd.Function` - Implements *forward and backward
        definitions of an autograd operation*. Every `Tensor` operation
        creates at least a single `Function` node that connects to
        functions that created a `Tensor` and *encodes its history*.

**At this point, we covered:**

:   -   Defining a neural network
    -   Processing inputs and calling backward

**Still Left:**

:   -   Computing the loss
    -   Updating the weights of the network

##Loss Function

A loss function takes the (output, target) pair of inputs, and computes
a value that estimates how far away the output is from the target.

There are several different [loss
functions](https://pytorch.org/docs/nn.html#loss-functions) under the nn
package . A simple loss is: `nn.MSELoss` which computes the mean-squared
error between the output and the target.

For example:


In [None]:
output = net(input)
target = torch.randn(10)  # a dummy target, for example
target = target.view(1, -1)  # make it the same shape as output
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss)

Now, if you follow `loss` in the backward direction, using its
`.grad_fn` attribute, you will see a graph of computations that looks
like this:

``` {.sourceCode .sh}
input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
      -> flatten -> linear -> relu -> linear -> relu -> linear
      -> MSELoss
      -> loss
```

So, when we call `loss.backward()`, the whole graph is differentiated
w.r.t. the neural net parameters, and all Tensors in the graph that have
`requires_grad=True` will have their `.grad` Tensor accumulated with the
gradient.

For illustration, let us follow a few steps backward:

In [None]:
print(loss.grad_fn)  # MSELoss
print(loss.grad_fn.next_functions[0][0])  # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU

##Backprop

To backpropagate the error all we have to do is to `loss.backward()`.
You need to clear the existing gradients though, else gradients will be
accumulated to existing gradients.

Now we shall call `loss.backward()`, and have a look at conv1\'s bias
gradients before and after the backward.


In [None]:
net.zero_grad()     # zeroes the gradient buffers of all parameters

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

Now, we have seen how to use loss functions.

**Read Later:**

> The neural network package contains various modules and loss functions
> that form the building blocks of deep neural networks. A full list
> with documentation is [here](https://pytorch.org/docs/nn).

**The only thing left to learn is:**

> -   Updating the weights of the network

##Update the weights

The simplest update rule used in practice is the Stochastic Gradient
Descent (SGD):

``` {.sourceCode .python}
weight = weight - learning_rate * gradient
```

We can implement this using simple Python code:

``` {.sourceCode .python}
learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)
```

However, as you use neural networks, you want to use various different
update rules such as SGD, Nesterov-SGD, Adam, RMSProp, etc. To enable
this, we built a small package: `torch.optim` that implements all these
methods. Using it is very simple:

``` {.sourceCode .python}
import torch.optim as optim

# create your optimizer
optimizer = optim.SGD(net.parameters(), lr=0.01)

# in your training loop:
optimizer.zero_grad()   # zero the gradient buffers
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()    # Does the update
```


<div style="background-color: #54c7ec; color: #fff; font-weight: 700; padding-left: 10px; padding-top: 5px; padding-bottom: 5px"><strong>NOTE:</strong></div>
<div style="background-color: #f3f4f7; padding-left: 10px; padding-top: 10px; padding-bottom: 10px; padding-right: 10px">
<p>Observe how gradient buffers had to be manually set to zero using<code>optimizer.zero_grad()</code>.
