# PyTorch Tutorial 
   ![image.png](attachment:image.png)
    
    Отже - якщо ви є підписником цього блогу і ви випробували власні глибокі навчальні мережі в TensorFlow та Keras, ви, мабуть, натрапили на дещо засмучуючу справу налагодження цих глибоких навчальних бібліотек.
    Звичайно, вони мають API Python, але важко зрозуміти, що саме відбувається, коли щось піде не так.
    Вони також, схоже, не добре грають з бібліотеками Python, такими як numpy, scipy, scikit-learn, Cython тощо.
    
    Увійдіть до бібліотеки глибокого навчання PyTorch - одна з її переваг - це бібліотека глибокого навчання, яка більше домашня в Python, що для прихильника Python, як я, звучить чудово.Він також має чудові функції, такі як динамічна побудова обчислювальних графіків, на відміну від статичних обчислювальних графіків, присутніх у TensorFlow та Keras (докладніше про обчислювальні графіки див. Нижче). 
    Він також піднімається і розвивається, його розвиток підтримують такі компанії, як Facebook, Twitter, NVIDIA тощо. Тож давайте зануримось у цей підручник з PyTorch.

     Перше питання, яке слід врахувати - це краще, ніж TensorFlow? Це досить суб'єктивне судження - відмінність роботи не має великої різниці. Перегляньте цю статтю для швидкого порівняння. У будь-якому випадку зрозуміло, що PyTorch тут залишається і, ймовірно, буде справжнім суперником у "змаганні" між бібліотеками глибокого навчання, тож давайте почнемо з цього вивчати. Я залишу це вам вирішити, що "краще".У цьому підручнику PyTorch ми познайомимося з основними особливостями PyTorch та побудуємо досить просту щільно зв'язану нейронну мережу для класифікації рукописних цифр. Щоб дізнатися, як будувати більш складні моделі в PyTorch, ознайомтеся з моїм посібником з Convolutional Neural Networks в PyTorch.

# Computational graphs

The first thing to understand about any deep learning library is the idea of a computational graph. A computational graph is a set of calculations, which are called nodes, and these nodes are connected in a directional ordering of computation. In other words, some nodes are dependent on other nodes for their input, and these nodes in turn output the results of their calculations to other nodes. A simple example of a computational graph for the calculation 
                        
                        a = (b+c)∗(c+2)
                        
can be seen below – we can break this calculation up into the following steps/nodes:

                        d=b+c
                        e=c+2
                        a=d∗e
                        
   ![image.png](attachment:image.png)
   
    Переваги використання обчислювального графіка полягає в тому, що кожен вузол є як власний незалежно функціонуючий фрагмент коду (як тільки він отримує всі необхідні введення). 
    
    Це дозволяє виконувати різні оптимізації продуктивності при виконанні обчислень, таких як 
                        threading and multiple processing / parallelism.
    
    Усі основні рамки глибокого навчання (TensorFlow, Theano, PyTorch тощо) передбачають побудову таких обчислювальних графіків, за допомогою яких можна будувати нейромережеві операції та через які градієнти можуть бути розповсюджені назад 

#   Tensors

    Tensors are matrix-like data structures which are essential components in deep learning libraries and efficient computation. 
   **Graphical Processing Units (GPUs)** 
    
    are especially effective at calculating operations between tensors, and this has spurred the surge in deep learning capability in recent times. In PyTorch, tensors can be declared simply in a number of ways:

In [4]:
import torch as tc
x = tc.Tensor(2, 3)

In [5]:
print(x)

tensor([[0.0009, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000]])


In [7]:
x = tc.rand(2, 3)
print(x)

tensor([[0.8962, 0.8699, 0.0021],
        [0.3590, 0.4407, 0.4126]])


In [11]:
x = tc.ones(2, 3)
y = tc.ones(2, 3) * 2

print("X:\n", x, "\n")
print("Y:\n", y, "\n")
print("X + Y:\n", x + y)

X:
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 

Y:
 tensor([[2., 2., 2.],
        [2., 2., 2.]]) 

X + Y:
 tensor([[3., 3., 3.],
        [3., 3., 3.]])


In [12]:
y[:, 1] = y[:, 1] + 1
print("y[:, 1] + 1:\n", y)

y[:, 1] + 1:
 tensor([[2., 3., 2.],
        [2., 3., 2.]])


# Autograd in PyTorch

    У будь-якій бібліотеці глибокого навчання повинен бути механізм, де градієнти помилок обчислюються та розповсюджуються назад за допомогою обчислювального графіка. Цей механізм, званий автоградом в PyTorch, легко доступний та інтуїтивно зрозумілий. Клас Variable є основним компонентом цієї системи автоградів у PyTorch. Цей клас змінної розгортає тензор і дозволяє автоматично обчислювати градієнт на тензорі, коли викликається функція .backward () (докладніше про це пізніше). Об'єкт містить дані тензора, градієнт тензора (колись обчислюється відносно якогось іншого значення, тобто втрати), а також містить посилання на будь-яку функцію, створену змінною (якщо це функція, створена користувачем, ця посилання буде бути недійсним).

    Створимо змінну з простого тензора:

In [21]:
from torch.autograd import Variable

x = Variable(torch.ones(2, 2) * 2, requires_grad=True)
print(x)

tensor([[2., 2.],
        [2., 2.]], requires_grad=True)


In [22]:
z = 2 * (x * x) + 8 * x
print(z)

tensor([[24., 24.],
        [24., 24.]], grad_fn=<ThAddBackward>)


 
   To get the gradient of this operation with respect to x i.e. dz/dx we can analytically calculate this to by 4x +5. If all elements of x are 2, then we should expect the gradient dz/dx to be a (2, 2) shaped tensor with 13-values. 
   
   However, first we have to run the **.backwards()** operation to compute these gradients. Of course, to compute gradients, we need to compute them with respect to something. In this case, we can supply a (2,2) tensor of 1-values to be what we compute the gradients against – so the calculation simply becomes d/dx:

In [25]:
x = Variable(torch.ones(2, 2) * 2, requires_grad=True)
z = 2 * (x * x) + 8 * x

z.backward(tc.ones(2, 2))
print(z)
print(x.grad)

tensor([[24., 24.],
        [24., 24.]], grad_fn=<ThAddBackward>)
tensor([[16., 16.],
        [16., 16.]])


# Creating a neural network in PyTorch

![image.png](attachment:image.png)

# Creating a neural network in PyTorch

## The neural network class

    In order to create a neural network in PyTorch, you need to use the included class nn.Module. To use this base class, we also need to use Python class inheritance – this basically allows us to use all of the functionality of the nn.Module base class, but still have overwriting capabilities of the base class for the model construction / forward pass through the network. Some actual code will help explain:

In [27]:
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 200)
        self.fc2 = nn.Linear(200, 200)
        self.fc3 = nn.Linear(200, 10)
        
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return F.log_softmax(x)

     У визначенні класу можна побачити успадкування базового класу nn.Module. Потім у першому рядку ініціалізації класу 
 
   (def __init__ (self) :) ми маємо необхідну функцію **Python super ()**, 
     
     яка створює екземпляр базового класу nn.Module. Наступні три рядки - це те, де ми створюємо наші повністю пов'язані шари відповідно до діаграми архітектури. Повністю з'єднаний нейромережевий шар представлений об'єктом nn.Linear, при цьому першим аргументом у визначенні є кількість вузлів у шарі l, а наступний аргумент - кількість вузлів у шарі l + 1. Як ви можете спостерігати, перший шар займає 28 х 28 вхідних пікселів і з'єднується з першим прихованим шаром 200 вузлів. Потім у нас є ще 200 - 200 прихованих шарів і, нарешті, з'єднання між останнім прихованим шаром і вихідним шаром (з 10 вузлами).
     
     Now we’ve setup the “skeleton” of our network architecture, we have to define how data flows through out network. We do this by defining a forward() method in our class – this method overwrites a dummy method in the base class, and needs to be defined for each network:

In [28]:
net = Net()
print(net)

Net(
  (fc1): Linear(in_features=784, out_features=200, bias=True)
  (fc2): Linear(in_features=200, out_features=200, bias=True)
  (fc3): Linear(in_features=200, out_features=10, bias=True)
)


# Training the network

In [35]:
import torch.optim as optim

learning_rate=0.01
    
# create a stochastic gradient descent optimizer
optimizer = optim.SGD(net.parameters(), lr=learning_rate, momentum=0.9)
# create a loss function
criterion = nn.NLLLoss()

In [34]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.autograd import Variable

# Let's make some data for a linear regression.
A = 3.1415926
b = 2.7189351
error = 0.1
N = 100 # number of data points

# Data
X = Variable(torch.randn(N, 1))

# (noisy) Target values that we want to learn.
t = A * X + b + Variable(torch.randn(N, 1) * error)

# Creating a model, making the optimizer, defining loss
model = nn.Linear(1, 1)
optimizer = optim.SGD(model.parameters(), lr=0.05)
loss_fn = nn.MSELoss()

# Run training
niter = 50
for _ in range(0, niter):
	optimizer.zero_grad()
	predictions = model(X)
	loss = loss_fn(predictions, t)
	loss.backward()
	optimizer.step()

	print("-" * 50)
	print("error = {}".format(loss.data[0]))
	print("learned A = {}".format(list(model.parameters())[0].data[0, 0]))
	print("learned b = {}".format(list(model.parameters())[1].data[0]))

--------------------------------------------------
error = 10.870100975036621
learned A = 0.8080314993858337
learned b = 0.6568734049797058
--------------------------------------------------
error = 8.955848693847656
learned A = 1.014083743095398
learned b = 0.8573118448257446
--------------------------------------------------
error = 7.379682540893555
learned A = 1.2019296884536743
learned b = 1.0383020639419556
--------------------------------------------------
error = 6.081773281097412
learned A = 1.3731731176376343
learned b = 1.201736330986023
--------------------------------------------------
error = 5.012899398803711
learned A = 1.529276728630066
learned b = 1.3493221998214722
--------------------------------------------------
error = 4.132566928863525
learned A = 1.6715750694274902
learned b = 1.4826008081436157
--------------------------------------------------
error = 3.407454252243042
learned A = 1.8012853860855103
learned b = 1.602962851524353
------------------------------



In [45]:
# data from  PyTorch DATASETS
from torchvision import datasets, transforms

epochs=10
batch_size=200

train_data = torch.utils.data.DataLoader(
    datasets.MNIST("../data", train=True, download=True,  transform=transforms.Compose([
                           transforms.ToTensor(),
                           transforms.Normalize((0.1307,), (0.3081,))
                       ])),batch_size=batch_size, shuffle=True)

test_data = torch.utils.data.DataLoader(
    datasets.MNIST("../data", train=False, download=True,  transform=transforms.Compose([
                           transforms.ToTensor(),
                           transforms.Normalize((0.1307,), (0.3081,))
                       ])),batch_size=batch_size, shuffle=True)

In [46]:
log_interval=10

# run the main training loop
for epoch in range(epochs):
    for batch_idx, (data, target) in enumerate(train_data):
        data, target = Variable(data), Variable(target)
        # resize data from (batch_size, 1, 28, 28) to (batch_size, 28*28)
        data = data.view(-1, 28*28)
        optimizer.zero_grad()
        net_out = net(data)
        loss = criterion(net_out, target)
        loss.backward()
        optimizer.step()
        
        if batch_idx % log_interval == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                    epoch, batch_idx * len(data), len(train_data.dataset),
                           100. * batch_idx / len(train_data), loss.data[0]))


  from ipykernel import kernelapp as app






   
    The outer training loop is the number of epochs, whereas the inner training loop runs through the entire training set in batch sizes which are specified in the code as batch_size. On the next line, we convert data and target into PyTorch variables. The MNIST input data-set which is supplied in the torchvision package (which you’ll need to install using pip if you run the code for this tutorial) has the size (batch_size, 1, 28, 28) when extracted from the data loader – this 4D tensor is more suited to convolutional neural network architecture, and not so much our fully connected network. Therefore we need to flatten out the (1, 28, 28) data to a single dimension of 28 x 28 =  784 input nodes.

    The .view() function operates on PyTorch variables to reshape them. If we want to be agnostic about the size of a given dimension, we can use the “-1” notation in the size definition. So by using data.view(-1, 28*28) we say that the second dimension must be equal to 28 x 28, but the first dimension should be calculated from the size of the original data variable. In practice, this means that data will now be of size (batch_size, 784). We can pass a batch of input data like this into our network and the magic of PyTorch will do all the hard work by efficiently performing the required operations on the tensors.

    On the next line, we run optimizer.zero_grad() – this zeroes / resets all the gradients in the model, so that it is ready to go for the next back propagation pass. In other libraries this is performed implicitly, but in PyTorch you have to remember to do it explicitly. Let’s single out the next two lines:
    

# Testing the network



In [52]:
# run a test loop
test_loss = 0
correct = 0

for data, target in test_data:
    data, target = Variable(data, volatile=True), Variable(target)
    data = data.view(-1, 28 * 28)
    net_out = net(data)
    # sum up batch loss
    test_loss += criterion(net_out, target).data[0]
    pred = net_out.data.max(1)[1]  # get the index of the max log-probability
    correct += pred.eq(target.data).sum()

test_loss /= len(test_data.dataset)
print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_data.dataset),
        100. * correct / len(test_data.dataset)))

  
  from ipykernel import kernelapp as app
  # Remove the CWD from sys.path while we load stuff.



Test set: Average loss: 0.0003, Accuracy: 9790/10000 (97%)



In [7]:
a = [1, 4, 11, 14, 111, 144]
print(a[::-2])

[144, 14, 4]
