# “Фреймворк PyTorch для разработки искусственных нейронных сетей”

![pytorch-logo.png](attachment:pytorch-logo.png)

### План курса:
1. Введение в PyTorch. Тензоры, автодифференцирование
2. Feed-forward нейронные сети на Pytorch
3. Dataloader, Dataset в Pytorch. Продвинутые методы оптимизации
4. Сверточные сети в Pytorch. Классификация изображений. Предобученные сети в Pytorch
5. Составная лосс-функция. Сегментация изображений.
6. Сверточные сети применительно к текстовым задачам. Эмбеддинг-слои. Классификация новостей одномерными свертками.
7. Рекурентные нейронные сети. GRU, LSTM на Pytorch. Задача NER.
8. GAN на Pytorch.
9. Bert и Transformer на Pytorch
10. Face Detection and Emotion Recognition

In [None]:
!nvidia-smi

Thu Nov 25 09:14:07 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.44       Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   38C    P0    28W / 250W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

# PyTorch, вводное занятие

### План занятия:
* Tensorflow vs PyTorch
* Установка
* Понятие Тензора
* Основы работы с тензорами
* Принципы автодифференцирования
* Градиент
* Оптимизация функции градиентным спуском
* Пара слов о CUDA и GPU 

###  Tensorflow vs PyTorch:

![tensorflow.png](attachment:tensorflow.png)

* GPU и TPU
* Отладка
* Определение графа - верно для старых версий, в Октябре 2019 года добавили поддержку подобного стиля программирования 

#### Различия:
https://towardsdatascience.com/pytorch-vs-tensorflow-in-2020-fe237862fae1
![Screenshot%20from%202020-09-25%2009-55-49.png](attachment:Screenshot%20from%202020-09-25%2009-55-49.png)

### Важные источники

* https://pytorch.org/tutorials/

* https://discuss.pytorch.org/

* https://stackoverflow.com/ :)

### Установка

### https://pytorch.org/

In [1]:
!pip install torch torchvision



### Подключение 

In [2]:
import torch
import torchvision

### Некоторые основы и пару слов о  numpy

In [3]:
import numpy as np

Pytorch позволяет делать многие вещи так же, как и numpy. Это означает, что вы можете получить значение тензора в любой момент времени. Но так же, обратите внимание на некоторые отличия. Полная таблица расхождений расположена здесь: 
* https://github.com/torch/torch7/wiki/Torch-for-Numpy-users

In [4]:
x = np.arange(9).reshape(3, 3)

print("X :\n%s\n" % x)
print("X размеры : %s\n" % (x.shape,))
print("X тип : %s\n" % (type(x)))
# print("Добавим 10 :\n%s\n" % (x + 10))
# print("Среднее по строчке :\n%s\n" % (x.mean(axis=-1)))
# print("Среднее по столбцу :\n%s\n" % (x.mean(axis=0)))

X :
[[0 1 2]
 [3 4 5]
 [6 7 8]]

X размеры : (3, 3)

X тип : <class 'numpy.ndarray'>



##### PyTorch поддерживает разные типы тензоров:

* HalfTensor: 16-bit float
* FloatTensor: 32-bit float (torch.Tensor)
* DoubleTensor: 64-bit float

* ShortTensor: 16-bit int
* IntTensor: 32-bit int
* LongTensor: 64-bit int



#####  Весь список:
* https://pytorch.org/docs/stable/tensors.html

##### Функция для вывода данных о тензоре:

In [5]:
def print_tens_info(tensor):
    print("X :\n%s\n" % tensor)
    print("X количество измерений:\n%s\n" % tensor.dim())
    print("X размеры : ",  tensor.size())
    print("X тип : %s\n" % (tensor.type()))
#     print("Добавим 10 :\n%s\n" % (tensor + 10))
#     print("Среднее по строчке :\n%s\n" % (tensor.mean(axis=-1)))
#     print("Среднее по столбцу :\n%s\n" % (tensor.mean(axis=0)))
    

In [11]:
# y = np.arange(9).reshape(3, 3).astype(float)
# x = torch.tensor(y)  
# x = torch.DoubleTensor(3, 3, 3)
x = torch.DoubleTensor([[1.0, 2.0],[2.0,3.0]])  

In [12]:
print_tens_info(x)

X :
tensor([[1., 2.],
        [2., 3.]], dtype=torch.float64)

X количество измерений:
2

X размеры :  torch.Size([2, 2])
X тип : torch.DoubleTensor



In [14]:
x / torch.LongTensor([3, 5])

tensor([[0.3333, 0.4000],
        [0.6667, 0.6000]], dtype=torch.float64)

In [18]:
x + torch.LongTensor([3, 5]).view(-1, 1)

tensor([[4., 5.],
        [7., 8.]], dtype=torch.float64)

In [10]:
print_tens_info(x)

X :
tensor([[1., 2.],
        [2., 3.]], dtype=torch.float64)

X количество измерений:
2

X размеры :  torch.Size([2, 2])
X тип : torch.DoubleTensor



In [19]:
x = torch.arange(9).view(3,3) # reshape
x = torch.arange(0,9).view(3,3).type(torch.float32)
# y = np.arange(9).reshape(3, 3).astype(float)

In [20]:
print_tens_info(x)

X :
tensor([[0., 1., 2.],
        [3., 4., 5.],
        [6., 7., 8.]])

X количество измерений:
2

X размеры :  torch.Size([3, 3])
X тип : torch.FloatTensor



#####  Из numpy в tensor и обратно

In [21]:
x = x.numpy()
print("X :\n%s\n" % x)
print("X размеры : %s\n" % (x.shape,))
print("X тип : %s\n" % (type(x)))
# print("Добавим 10 :\n%s\n" % (x + 10))
# print("Среднее по строчке :\n%s\n" % (x.mean(axis=-1)))
# print("Среднее по столбцу :\n%s\n" % (x.mean(axis=0)))

X :
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]

X размеры : (3, 3)

X тип : <class 'numpy.ndarray'>



In [None]:
x = torch.randn(3, 3)
print_tens_info(x)

X :
tensor([[ 0.4300, -0.4931, -2.0721],
        [-0.9319,  0.0303, -0.3277],
        [ 0.1252, -0.7440,  0.4124]])

X количество измерений:
2

X размеры :  torch.Size([3, 3])
X тип : torch.FloatTensor



#####  Некоторые отличия:

* ```x.astype('int64') -> x.type(torch.LongTensor)```
* ``` np.concatenate ->	torch.cat ```
* ``` np.multiply ->	torch.cmul ```
* ``` np.copy(x) ->	x:clone() ```


### Градиент

$$a = (b + c)*(c + 2) $$
![Simple-graph-example-260x300.png](attachment:Simple-graph-example-260x300.png)

In [24]:
# обертка над тензором, которая хранит в себе градиент при обучении
from torch.autograd import Variable

In [25]:
torch.ones(3)

tensor([1., 1., 1.])

In [26]:
x = Variable(torch.ones(3), requires_grad = True)

In [28]:
# Видим, что теперь в переменной х есть не только сам тензор, но и флаг сохранения градиента по тензору
x

tensor([1., 1., 1.], requires_grad=True)

#### requires_grad 
Флаг, что необходимо автоматически вычислять градиент на тензоре при вызове функции .backward(). Если стоит False - градиент не нужен, обучение не происходит. 
Пример:

In [29]:
print_tens_info(x)

X :
tensor([1., 1., 1.], requires_grad=True)

X количество измерений:
1

X размеры :  torch.Size([3])
X тип : torch.FloatTensor



In [30]:
print(x.grad)

None


In [31]:
z = (x * x) + 5.0 * x #задание - посчитать производную ручками

In [32]:
z

tensor([6., 6., 6.], grad_fn=<AddBackward0>)

In [33]:
print_tens_info(z)

X :
tensor([6., 6., 6.], grad_fn=<AddBackward0>)

X количество измерений:
1

X размеры :  torch.Size([3])
X тип : torch.FloatTensor



In [34]:
# рассчет градиента
z.backward(torch.ones(3))

In [38]:
print(x.grad)

tensor([14., 14., 14.])


In [36]:
y = x * x
z = y + 5 * x

z.backward(torch.ones(3))

In [37]:
y.grad

  return self._grad


In [39]:
(x - 0.001 * x.grad)

tensor([0.9860, 0.9860, 0.9860], grad_fn=<SubBackward0>)

#### Подключаемые модули

In [40]:
from torch import nn 
from torch import optim

* nn - формирование вычислительных графов для слоев нейронных сетей. TensorFlow: Keras.
* optim - алгоритмы оптимизации (SGD, Adam и т.д.). TensorFlow: модуль optimizers

In [41]:
linear = nn.Linear(2, 2, bias=True)

In [42]:
print ('w: ', linear.weight)
print ('b: ', linear.bias)

w:  Parameter containing:
tensor([[0.6349, 0.4623],
        [0.1449, 0.2322]], requires_grad=True)
b:  Parameter containing:
tensor([-0.7064, -0.2254], requires_grad=True)


In [43]:
criterion = nn.MSELoss()

In [44]:
params = [i for i in linear.parameters()]
params

[Parameter containing:
 tensor([[0.6349, 0.4623],
         [0.1449, 0.2322]], requires_grad=True), Parameter containing:
 tensor([-0.7064, -0.2254], requires_grad=True)]

In [45]:
optimizer = torch.optim.SGD(params, lr=0.01)

In [46]:
x = Variable(torch.randn(2), requires_grad = True)
y = Variable(torch.randn(2), requires_grad = False)

In [47]:
x, y

(tensor([0.2489, 1.0509], requires_grad=True), tensor([-0.0680,  0.7959]))

In [48]:
# пройтись по всем параметрам и занулить градиенты
optimizer.zero_grad()
# предсказание
pred = linear(x)
loss = criterion(pred, y)
print('loss: ', loss.item())

loss:  0.274661123752594


In [49]:
pred

tensor([-0.0625,  0.0548], grad_fn=<AddBackward0>)

In [50]:
linear(x)

tensor([-0.0625,  0.0548], grad_fn=<AddBackward0>)

In [51]:
# что происходит под капотом
torch.matmul(linear.weight, x) + linear.bias

tensor([-0.0625,  0.0548], grad_fn=<AddBackward0>)

Посмотрим на значения градиентов:
1. Нет градиентов
2. Запускаем обратное распространение ошибки
3. Есть градиенты))
4. Запускаем шаг оптимизатора и градиенты прибавятся к значению весов

In [52]:
print ('dL/dw: ', linear.weight.grad) 
print ('dL/db: ', linear.bias.grad)

dL/dw:  None
dL/db:  None


In [53]:
loss.backward()

In [54]:
print ('dL/dw: ', linear.weight.grad) 
print ('dL/db: ', linear.bias.grad)

dL/dw:  tensor([[ 0.0014,  0.0058],
        [-0.1845, -0.7789]])
dL/db:  tensor([ 0.0056, -0.7411])


In [55]:
print ('w: ', linear.weight)
print ('b: ', linear.bias)

w:  Parameter containing:
tensor([[0.6349, 0.4623],
        [0.1449, 0.2322]], requires_grad=True)
b:  Parameter containing:
tensor([-0.7064, -0.2254], requires_grad=True)


In [56]:
optimizer.step()

In [57]:
print ('w: ', linear.weight)
print ('b: ', linear.bias)

w:  Parameter containing:
tensor([[0.6349, 0.4623],
        [0.1468, 0.2400]], requires_grad=True)
b:  Parameter containing:
tensor([-0.7064, -0.2180], requires_grad=True)


![a0Rv7LQ_700b.jpg](attachment:a0Rv7LQ_700b.jpg)

# Попрактикуемся с более привычными функциями

In [None]:
# функция 

#### Подключение GPU 

In [58]:
torch.cuda.is_available()

True

In [59]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

cuda:0


In [62]:
net = torch.randn(10, 10, device=device)
net

tensor([[ 1.0759e+00,  1.1285e+00, -1.8267e+00, -3.4824e-01, -9.4037e-02,
         -2.9011e+00,  1.1379e+00,  3.1322e-01,  1.8630e+00, -9.6024e-01],
        [-1.8531e+00, -5.1831e-01, -7.4040e-01,  5.8935e-01,  5.1653e-01,
          1.0478e+00,  7.0257e-01, -8.1010e-03,  1.6635e+00,  1.9484e+00],
        [-3.7552e-01,  2.4557e-01, -3.6017e-01,  2.0456e+00,  1.3422e-01,
          5.1737e-02, -7.0345e-01, -4.9862e-01,  1.4498e+00,  7.3732e-01],
        [-4.7040e-01,  5.1058e-01,  8.6388e-01,  3.4736e-01, -5.5857e-01,
         -1.1010e-01, -1.1103e+00, -3.9869e-01, -2.3591e+00,  5.2944e-01],
        [ 2.0396e-01,  2.3635e-02, -1.6463e+00,  3.5445e-01,  6.0225e-03,
          8.7473e-01, -1.0168e+00,  4.5247e-01, -1.6922e-01,  2.1080e-01],
        [-1.0143e-01,  3.3923e-01,  7.6741e-01, -4.1693e-01,  1.4080e+00,
          2.3596e-01,  1.3497e+00, -2.1631e-01,  1.5986e+00, -1.0480e+00],
        [-1.4173e+00,  1.8483e+00,  1.9419e+00, -1.3724e+00, -1.0497e+00,
          2.9175e-01,  2.1729e+0

In [63]:
net.cuda() # положить объект на ближайшую доступную видеокарту
#net.cpu()

tensor([[ 1.0759e+00,  1.1285e+00, -1.8267e+00, -3.4824e-01, -9.4037e-02,
         -2.9011e+00,  1.1379e+00,  3.1322e-01,  1.8630e+00, -9.6024e-01],
        [-1.8531e+00, -5.1831e-01, -7.4040e-01,  5.8935e-01,  5.1653e-01,
          1.0478e+00,  7.0257e-01, -8.1010e-03,  1.6635e+00,  1.9484e+00],
        [-3.7552e-01,  2.4557e-01, -3.6017e-01,  2.0456e+00,  1.3422e-01,
          5.1737e-02, -7.0345e-01, -4.9862e-01,  1.4498e+00,  7.3732e-01],
        [-4.7040e-01,  5.1058e-01,  8.6388e-01,  3.4736e-01, -5.5857e-01,
         -1.1010e-01, -1.1103e+00, -3.9869e-01, -2.3591e+00,  5.2944e-01],
        [ 2.0396e-01,  2.3635e-02, -1.6463e+00,  3.5445e-01,  6.0225e-03,
          8.7473e-01, -1.0168e+00,  4.5247e-01, -1.6922e-01,  2.1080e-01],
        [-1.0143e-01,  3.3923e-01,  7.6741e-01, -4.1693e-01,  1.4080e+00,
          2.3596e-01,  1.3497e+00, -2.1631e-01,  1.5986e+00, -1.0480e+00],
        [-1.4173e+00,  1.8483e+00,  1.9419e+00, -1.3724e+00, -1.0497e+00,
          2.9175e-01,  2.1729e+0

In [64]:
net.to(device) # позволяет выбрать девайс и положить на него

tensor([[ 1.0759e+00,  1.1285e+00, -1.8267e+00, -3.4824e-01, -9.4037e-02,
         -2.9011e+00,  1.1379e+00,  3.1322e-01,  1.8630e+00, -9.6024e-01],
        [-1.8531e+00, -5.1831e-01, -7.4040e-01,  5.8935e-01,  5.1653e-01,
          1.0478e+00,  7.0257e-01, -8.1010e-03,  1.6635e+00,  1.9484e+00],
        [-3.7552e-01,  2.4557e-01, -3.6017e-01,  2.0456e+00,  1.3422e-01,
          5.1737e-02, -7.0345e-01, -4.9862e-01,  1.4498e+00,  7.3732e-01],
        [-4.7040e-01,  5.1058e-01,  8.6388e-01,  3.4736e-01, -5.5857e-01,
         -1.1010e-01, -1.1103e+00, -3.9869e-01, -2.3591e+00,  5.2944e-01],
        [ 2.0396e-01,  2.3635e-02, -1.6463e+00,  3.5445e-01,  6.0225e-03,
          8.7473e-01, -1.0168e+00,  4.5247e-01, -1.6922e-01,  2.1080e-01],
        [-1.0143e-01,  3.3923e-01,  7.6741e-01, -4.1693e-01,  1.4080e+00,
          2.3596e-01,  1.3497e+00, -2.1631e-01,  1.5986e+00, -1.0480e+00],
        [-1.4173e+00,  1.8483e+00,  1.9419e+00, -1.3724e+00, -1.0497e+00,
          2.9175e-01,  2.1729e+0