# В конце этого семинара - домашка!

# PyTorch

## __Tensors__

Одно из основных понятий в PyTorch -- это __Tenosor__. 

https://pytorch.org/docs/master/tensors.html

__Tensor__ -- это такой же массив, как и в __numpy.array__, размерность и тип данных которого мы можем задать. Tensor в отличие от numpy.array может вычисляться на __GPU__.

In [None]:
import numpy as np
import torch

In [None]:
N = 100
D_in = 50

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # Uncomment this to run on GPU

x = np.random.randn(N, D_in)
x_torch = torch.randn(N, D_in, device=device, dtype=dtype)

In [None]:
x

array([[ 2.9063605 ,  1.28727244,  1.04396854, ...,  0.61918339,
        -0.77514123, -1.05039963],
       [ 0.80203171, -0.33922492,  0.82562547, ...,  0.28729472,
        -0.32674109, -0.78163499],
       [-0.80135646, -0.51789672, -0.5729547 , ...,  0.68213647,
        -0.24556942, -1.45290854],
       ...,
       [-0.85989426, -0.69044729, -0.78280206, ..., -1.48344825,
         0.54556039, -1.62679144],
       [-1.11647949,  1.11870765, -1.06416856, ...,  0.06115636,
        -0.057212  ,  0.03762534],
       [ 0.03395354, -0.21853534,  1.20785192, ...,  0.74579299,
         0.30592849, -0.33713723]])

In [None]:
x_torch

tensor([[-0.7963,  0.2343,  0.7029,  ..., -0.0640, -0.3748, -0.7350],
        [-1.8590, -0.0258, -1.6153,  ..., -1.0861, -0.1384, -0.8094],
        [-0.8748, -0.7045,  0.3725,  ...,  0.6364, -0.1557,  0.9131],
        ...,
        [-0.5822,  0.8865, -0.2118,  ...,  1.4809, -0.3481,  0.1570],
        [ 1.2604,  0.7188,  0.3066,  ..., -1.7161,  1.6516, -1.6850],
        [-0.4700, -0.2816, -0.4469,  ..., -0.4257,  1.9322,  0.4812]])

In [None]:
x_torch = torch.Tensor(np.ones((N, D_in)))
x_torch

tensor([[1., 1., 1.,  ..., 1., 1., 1.],
        [1., 1., 1.,  ..., 1., 1., 1.],
        [1., 1., 1.,  ..., 1., 1., 1.],
        ...,
        [1., 1., 1.,  ..., 1., 1., 1.],
        [1., 1., 1.,  ..., 1., 1., 1.],
        [1., 1., 1.,  ..., 1., 1., 1.]])

In [None]:
x_torch = torch.FloatTensor([1, 2, 3])
x_torch

tensor([1., 2., 3.])

In [None]:
x1 = torch.IntTensor([1, 2, 3])
x2 = torch.FloatTensor([3, 4, 5])

In [None]:
print(x1)
print(x2)

tensor([1, 2, 3], dtype=torch.int32)
tensor([3., 4., 5.])


В PyTorch можно найти много операций, которые похожи на то, что есть в numpy :
```
- torch.add (np.add) -> сложение тензоров (поэлементное)
- torch.sub (np.subtract) -> вычитание (поэлементное)
- torch.mul (np.multiply) -> умнажение скаляров / матриц (поэлементное)
- torch.mm (np.matmul) -> перемножение матриц
- torch.ones (np.ones) -> создание тензора из единиц
```

In [None]:
# Давайте попробуем вышепересчисленные операции

In [None]:
x1 = torch.FloatTensor([[1, 2, 3], [4, 5, 6]])

In [None]:
x2 = torch.FloatTensor([[7, 8], [9, 1], [2, 3]])

In [None]:
out = torch.mm(x1, x2)
out

tensor([[31., 19.],
        [85., 55.]])

```
- torch.view (np.reshape) -> изменения порядка элементов в тензоре, не путать с транспонированием.
```

## Dynamic Computational Graph

После того, как были реализованы архитектура модели и весь процес обучения и валидация сети, при запуске кода в PyTorch происходят следующие этапы:

1. Строится вычислительный граф (направленный ациклический граф), где каждое ребро, ведущее к дргуому узлу, -- это тензор, а узел - это выполнение операции над данным тензором.

<img src="./images/Graph.png" alt="Drawing" style="width: 300px;"/>

Реализуем двухслойную сеть для задачи регрессии. И граф для такой архитектуры бдует выглядить следующим образом:

<img src="./images/RegGraph.png" alt="Drawing" />

In [None]:
batch_size = 64
input_size = 3
hidden_size = 2
output_size = 1

In [None]:
# Create random input and output data
x = torch.randn(batch_size, input_size, device=device, dtype=dtype)
y = torch.randn(batch_size, output_size, device=device, dtype=dtype)

# Randomly initialize weights
w1 = torch.randn(input_size, hidden_size, device=device, dtype=dtype)
w2 = torch.randn(hidden_size, output_size, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # Forward pass: compute predicted y
    #TODO
    
    
    # Compute and print loss
    
    
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2
    if t % 100 == 99:
        print('Loss on iteration {} = {}'.format(t, loss))
    

NameError: ignored

In [None]:
loss

## Autograd

2. Еще одно фундаментальное понятие и важный элемент при построении графа -- это __Autograd__ -- автоматическое дифференцирование.

Для того чтобы с помощью стохастического градиентного спуска обновить обучаемые параметры сети, нужно посчитать градиенты. И как известно, обновление весов, которые учавтсвуют в нескольких операциях, происходит по `правилу дифференцирования сложной функции` (цепное правило или __chain rule__).

<img src="./images/RegChainRule.png" alt="Drawing" />

То есть (1) вычислительный граф позволяет определить последовательность операций, а (2) автоматическое дифференцирование посчитать нужные градиенты.

Если бы `Autograd` не было, то тогда backprop надо было бы реализовывать самим, и как это бы выглядело?

Рассмотрим на примере, как посчиать градиенты для весов из входного слоя, где входной вектора `X` состоит из 3-х компонент. А входной слой вторую размерность имеет равной 2. 

После чего это идет в `ReLU`, но для простоты опустим на время ее, и посмотрим как дальше это идет по сети.

Ниже написано, как это все вычисляется и приводит нас к значению целевой функции для одного наблюдения

<img src="./images/1.png" alt="1" style="width: 600px;"/>

Тогда, чтобы посчитать градиент по первому элементу из обучаемой матрицы на первом слое, необходимо взять производоную у сложной функции. А этот как раз делается по `chain rule`: сначала берем у внешней, потом спускаемся на уровень ниже, и так пока не додйдем до то функции, после которой эта перменная уже нигде не участвует:

<img src="./images/2.png" alt="2" style="width: 400px;"/>

Перепишем это все в матричном виде, то есть сделаем аналог вида матрицы весов из первого слоя, но там уже будут её градиенты, котоыре будут нужны чтобы как раз обновить эти веса:

<img src="./images/3.jpg" alt="3" style="width: 600px;"/>

Как видно, здесь можно вектор X вынести, то есть разделить на две матрицы:

<img src="./images/4.jpg" alt="4" style="width: 500px;"/>

То есть уже видно, что будем траспонировать входной вектор(матрицу). Но надо понимать, что в реальности у нас не одно наблюдение в батче, а несколько, тогда запись немного изменит свой вид:

<img src="./images/5.jpg" alt="5" style="width: 500px;"/>

Теперь мы видим, как на самом деле вычисляется вот те самые частные производные для вектора X, то есть видно, как математически это можно записать, а именно:

<img src="./images/6.jpg" alt="6" style="width: 500px;"/>

<img src="./images/7.jpg" alt="7" style="width: 500px;"/>

Уже можно реализовать. Понятно, что транспонируется, что нет, и что на что умножается.

Но помним про ReLU. Для простоты опустили, но теперь её учесть будет легче. 

Так как после первого слоя идет ReLU, а значит, занулились те выходы первого слоя, которые были __меньше__ нуля. Получается, что во второй слой не все дошло, тогда нужно обнулить, что занулил ReLU. 

Что занулил ReLU, мы можем выяснить при `forward pass`, а где именно поставить нули, то надо уже смотреть относительно `backward propagation`, на том выходе, где последний раз участвовал выход после ReLU, то есть:

<img src="./images/8.jpg" alt="8" style="width: 600px;"/>

Благодаря `Autograd` реализацию `chain rule` можно избежать, так как для более сложных нейронных сетей вручную такое реализовать сложно, при этом сделать это эффективным.

Для того чтобы PyTorch понял, за какими переменными надо "следить", то есть указать, что именно "эти" переменные являются обучаемыми, необходимо при создании тензора в качестве аттрибута указать __requires_grad=True__:

In [None]:
w1 = torch.randn(input_size, hidden_size, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(hidden_size, output_size, device=device, dtype=dtype, requires_grad=True)

In [None]:
learning_rate = 1e-6
for t in range(500):
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())
    
    # Теперь подсчет градиентов для весов происходит при вызове backward
    loss.backward()
   
    # Обновляем значение весов, но укзаываем, чтобы PyTorch не считал эту операцию, 
    # которая бы учавствовала бы при подсчете градиентов в chain rule
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad
        
        # Теперь обнуляем значение градиентов, чтобы на следующем шаге 
        # они не учитывались при подсчете новых градиентов,
        # иначе произойдет суммирвоание старых и новых градиентов
        w1.grad.zero_()
        w2.grad.zero_()

Осталось еще не вручную обновлять веса, а использовать адаптивные методы градинетного спсука. Для этого нужно использовать модуль __optim__. А помимо оптимайзера, еще можно использовать готовые целевые функции из модлуя __nn__.

In [None]:
import torch.optim as optim

loss_fn = torch.nn.MSELoss(reduction='sum')

learning_rate = 1e-6
optimizer = torch.optim.Adam([w1, w2], lr=learning_rate)

for t in range(500):
    optimizer.zero_grad()
    
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    
    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())
    
    loss.backward()
   
    optimizer.step()

После того, как мы сделали backward, в этот момент посчитались градиенты и граф уничтожился, то есть стёрлись все пути, которые связывали тензоры между собой. Это значит, что еще раз backward сделать не поулчится, будет ошибка. Но если вдруг нужно считать градиенты еще раз, то нужно при вызове backward задать `retain_graph=True`.

Еще важный аттрибут, который есть у Tensor -- это `grad_fn`. В этом аттрибуте указывается та функция, посредством которой был создан этот тензор. Так PyTorch понимает, как именно считать по нему градиент.

In [None]:
y_pred.grad_fn

Также можно контролировать, должны ли градиенты течь или нет.

In [None]:
x = torch.tensor([1.], requires_grad=True)
with torch.no_grad():
    with torch.enable_grad():
        y = x * 2
y.requires_grad

## Почему Backprop надо понимать

1. Backprop позволяет понимать, как те или иные операции, сложные конструкции в сети влияют на обнолвение весов.
Почему лучше сделать конкатенацию тензоров, а не поэлементное сложение. Для этого нужно посмотреть на backprop, как будут обновляться веса.

2. Даже на таком маленьком пример двуслойной MLP можно уже увидеть, когда `ReLU`, как функция активация, не очень хорошо применять. Если разреженные данные, то получить на выходе много нулей вероятнее, чем при использовании `LeakyReLU`, то есть градиенты будут нулевыми и веса никак не будут обновляться => сеть не обучается!

3. В архитектуре могут встречаться недифференцируемые операции, и первое - это нужно понять, потому что при обучении сети это может быть не сразу заметно, просто качество модели будет плохое, и точность хорошую не поулчится достичь.

Например, в одной из статей было предложено в качестве механизма внимания применить распределение Бернулли, которое умножается на выход промежуточного слоя сети. И эта опреация недифференцируема, нужно реализовывать backprop самим, тем самым обеспечить корректное протекание градиентов.


<img src="./images/Bernoulli.png" alt="8" style="width: 600px;"/>

Так же любая статья, которая предлагет новую целевую функцию для той или иной задачи, там всегда будут представлены градиенты, чтобы было понимание, как это влияет на обновление весов. Не просто так !

<img src="./images/BernoulliBackProp.png" alt="8" style="width: 600px;"/>

# Домашние задание

1. Добавить Bias и посчитать для них градиенты.
2. Сравнить градинеты с тем, как считает PyTorch AutoGrad.

In [107]:
import numpy as np
import torch

Чтобы сравнивать одинаковые исходные данные, зададим `x, y, w1, w1` и тд. сразу с `requires_grad=True`, иначе у нас будет 2 инициализации с разными значениями.

In [108]:
batch_size = 64
input_size = 3
hidden_size = 2
output_size = 1

# Create random input and output data
x = torch.randn(batch_size, input_size, device=device, dtype=dtype)
y = torch.randn(batch_size, output_size, device=device, dtype=dtype)

# Randomly initialize weights
w1_start = torch.randn(input_size, hidden_size, device=device, dtype=dtype, requires_grad=True)
w2_start = torch.randn(hidden_size, output_size, device=device, dtype=dtype, requires_grad=True)

# Randomly initialize bias
b1_start = torch.randn(1, hidden_size, device=device, dtype=dtype, requires_grad=True)
b2_start = torch.randn(1, output_size, device=device, dtype=dtype, requires_grad=True)

По какой-то причине "градиент вручную" требует клонировать исходые данные, а AutoGrad просто знак =. Клонирование уже не подойдёт. Честно говоря, не понял, почему так.

In [109]:
# make a clone so the original matrix is not affected!!!
w1 = w1_start.clone()
w2 = w2_start.clone()
b1 = b1_start.clone()
b2 = b2_start.clone()
###

$h_1 = X \cdot w_1 + b_1$  
$h_{Relu} = max(0, h_1)$  
$out = h_{Relu} \cdot w_2 +b_2$  
$loss = \sum(out-y)^2$

$\dfrac{\partial loss}{\partial out} = 2(out-y)$  
$grad(w_2) = h_{Relu}^T \cdot \dfrac{\partial loss}{\partial out}$  
$grad(h_{Relu}) = \dfrac{\partial loss}{\partial out} \cdot w_2^T$  
$grad(w_1) = h_{Relu}^T \cdot \dfrac{\partial loss}{\partial out}$  
$grad(b_2) = \dfrac{\partial loss}{\partial out}$  
$grad(b_1) = \dfrac{\partial loss}{\partial out} \cdot w_2^T$

In [110]:
learning_rate = 1e-4
for t in range(1001):
    # Forward pass: compute predicted y
    #TODO
    h_1 = x.mm(w1) + b1
    h_relu = h_1.clamp(min=0)
    out = h_relu.mm(w2) + b2
    
    # Compute and print loss
    loss = (out - y).pow(2).sum().item()
    
    # Backward pass: 
    dloss_dout = 2 * (out - y)
    
    grad_w2 = h_relu.t().mm(dloss_dout) 
    
    grad_h_relu = dloss_dout.mm(w2.t())
    grad_h_relu[h_1 < 0] = 0
    
    grad_w1 = x.t().mm(grad_h_relu)
    grad_w2 = h_relu.t().mm(dloss_dout) 

    grad_b2 = dloss_dout

    grad_h_1 = dloss_dout.mm(w2.t())
    grad_h_1[h_1 < 0] = 0
    grad_b1 = grad_h_1
    
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2
    b1 -= learning_rate * grad_b1.sum()
    b2 -= learning_rate * grad_b2.sum()
    if t % 100 == 0:
        print('Loss on iteration {} = {}'.format(t, loss))

Loss on iteration 0 = 117.30741119384766
Loss on iteration 100 = 64.10514831542969
Loss on iteration 200 = 55.514095306396484
Loss on iteration 300 = 52.365882873535156
Loss on iteration 400 = 51.388675689697266
Loss on iteration 500 = 50.68135452270508
Loss on iteration 600 = 50.15719223022461
Loss on iteration 700 = 49.63975524902344
Loss on iteration 800 = 49.18128967285156
Loss on iteration 900 = 48.78951644897461
Loss on iteration 1000 = 48.49049758911133


### PyTorch AutoGrad

In [111]:
### reassign the initial random matrixes, otherwise it will use already modified values!!
w1 = w1_start
w2 = w2_start
b1 = b1_start
b2 = b2_start

In [112]:
learning_rate = 1e-4
for t in range(1001):
    y_pred = (x.mm(w1) + b1).clamp(min=0).mm(w2) + b2
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 0:
        print(t, loss.item())
    
    # Теперь подсчет градиентов для весов происходит при вызове backward
    loss.backward()
   
    # Обновляем значение весов, но укзаываем, чтобы PyTorch не считал эту операцию, 
    # которая бы учавствовала бы при подсчете градиентов в chain rule
    with torch.no_grad():          
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad
        b1 -= learning_rate * b1.grad
        b2 -= learning_rate * b2.grad
        
        # Теперь обнуляем значение градиентов, чтобы на следующем шаге 
        # они не учитывались при подсчете новых градиентов,
        # иначе произойдет суммирвоание старых и новых градиентов
        w1.grad.zero_()
        w2.grad.zero_()
        b1.grad.zero_()
        b2.grad.zero_()

0 117.30741119384766
100 64.7081298828125
200 55.12907028198242
300 51.97211456298828
400 50.86362075805664
500 50.217124938964844
600 49.89947509765625
700 49.518924713134766
800 49.07821273803711
900 48.718868255615234
1000 48.528045654296875


Хотя результаты похожи, в зависимости от номера попытки они то увеличиваются, то снижаются. Были случаи, когда autograd давал большую ошибку, чем "ручной градиент". 
Собственные мысли на этот счёт: особенности арифметических операций Python; непрямолинейный подход в Autograd, из-за чего может иметь большую ошибку. Или..?