# PyTorch Градиенты
В этом разделе рассматривается реализация градиентного спуска в PyTorch <a href='https://pytorch.org/docs/stable/autograd.html'><strong><tt>autograd</tt></strong></a>. Инструменты включают:
* <a href='https://pytorch.org/docs/stable/autograd.html#torch.autograd.backward'><tt><strong>torch.autograd.backward()</strong></tt></a> 
* <a href='https://pytorch.org/docs/stable/autograd.html#torch.autograd.grad'><tt><strong>torch.autograd.grad()</strong></tt></a>

убедитесь, что понимаете следующие концепции:
* Функции ошибок (ступенчатая и сигмовидная) 
* Быстрое кодирование
* Максимальная вероятность 
* Перекрестная энтропия (включая перекрестную энтропию нескольких классов)
* Обратное распространение (backprop)

Дополнительные ресурсы: </h3>
<strong>
<a href='https://pytorch.org/docs/stable/notes/autograd.html'>PyTorch Примечания: </a></strong> <font color=black>Autograd mechanics</font></div>

## Autograd - Автоматическое дифференцирование
В предыдущих разделах мы создавали тензоры и выполняли с ними различные операции, но мы ничего не делали для хранения последовательности операций или применения производной завершенной функции.

В этом разделе мы познакомимся с концепцией <em>динамического</em> вычислительного графа, который состоит из всех объектов <em>тензор</em> в сети, а также <em>функций</em>, используемых для их создания. Обратите внимание, что только входные тензоры, которые мы создаем сами, не будут иметь связанных объектов Function.

Пакет PyTorch <a href='https://pytorch.org/docs/stable/autograd.html'><strong><tt>autograd</tt></strong></a> обеспечивает автоматическую дифференциацию для всех операций с тензорами. Это возможно благодаря тому, что операции становятся атрибутами самих тензоров. Когда для атрибута тензора <tt>.requires_grad</tt> установлено значение True, он начинает отслеживать все операции с ним. Когда операция завершится, вы можете вызвать <tt>.backward()</tt>, и все градиенты будут вычислены автоматически. Градиент для тензора будет накапливаться в его атрибуте <tt>.grad</tt>.
    
Посмотрим на это на практике.

## Обратное распространение за один шаг
Мы начнем с применения единственной полиномиальной функции $y = f(x)$ к тензорной $x$. Затем мы сделаем обратное распределение (backprop) и напечатаем градиент $\frac {dy} {dx}$.

$\begin{split}Function:\quad y &= 2x^4 + x^3 + 3x^2 + 5x + 1 \\
Derivative:\quad y' &= 8x^3 + 3x^2 + 6x + 5\end{split}$

#### Шаг 1. Выполните стандартный импорт.

In [1]:
import torch

#### Шаг 2. Создайте тензор с <tt>requires_grad</tt>, установленным на True
Это устанавливает вычислительное отслеживание тензора.

In [2]:
x = torch.tensor(2.0, requires_grad=True)

#### Шаг 3. Определите функцию

In [3]:
y = 2*x**4 + x**3 + 3*x**2 + 5*x + 1

print(y)

tensor(63., grad_fn=<AddBackward0>)


Поскольку $y$ был создан в результате операции, у него есть связанная функция градиента, доступная как <tt>y.grad_fn</tt><br>
Расчет $y$ выполняется как: <br>

$\quad y=2(2)^4+(2)^3+3(2)^2+5(2)+1 = 32+8+12+10+1 = 63$

Это значение $y$, когда $x=2$.

#### Шаг 4. Backprop

In [4]:
y.backward()

#### Шаг 5. Отобразите получившийся градиент.

In [5]:
print(x.grad)

tensor(93.)


Обратите внимание, что <tt>x.grad</tt> является атрибутом тензора $x$, поэтому мы не используем круглые скобки. Вычисление является результатом <br>

$\quad y'=8(2)^3+3(2)^2+6(2)+5 = 64+12+12+5 = 93$

Это наклон многочлена в точке $(2,63)$.

## Обратное распространение за несколько шагов
Теперь давайте сделаем что-нибудь более сложное, включив слои $y$ и $z$ между $x$ и нашим выходным слоем $out$.
#### 1. Создайте тензор

In [6]:
x = torch.tensor([[1.,2,3],[3,2,1]], requires_grad=True)
print(x)

tensor([[1., 2., 3.],
        [3., 2., 1.]], requires_grad=True)


#### 2. Создайте первый слой с помощью $y = 3x+2$.

In [7]:
y = 3*x + 2
print(y)

tensor([[ 5.,  8., 11.],
        [11.,  8.,  5.]], grad_fn=<AddBackward0>)


#### 3. Создайте второй слой с помощью $z = 2y^2$.

In [8]:
z = 2*y**2
print(z)

tensor([[ 50., 128., 242.],
        [242., 128.,  50.]], grad_fn=<MulBackward0>)


#### 4. Установите на выходе среднее значение матрицы.

In [9]:
out = z.mean()
print(out)

tensor(140., grad_fn=<MeanBackward1>)


#### 5. Теперь выполните обратное распространение, чтобы найти градиент xпо отношению к out.

In [10]:
out.backward()
print(x.grad)

tensor([[10., 16., 22.],
        [22., 16., 10.]])


Вы должны увидеть матрицу 2x3. Если мы назовем последний тензор <tt>out</tt> "$o$", мы можем вычислить частную производную $o$ по $x_i$ следующим образом: <br>

$o = \frac {1} {6}\sum_{i=1}^{6} z_i$<br>

$z_i = 2(y_i)^2 = 2(3x_i+2)^2$<br>

Чтобы решить производную от $z_i$, мы используем правило <a href='https://en.wikipedia.org/wiki/Chain_rule'>chain, </a>, где производная от $f(g(x)) = f'(g(x))g'(x)$<br>

В этом случае <br>

$\begin{split} f(g(x)) &= 2(g(x))^2, \quad &f'(g(x)) = 4g(x) \\
g(x) &= 3x+2, &g'(x) = 3 \\
\frac {dz} {dx} &= 4g(x)\times 3 &= 12(3x+2) \end{split}$

Следовательно, <br>

$\frac{\partial o}{\partial x_i} = \frac{1}{6}\times 12(3x+2)$<br>

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=1} = 2(3(1)+2) = 10$

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=2} = 2(3(2)+2) = 16$

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=3} = 2(3(3)+2) = 22$

## Отключить отслеживание
Могут быть случаи, когда мы не хотим или не нуждаемся в отслеживании истории вычислений.

Вы можете сбросить атрибут <tt>requires_grad</tt> тензора на месте, используя `.requires_grad_(True)` (или False) по мере необходимости.

При выполнении оценок часто бывает полезно заключить набор операций в `с torch.no_grad ():`

Менее используемый метод - запустить `.detach()` на тензоре, чтобы предотвратить отслеживание будущих вычислений. Это может быть удобно при клонировании тензора.