# Gradienty w PyTorch
W tej sekcji omawiamy implementacjƒô spadku gradientowego w PyTorch przy u≈ºyciu modu≈Çu <a href='https://pytorch.org/docs/stable/autograd.html'>`autograd`</a>. Wykorzystamy narzƒôdzia:

* <a href='https://pytorch.org/docs/stable/autograd.html#torch.autograd.backward'>`torch.autograd.backward()`</a>
* <a href='https://pytorch.org/docs/stable/autograd.html#torch.autograd.grad'>`torch.autograd.grad()`</a>


Na wstƒôpie musimy przypomnieƒá kr√≥tkio czym sƒÖ te rzeczy:

### Funkcje aktywacji

* **Skokowa (Heaviside)** ‚Äì bardzo prosta, zwraca `0` poni≈ºej progu i `1` powy≈ºej. Historyczna, ale nie nadaje siƒô do trenowania sieci (brak pochodnej).
* **Sigmoidalna (œÉ)** ‚Äì odwzorowuje wej≈õcie w zakres `(0,1)`. U≈ºywana jako model ‚Äûprawdopodobie≈Ñstwa‚Äù. Dobrze g≈Çadka, ale przy du≈ºych warto≈õciach wej≈õciowych gradient zanika.

---

### Kodowanie one-hot

Reprezentacja kategorii jako wektora, w kt√≥rym jedna pozycja ma warto≈õƒá `1`, a pozosta≈Çe `0`.
Np. klasa ‚Äûkot‚Äù przy trzech klasach: `[1,0,0]`.

---

### Maksymalne prawdopodobie≈Ñstwo (argmax)

W klasyfikacji model zwraca rozk≈Çad prawdopodobie≈Ñstwa po klasach (np. przez **softmax**). Klasa przewidywana to ta o najwiƒôkszym prawdopodobie≈Ñstwie (`argmax`).

---

### Entropia krzy≈ºowa

Miara r√≥≈ºnicy miƒôdzy **rozk≈Çadem przewidywanym** a **rozk≈Çadem rzeczywistym**.

* **Binary cross-entropy** ‚Äì dla problem√≥w 0/1.
* **Categorical cross-entropy** ‚Äì dla wielu klas (por√≥wnuje przewidywany rozk≈Çad softmax z etykietƒÖ one-hot).
  Ni≈ºsza warto≈õƒá oznacza lepsze dopasowanie.

---

### Propagacja wsteczna (backprop)

Algorytm wyznaczania gradient√≥w w sieci neuronowej:

1. Obliczamy b≈ÇƒÖd (loss).
2. Rozchodzimy ten b≈ÇƒÖd wstecz przez warstwy, u≈ºywajƒÖc regu≈Çy ≈Ça≈Ñcuchowej dla pochodnych.
3. U≈ºywamy gradient√≥w do aktualizacji wag (np. w metodzie SGD).

---

üëâ Te pojƒôcia tworzƒÖ bazƒô do zrozumienia, jak PyTorch `autograd` automatycznie ≈õledzi operacje na tensorach, liczy pochodne i pozwala na efektywne uczenie modeli.


<div class="alert alert-info"><h3>Dodatkowe materia≈Çy:</h3>
<strong><a href='https://pytorch.org/docs/stable/notes/autograd.html'>Notatki PyTorch:</a></strong>&nbsp;&nbsp;<font color=black>Mechanika Autograd</font></div>


## Autograd ‚Äì automatyczne r√≥≈ºniczkowanie
We wcze≈õniejszych czƒô≈õciach tworzyli≈õmy tensory i wykonywali≈õmy na nich r√≥≈ºne operacje, ale nie zapisywali≈õmy ich sekwencji ani nie wyznaczali≈õmy pochodnej gotowej funkcji.

W tej sekcji wprowadzimy pojƒôcie <em>dynamicznego grafu obliczeniowego</em>, kt√≥ry sk≈Çada siƒô ze wszystkich obiekt√≥w typu <em>Tensor</em> w sieci oraz <em>funkcji</em>, kt√≥re je utworzy≈Çy. Zauwa≈º, ≈ºe jedynie tensory wej≈õciowe tworzone przez nas samych nie majƒÖ skojarzonych obiekt√≥w Function.

Pakiet PyTorch <a href='https://pytorch.org/docs/stable/autograd.html'><strong><tt>autograd</tt></strong></a> zapewnia automatyczne r√≥≈ºniczkowanie dla wszystkich operacji na tensorach. Dzieje siƒô tak, poniewa≈º operacje stajƒÖ siƒô atrybutami samych tensor√≥w. Gdy atrybut tensora <tt>.requires_grad</tt> ustawimy na True, tensor zaczyna ≈õledziƒá wszystkie wykonywane na nim dzia≈Çania. Po zako≈Ñczeniu sekwencji operacji mo≈ºemy wywo≈Çaƒá <tt>.backward()</tt>, aby obliczyƒá wszystkie gradienty automatycznie. Gradient tensora zostanie zsumowany w jego atrybucie <tt>.grad</tt>.

Zobaczmy to w praktyce.


## Propagacja wsteczna w jednym kroku
Zaczniemy od zastosowania pojedynczej funkcji wielomianowej $y = f(x)$ do tensora $x$. Nastƒôpnie wykonamy propagacjƒô wstecznƒÖ i wypiszemy gradient $\frac {dy} {dx}$.

$\begin{split}Function:\quad y &= 2x^4 + x^3 + 3x^2 + 5x + 1 \\
Derivative:\quad y' &= 8x^3 + 3x^2 + 6x + 5\end{split}$

#### Krok 1. Wykonaj standardowe importy


In [1]:
import torch

#### Krok 2. Utw√≥rz tensor z ustawionym <tt>requires_grad</tt> na True
Dziƒôki temu tensor zacznie ≈õledziƒá obliczenia.


In [2]:
x = torch.tensor(2.0, requires_grad=True)

In [3]:
x.grad

#### Krok 3. Zdefiniuj funkcjƒô


In [4]:
y = 2*x**4 + x**3 + 3*x**2 + 5*x + 1

print(y)

tensor(63., grad_fn=<AddBackward0>)


Poniewa≈º $y$ powsta≈Ço w wyniku operacji, ma skojarzonƒÖ funkcjƒô gradientu dostƒôpnƒÖ jako <tt>y.grad_fn</tt>.<br>
Obliczenie $y$ przebiega nastƒôpujƒÖco:<br>

$\quad y=2(2)^4+(2)^3+3(2)^2+5(2)+1 = 32+8+12+10+1 = 63$

To warto≈õƒá $y$ dla $x=2$.

#### Krok 4. Propagacja wsteczna


In [5]:
y.backward()

#### Krok 5. Wy≈õwietl uzyskany gradient


In [6]:
print(x.grad)

tensor(93.)


Zauwa≈º, ≈ºe <tt>x.grad</tt> jest atrybutem tensora $x$, dlatego nie u≈ºywamy nawias√≥w. Obliczenie ma postaƒá<br>

$\quad y'=8(2)^3+3(2)^2+6(2)+5 = 64+12+12+5 = 93$

To nachylenie wielomianu w punkcie $(2,63)$.

## Propagacja wsteczna w wielu krokach
Teraz wykonajmy co≈õ bardziej z≈Ço≈ºonego, z warstwami $y$ i $z$ pomiƒôdzy $x$ a warstwƒÖ wyj≈õciowƒÖ $out$.
#### 1. Utw√≥rz tensor


In [7]:
x = torch.tensor([[1.,2,3],[3,2,1]], requires_grad=True)
print(x)

tensor([[1., 2., 3.],
        [3., 2., 1.]], requires_grad=True)


#### 2. Utw√≥rz pierwszƒÖ warstwƒô z $y = 3x+2$


In [8]:
y = 3*x + 2
print(y)

tensor([[ 5.,  8., 11.],
        [11.,  8.,  5.]], grad_fn=<AddBackward0>)


#### 3. Utw√≥rz drugƒÖ warstwƒô z $z = 2y^2$


In [9]:
z = 2*y**2
print(z)

tensor([[ 50., 128., 242.],
        [242., 128.,  50.]], grad_fn=<MulBackward0>)


#### 4. Ustaw wyj≈õcie jako ≈õredniƒÖ macierzy


In [10]:
out = z.mean()
print(out)

tensor(140., grad_fn=<MeanBackward0>)


#### 5. Wykonaj propagacjƒô wstecznƒÖ, aby znale≈∫ƒá gradient $x$ wzglƒôdem <tt>out</tt>
(Je≈õli widzisz ten skr√≥t po raz pierwszy, w.r.t. oznacza <em>with respect to</em>, czyli ‚Äûwzglƒôdem‚Äù.)


In [11]:
out.backward()
print(x.grad)

tensor([[10., 16., 22.],
        [22., 16., 10.]])


Powiniene≈õ zobaczyƒá macierz 2x3. Je≈õli nazwiemy ko≈Ñcowy tensor <tt>out</tt> jako "$o$", w√≥wczas mo≈ºemy obliczyƒá pochodnƒÖ czƒÖstkowƒÖ $o$ wzglƒôdem $x_i$ nastƒôpujƒÖco:<br>

$o = \frac {1} {6}\sum_{i=1}^{6} z_i$<br>

$z_i = 2(y_i)^2 = 2(3x_i+2)^2$<br>

Aby wyznaczyƒá pochodnƒÖ $z_i$, korzystamy z <a href='https://en.wikipedia.org/wiki/Chain_rule'>regu≈Çy ≈Ça≈Ñcuchowej</a>, wed≈Çug kt√≥rej pochodna $f(g(x)) = f'(g(x))g'(x)$.<br>

W naszym przypadku<br>

$\begin{split} f(g(x)) &= 2(g(x))^2, \quad &f'(g(x)) = 4g(x) \\
g(x) &= 3x+2, &g'(x) = 3 \\
\frac {dz} {dx} &= 4g(x)\times 3 &= 12(3x+2) \end{split}$

Zatem<br>

$\frac{\partial o}{\partial x_i} = \frac{1}{6}\times 12(3x+2)$<br>

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=1} = 2(3(1)+2) = 10$

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=2} = 2(3(2)+2) = 16$

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=3} = 2(3(3)+2) = 22$


## Wy≈ÇƒÖcz ≈õledzenie
ZdarzajƒÖ siƒô sytuacje, w kt√≥rych nie chcemy lub nie musimy ≈õledziƒá historii oblicze≈Ñ.

Mo≈ºesz ponownie ustawiƒá atrybut tensora <tt>requires_grad</tt> w miejscu, u≈ºywajƒÖc `.requires_grad_(True)` (lub False) w razie potrzeby.

Podczas ewaluacji czƒôsto warto owinƒÖƒá operacje blokiem `with torch.no_grad():`

Rzadziej stosowanƒÖ metodƒÖ jest wywo≈Çanie `.detach()` na tensorze, aby uniemo≈ºliwiƒá ≈õledzenie przysz≈Çych oblicze≈Ñ. To przydatne podczas klonowania tensora. Nam te≈º sie przyda w paru miejscach.
