# Gradienty w TensorFlow

W tej sekcji om√≥wimy, jak w TensorFlow dzia≈Ça automatyczne r√≥≈ºniczkowanie przy u≈ºyciu `tf.GradientTape`. Skupimy siƒô na r√≥≈ºnicach wzglƒôdem PyTorch:
* TensorFlow domy≈õlnie dzia≈Ça w trybie eager (w TF 2.x), wiƒôc operacje i gradienty mo≈ºna ≈õledziƒá ‚Äûna ≈ºywo‚Äù.
* W TensorFlow obiekty `tf.Variable` domy≈õlnie akumulujƒÖ gradienty; zwyk≈Çe tensory wymagajƒÖ jawnego ≈õledzenia.
* Zamiast wywo≈Çywaƒá `tensor.backward()`, u≈ºywamy kontekstu `tf.GradientTape()` i metody `tape.gradient()`.


## Propagacja wsteczna w jednym kroku
Zaczniemy od zastosowania pojedynczej funkcji wielomianowej $y = f(x)$ do tensora $x$. Nastƒôpnie wykonamy propagacjƒô wstecznƒÖ i wypiszemy gradient $\frac {dy} {dx}$.

$\begin{split}Function:\quad y &= 2x^4 + x^3 + 3x^2 + 5x + 1 \\
Derivative:\quad y' &= 8x^3 + 3x^2 + 6x + 5\end{split}$


## Wykonaj standardowe importy


In [4]:
import tensorflow as tf

## 2. Prosty przyk≈Çad z `tf.Variable`

Tak jak w PyTorch u≈ºywamy `requires_grad=True`, tak w TensorFlow tworzymy `tf.Variable`. Gradienty bƒôdƒÖ automatycznie ≈õledzone dla operacji wykonanych wewnƒÖtrz `tf.GradientTape`.


In [12]:
f = lambda x: 2*x**4 + x**3 + 3*x**2 + 5*x + 1

In [13]:

x = tf.Variable(2.0)

with tf.GradientTape() as tape:
    y = f(x)

dy_dx = tape.gradient(y, x)
print('Warto≈õƒá funkcji y:', y.numpy())
print('Gradient dy/dx:', dy_dx.numpy())


Warto≈õƒá funkcji y: 63.0
Gradient dy/dx: 93.0


### Uwaga

Je≈õli u≈ºyjemy `tf.constant` zamiast `tf.Variable`, trzeba jawnie poprosiƒá o ≈õledzenie:

In [14]:
x = tf.constant(2.0)
with tf.GradientTape() as tape:
    tape.watch(x)  # to dodajemy
    y = f(x)
dy_dx = tape.gradient(y, x)
print('Warto≈õƒá funkcji y:', y.numpy())
print('Gradient dy/dx:', dy_dx.numpy())

Warto≈õƒá funkcji y: 63.0
Gradient dy/dx: 93.0



W PyTorch wystarczy ustawiƒá `requires_grad=True` podczas tworzenia tensora.

## 3. R√≥≈ºniczkowanie wieloetapowe

Sprawd≈∫my dzia≈Çanie `GradientTape` dla dw√≥ch warstw przekszta≈Çce≈Ñ. Zauwa≈º, ≈ºe `GradientTape` ≈õledzi wszystkie operacje w swojej przestrzeni kontekstu.


In [15]:
x = tf.Variable([[1., 2., 3.], [4., 5., 6.]])

with tf.GradientTape() as tape:
    tape.watch(x)
    y = tf.square(x)
    z = tf.reduce_sum(y)

# Gradient z = sum(x^2) wzglƒôdem x to 2*x
dz_dx = tape.gradient(z, x)
print('Gradient z wzglƒôdem x:', dz_dx.numpy())


Gradient z wzglƒôdem x: [[ 2.  4.  6.]
 [ 8. 10. 12.]]


Analogiczna operacja w PyTorch wyglƒÖda≈Çaby nastƒôpujƒÖco:

In [16]:
import torch

# zmienna wej≈õciowa
x = torch.tensor([[1., 2., 3.],
                  [4., 5., 6.]], requires_grad=True)

# obliczenia
y = x ** 2
z = y.sum()

# backpropagation
z.backward()

# gradient z wzglƒôdem x
print("Gradient z wzglƒôdem x:", x.grad)


Gradient z wzglƒôdem x: tensor([[ 2.,  4.,  6.],
        [ 8., 10., 12.]])


## 4. Akumulacja gradient√≥w vs resetowanie

W PyTorch gradienty w `.grad` domy≈õlnie siƒô kumulujƒÖ, wiƒôc trzeba wywo≈Çywaƒá `optimizer.zero_grad()`.

W TensorFlow po wywo≈Çaniu `tape.gradient()` gradienty nie sƒÖ przechowywane ‚Äì trzeba je zastosowaƒá i ewentualnie ponownie otworzyƒá kontekst.

TensorFlow udostƒôpnia klasƒô optymalizatora, kt√≥ra przyjmuje gradienty wprost.


In [21]:
f(0)

25

In [23]:
# Przyk≈Çad: kr√≥tkie trenowanie pojedynczego parametru
x = tf.Variable(3.0)
optimizer = tf.keras.optimizers.SGD(learning_rate=0.1)

for step in range(5):
    with tf.GradientTape() as tape:
        y = f(x)
    grad = tape.gradient(y, x)
    optimizer.apply_gradients([(grad, x)])
    print(f'Krok {step+1}: x = {x.numpy():.4f}, y = {y.numpy():.4f}, grad = {grad.numpy():.4f}')


Krok 1: x = 3.4000, y = 4.0000, grad = -4.0000
Krok 2: x = 3.7200, y = 2.5600, grad = -3.2000
Krok 3: x = 3.9760, y = 1.6384, grad = -2.5600
Krok 4: x = 4.1808, y = 1.0486, grad = -2.0480
Krok 5: x = 4.3446, y = 0.6711, grad = -1.6384


Analogiczny kod w PyTorch:

In [22]:
import torch

# parametr, kt√≥ry bƒôdziemy trenowaƒá
x = torch.tensor(3.0, requires_grad=True)

# optymalizator
optimizer = torch.optim.SGD([x], lr=0.1)

# pƒôtla trenowania
for step in range(5):
    optimizer.zero_grad()     # wyczy≈õƒá gradienty
    y = f(x)                  # oblicz stratƒô
    y.backward()              # policz gradient
    optimizer.step()          # zaktualizuj parametr

    print(f"Krok {step+1}: x = {x.item():.4f}, y = {y.item():.4f}, grad = {x.grad.item():.4f}")


Krok 1: x = 3.4000, y = 4.0000, grad = -4.0000
Krok 2: x = 3.7200, y = 2.5600, grad = -3.2000
Krok 3: x = 3.9760, y = 1.6384, grad = -2.5600
Krok 4: x = 4.1808, y = 1.0486, grad = -2.0480
Krok 5: x = 4.3446, y = 0.6711, grad = -1.6384


### R√≥≈ºnice wzglƒôdem TensorFlow:

* `y.backward()` ‚Üî `tape.gradient(...)`
* `optimizer.step()` ‚Üî `optimizer.apply_gradients(...)`
* w PyTorch trzeba **rƒôcznie wyzerowaƒá gradienty** (`optimizer.zero_grad()`), bo domy≈õlnie sƒÖ akumulowane.



## Drugi przyk≈Çad ‚Äì suma kilku krok√≥w

Analogicznie do dynamicznego grafu w PyTorch mo≈ºemy wykonywaƒá wiele operacji, a gradienty obliczajƒÖ siƒô wzglƒôdem ostatniej funkcji celu.


In [26]:
x = tf.Variable(tf.ones((2, 3)))

with tf.GradientTape() as tape:
    tape.watch(x)
    y1 = 3 * x + 2
    y2 = tf.square(y1)
    y3 = tf.reduce_mean(y2)

dy3_dx = tape.gradient(y3, x)
print('y3 =', y3.numpy())
print('dy3/dx:', dy3_dx.numpy())


y3 = 25.0
dy3/dx: [[5. 5. 5.]
 [5. 5. 5.]]


W PyTorch

In [27]:
import torch

# zmienna wej≈õciowa
x = torch.ones((2, 3), requires_grad=True)

# obliczenia
y1 = 3 * x + 2
y2 = y1 ** 2
y3 = y2.mean()

# backpropagation
y3.backward()

# gradient wzglƒôdem x
print("y3 =", y3.item())
print("dy3/dx:", x.grad)


y3 = 25.0
dy3/dx: tensor([[5., 5., 5.],
        [5., 5., 5.]])


üîé SkƒÖd ten gradient?

* $ y_1 = 3x + 2 $
* $ y_2 = (3x+2)^2 $
* $ y_3 = \text{mean}(y_2) $

$$
\frac{\partial y_3}{\partial x} = \frac{1}{N} \cdot 2(3x+2) \cdot 3 = \frac{6(3x+2)}{N}
$$

Dla
$$
x=1 \rightarrow 3x+2=5; N=6
$$
dlatego
$$
gradient = \frac{6\cdot 5}{6} = 5
$$


## 6. Gradienty wzglƒôdem wielu zmiennych

Mo≈ºemy przekazaƒá listƒô zmiennych. TensorFlow zwr√≥ci listƒô gradient√≥w w tej samej kolejno≈õci. Poni≈ºej prosty przyk≈Çad dwuparametrowej funkcji.


In [None]:
x = tf.Variable(1.0)
y = tf.Variable(2.0)

with tf.GradientTape() as tape:
    f_val = x**2 + x*y + y**2

grads = tape.gradient(f_val, [x, y])
print('df/dx =', grads[0].numpy())
print('df/dy =', grads[1].numpy())


## 7. Gradienty drugiego rzƒôdu
    Aby obliczyƒá pochodne wy≈ºszego rzƒôdu, trzeba u≈ºyƒá `persistent=True` w `GradientTape` lub zagnie≈ºd≈ºonych kontekst√≥w.


In [None]:
x = tf.Variable(2.0)

with tf.GradientTape(persistent=True) as tape2:
    with tf.GradientTape() as tape1:
        y = f(x)
    dy_dx = tape1.gradient(y, x)
d2y_dx2 = tape2.gradient(dy_dx, x)
print('dy/dx =', dy_dx.numpy())
print('d2y/dx2 =', d2y_dx2.numpy())


## 8. Por√≥wnanie z PyTorch

| Aspekt | PyTorch | TensorFlow |
| --- | --- | --- |
| ≈öledzenie gradient√≥w | `requires_grad=True` | kontekst `tf.GradientTape`, `tf.Variable` ≈õledzi domy≈õlnie |
| Wyzwalanie backprop | `loss.backward()` | `tape.gradient(loss, vars)` |
| Kumulacja gradient√≥w | `.grad` kumuluje, trzeba zerowaƒá | gradienty zwracane jednorazowo |
| Operacje in-place | Dozwolone (trzeba uwa≈ºaƒá) | Brak operacji in-place |
| Domy≈õlne obliczenia | Tryb eager | Tryb eager (TF 2.x) |

    W praktyce schemat pracy jest podobny: definiujemy funkcjƒô celu, obliczamy gradienty wzglƒôdem parametr√≥w i aktualizujemy wagi przez optymalizator.


### ≈öwietna robota!
