# ü•ã Lekcja 14: Forward Mode AD (Przysz≈Ço≈õƒá r√≥≈ºniczkowania)

Klasyczne uczenie maszynowe (Backpropagation) to **Reverse Mode**.
*   ≈öwietne, gdy: `Inputs >> Outputs` (np. Sieƒá neuronowa: milion wag -> 1 Loss).
*   Wada: Musi trzymaƒá ca≈Çy graf w pamiƒôci.

**Forward Mode AD:**
*   ≈öwietne, gdy: `Outputs >> Inputs` (np. Generative AI, Fizyka, Jacobiany).
*   Zaleta: Liczy pochodnƒÖ "w locie" (w trakcie forward pass). Nie zajmuje pamiƒôci na graf!

**Matematyka (Liczby Dualne):**
Zamiast liczby $x$, wprowadzamy parƒô $(x, \dot{x})$, gdzie $\dot{x}$ to "ziarno" gradientu (tangent).
Ka≈ºda operacja liczy wynik i od razu jego pochodnƒÖ:
$$ f(x, \dot{x}) = (f(x), f'(x) \cdot \dot{x}) $$

In [1]:
import torch
import torch.autograd.forward_ad as fwAD # Nowy modu≈Ç w PyTorch

# Funkcja wektorowa: 1 wej≈õcie -> 3 wyj≈õcia
# f(x) = [x, x^2, x^3]
def func(x):
    return torch.stack([x, x**2, x**3])

x = torch.tensor([3.0])

print(f"Wej≈õcie: {x}")
print(f"Wyj≈õcie: {func(x)}")

Wej≈õcie: tensor([3.])
Wyj≈õcie: tensor([[ 3.],
        [ 9.],
        [27.]])


## Podej≈õcie 1: Klasyczne (Reverse Mode)

Gdyby≈õmy chcieli policzyƒá pochodnƒÖ `func` wzglƒôdem `x` tradycyjnie, musieliby≈õmy zrobiƒá `backward` dla ka≈ºdego elementu wyj≈õcia osobno (lub u≈ºyƒá `jacobian`).

Dla funkcji $f: \mathbb{R}^1 \to \mathbb{R}^{1000}$, Reverse Mode jest 1000x wolniejszy ni≈º Forward Mode!

In [2]:
# Klasyczne podej≈õcie (wymaga requires_grad)
x_rev = torch.tensor([3.0], requires_grad=True)
y_rev = func(x_rev)

# Musimy liczyƒá gradienty dla ka≈ºdego wyj≈õcia osobno?
# Albo u≈ºyƒá sztuczki z sumƒÖ, albo obliczyƒá Jakobian.
# Zobaczmy Jakobian (macierz pochodnych)
J_rev = torch.autograd.functional.jacobian(func, x_rev)

print("--- REVERSE MODE JACOBIAN ---")
print(J_rev.squeeze())
# Oczekujemy: [1, 2x, 3x^2] -> dla x=3: [1, 6, 27]

--- REVERSE MODE JACOBIAN ---
tensor([ 1.,  6., 27.])


## Podej≈õcie 2: Forward Mode AD

U≈ºywamy `fwAD`.
1.  Otwieramy kontekst `dual_level`.
2.  Tworzymy **Liczbƒô DualnƒÖ** (`make_dual`): pakujemy warto≈õƒá $x$ i stycznƒÖ $\dot{x}$ (tangent). Zazwyczaj $\dot{x}=1$.
3.  Uruchamiamy funkcjƒô raz.
4.  Rozpakowujemy wynik (`unpack_dual`). Dostajemy od razu wynik i gradient!

Zero budowania grafu wstecznego.

In [3]:
# Krok 1: Kontekst
with fwAD.dual_level():
    
    # Krok 2: Tworzymy Dual Tensor (Warto≈õƒá + Tangent)
    # Tangent = 1.0 oznacza, ≈ºe liczymy pochodnƒÖ df/dx
    dual_input = fwAD.make_dual(x, torch.ones_like(x))
    
    # Krok 3: Forward (Obliczenia lecƒÖ normalnie)
    dual_output = func(dual_input)
    
    # Krok 4: Rozpakowanie
    result, jvp = fwAD.unpack_dual(dual_output)

print("--- FORWARD MODE RESULT ---")
print(f"Wynik funkcji: {result}")
print(f"Gradient (JVP): {jvp}") # Jacobian-Vector Product

--- FORWARD MODE RESULT ---
Wynik funkcji: tensor([[ 3.],
        [ 9.],
        [27.]])
Gradient (JVP): tensor([[ 1.],
        [ 6.],
        [27.]])


## Benchmark: Reverse vs Forward

Zr√≥bmy ekstremalny przyk≈Çad.
Funkcja bierze 1 liczbƒô i zwraca 10 000 liczb.
$$ f(x) = [x^0, x^1, ..., x^{9999}] $$

*   **Reverse Mode:** Musi przej≈õƒá wstecz przez graf 10 000 razy (dla ka≈ºdego wyj≈õcia), ≈ºeby zbudowaƒá pe≈Çny Jakobian.
*   **Forward Mode:** Przechodzi raz w prz√≥d i niesie gradient ze sobƒÖ.

In [4]:
import time

# Funkcja 1 -> 10000
def massive_expansion(x):
    # Tworzymy potƒôgi od 0 do 9999
    powers = torch.arange(10000, device=x.device)
    return x ** powers

x_bench = torch.tensor([1.0001], requires_grad=True) # Ma≈Ça liczba > 1

# 1. Reverse Mode (Jacobian)
start = time.time()
# jacobian w PyTorch u≈ºywa reverse mode domy≈õlnie
J_rev = torch.autograd.functional.jacobian(massive_expansion, x_bench)
print(f"Reverse Mode Time: {time.time() - start:.4f} s")

# 2. Forward Mode
start = time.time()
with fwAD.dual_level():
    dual_x = fwAD.make_dual(x_bench, torch.ones_like(x_bench))
    dual_y = massive_expansion(dual_x)
    _, J_fwd = fwAD.unpack_dual(dual_y)
print(f"Forward Mode Time: {time.time() - start:.4f} s")

# Sprawd≈∫my poprawno≈õƒá
print(f"\nCzy wyniki sƒÖ takie same? {torch.allclose(J_rev.squeeze(), J_fwd.squeeze())}")

Reverse Mode Time: 1.3660 s
Forward Mode Time: 0.7635 s

Czy wyniki sƒÖ takie same? True


## ü•ã Black Belt Summary

1.  **Reverse Mode (`backward`)**: U≈ºywaj, gdy trenujesz sieci neuronowe (Loss to jedna liczba, a wag sƒÖ miliony). Koszt zale≈ºy od liczby wej≈õƒá.
2.  **Forward Mode (`fwAD`)**: U≈ºywaj, gdy liczysz Jakobian funkcji, kt√≥ra ma ma≈Ço wej≈õƒá, a du≈ºo wyj≈õƒá (lub gdy output jest wektorem). Koszt zale≈ºy od liczby wej≈õƒá (w naszym te≈õcie 1 wej≈õcie = super szybko).

**Gdzie to spotkasz?**
*   **PINN (Physics-Informed Neural Networks):** RozwiƒÖzywanie r√≥wna≈Ñ r√≥≈ºniczkowych.
*   **Optymalizacja drugiego rzƒôdu:** Liczenie Hessianu (jako Jacobiana z Gradientu) mo≈ºna przyspieszyƒá, mieszajƒÖc Reverse i Forward mode.