# ü•ã Lekcja 11: Jakobian i Hessian (Pochodne Wy≈ºszego Rzƒôdu)

Standardowe `backward()` dzia≈Ça tylko wtedy, gdy wynik jest **skalarem** (jednƒÖ liczbƒÖ, np. Loss).
Gdy wynik jest wektorem, PyTorch oblicza tzw. **vJP (vector-Jacobian Product)**, czyli od razu mno≈ºy macierz pochodnych przez wektor gradientu z g√≥ry.

Ale czasem potrzebujemy **pe≈Çnej macierzy**:
1.  **Jakobian (J):** Macierz pierwszych pochodnych dla funkcji wektorowych ($R^n \to R^m$).
2.  **Hessian (H):** Macierz drugich pochodnych ($R^n \to R$). M√≥wi nam o **krzywi≈∫nie** powierzchni b≈Çƒôdu.

**Zastosowanie:**
*   **MAML:** Optymalizacja parametr√≥w optymalizatora.
*   **Influence Functions:** Sprawdzanie, kt√≥ry przyk≈Çad treningowy najbardziej wp≈ÇynƒÖ≈Ç na decyzjƒô modelu.
*   **Newton's Method:** Szybsza optymalizacja (zamiast zgadywaƒá krok, skaczemy prosto do minimum paraboli).

In [1]:
import torch
from torch.autograd.functional import jacobian, hessian

# Prosta funkcja wektorowa: wej≈õcie (x, y) -> wyj≈õcie (x^2, y^3)
def func_vector(inputs):
    x, y = inputs[0], inputs[1]
    return torch.stack([x**2, y**3])

# Prosta funkcja skalarna: wej≈õcie (x, y) -> wyj≈õcie x^2 + y^2 (Miseczka)
def func_scalar(inputs):
    x, y = inputs[0], inputs[1]
    return x**2 + y**2

inputs = torch.tensor([2.0, 2.0])

print("Funkcje zdefiniowane.")
print(f"Dla wej≈õcia {inputs}:")
print(f"Wynik wektorowy: {func_vector(inputs)}") # [4, 8]
print(f"Wynik skalarny:  {func_scalar(inputs)}") # 8

Funkcje zdefiniowane.
Dla wej≈õcia tensor([2., 2.]):
Wynik wektorowy: tensor([4., 8.])
Wynik skalarny:  8.0


## 1. Macierz Jakobianu

Funkcja: $f(x, y) = [x^2, y^3]$

Jakobian to macierz pochodnych czƒÖstkowych wszystkich wyj≈õƒá po wszystkich wej≈õciach:
$$
J = \begin{bmatrix}
\frac{\partial f_1}{\partial x} & \frac{\partial f_1}{\partial y} \\
\frac{\partial f_2}{\partial x} & \frac{\partial f_2}{\partial y}
\end{bmatrix} = \begin{bmatrix}
2x & 0 \\
0 & 3y^2
\end{bmatrix}
$$

Dla $x=2, y=2$:
$$
J = \begin{bmatrix}
4 & 0 \\
0 & 12
\end{bmatrix}
$$

In [2]:
# Obliczamy Jakobian automatycznie
J = jacobian(func_vector, inputs)

print("--- MACIERZ JAKOBIANU ---")
print(J)

# Weryfikacja
expected = torch.tensor([[4., 0.], 
                         [0., 12.]])

if torch.allclose(J, expected):
    print("‚úÖ Matematyka siƒô zgadza!")

--- MACIERZ JAKOBIANU ---
tensor([[ 4.,  0.],
        [ 0., 12.]])
‚úÖ Matematyka siƒô zgadza!


## 2. Macierz Hessianu (Druga Pochodna)

Hessian m√≥wi nam, jak bardzo "zakrzywiona" jest funkcja. Jest kluczowy, by wiedzieƒá, czy jeste≈õmy w do≈Çku (minimum), na g√≥rce (maksimum) czy na siodle.

Funkcja: $f(x, y) = x^2 + y^2$
Pierwsza pochodna (Gradient): $[2x, 2y]$
Druga pochodna (Hessian):
$$
H = \begin{bmatrix}
\frac{\partial^2 f}{\partial x^2} & \frac{\partial^2 f}{\partial x \partial y} \\
\frac{\partial^2 f}{\partial y \partial x} & \frac{\partial^2 f}{\partial y^2}
\end{bmatrix} = \begin{bmatrix}
2 & 0 \\
0 & 2
\end{bmatrix}
$$

Zauwa≈º, ≈ºe Hessian jest sta≈Çy (nie zale≈ºy od x, y), bo funkcja to idealna parabola.

In [3]:
# Obliczamy Hessian
H = hessian(func_scalar, inputs)

print("--- MACIERZ HESSIANU ---")
print(H)

# Analiza krzywizny
# Warto≈õci w≈Çasne Hessianu m√≥wiƒÖ o kszta≈Çcie
eigenvalues = torch.linalg.eigvalsh(H)
print(f"\nWarto≈õci w≈Çasne: {eigenvalues}")

if (eigenvalues > 0).all():
    print("üëâ Dodatnio okre≈õlony: Jeste≈õmy w 'miseczce' (lokalne minimum).")
elif (eigenvalues < 0).all():
    print("üëâ Ujemnie okre≈õlony: Jeste≈õmy na 'g√≥rce' (lokalne maksimum).")
else:
    print("üëâ Mieszane: Punkt siod≈Çowy.")

--- MACIERZ HESSIANU ---
tensor([[2., 0.],
        [0., 2.]])

Warto≈õci w≈Çasne: tensor([2., 2.])
üëâ Dodatnio okre≈õlony: Jeste≈õmy w 'miseczce' (lokalne minimum).


## In≈ºynieryjne Ostrze≈ºenie (Pamiƒôƒá!)

Dlaczego nie u≈ºywamy tego w ka≈ºdym treningu?
Bo Hessian ma rozmiar $N \times N$, gdzie $N$ to liczba parametr√≥w modelu.

Je≈õli Tw√≥j model ma 1 milion parametr√≥w (malutki):
*   Gradient: 1 mln liczb (4 MB).
*   Hessian: $10^{12}$ liczb (4 TB!). **To siƒô nie zmie≈õci w ≈ºadnym komputerze.**

Dlatego w Deep Learningu u≈ºywa siƒô triku **Hessian-Vector Product (HvP)**.
Mo≈ºemy policzyƒá iloczyn $H \cdot v$ bez obliczania ca≈Çej macierzy $H$!
PyTorch robi to automatycznie, gdy policzysz gradient z gradientu.

In [4]:
# Przyk≈Çad HvP (bez tworzenia wielkiej macierzy)

x = torch.tensor([2.0, 2.0], requires_grad=True)
y = x[0]**2 + x[1]**2  # x^2 + y^2

# 1. Pierwszy Gradient (create_graph=True pozwala liczyƒá dalej!)
grads = torch.autograd.grad(y, x, create_graph=True)[0]
print(f"Gradient (pierwsza pochodna): {grads}") # [4, 4]

# 2. Drugi Gradient (rzutowany na wektor v)
# Za≈Ç√≥≈ºmy v = [1, 1]
v = torch.tensor([1.0, 1.0])
# Liczymy pochodnƒÖ z (Gradient * v)
# To daje nam H * v
hvp = torch.autograd.grad(grads, x, grad_outputs=v)[0]

print(f"Hessian-Vector Product (H*v): {hvp}")
# H to [[2,0],[0,2]], v to [1,1]. Wynik powinien byƒá [2, 2].

Gradient (pierwsza pochodna): tensor([4., 4.], grad_fn=<AddBackward0>)
Hessian-Vector Product (H*v): tensor([2., 2.])


## ü•ã Black Belt Summary

1.  **`jacobian` i `hessian`**: ≈öwietne do analizy matematycznej ma≈Çych funkcji lub debugowania. Bezu≈ºyteczne dla pe≈Çnych sieci neuronowych (przez pamiƒôƒá).
2.  **`create_graph=True`**: Klucz do liczenia pochodnych wy≈ºszego rzƒôdu. M√≥wi PyTorchowi: "Graf, kt√≥ry w≈Ça≈õnie zbudowa≈Çe≈õ do policzenia gradientu? Nie wyrzucaj go! Chcƒô go r√≥≈ºniczkowaƒá jeszcze raz".
3.  **HvP (Hessian-Vector Product):** To jedyny spos√≥b na u≈ºywanie informacji o krzywi≈∫nie w du≈ºych sieciach (np. w metodach optymalizacji drugiego rzƒôdu).