# ðŸ¥‹ Lekcja 29: WnÄ™trze Optymalizatora (Pisanie wÅ‚asnego SGD)

Optymalizator w PyTorch to klasa, ktÃ³ra:
1.  Przechowuje listÄ™ parametrÃ³w (`params`) do aktualizacji.
2.  Przechowuje stan wewnÄ™trzny (`state`) - np. pÄ™d (Momentum) dla kaÅ¼dego parametru.
3.  W metodzie `step()` wykonuje matematykÄ™: $W_{new} = W_{old} - lr \cdot \nabla W$.

**Kluczowa zasada:**
Optymalizator modyfikuje wagi **In-Place** (bez tworzenia nowych tensorÃ³w) i **bez gradientÃ³w** (uÅ¼ywajÄ…c `torch.no_grad()`).

Zbudujemy wÅ‚asnÄ… klasÄ™ `MySGD`.

In [1]:
import torch
import torch.nn as nn

# Prosty problem do rozwiÄ…zania: y = 2x
# Chcemy znaleÅºÄ‡ wagÄ™ 2.0
X = torch.tensor([1.0, 2.0, 3.0, 4.0])
Y = torch.tensor([2.0, 4.0, 6.0, 8.0])

model = nn.Linear(1, 1, bias=False)
model.weight.data.fill_(0.0) # Startujemy od zera

print(f"Startowa waga: {model.weight.item()}")

Startowa waga: 0.0


## Implementacja `MySGD`

Musimy dziedziczyÄ‡ po `torch.optim.Optimizer`.
Wymaga to zdefiniowania metody `step()`.

ZwrÃ³Ä‡ uwagÄ™ na pÄ™tlÄ™ `for group in self.param_groups`.
To dlatego moÅ¼emy napisaÄ‡:
`optim.SGD([{'params': model.fc1.parameters(), 'lr': 0.1}, {'params': rest, 'lr': 0.01}])`
Optymalizator traktuje kaÅ¼dÄ… grupÄ™ osobno.

In [2]:
from torch.optim import Optimizer

class MySGD(Optimizer):
    def __init__(self, params, lr=0.01):
        defaults = dict(lr=lr)
        super().__init__(params, defaults)

    def step(self):
        # PÄ™tla po grupach parametrÃ³w (zazwyczaj jest jedna, ale moÅ¼e byÄ‡ wiÄ™cej)
        for group in self.param_groups:
            lr = group['lr']
            
            # PÄ™tla po parametrach w grupie (Wagi, Biasy)
            for p in group['params']:
                if p.grad is None:
                    continue
                
                # --- TUTAJ DZIEJE SIÄ˜ MAGIA ---
                # Modyfikujemy wagÄ™ w oparciu o gradient.
                # Musimy uÅ¼yÄ‡ no_grad(), Å¼eby ta operacja nie trafiÅ‚a do grafu!
                with torch.no_grad():
                    # W = W - lr * grad
                    p.sub_(lr * p.grad)
                    
        return None

# Inicjalizacja naszego optymalizatora
optimizer = MySGD(model.parameters(), lr=0.1)
print("WÅ‚asny SGD gotowy.")

WÅ‚asny SGD gotowy.


## Test: Czy to dziaÅ‚a?

Uruchomimy standardowÄ… pÄ™tlÄ™ treningowÄ….
JeÅ›li waga `model.weight` zacznie zbliÅ¼aÄ‡ siÄ™ do 2.0, to znaczy, Å¼e nasz kod dziaÅ‚a.

In [3]:
criterion = nn.MSELoss()

print(f"Waga przed: {model.weight.item():.4f}")

for epoch in range(10):
    # 1. Forward
    # Musimy zmieniÄ‡ ksztaÅ‚t X na [N, 1] bo Linear tego oczekuje
    pred = model(X.unsqueeze(1))
    
    # 2. Loss
    loss = criterion(pred, Y.unsqueeze(1))
    
    # 3. Zero Grad (To teÅ¼ metoda Optimizera, ale dziedziczymy jÄ… z klasy bazowej)
    optimizer.zero_grad()
    
    # 4. Backward (Tu PyTorch liczy .grad dla kaÅ¼dego parametru)
    loss.backward()
    
    # 5. Step (Tu nasz MySGD odejmuje gradient od wagi)
    optimizer.step()
    
    print(f"Epoka {epoch+1}: Loss={loss.item():.4f}, Waga={model.weight.item():.4f}")

print("âœ… Sukces! Waga dÄ…Å¼y do 2.0.")

Waga przed: 0.0000
Epoka 1: Loss=30.0000, Waga=3.0000
Epoka 2: Loss=7.5000, Waga=1.5000
Epoka 3: Loss=1.8750, Waga=2.2500
Epoka 4: Loss=0.4688, Waga=1.8750
Epoka 5: Loss=0.1172, Waga=2.0625
Epoka 6: Loss=0.0293, Waga=1.9688
Epoka 7: Loss=0.0073, Waga=2.0156
Epoka 8: Loss=0.0018, Waga=1.9922
Epoka 9: Loss=0.0005, Waga=2.0039
Epoka 10: Loss=0.0001, Waga=1.9980
âœ… Sukces! Waga dÄ…Å¼y do 2.0.


## Level Up: Dodajemy Momentum (PÄ™d)

ZwykÅ‚y SGD utyka w lokalnych doÅ‚kach.
Momentum dziaÅ‚a jak ciÄ™Å¼ka kulka. JeÅ›li gradient mÃ³wi "Stop", kulka toczy siÄ™ dalej siÅ‚Ä… rozpÄ™du.

WzÃ³r:
$$ v_{t} = \mu \cdot v_{t-1} + g_{t} $$
$$ w_{t} = w_{t-1} - lr \cdot v_{t} $$

Musimy uÅ¼yÄ‡ sÅ‚ownika `self.state`, Å¼eby zapamiÄ™taÄ‡ prÄ™dkoÅ›Ä‡ ($v$) dla kaÅ¼dego parametru.

In [4]:
class MyMomentumSGD(Optimizer):
    def __init__(self, params, lr=0.01, momentum=0.9):
        defaults = dict(lr=lr, momentum=momentum)
        super().__init__(params, defaults)

    def step(self):
        for group in self.param_groups:
            lr = group['lr']
            mu = group['momentum']
            
            for p in group['params']:
                if p.grad is None:
                    continue
                
                # Pobieramy stan dla tego konkretnego parametru
                state = self.state[p]
                
                # JeÅ›li to pierwszy krok, inicjalizujemy bufor prÄ™dkoÅ›ci zerami
                if 'velocity' not in state:
                    state['velocity'] = torch.zeros_like(p.data)
                
                buf = state['velocity']
                
                with torch.no_grad():
                    # 1. Aktualizujemy prÄ™dkoÅ›Ä‡: v = mu * v + grad
                    buf.mul_(mu).add_(p.grad)
                    
                    # 2. Aktualizujemy wagÄ™: w = w - lr * v
                    p.sub_(lr * buf)

# Resetujemy model i testujemy Momentum
model.weight.data.fill_(0.0)
opt_mom = MyMomentumSGD(model.parameters(), lr=0.1, momentum=0.9)

print("\n--- TEST MOMENTUM ---")
# Zrobimy tylko 2 kroki, Å¼eby zobaczyÄ‡ "rozpÄ™dzanie"
for i in range(2):
    opt_mom.zero_grad()
    loss = criterion(model(X.unsqueeze(1)), Y.unsqueeze(1))
    loss.backward()
    opt_mom.step()
    print(f"Krok {i+1}: Waga={model.weight.item():.4f}")

# ZauwaÅ¼: W kroku 2 zmiana powinna byÄ‡ WIÄ˜KSZA niÅ¼ w kroku 1 (bo nabraliÅ›my pÄ™du!)


--- TEST MOMENTUM ---
Krok 1: Waga=3.0000
Krok 2: Waga=4.2000


## ðŸ¥‹ Black Belt Summary

1.  **Optymalizator jest "gÅ‚upi":** On nie wie, co to jest sieÄ‡ neuronowa. On po prostu dostaje listÄ™ tensorÃ³w i odejmuje od nich ich `.grad`.
2.  **Stan (`state`):** To tutaj `Adam` trzyma swoje Å›rednie ruchome (m i v), a `SGD` trzyma pÄ™d. To dlatego optymalizatory zajmujÄ… pamiÄ™Ä‡ VRAM! (Adam zuÅ¼ywa 2x wiÄ™cej pamiÄ™ci na parametry niÅ¼ SGD).
3.  **In-place:** Wszystkie operacje wewnÄ…trz `step()` muszÄ… byÄ‡ in-place (`sub_`, `add_`) i w bloku `no_grad()`.