# ü•ã Lekcja 43: DDP (Distributed Data Parallel) - Anatomia Synchronizacji

Dlaczego `nn.DataParallel` (DP) jest z≈Çe?
Bo kopiuje model do VRAM przy ka≈ºdym kroku (Forward), a potem go kasuje. Narzut komunikacyjny jest gigantyczny.

**DDP (Distributed Data Parallel)** jest inne:
1.  Model jest kopiowany raz (na starcie).
2.  Procesy ≈ºyjƒÖ niezale≈ºnie (nie blokujƒÖ siƒô przez GIL).
3.  Jedyny moment komunikacji to **U≈õrednianie Gradient√≥w (AllReduce)**.

**Matematyka DDP:**
*   GPU 0: Obliczy≈Ç gradient $g_0 = 10$.
*   GPU 1: Obliczy≈Ç gradient $g_1 = 12$.
*   **AllReduce:** Oba GPU ustalajƒÖ: "Nasz wsp√≥lny gradient to $(10+12)/2 = 11$".
*   Update: Oba GPU odejmujƒÖ $11$ od wag. PozostajƒÖ identyczne.

Zasymulujemy to rƒôcznie na dw√≥ch "wirtualnych" GPU.

In [2]:
import torch
import torch.nn as nn
import torch.optim as optim
import copy

# Konfiguracja
# Udajemy, ≈ºe mamy 2 urzƒÖdzenia (nawet je≈õli to CPU)
RANK_0_DEVICE = "cpu"
RANK_1_DEVICE = "cpu"

# 1. TWORZYMY MODEL (Baza)
# nn.Linear(10, 1) tworzy wagi o kszta≈Çcie [1, 10]
base_model = nn.Linear(10, 1, bias=False)

# Ustawiamy wagi na sztywno, ≈ºeby start by≈Ç identyczny
with torch.no_grad():
    base_model.weight.fill_(1.0)

# 2. Rozsy≈Çamy model na "GPU" (Repliki)
model_gpu0 = copy.deepcopy(base_model).to(RANK_0_DEVICE)
model_gpu1 = copy.deepcopy(base_model).to(RANK_1_DEVICE)

# Ka≈ºdy ma sw√≥j optymalizator
opt_gpu0 = optim.SGD(model_gpu0.parameters(), lr=0.1)
opt_gpu1 = optim.SGD(model_gpu1.parameters(), lr=0.1)

print("Symulacja: Dwa procesy wystartowa≈Çy z identycznym modelem.")

# --- POPRAWKA ---
# Zamiast .item() na ca≈Çym tensorze, bierzemy pierwszy element [0, 0]
print(f"Waga GPU0 (pierwsza): {model_gpu0.weight[0, 0].item()}")
print(f"Waga GPU1 (pierwsza): {model_gpu1.weight[0, 0].item()}")

Symulacja: Dwa procesy wystartowa≈Çy z identycznym modelem.
Waga GPU0 (pierwsza): 1.0
Waga GPU1 (pierwsza): 1.0


## Krok 1: Forward/Backward (Desynchronizacja)

Ka≈ºdy proces dostaje **inne dane** (dziƒôki `DistributedSampler`).
Dlatego ka≈ºdy wyliczy **inny gradient**.
Je≈õli zrobimy `step()` teraz, modele siƒô "rozjadƒÖ" i trening p√≥jdzie do kosza.

In [3]:
# Dane dla GPU 0 (np. pierwsza po≈Çowa batcha)
data_0 = torch.tensor([[1.0] * 10]).to(RANK_0_DEVICE) # Same jedynki
target_0 = torch.tensor([[100.0]]).to(RANK_0_DEVICE)

# Dane dla GPU 1 (np. druga po≈Çowa batcha)
data_1 = torch.tensor([[2.0] * 10]).to(RANK_1_DEVICE) # Same dw√≥jki
target_1 = torch.tensor([[200.0]]).to(RANK_1_DEVICE)

# --- PROCES GPU 0 ---
opt_gpu0.zero_grad()
pred_0 = model_gpu0(data_0)
loss_0 = (pred_0 - target_0)**2
loss_0.backward()

# --- PROCES GPU 1 ---
opt_gpu1.zero_grad()
pred_1 = model_gpu1(data_1)
loss_1 = (pred_1 - target_1)**2
loss_1.backward()

print("--- GRADIENTY LOKALNE ---")
# Gradienty sƒÖ r√≥≈ºne, bo dane by≈Çy r√≥≈ºne!
grad_0 = model_gpu0.weight.grad
grad_1 = model_gpu1.weight.grad

print(f"Grad GPU0: {grad_0[0,0].item():.2f}")
print(f"Grad GPU1: {grad_1[0,0].item():.2f}")
print("Modele chcƒÖ i≈õƒá w r√≥≈ºnych kierunkach!")

--- GRADIENTY LOKALNE ---
Grad GPU0: -180.00
Grad GPU1: -720.00
Modele chcƒÖ i≈õƒá w r√≥≈ºnych kierunkach!


## Krok 2: AllReduce (Synchronizacja)

To jest ten moment, kt√≥ry DDP robi automatycznie (poprzez backend `nccl` na NVIDIA lub `gloo` na CPU).
Musimy u≈õredniƒá gradienty ze wszystkich GPU.

$$ G_{global} = \frac{G_0 + G_1 + ... + G_k}{K} $$

Nastƒôpnie nadpisujemy lokalne gradienty tym globalnym.

In [4]:
# Symulacja operacji DIST.ALL_REDUCE
with torch.no_grad():
    # 1. Sumujemy (Reduce)
    global_grad = grad_0 + grad_1
    
    # 2. Dzielimy przez liczbƒô GPU (Average)
    global_grad = global_grad / 2.0
    
    # 3. Rozsy≈Çamy z powrotem do modeli (Broadcast)
    # Nadpisujemy lokalny .grad
    model_gpu0.weight.grad.copy_(global_grad)
    model_gpu1.weight.grad.copy_(global_grad)

print("--- PO ALL-REDUCE ---")
print(f"Grad GPU0: {model_gpu0.weight.grad[0,0].item():.2f}")
print(f"Grad GPU1: {model_gpu1.weight.grad[0,0].item():.2f}")
print("Gradienty sƒÖ teraz identyczne. Jeste≈õmy zsynchronizowani.")

--- PO ALL-REDUCE ---
Grad GPU0: -450.00
Grad GPU1: -450.00
Gradienty sƒÖ teraz identyczne. Jeste≈õmy zsynchronizowani.


In [5]:
# Krok 3: Optimizer Step
opt_gpu0.step()
opt_gpu1.step()

print("\n--- WAGI PO KROKU ---")
# POPRAWKA: Indeksowanie [0, 0]
w0 = model_gpu0.weight[0, 0].item()
w1 = model_gpu1.weight[0, 0].item()

print(f"Waga GPU0: {w0:.4f}")
print(f"Waga GPU1: {w1:.4f}")

if w0 == w1:
    print("‚úÖ SUKCES! Modele pozosta≈Çy bli≈∫niakami.")
else:
    print("‚ùå B≈ÅƒÑD! Modele siƒô rozjecha≈Çy.")


--- WAGI PO KROKU ---
Waga GPU0: 46.0000
Waga GPU1: 46.0000
‚úÖ SUKCES! Modele pozosta≈Çy bli≈∫niakami.


## Boilerplate (Jak to wyglƒÖda w kodzie?)

W prawdziwym skrypcie nie robisz tego rƒôcznie. U≈ºywasz wrappera `DistributedDataParallel`.

Oto "Szablon Startowy", kt√≥ry ka≈ºdy in≈ºynier DDP ma pod rƒôkƒÖ.
*(Ten kod nie zadzia≈Ça w notatniku, bo wymaga uruchomienia przez `torchrun`, ale jest referencjƒÖ)*.

```python
import torch
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data.distributed import DistributedSampler

def main():
    # 1. Inicjalizacja grupy procesowej
    dist.init_process_group("nccl")
    
    # 2. Sprawdzenie, kim jestem (Rank)
    rank = dist.get_rank()
    world_size = dist.get_world_size()
    device = torch.device(f"cuda:{rank}")
    
    # 3. Model na GPU
    model = MyModel().to(device)
    # Magia: DDP automatycznie rejestruje hooki na gradientach, ≈ºeby robiƒá AllReduce
    model = DDP(model, device_ids=[rank])
    
    # 4. Sampler (≈ªeby ka≈ºdy GPU dosta≈Ç inne dane!)
    sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank)
    loader = DataLoader(dataset, sampler=sampler, batch_size=32)
    
    # 5. Pƒôtla
    for epoch in range(10):
        sampler.set_epoch(epoch) # Wa≈ºne dla tasowania!
        for batch in loader:
            ...

## ü•ã Black Belt Summary

1.  **DistributedSampler:** Kluczowy element. Dzieli tort danych na kawa≈Çki. Bez tego ka≈ºdy GPU uczy≈Çby siƒô na tym samym (strata zasob√≥w) lub losowo (ryzyko duplikat√≥w).
2.  **SyncBatchNorm:** Zwyk≈Çy BatchNorm dzia≈Ça tylko lokalnie (na 1 GPU). Je≈õli masz ma≈Çy batch per GPU (np. 2), BN zwariuje. Musisz u≈ºyƒá `nn.SyncBatchNorm.convert_sync_batchnorm(model)`, ≈ºeby statystyki by≈Çy liczone globalnie (kosztuje trochƒô czasu na komunikacjƒô).
3.  **`torchrun`:** Nie uruchamiaj skrypt√≥w przez `python train.py`. U≈ºywaj `torchrun --nproc_per_node=4 train.py`. To automatycznie zarzƒÖdza rangami.