# ðŸ¥‹ Lekcja 44: FSDP (Jak trenowaÄ‡ giganty?)

W DDP pamiÄ™Ä‡ jest ograniczona przez najsÅ‚abszÄ… kartÄ™.
W FSDP pamiÄ™Ä‡ to **suma VRAM wszystkich kart**.

**Koncepcja ZeRO (Zero Redundancy Optimizer):**
Standardowy trening (Adam) zuÅ¼ywa pamiÄ™Ä‡ na:
1.  **Parametry (Wagi):** fp32 (4 bajty).
2.  **Gradienty:** fp32 (4 bajty).
3.  **Stan Optymalizatora (Momentum + Variance):** fp32 (8 bajtÃ³w).

Razem: **16 bajtÃ³w na jeden parametr**.
Model 1B parametrÃ³w wymaga **16 GB VRAM** (tylko na "statykÄ™", bez aktywacji!).

**RozwiÄ…zanie FSDP:**
Podzielmy te 16GB na 8 kart graficznych. KaÅ¼da trzyma tylko 2GB.
Kiedy potrzebujemy wag do obliczeÅ„, robimy **All-Gather** (pobieramy resztÄ™), a po obliczeniach natychmiast je kasujemy.

In [1]:
import torch
import torch.nn as nn

# Symulacja wielkiego modelu (Transformer)
# 100 milionÃ³w parametrÃ³w to maÅ‚o dla LLM, ale duÅ¼o dla laptopa
class BigTransformer(nn.Module):
    def __init__(self):
        super().__init__()
        # 12 warstw, model dimension 1024
        self.layers = nn.Sequential(*[
            nn.Linear(1024, 4096) for _ in range(25) # DuÅ¼o duÅ¼ych warstw
        ])

    def forward(self, x):
        return self.layers(x)

model = BigTransformer()

# Liczymy parametry
total_params = sum(p.numel() for p in model.parameters())
print(f"Liczba parametrÃ³w: {total_params:,}")

Liczba parametrÃ³w: 104,960,000


## Kalkulator PamiÄ™ci VRAM

Zanim kupisz karty graficzne, musisz umieÄ‡ policzyÄ‡, czy model siÄ™ zmieÅ›ci.
Napiszmy funkcjÄ™ inÅ¼ynierskÄ…, ktÃ³ra to szacuje.

In [2]:
def estimate_memory(params_count, num_gpus=1, use_fsdp=False):
    # 1. Wagi (FP32) - 4 bajty
    weights_mem = params_count * 4
    
    # 2. Gradienty (FP32) - 4 bajty
    grads_mem = params_count * 4
    
    # 3. Optimizer (Adam trzyma 2 stany: momentum i variance) - 8 bajtÃ³w
    opt_mem = params_count * 8
    
    total_mem = weights_mem + grads_mem + opt_mem
    
    if use_fsdp:
        # FSDP dzieli to wszystko przez liczbÄ™ GPU!
        # (Teoretycznie idealne skalowanie)
        total_mem /= num_gpus
        
    # Konwersja na GB
    return total_mem / (1024**3)

print("--- SZACUNEK PAMIÄ˜CI (Dla modelu 100M) ---")
print(f"1 GPU (DDP):    {estimate_memory(total_params, 1):.2f} GB VRAM")
print(f"4 GPU (DDP):    {estimate_memory(total_params, 4, use_fsdp=False):.2f} GB VRAM (Brak zysku pamiÄ™ci!)")
print(f"4 GPU (FSDP):   {estimate_memory(total_params, 4, use_fsdp=True):.2f} GB VRAM (Zysk!)")

# A co z modelem GPT-3 (175 miliardÃ³w parametrÃ³w)?
gpt3_params = 175_000_000_000
print(f"\n--- GPT-3 (175B) ---")
print(f"Wymagane VRAM (1 GPU): {estimate_memory(gpt3_params, 1):.2f} GB")
print("Å»adna karta tyle nie ma (A100 ma 80GB).")
print(f"Wymagane na kartÄ™ przy 64 GPU (FSDP): {estimate_memory(gpt3_params, 64, True):.2f} GB (To siÄ™ zmieÅ›ci!)")

--- SZACUNEK PAMIÄ˜CI (Dla modelu 100M) ---
1 GPU (DDP):    1.56 GB VRAM
4 GPU (DDP):    1.56 GB VRAM (Brak zysku pamiÄ™ci!)
4 GPU (FSDP):   0.39 GB VRAM (Zysk!)

--- GPT-3 (175B) ---
Wymagane VRAM (1 GPU): 2607.70 GB
Å»adna karta tyle nie ma (A100 ma 80GB).
Wymagane na kartÄ™ przy 64 GPU (FSDP): 40.75 GB (To siÄ™ zmieÅ›ci!)


## SkÅ‚adnia FSDP (Wrapper)

W PyTorch FSDP dziaÅ‚a podobnie do DDP â€“ owijamy model klasÄ….
Ale jest haczyk: **`auto_wrap_policy`**.

Nie chcemy shardingowaÄ‡ byle jak (np. przeciÄ…Ä‡ pojedynczy neuron na pÃ³Å‚).
Chcemy shardingowaÄ‡ caÅ‚e bloki Transformera.
Policy mÃ³wi: *"JeÅ›li warstwa ma wiÄ™cej niÅ¼ 10mln parametrÃ³w, potnij jÄ… i rozdziel na GPU"*.

In [3]:
# To jest kod poglÄ…dowy (wymaga Å›rodowiska rozproszonego do uruchomienia)
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
from torch.distributed.fsdp.wrap import size_based_auto_wrap_policy

def fsdp_wrapper_example(model):
    # Polityka: Owijaj (tnij) warstwy wiÄ™ksze niÅ¼ 10 milionÃ³w parametrÃ³w
    my_policy = lambda module, recurse, **kwargs: size_based_auto_wrap_policy(
        module, recurse, min_num_params=10_000_000, **kwargs
    )
    
    # Owijanie (na CPU przed wysÅ‚aniem na GPU, Å¼eby oszczÄ™dziÄ‡ pamiÄ™Ä‡ przy starcie!)
    sharded_model = FSDP(
        model,
        auto_wrap_policy=my_policy,
        cpu_offload=None # MoÅ¼na ustawiÄ‡ na True, Å¼eby zrzuciÄ‡ wagi do RAMu zwykÅ‚ego!
    )
    
    return sharded_model

print("Kod FSDP gotowy (do uÅ¼ycia w skrypcie torchrun).")

Kod FSDP gotowy (do uÅ¼ycia w skrypcie torchrun).


## CPU Offloading (Ostatnia deska ratunku)

Co jeÅ›li FSDP na 8 kartach to wciÄ…Å¼ za maÅ‚o?
FSDP ma asa w rÄ™kawie: **CPU Offload**.

Wagi leÅ¼Ä… w tanim RAM-ie komputera (CPU).
SÄ… przesyÅ‚ane na GPU tylko w momencie, gdy sÄ… potrzebne do obliczeÅ„ (Forward/Backward), a potem natychmiast wracajÄ… do RAM.
*   **Zaleta:** MoÅ¼esz trenowaÄ‡ gigantyczne modele na sÅ‚abych kartach.
*   **Wada:** Jest to wolne (wÄ…skim gardÅ‚em jest szyna PCIe).

In [4]:
from torch.distributed.fsdp import CPUOffload

# WÅ‚Ä…czenie tej flagi pozwala trenowaÄ‡ modele wiÄ™ksze niÅ¼ VRAM
offload = CPUOffload(offload_params=True)

print("CPU Offload skonfigurowany: Wagi bÄ™dÄ… Å¼yÅ‚y w RAMie, odwiedzajÄ…c GPU tylko na chwilÄ™.")

CPU Offload skonfigurowany: Wagi bÄ™dÄ… Å¼yÅ‚y w RAMie, odwiedzajÄ…c GPU tylko na chwilÄ™.


## ðŸ¥‹ Black Belt Summary

1.  **DDP vs FSDP:**
    *   **DDP:** Szybkie, ale kaÅ¼dy GPU musi pomieÅ›ciÄ‡ caÅ‚y model. (Dobre do ResNet50).
    *   **FSDP:** Wolniejsze (duÅ¼o komunikacji sieciowej), ale pozwala trenowaÄ‡ modele wiÄ™ksze niÅ¼ pamiÄ™Ä‡ GPU. (Konieczne do LLM).
2.  **ZeRO Stages (Odpowiedniki w DeepSpeed):**
    *   Stage 1: Sharding Stanu Optymalizatora (NajwiÄ™kszy zysk, maÅ‚y narzut).
    *   Stage 2: Sharding GradientÃ³w.
    *   Stage 3: Sharding ParametrÃ³w (PeÅ‚ne FSDP).
3.  **Koszty:** FSDP wymaga szybkiej sieci miÄ™dzy kartami (NVLink), inaczej karty bÄ™dÄ… czekaÄ‡ na przesyÅ‚anie kawaÅ‚kÃ³w modelu.