# ü•ã Lekcja 34: Profilowanie (Gdzie ucieka czas?)

Tw√≥j model trenuje siƒô wolno. Dlaczego?
Zamiast zgadywaƒá, u≈ºyj **`torch.profiler`**.

Profiler ≈õledzi ka≈ºde wywo≈Çanie operacji (Operator) w PyTorch i mierzy dwa czasy:
1.  **CPU Time:** Ile czasu procesor spƒôdzi≈Ç na wydawaniu rozkazu.
2.  **CUDA Time:** Ile czasu karta graficzna faktycznie liczy≈Ça.

**Kluczowe pojƒôcia w tabeli wynik√≥w:**
*   **Self Time:** Czas spƒôdzony w *tej konkretnej* funkcji (bez jej "dzieci").
*   **Total Time:** Czas spƒôdzony w funkcji i wszystkich podfunkcjach, kt√≥re wywo≈Ça≈Ça.

Je≈õli `Self CPU` jest wysokie -> Masz wolny kod Pythona (pƒôtle, listy).
Je≈õli `Self CUDA` jest wysokie -> Masz ciƒô≈ºkƒÖ matematykƒô (du≈ºe macierze).

In [1]:
import torch
import torch.nn as nn
from torch.profiler import profile, record_function, ProfilerActivity

# Konfiguracja
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Profilujemy na: {device}")

# Je≈õli CPU, to nie bƒôdziemy mieli kolumn CUDA, ale logika jest ta sama.
activities = [ProfilerActivity.CPU]
if device == "cuda":
    activities.append(ProfilerActivity.CUDA)

Profilujemy na: cuda


## Symulacja: Model z "WƒÖskim Gard≈Çem"

Stworzymy sieƒá, kt√≥ra ma 3 czƒô≈õci:
1.  **Szybka:** Ma≈Çe mno≈ºenie macierzy.
2.  **Wolna (Matematycznie):** Gigantyczne mno≈ºenie macierzy (obciƒÖ≈ºa GPU).
3.  **G≈Çupia (Pythonowa):** Pƒôtla `for` wewnƒÖtrz modelu (obciƒÖ≈ºa CPU i blokuje GPU).

Zobaczymy, czy Profiler to wykryje.

In [2]:
class SlowModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.fast_layer = nn.Linear(100, 100)
        self.heavy_layer = nn.Linear(4000, 4000) # 16 mln parametr√≥w!

    def forward(self, x):
        # 1. Czƒô≈õƒá Szybka
        # record_function nadaje nazwƒô temu blokowi w raporcie
        with record_function("1_FAST_PART"):
            x = self.fast_layer(x)
            x = torch.relu(x)
        
        # 2. Czƒô≈õƒá G≈Çupia (Pƒôtla w Pythonie)
        # To zabija wydajno≈õƒá, bo GPU czeka na Pythona
        with record_function("2_STUPID_LOOP"):
            # Symulujemy bezsensownƒÖ operacjƒô
            for _ in range(100): 
                x = x + 0.001
        
        # 3. Czƒô≈õƒá Ciƒô≈ºka (Du≈ºe macierze)
        # Tu GPU powinno siƒô napociƒá
        with record_function("3_HEAVY_MATH"):
            # Rozdmuchujemy x, ≈ºeby pasowa≈Ç do du≈ºej warstwy
            x_big = x.repeat(1, 40) 
            x_out = self.heavy_layer(x_big)
            
        return x_out

model = SlowModel().to(device)
dummy_input = torch.randn(128, 100).to(device)

print("Model gotowy. Czas na rentgen.")

Model gotowy. Czas na rentgen.


## Uruchomienie Profilera

U≈ºywamy `with profile(...)`.
*   `record_shapes=True`: Zapisuje wymiary tensor√≥w (pomaga znale≈∫ƒá, gdzie zjadamy pamiƒôƒá).
*   `with_stack=True`: Zapisuje, w kt√≥rej linijce kodu to siƒô sta≈Ço.

**Wa≈ºne:** Pierwsze przej≈õcie przez sieƒá jest zawsze wolne (rozgrzewka/alokacja pamiƒôci). Profiler to poka≈ºe.

In [3]:
# Uruchamiamy profilowanie
with profile(activities=activities, record_shapes=True) as prof:
    with record_function("model_inference"):
        model(dummy_input)

print("Profilowanie zako≈Ñczone. Generowanie raportu...")

Profilowanie zako≈Ñczone. Generowanie raportu...


## Analiza Wynik√≥w

Wy≈õwietlimy tabelƒô posortowanƒÖ wed≈Çug czasu **CUDA Total** (je≈õli masz GPU) lub **CPU Total**.

Czego szukamy?
1.  **`2_STUPID_LOOP`**: Powinno mieƒá wysoki czas CPU, a niski lub zerowy czas CUDA (bo to Python mieli).
2.  **`3_HEAVY_MATH`**: Powinno mieƒá wysoki czas CUDA (bo to ciƒô≈ºka macierz).
3.  **`1_FAST_PART`**: Powinno byƒá na dole listy.

In [4]:
# Sortujemy po czasie GPU (lub CPU je≈õli brak GPU)
sort_key = "cuda_time_total" if device == "cuda" else "cpu_time_total"

print(prof.key_averages().table(sort_by=sort_key, row_limit=15))

# Je≈õli tabela jest nieczytelna, sp√≥jrz na nazwy, kt√≥re sami nadali≈õmy (1_, 2_, 3_)

--------------------  ------------  ------------  ------------  ------------  ------------  ------------  
                Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg    # of Calls  
--------------------  ------------  ------------  ------------  ------------  ------------  ------------  
     model_inference         0.22%     224.300us       100.00%     101.516ms     101.516ms             1  
         1_FAST_PART         0.41%     411.600us        80.46%      81.679ms      81.679ms             1  
        aten::linear         0.19%     196.800us        58.45%      59.339ms      29.670ms             2  
             aten::t         0.21%     211.800us         0.54%     549.400us     274.700us             2  
     aten::transpose         0.31%     317.600us         0.33%     337.600us     168.800us             2  
    aten::as_strided         0.03%      30.000us         0.03%      30.000us       5.000us             6  
         aten::addmm        57.72%   

## ü•ã Black Belt Summary

Jak czytaƒá ten raport?

1.  **Addmm (Matrix Multiply):** To zazwyczaj `nn.Linear`. Je≈õli zajmuje 90% czasu CUDA -> Zmniejsz model lub Batch Size.
2.  **Aten::add / Aten::mul (Drobne operacje):** Je≈õli widzisz ich tysiƒÖce i zajmujƒÖ du≈ºo czasu CPU -> Masz pƒôtlƒô `for` w kodzie. U≈ºyj `torch.compile` (Lekcja 33) lub przepisz to wektorowo.
3.  **Memcpy (Kopiowanie):** Je≈õli `to(device)` jest na szczycie -> U≈ºyj `num_workers` i `pin_memory` (Lekcja 18).

**Zasada optymalizacji:**
Zawsze najpierw naprawiaj to, co jest na szczycie listy ("Low Hanging Fruit"). Przyspieszanie ma≈Çej warstwy (FAST_PART) nie ma sensu, je≈õli 90% czasu zjada HEAVY_MATH.