# ü•ã Lekcja 22: Buffers vs Parameters (Stan nietrenowalny)

W PyTorch `nn.Module` ma dwa g≈Ç√≥wne magazyny:
1.  **Parameters:** Tensory, kt√≥re majƒÖ gradient i sƒÖ aktualizowane przez optymalizator (Wagi, Biasy).
2.  **Buffers:** Tensory, kt√≥re sƒÖ czƒô≈õciƒÖ stanu modelu (zapisujƒÖ siƒô w `state_dict`, przenoszƒÖ siƒô na GPU), ale **nie sƒÖ trenowane** przez gradient.

**Typowy b≈ÇƒÖd:**
Przypisanie tensora jako zwyk≈Çego atrybutu (`self.t = torch.randn(5)`).
*   Skutek 1: Nie przeniesie siƒô na GPU przy `model.cuda()`.
*   Skutek 2: Nie zapisze siƒô przy `torch.save()`.

W tej lekcji naprawimy ten b≈ÇƒÖd.

In [1]:
import torch
import torch.nn as nn

# Definiujemy modu≈Ç z 3 rodzajami zmiennych
class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        
        # 1. Parameter (Standard)
        # To bƒôdzie trenowane.
        self.weight = nn.Parameter(torch.randn(3, 3))
        
        # 2. Zwyk≈Çy atrybut (B≈ÅƒÑD!)
        # To jest "niewidzialne" dla silnika PyTorch.
        self.mistake_tensor = torch.randn(3, 3)
        
        # 3. Buffer (POPRAWNIE)
        # To jest stan nietrenowalny (np. ≈õrednia w BatchNorm).
        # Musimy u≈ºyƒá register_buffer(nazwa, tensor)
        self.register_buffer('running_mean', torch.randn(3, 3))

model = MyModel()

print("Model zainicjowany.")

Model zainicjowany.


## Test 1: Przenoszenie na GPU (`.to(device)`)

To jest najczƒôstsza przyczyna b≈Çƒôdu `RuntimeError: Expected all tensors to be on the same device`.
U≈ºytkownik pisze `model.to('cuda')`, ale jego pomocniczy tensor zostaje na CPU.

In [2]:
# Sprawd≈∫my, czy masz GPU (je≈õli nie, test poka≈ºemy na idei)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Przenoszƒô model na: {device}")

model.to(device)

print("\n--- GDZIE SƒÑ DANE? ---")
print(f"Weight (Param):       {model.weight.device}")
print(f"Running Mean (Buffer): {model.running_mean.device}")
print(f"Mistake (Zwyk≈Çy):      {model.mistake_tensor.device}")

if str(device) != 'cpu' and str(model.mistake_tensor.device) == 'cpu':
    print("\n‚ùå B≈ÅƒÑD! 'mistake_tensor' zosta≈Ç na CPU, mimo ≈ºe model jest na GPU.")
    print("W obliczeniach to spowoduje awariƒô.")

Przenoszƒô model na: cuda

--- GDZIE SƒÑ DANE? ---
Weight (Param):       cuda:0
Running Mean (Buffer): cuda:0
Mistake (Zwyk≈Çy):      cpu

‚ùå B≈ÅƒÑD! 'mistake_tensor' zosta≈Ç na CPU, mimo ≈ºe model jest na GPU.
W obliczeniach to spowoduje awariƒô.


## Test 2: Zapisywanie modelu (`state_dict`)

Czy nasze dane przetrwajƒÖ zapis do pliku?

In [3]:
state = model.state_dict()

print("--- CO JEST W PLIKU ZAPISU? ---")
print(state.keys())

# Weryfikacja
if 'running_mean' in state:
    print("‚úÖ Buffer: JEST ZAPISANY.")
else:
    print("‚ùå Buffer: BRAK.")

if 'mistake_tensor' in state:
    print("‚úÖ Mistake: JEST ZAPISANY.")
else:
    print("‚ùå Mistake: BRAK (Zgubili≈õmy dane!).")

--- CO JEST W PLIKU ZAPISU? ---
odict_keys(['weight', 'running_mean'])
‚úÖ Buffer: JEST ZAPISANY.
‚ùå Mistake: BRAK (Zgubili≈õmy dane!).


## Test 3: Optymalizator

Czy optymalizator (np. Adam) spr√≥buje zmieniƒá nasze warto≈õci?
Bufor√≥w nie powinien dotykaƒá.

In [4]:
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

print("--- CO WIDZI OPTYMALIZATOR? ---")
# Optymalizator iteruje po parametrach
param_names = [n for n, p in model.named_parameters()]

print(f"Trenowane parametry: {param_names}")

if 'running_mean' not in param_names:
    print("‚úÖ Buffer jest bezpieczny (nie bƒôdzie modyfikowany przez SGD).")

--- CO WIDZI OPTYMALIZATOR? ---
Trenowane parametry: ['weight']
‚úÖ Buffer jest bezpieczny (nie bƒôdzie modyfikowany przez SGD).


## ü•ã Black Belt Summary

**Kiedy u≈ºywaƒá `register_buffer`?**

1.  **BatchNorm / LayerNorm:** Przechowywanie ≈õredniej i wariancji, kt√≥re sƒÖ aktualizowane matematycznie, a nie gradientem.
2.  **Positional Encodings (Transformer):** Macierz sinus√≥w jest sta≈Ça. Musi byƒá na GPU, musi byƒá zapisana z modelem, ale nie mo≈ºe siƒô zmieniaƒá.
3.  **Maski:** Maski przyczynowe (Causal Mask) w GPT.
4.  **Liczniki:** Np. `self.register_buffer('steps', torch.tensor(0))`, je≈õli chcesz, ≈ºeby model wiedzia≈Ç, ile krok√≥w ju≈º trenowa≈Ç (i ≈ºeby to siƒô zapisa≈Ço w checkpoincie).

Je≈õli napiszesz `self.cos_table = ...` w Transformerze ‚Äì pope≈Çniasz b≈ÇƒÖd. U≈ºyj `register_buffer`.