# ü•ã Lekcja 42: Inference Optimization (Fuzja Conv + BN)

Wiƒôkszo≈õƒá architektur (ResNet, YOLO) sk≈Çada siƒô z blok√≥w: `Conv -> BN -> ReLU`.
Na produkcji `BN` jest zbƒôdnym narzutem obliczeniowym.

**Matematyka:**
1.  Konwolucja: $y = Wx + b$
2.  Batch Norm: $z = \frac{y - \mu}{\sqrt{\sigma^2 + \epsilon}} \cdot \gamma + \beta$

Mo≈ºemy to przekszta≈Çciƒá w **jednƒÖ nowƒÖ Konwolucjƒô**:
$$ z = W_{new}x + b_{new} $$

Gdzie:
$$ W_{new} = W \cdot \frac{\gamma}{\sqrt{\sigma^2 + \epsilon}} $$
$$ b_{new} = (b - \mu) \cdot \frac{\gamma}{\sqrt{\sigma^2 + \epsilon}} + \beta $$

W tej lekcji napiszemy funkcjƒô, kt√≥ra "po≈Çyka" Batchnorma i wypluwa zoptymalizowanƒÖ warstwƒô Conv.

In [1]:
import torch
import torch.nn as nn
import copy
import time

# Konfiguracja
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# 1. TWORZYMY MODEL "NIEZOPTYMALIZOWANY"
# Conv + BN to standardowy blok
model_orig = nn.Sequential(
    nn.Conv2d(3, 64, kernel_size=3, padding=1, bias=False),
    nn.BatchNorm2d(64),
    nn.ReLU(inplace=True)
).to(DEVICE)

# Musimy prze≈ÇƒÖczyƒá w tryb eval(), ≈ºeby BN u≈ºywa≈Ç zapisanych statystyk (running_mean/var),
# a nie liczy≈Ç ich z batcha. Fuzja dzia≈Ça tylko w eval!
model_orig.eval()

print("Model oryginalny:")
print(model_orig)

Model oryginalny:
Sequential(
  (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
  (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (2): ReLU(inplace=True)
)


## Rƒôczna Implementacja Fuzji

To jest kod "Black Belt". WyciƒÖgamy wagi z obu warstw i tworzymy nowe wagi metodƒÖ algebraicznƒÖ.

In [2]:
def fuse_conv_bn(conv, bn):
    """
    ≈ÅƒÖczy wagi Conv2d i BatchNorm2d w jednƒÖ warstwƒô Conv2d.
    """
    # 1. Pobieramy parametry
    with torch.no_grad():
        # Wagi konwolucji
        w_conv = conv.weight.clone()
        # Bias konwolucji (mo≈ºe byƒá None)
        b_conv = conv.bias.clone() if conv.bias is not None else torch.zeros_like(bn.running_mean)
        
        # Parametry BN
        mean = bn.running_mean
        var_sqrt = torch.sqrt(bn.running_var + bn.eps)
        gamma = bn.weight # scale
        beta = bn.bias    # shift
        
        # 2. Obliczamy nowe wagi (W_new)
        # Musimy dopasowaƒá wymiary do mno≈ºenia (C_out, 1, 1, 1)
        scale_factor = gamma / var_sqrt
        w_new = w_conv * scale_factor.view(-1, 1, 1, 1)
        
        # 3. Obliczamy nowy bias (b_new)
        b_new = (b_conv - mean) * scale_factor + beta
        
        # 4. Tworzymy nowƒÖ warstwƒô
        fused_conv = nn.Conv2d(
            in_channels=conv.in_channels,
            out_channels=conv.out_channels,
            kernel_size=conv.kernel_size,
            stride=conv.stride,
            padding=conv.padding,
            bias=True # Teraz bias jest obowiƒÖzkowy (nawet jak wcze≈õniej go nie by≈Ço)
        )
        
        # Wgrywamy obliczone parametry
        fused_conv.weight.copy_(w_new)
        fused_conv.bias.copy_(b_new)
        
        return fused_conv

# Zastosujmy to
fused_conv_layer = fuse_conv_bn(model_orig[0], model_orig[1])

# Budujemy nowy model (bez BN!)
model_fused = nn.Sequential(
    fused_conv_layer,
    model_orig[2] # ReLU zostaje
).to(DEVICE)

model_fused.eval()

print("\nModel po fuzji (ZniknƒÖ≈Ç BatchNorm!):")
print(model_fused)


Model po fuzji (ZniknƒÖ≈Ç BatchNorm!):
Sequential(
  (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (1): ReLU(inplace=True)
)


## Weryfikacja Numeryczna

Czy matematyka nie k≈Çamie? Sprawd≈∫my, czy dla tego samego wej≈õcia oba modele dajƒÖ **identyczny** wynik.

In [3]:
x = torch.randn(1, 3, 224, 224).to(DEVICE)

with torch.no_grad():
    out_orig = model_orig(x)
    out_fused = model_fused(x)

# Sprawdzamy r√≥≈ºnicƒô
diff = (out_orig - out_fused).abs().max().item()

print(f"Maksymalna r√≥≈ºnica w wynikach: {diff:.8f}")

if diff < 1e-5:
    print("‚úÖ SUKCES! Modele sƒÖ matematycznie r√≥wnowa≈ºne.")
else:
    print("‚ùå CO≈ö POSZ≈ÅO NIE TAK. R√≥≈ºnica jest zbyt du≈ºa.")

Maksymalna r√≥≈ºnica w wynikach: 0.00000119
‚úÖ SUKCES! Modele sƒÖ matematycznie r√≥wnowa≈ºne.


## Benchmark: Ile zyskali≈õmy?

W ma≈Çym modelu r√≥≈ºnica mo≈ºe byƒá znikoma (narzut Pythona). Ale w du≈ºym ResNet, gdzie takich blok√≥w jest 50, zyskujemy brak 50 operacji odczytu/zapisu pamiƒôci dla BN.

*Uwaga: Na ma≈Çym tensorze i w Pythonie narzut pƒôtli pomiarowej mo≈ºe ukryƒá zysk, ale na poziomie CUDA kernel to jest czysty zysk.*

In [4]:
# BENCHMARK
# Musimy zrobiƒá du≈ºo powt√≥rze≈Ñ, ≈ºeby zobaczyƒá r√≥≈ºnicƒô (mikrosekundy)
iters = 5000

# 1. Warmup (Rozgrzewka GPU)
for _ in range(100):
    _ = model_orig(x)
    _ = model_fused(x)

torch.cuda.synchronize() if DEVICE == "cuda" else None

# 2. Pomiar Orygina≈Çu
start = time.time()
for _ in range(iters):
    _ = model_orig(x)
torch.cuda.synchronize() if DEVICE == "cuda" else None
end = time.time()
time_orig = end - start

# 3. Pomiar Zoptymalizowanego
start = time.time()
for _ in range(iters):
    _ = model_fused(x)
torch.cuda.synchronize() if DEVICE == "cuda" else None
end = time.time()
time_fused = end - start

print(f"Orygina≈Ç (Conv+BN): {time_orig:.4f} s")
print(f"Fused (Conv):       {time_fused:.4f} s")
print(f"üöÄ Przyspieszenie: {time_orig / time_fused:.2f}x")

Orygina≈Ç (Conv+BN): 0.7202 s
Fused (Conv):       0.4779 s
üöÄ Przyspieszenie: 1.51x


## ü•ã Black Belt Summary

1.  **Dlaczego warto?**
    *   **Mniej operacji:** Usuwamy BN z grafu obliczeniowego.
    *   **Mniej pamiƒôci:** Nie musimy wczytywaƒá parametr√≥w BN (≈õrednia, wariancja, gamma, beta) z VRAM.
    *   **Mniejszy plik:** Model zajmuje mniej miejsca na dysku.
2.  **Kiedy to robiƒá?**
    *   **Zawsze** przed eksportem do ONNX lub deploymentem na urzƒÖdzenia mobilne.
    *   W PyTorch Lightning i bibliotece `torchvision` sƒÖ czƒôsto gotowe funkcje (np. `torch.nn.utils.fuse_conv_bn_eval`), ale teraz wiesz, jak dzia≈ÇajƒÖ matematycznie.
3.  **Wym√≥g:** Model musi byƒá w trybie `.eval()`. Fuzja podczas treningu (`.train()`) jest niemo≈ºliwa, bo BN musi wtedy dynamicznie aktualizowaƒá statystyki.