# ü•ã Lekcja 49: Custom Loss Functions (Triplet Loss & Vectorization)

Pisanie w≈Çasnej funkcji kosztu w PyTorch jest proste: wystarczy napisaƒá funkcjƒô, kt√≥ra przyjmuje Tensory i zwraca skalar, u≈ºywajƒÖc operacji r√≥≈ºniczkowalnych PyTorcha.

Trudno≈õƒá le≈ºy w **wydajno≈õci** i **stabilno≈õci numerycznej**.

**Studium przypadku: Triplet Loss**
Chcemy nauczyƒá sieƒá, ≈ºe:
*   Twarz A (Anchor) jest podobna do Twarzy P (Positive).
*   Twarz A jest r√≥≈ºna od Twarzy N (Negative).

Wz√≥r:
$$ L = \max(0, \text{dist}(A, P) - \text{dist}(A, N) + \text{margin}) $$

Wyzwaniem jest obliczenie odleg≈Ço≈õci euklidesowej dla ca≈Çego batcha naraz, bez pƒôtli.

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# Konfiguracja
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

print(f"UrzƒÖdzenie: {DEVICE}")

UrzƒÖdzenie: cuda


## Wersja 1: Naiwna (Powolna)

Zaimplementujmy to "po ludzku", u≈ºywajƒÖc wbudowanej funkcji `pairwise_distance`.
To dzia≈Ça, ale w bardziej skomplikowanych wariantach (np. szukanie najtrudniejszych negatyw√≥w w batchu - Hard Mining) wymaga≈Çoby pƒôtli.

In [2]:
class NaiveTripletLoss(nn.Module):
    def __init__(self, margin=1.0):
        super().__init__()
        self.margin = margin
        
    def forward(self, anchor, positive, negative):
        # anchor, positive, negative: [Batch, Embed_Dim]
        
        # 1. Liczymy dystanse
        dist_pos = F.pairwise_distance(anchor, positive, p=2)
        dist_neg = F.pairwise_distance(anchor, negative, p=2)
        
        # 2. Wz√≥r Hinge Loss
        loss = torch.relu(dist_pos - dist_neg + self.margin)
        
        return loss.mean()

# Test
criterion_naive = NaiveTripletLoss()
a = torch.randn(32, 128, requires_grad=True).to(DEVICE)
p = torch.randn(32, 128, requires_grad=True).to(DEVICE)
n = torch.randn(32, 128, requires_grad=True).to(DEVICE)

loss = criterion_naive(a, p, n)
print(f"Naive Loss: {loss.item():.4f}")

Naive Loss: 1.4534


## Wersja 2: Professional (Macierzowa)

W zaawansowanych systemach (np. SimCLR, Metric Learning) czƒôsto musimy policzyƒá macierz odleg≈Ço≈õci **ka≈ºdy z ka≈ºdym** wewnƒÖtrz batcha.
U≈ºycie pƒôtli jest tu zab√≥jcze.

U≈ºyjemy wzoru skr√≥conego mno≈ºenia dla odleg≈Ço≈õci euklidesowej:
$$ ||A - B||^2 = ||A||^2 + ||B||^2 - 2 \cdot A \cdot B^T $$

Dziƒôki temu mo≈ºemy u≈ºyƒá ultraszybkiego mno≈ºenia macierzy (`@` lub `matmul`).

**Pu≈Çapka NaN:**
Pochodna z $\sqrt{x}$ to $\frac{1}{2\sqrt{x}}$.
Je≈õli $x=0$ (dystans wynosi zero, bo obrazy sƒÖ identyczne), mianownik wynosi 0 -> Gradient wybucha do `inf` -> Wagi stajƒÖ siƒô `NaN`.
Musimy dodaƒá ma≈Çy $\epsilon$ przed pierwiastkowaniem.

In [3]:
def pairwise_distance_matrix(x, y):
    """
    Oblicza dystans Euklidesowy miƒôdzy ka≈ºdym elementem x a ka≈ºdym elementem y.
    x: [N, D]
    y: [M, D]
    Wynik: [N, M]
    """
    # 1. Kwadraty norm
    x_sq = torch.sum(x**2, dim=1, keepdim=True) # [N, 1]
    y_sq = torch.sum(y**2, dim=1, keepdim=True) # [M, 1] -> transponujemy wirtualnie do [1, M]
    
    # 2. Iloczyn skalarny (2ab)
    # [N, D] @ [D, M] -> [N, M]
    prod = torch.matmul(x, y.t())
    
    # 3. Wz√≥r (a^2 + b^2 - 2ab)
    # Broadcasting zadba o wymiary: [N, 1] + [1, M] - [N, M] -> [N, M]
    dist_sq = x_sq + y_sq.t() - 2 * prod
    
    # 4. Zabezpieczenie przed ujemnymi zerami (b≈Çƒôdy float)
    dist_sq = torch.clamp(dist_sq, min=1e-12)
    
    return torch.sqrt(dist_sq)

class AdvancedTripletLoss(nn.Module):
    def __init__(self, margin=1.0):
        super().__init__()
        self.margin = margin
        
    def forward(self, anchor, positive, negative):
        # Tutaj liczymy tylko pary (i, i), ale dziƒôki funkcji macierzowej
        # mogliby≈õmy ≈Çatwo zaimplementowaƒá "Batch Hard Mining" (najtrudniejszy negatyw w ca≈Çym batchu).
        
        # Obliczamy dystanse
        # Uwaga: funkcja zwraca macierz NxN, my chcemy tylko przekƒÖtnƒÖ (odleg≈Ço≈õƒá pary i-i)
        # Ale dla edukacji u≈ºyjemy tej funkcji.
        
        # Dystans A-P
        dists_ap = pairwise_distance_matrix(anchor, positive)
        # Bierzemy przekƒÖtnƒÖ (dystans miƒôdzy anchor[i] a positive[i])
        d_ap = torch.diag(dists_ap)
        
        # Dystans A-N
        dists_an = pairwise_distance_matrix(anchor, negative)
        d_an = torch.diag(dists_an)
        
        loss = torch.relu(d_ap - d_an + self.margin)
        return loss.mean()

print("Zaawansowana funkcja kosztu gotowa.")

Zaawansowana funkcja kosztu gotowa.


## Weryfikacja: Gradienty i NaN

Sprawd≈∫my, czy nasza funkcja jest stabilna.
Stworzymy przypadek, gdzie `anchor == positive` (dystans = 0).
W naiwnej implementacji (bez epsilora) `backward()` m√≥g≈Çby zwr√≥ciƒá `NaN`.

In [5]:
criterion_adv = AdvancedTripletLoss()

# --- POPRAWKA ---
# Tworzymy tensor BEZPO≈öREDNIO na urzƒÖdzeniu (device=DEVICE).
# Dziƒôki temu 'a_zero' jest Li≈õciem (Leaf Tensor) i jego .grad zostanie zachowany.
a_zero = torch.randn(5, 10, device=DEVICE, requires_grad=True)

# p_zero to klon a_zero.
# Uwaga: p_zero nie jest li≈õciem (jest wynikiem klonowania), 
# ale nas interesuje gradient na 'a_zero', wiƒôc jest OK.
p_zero = a_zero.clone() 

n_zero = torch.randn(5, 10, device=DEVICE, requires_grad=True)

# Liczymy stratƒô
loss = criterion_adv(a_zero, p_zero, n_zero)

print(f"Loss przy idealnym dopasowaniu: {loss.item()}")

# Pr√≥ba Backward
try:
    loss.backward()
    
    # Teraz a_zero.grad bƒôdzie istnia≈Ç i nie bƒôdzie ostrze≈ºenia
    grad_norm = a_zero.grad.norm().item()
    print(f"Gradient Anchora (norma): {grad_norm}")
    
    if torch.isnan(a_zero.grad).any():
        print("‚ùå B≈ÅƒÑD: Gradient to NaN! (Dzielenie przez zero w pierwiastku)")
    else:
        print("‚úÖ SUKCES: Gradient jest stabilny (dziƒôki clamp/epsilon).")
        
except Exception as e:
    print(f"B≈ÇƒÖd: {e}")

Loss przy idealnym dopasowaniu: 0.0
Gradient Anchora (norma): 0.0
‚úÖ SUKCES: Gradient jest stabilny (dziƒôki clamp/epsilon).


## ü•ã Black Belt Summary

1.  **Unikaj pƒôtli `for`** w funkcjach kosztu. Je≈õli masz batcha, u≈ºywaj operacji macierzowych (`matmul`, broadcasting).
2.  **`clamp(min=1e-8)`**: Zawsze u≈ºywaj tego przed pierwiastkowaniem (`sqrt`) lub logarytmowaniem (`log`). W Deep Learningu zero jest Twoim wrogiem przy liczeniu pochodnych.
3.  **Wz√≥r skr√≥conego mno≈ºenia:** $||a-b||^2 = a^2 + b^2 - 2ab$ to najszybszy spos√≥b na policzenie macierzy odleg≈Ço≈õci na GPU.