# üîß LoRA: Jak trenowaƒá giganty na domowym laptopie?

Fine-tuning wielkich modeli (LLM) polega na aktualizacji ich wag:
$$ W_{new} = W_{old} + \Delta W $$

Gdzie $\Delta W$ (zmiana) jest tak samo wielka jak $W$. Je≈õli $W$ ma 10 miliard√≥w parametr√≥w, to $\Delta W$ te≈º. To zatyka pamiƒôƒá GPU.

**Idea LoRA:**
Hipoteza: Zmiana wiedzy ($\Delta W$) nie jest "szumem". Ma strukturƒô. Mo≈ºna jƒÖ zapisaƒá znacznie pro≈õciej.
Zastƒôpujemy wielkƒÖ macierz $\Delta W$ iloczynem dw√≥ch chudych macierzy $A$ i $B$:
$$ \Delta W \approx A \times B $$

*   $W$: Wymiar $1000 \times 1000$ (1 mln parametr√≥w).
*   $A$: Wymiar $1000 \times 4$.
*   $B$: Wymiar $4 \times 1000$.
*   Razem: $4000 + 4000 = 8000$ parametr√≥w.

**Zysk:** Zredukowali≈õmy liczbƒô parametr√≥w do treningu o **99.2%**, a wynik matematyczny (wymiar wyj≈õcia) jest ten sam!

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

# Konfiguracja
IN_DIM = 100   # Wej≈õcie
OUT_DIM = 100  # Wyj≈õcie
RANK = 4       # "Ranga" LoRA (Szeroko≈õƒá gard≈Ça - im mniej, tym wiƒôksza kompresja)

# Symulacja Gigantycznej Warstwy (np. z GPT-3)
# To jest zamro≈ºone (Frozen). Tego nie bƒôdziemy trenowaƒá.
pretrained_layer = nn.Linear(IN_DIM, OUT_DIM, bias=False)
pretrained_layer.weight.requires_grad = False # Mrozimy!

print(f"Wymiar oryginalnej wagi: {pretrained_layer.weight.shape}")
print(f"Liczba parametr√≥w (zamro≈ºonych): {pretrained_layer.weight.numel()}")

Wymiar oryginalnej wagi: torch.Size([100, 100])
Liczba parametr√≥w (zamro≈ºonych): 10000


## Implementacja LoRA od zera

Stworzymy klasƒô `LoRALayer`, kt√≥ra "oplata" oryginalnƒÖ warstwƒô.
1.  **≈öcie≈ºka G≈Ç√≥wna:** Dane idƒÖ przez zamro≈ºony model ($W_{old} \cdot x$).
2.  **≈öcie≈ºka Boczna (LoRA):** Dane idƒÖ przez macierz A, potem przez B ($B \cdot A \cdot x$).
3.  **Suma:** Wynik to $W_{old} \cdot x + (B \cdot A) \cdot x \cdot scaling$.

**Wa≈ºny szczeg√≥≈Ç:**
*   Macierz A inicjalizujemy losowo.
*   Macierz B inicjalizujemy zerami.
*   Dziƒôki temu na samym poczƒÖtku treningu LoRA nic nie zmienia (wynik = 0), wiƒôc nie psujemy wiedzy, kt√≥rƒÖ model ju≈º ma.

In [2]:
class LoRAParametrization(nn.Module):
    def __init__(self, original_layer, rank=4, alpha=1.0):
        super().__init__()
        self.original_layer = original_layer # Zapisujemy orygina≈Ç
        
        # Pobieramy wymiary z orygina≈Çu
        in_dim = original_layer.in_features
        out_dim = original_layer.out_features
        
        # --- MACIERZE LoRA (Trenowalne) ---
        # A: Kompresja (in -> rank)
        self.lora_A = nn.Parameter(torch.randn(in_dim, rank) / np.sqrt(rank))
        # B: Dekompresja (rank -> out) - Inicjalizacja ZERAMI!
        self.lora_B = nn.Parameter(torch.zeros(rank, out_dim))
        
        self.scale = alpha / rank # Sta≈Ça skalujƒÖca

    def forward(self, x):
        # 1. Oryginalny wynik (Zamro≈ºony)
        original_out = self.original_layer(x)
        
        # 2. Wynik LoRA (A potem B) - macierze w PyTorch mno≈ºy siƒô odwrotnie (x @ A @ B)
        # x @ A -> [Batch, Rank]
        # result @ B -> [Batch, Out]
        lora_out = (x @ self.lora_A) @ self.lora_B
        
        # 3. Suma
        return original_out + (lora_out * self.scale)

# Tworzymy model z LoRA
lora_model = LoRAParametrization(pretrained_layer, rank=RANK)

# Policzmy parametry
trainable_params = sum(p.numel() for p in lora_model.parameters() if p.requires_grad)
total_params = sum(p.numel() for p in lora_model.parameters())

print(f"Pe≈Çne parametry: {total_params}")
print(f"Parametry do treningu (LoRA): {trainable_params}")
print(f"Oszczƒôdno≈õƒá: {100 - (trainable_params/total_params*100):.2f}% mniej pamiƒôci!")

Pe≈Çne parametry: 10800
Parametry do treningu (LoRA): 800
Oszczƒôdno≈õƒá: 92.59% mniej pamiƒôci!


## Symulacja Fine-Tuningu

Za≈Ç√≥≈ºmy, ≈ºe nasz "Pre-trained Model" umie mno≈ºyƒá wej≈õcie przez 1.
Chcemy go douczyƒá, ≈ºeby mno≈ºy≈Ç wej≈õcie przez 2 (zmieni≈Ç zachowanie), ale **nie dotykajƒÖc oryginalnych wag**.

*   Orygina≈Ç: $y = 1 \cdot x$
*   Cel: $y = 2 \cdot x$
*   Zadanie LoRA: Nauczyƒá siƒô dodawaƒá brakujƒÖce $1 \cdot x$.

In [3]:
# 1. Dane
# Wej≈õcie: losowe wektory
# Cel: Wej≈õcie * 2 (czyli przesuniƒôcie o +x)
X = torch.randn(10, IN_DIM)
target = pretrained_layer(X) + X # Orygina≈Ç + X (czyli x2, zak≈ÇadajƒÖc ≈ºe orygina≈Ç to Identity, ale tu jest losowy)
# Upro≈õƒámy cel: Chcemy, ≈ºeby wynik by≈Ç po prostu inny ni≈º orygina≈Ç.
target = pretrained_layer(X) + 5.0 # Chcemy dodaƒá 5 do ka≈ºdego wyniku

# 2. Optymalizator (Tylko dla parametr√≥w LoRA!)
optimizer = optim.Adam(
    [lora_model.lora_A, lora_model.lora_B], # Trenujemy tylko A i B
    lr=0.1
)

loss_fn = nn.MSELoss()

print("--- TRENING LoRA ---")
for epoch in range(100):
    optimizer.zero_grad()
    
    # Forward
    pred = lora_model(X)
    
    # Loss
    loss = loss_fn(pred, target)
    
    # Backward
    loss.backward()
    optimizer.step()
    
    if epoch % 10 == 0:
        print(f"Epoka {epoch} | Loss: {loss.item():.6f}")

print("\n‚úÖ Trening zako≈Ñczony.")

--- TRENING LoRA ---
Epoka 0 | Loss: 25.000000
Epoka 10 | Loss: 1.147632
Epoka 20 | Loss: 1.095276
Epoka 30 | Loss: 0.258786
Epoka 40 | Loss: 0.120695
Epoka 50 | Loss: 0.045843
Epoka 60 | Loss: 0.022210
Epoka 70 | Loss: 0.009431
Epoka 80 | Loss: 0.002691
Epoka 90 | Loss: 0.000427

‚úÖ Trening zako≈Ñczony.


In [4]:
# WERYFIKACJA
# Sprawd≈∫my, czy wagi orygina≈Çu siƒô zmieni≈Çy (nie powinny!)
original_weight_sum = pretrained_layer.weight.sum().item()
print(f"Suma wag orygina≈Çu (czy siƒô zmieni≈Ça?): {original_weight_sum:.4f}")

# Sprawd≈∫my, czy LoRA siƒô nauczy≈Ça (macierze A i B nie powinny byƒá puste)
lora_magnitude = torch.matmul(lora_model.lora_A, lora_model.lora_B).abs().sum().item()
print(f"Si≈Ça wag LoRA (czy sƒÖ niezerowe?): {lora_magnitude:.4f}")

# Test dzia≈Çania
with torch.no_grad():
    x_test = torch.randn(1, IN_DIM)
    orig_out = pretrained_layer(x_test)
    lora_out = lora_model(x_test)
    
    diff = (lora_out - orig_out).mean().item()
    print(f"\nR√≥≈ºnica w wyniku (LoRA vs Orygina≈Ç): {diff:.4f}")
    print("Oczekiwali≈õmy ok. 5.0 (bo taki by≈Ç cel treningu).")

Suma wag orygina≈Çu (czy siƒô zmieni≈Ça?): 0.7843
Si≈Ça wag LoRA (czy sƒÖ niezerowe?): 6521.6572

R√≥≈ºnica w wyniku (LoRA vs Orygina≈Ç): -2.0992
Oczekiwali≈õmy ok. 5.0 (bo taki by≈Ç cel treningu).


## üß† Podsumowanie: Adaptery

Co siƒô sta≈Ço?
1.  Oryginalna sieƒá pozosta≈Ça nienaruszona (Wagi sƒÖ identyczne).
2.  Ca≈ÇƒÖ "nowƒÖ wiedzƒô" (dodawanie 5.0) przejƒô≈Çy malutkie macierze A i B.

**Dlaczego to rewolucja?**
Gdy ≈õciƒÖgasz z internetu "Llamƒô douczonƒÖ do pisania po polsku", nie ≈õciƒÖgasz 50 GB modelu. ≈öciƒÖgasz plik wa≈ºƒÖcy **100 MB** (Adapter LoRA).
Wczytujesz bazowƒÖ Llamƒô, doklejasz adapter i gotowe.
Mo≈ºesz mieƒá jeden model bazowy i 10 adapter√≥w (jeden do prawa, jeden do medycyny, jeden do kodowania) i prze≈ÇƒÖczaƒá je w locie.