# ðŸ¥‹ Lekcja 25: Weight Sharing (WiÄ…zanie Wag)

WiÄ…zanie wag to technika, gdzie ten sam tensor parametrÃ³w jest uÅ¼ywany w kilku miejscach sieci.

**Zastosowania:**
1.  **Autoenkodery:** Wagi Dekodera sÄ… transpozycjÄ… Encodera.
2.  **NLP (Language Models):** Warstwa Embeddingu (wejÅ›cie) i warstwa projekcji (wyjÅ›cie) czÄ™sto wspÃ³Å‚dzielÄ… tÄ™ samÄ… macierz (wielkÄ…, np. 50k sÅ‚Ã³w).
3.  **Sieci Syjamskie:** Dwa obrazki przechodzÄ… przez *tÄ™ samÄ…* sieÄ‡ (to teÅ¼ forma weight sharingu).

**Jak to zrobiÄ‡ w PyTorch?**
Po prostu przypisz ten sam obiekt `nn.Parameter` do dwÃ³ch atrybutÃ³w.

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# 1. PodejÅ›cie Standardowe (NiezaleÅ¼ne wagi)
class StandardAutoencoder(nn.Module):
    def __init__(self, input_dim, hidden_dim):
        super().__init__()
        self.encoder = nn.Linear(input_dim, hidden_dim)
        self.decoder = nn.Linear(hidden_dim, input_dim) # Nowa, niezaleÅ¼na macierz

    def forward(self, x):
        x = F.relu(self.encoder(x))
        x = self.decoder(x)
        return x

model_std = StandardAutoencoder(10, 5)

print("--- STANDARD ---")
print(f"Adres wagi Encoder: {model_std.encoder.weight.data_ptr()}")
print(f"Adres wagi Decoder: {model_std.decoder.weight.data_ptr()}")
print("Adresy sÄ… RÃ“Å»NE. To dwie osobne macierze.")

--- STANDARD ---
Adres wagi Encoder: 3704677794240
Adres wagi Decoder: 3704677794560
Adresy sÄ… RÃ“Å»NE. To dwie osobne macierze.


## Implementacja Tied Weights

Teraz zrobimy to sprytnie.
Nie bÄ™dziemy tworzyÄ‡ `nn.Linear` dla decodera.
UÅ¼yjemy `nn.Linear` dla Encodera, a w Decoderze uÅ¼yjemy **funkcyjnego** wywoÅ‚ania `F.linear`, podajÄ…c mu wagÄ™ Encodera (transponowanÄ…).

In [2]:
class TiedAutoencoder(nn.Module):
    def __init__(self, input_dim, hidden_dim):
        super().__init__()
        # Encoder: Standardowa warstwa
        self.encoder = nn.Linear(input_dim, hidden_dim)
        
        # Decoder: NIE tworzymy nowej warstwy Linear.
        # MoÅ¼emy ewentualnie stworzyÄ‡ osobny bias, bo bias nie musi byÄ‡ wiÄ…zany
        self.decoder_bias = nn.Parameter(torch.zeros(input_dim))

    def forward(self, x):
        # 1. Encode
        x = F.relu(self.encoder(x))
        
        # 2. Decode (UÅ¼ywamy wagi Encodera!)
        # WzÃ³r: x @ W_enc.T + bias
        # F.linear robi x @ W.T, wiÄ™c my musimy podaÄ‡ W_enc.T.T = W_enc? 
        # Czekaj! F.linear(input, weight) wykonuje: input @ weight.T
        # My chcemy uÅ¼yÄ‡ tej samej macierzy, ale transponowanej wzglÄ™dem Encodera.
        # Waga Encodera ma ksztaÅ‚t [Hidden, Input].
        # Do Decodera potrzebujemy [Input, Hidden] (Å¼eby pomnoÅ¼yÄ‡ [Batch, Hidden]).
        # F.linear oczekuje wagi o ksztaÅ‚cie [Out, In].
        
        # Tutaj waga encoder.weight ma ksztaÅ‚t [Hidden, Input].
        # My chcemy wyjÅ›cie o rozmiarze Input.
        # F.linear(x, self.encoder.weight.t()) -> x @ (W.t()).t() -> x @ W
        
        # Dla Tied Weights w AE zazwyczaj uÅ¼ywamy: W_dec = W_enc.T
        x = F.linear(x, self.encoder.weight.t(), self.decoder_bias)
        
        return x

model_tied = TiedAutoencoder(10, 5)

print("\n--- TIED WEIGHTS ---")
print(f"Waga Encodera: {model_tied.encoder.weight.shape}")
# Nie ma 'model_tied.decoder', bo uÅ¼yliÅ›my F.linear
print("Wagi sÄ… fizycznie tym samym obiektem.")


--- TIED WEIGHTS ---
Waga Encodera: torch.Size([5, 10])
Wagi sÄ… fizycznie tym samym obiektem.


## DowÃ³d: Gradienty

Skoro wagi sÄ… wspÃ³Å‚dzielone, to podczas `backward()` gradienty z "obu stron" (z wejÅ›cia i wyjÅ›cia) powinny siÄ™ **zsumowaÄ‡** w jednym parametrze.

ZrÃ³bmy test:
1.  PuÅ›cimy dane.
2.  Policzymy stratÄ™.
3.  Zrobimy `backward`.
4.  Sprawdzimy, czy waga Encodera otrzymaÅ‚a gradient.

In [3]:
x = torch.randn(1, 10)
y = x.clone() # Autoenkoder ma odtworzyÄ‡ wejÅ›cie

# Forward
out = model_tied(x)
loss = ((out - y)**2).sum()

# Backward
loss.backward()

print("--- GRADIENTY ---")
print(f"Czy waga Encodera ma gradient? {model_tied.encoder.weight.grad is not None}")
print(f"WartoÅ›Ä‡ gradientu (norma): {model_tied.encoder.weight.grad.norm().item():.4f}")

# ZmieÅ„my wagÄ™ rÄ™cznie i sprawdÅºmy czy 'decoder' (logika) to odczuje
with torch.no_grad():
    model_tied.encoder.weight.fill_(10.0)

out_new = model_tied(x)
print(f"\nPo zmianie wagi Encodera, wynik Decodera: {out_new.mean().item():.2f}")
print("(Wynik jest ogromny, co dowodzi, Å¼e zmiana wagi wpÅ‚ynÄ™Å‚a na caÅ‚Ä… sieÄ‡).")

--- GRADIENTY ---
Czy waga Encodera ma gradient? True
WartoÅ›Ä‡ gradientu (norma): 7.5713

Po zmianie wagi Encodera, wynik Decodera: 1769.00
(Wynik jest ogromny, co dowodzi, Å¼e zmiana wagi wpÅ‚ynÄ™Å‚a na caÅ‚Ä… sieÄ‡).


## Alternatywa: Przypisanie atrybutu

MoÅ¼na teÅ¼ zrobiÄ‡ to bardziej "obiektowo", przypisujÄ…c ten sam parametr do dwÃ³ch warstw `nn.Linear`.

In [4]:
class SharedLinear(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(10, 10)
        self.fc2 = nn.Linear(10, 10)
        
        # NADPISUJEMY wagÄ™ fc2 wagÄ… fc1
        self.fc2.weight = self.fc1.weight
        # Teraz to ten sam obiekt w pamiÄ™ci!

model_shared = SharedLinear()

print(f"FC1 ptr: {model_shared.fc1.weight.data_ptr()}")
print(f"FC2 ptr: {model_shared.fc2.weight.data_ptr()}")

if model_shared.fc1.weight.data_ptr() == model_shared.fc2.weight.data_ptr():
    print("âœ… Adresy identyczne. PyTorch bÄ™dzie aktualizowaÅ‚ oba naraz.")

FC1 ptr: 3704678056576
FC2 ptr: 3704678056576
âœ… Adresy identyczne. PyTorch bÄ™dzie aktualizowaÅ‚ oba naraz.


## ðŸ¥‹ Black Belt Summary

1.  **Weight Sharing** to nie magia. To po prostu uÅ¼ycie tego samego tensora w wielu miejscach grafu obliczeniowego.
2.  **Autograd** radzi sobie z tym doskonale. Gradienty z rÃ³Å¼nych miejsc grafu, ktÃ³re uÅ¼ywajÄ… tej samej wagi, sÄ… po prostu **sumowane** (Accumulate Grad).
3.  **Zastosowanie:**
    *   Zmniejszenie liczby parametrÃ³w (mniejszy model).
    *   Regularyzacja (trudniej o overfitting, gdy wagi sÄ… zwiÄ…zane).
    *   W NLP (Transformers) wiÄ…zanie Embeddingu wejÅ›ciowego z wyjÅ›ciowym to standard (Input/Output Embedding Tying).