# ‚è≥ TFT: Transformer do zada≈Ñ specjalnych (Time Series)

Standardowy Transformer (GPT) traktuje wszystko jako tekst.
TFT jest zaprojektowany specjalnie dla liczb i czasu.

RozwiƒÖzuje problem **Heterogenicznych Danych**:
1.  **Zmienne statyczne:** (ID sklepu, lokalizacja) -> Nie zmieniajƒÖ siƒô w czasie.
2.  **Zmienne dynamiczne znane:** (Dzie≈Ñ tygodnia, ≈öwiƒôta) -> Znamy je na rok do przodu.
3.  **Zmienne dynamiczne nieznane:** (Sprzeda≈º) -> Znamy tylko przesz≈Ço≈õƒá.

**Kluczowa innowacja: Gating (Bramkowanie).**
Wiƒôkszo≈õƒá sieci neuronowych to "czarne skrzynki". TFT u≈ºywa mechanizmu **GLU (Gated Linear Unit)**, kt√≥ry dzia≈Ça jak kran. Mo≈ºe ca≈Çkowicie odciƒÖƒá dop≈Çyw informacji z danej kolumny, je≈õli uzna jƒÖ za szum.

Zbudujemy od zera serce TFT: **Gated Residual Network (GRN)**.

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# Konfiguracja
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
HIDDEN_DIM = 64  # Rozmiar ukryty (dla ka≈ºdego feature'a)
DROPOUT = 0.1

print(f"UrzƒÖdzenie: {DEVICE}")

UrzƒÖdzenie: cuda


## Krok 1: GLU (Gated Linear Unit)

To prosty, ale genialny mechanizm.
$$ GLU(x) = \sigma(W_1 x + b_1) \odot (W_2 x + b_2) $$

*   Czƒô≈õƒá prawa ($W_2 x$): Przetwarza dane (Informacja).
*   Czƒô≈õƒá lewa ($\sigma(...)$): Sigmoid zwraca warto≈õci 0-1 (Bramka).

Mno≈ºymy Informacjƒô przez Bramkƒô. Je≈õli Bramka = 0, informacja znika.

In [2]:
class GLU(nn.Module):
    def __init__(self, input_dim):
        super().__init__()
        # Wersja PyTorchowa GLU oczekuje wej≈õcia 2x wiƒôkszego, 
        # bo dzieli je na p√≥≈Ç (jedna po≈Çowa to dane, druga to bramka).
        self.linear = nn.Linear(input_dim, input_dim * 2)

    def forward(self, x):
        # x: [Batch, Dim]
        val = self.linear(x)
        # F.glu dzieli tensor na p√≥≈Ç i robi: A * sigmoid(B)
        return F.glu(val, dim=-1)

# Test
glu = GLU(HIDDEN_DIM)
dummy = torch.randn(5, HIDDEN_DIM)
out = glu(dummy)
print(f"Wej≈õcie: {dummy.shape}")
print(f"Wyj≈õcie: {out.shape} (Wymiar zachowany, ale przefiltrowany)")

Wej≈õcie: torch.Size([5, 64])
Wyj≈õcie: torch.Size([5, 64]) (Wymiar zachowany, ale przefiltrowany)


## Krok 2: GRN (Gated Residual Network)

To jest podstawowy klocek TFT (u≈ºywany wszƒôdzie).
Sk≈Çada siƒô z:
1.  **Skip Connection:** Orygina≈Ç dodawany na ko≈Ñcu (pamiƒôtasz ResNet?).
2.  **LayerNorm:** Stabilizacja.
3.  **Dwie warstwy Linear + ELU:** Nieliniowe przetwarzanie.
4.  **GLU:** Bramkowanie na ko≈Ñcu.
5.  **Context (Optional):** GRN mo≈ºe przyjmowaƒá dodatkowy wektor kontekstu (np. "To jest Sklep nr 5"), kt√≥ry wp≈Çywa na przetwarzanie.

$$ GRN(x, c) = LayerNorm(x + GLU(Linear(ELU(Linear(x, c))))) $$

In [3]:
class GRN(nn.Module):
    def __init__(self, input_dim, hidden_dim, context_dim=None):
        super().__init__()
        self.input_dim = input_dim
        self.hidden_dim = hidden_dim
        
        # Warstwa 1
        # Je≈õli mamy kontekst, doklejamy go (lub rzutujemy)
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        if context_dim is not None:
            self.context_projection = nn.Linear(context_dim, hidden_dim, bias=False)
            
        # Warstwa 2
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        
        # Bramka i Normalizacja
        self.glu = GLU(hidden_dim)
        self.norm = nn.LayerNorm(hidden_dim)
        
        # Projekcja rezydualna (je≈õli wej≈õcie ma inny wymiar ni≈º wyj≈õcie)
        self.skip_projection = nn.Linear(input_dim, hidden_dim) if input_dim != hidden_dim else nn.Identity()

    def forward(self, x, context=None):
        # x: [Batch, Input_Dim]
        residual = self.skip_projection(x)
        
        # 1. Pierwsza warstwa + Kontekst
        x = self.fc1(x)
        if context is not None:
            # Dodajemy kontekst (np. wektor statyczny sklepu) do przetwarzania
            x = x + self.context_projection(context)
            
        x = F.elu(x) # Exponential Linear Unit (standard w TFT)
        
        # 2. Druga warstwa
        x = self.fc2(x)
        
        # 3. Bramkowanie (GLU) + Dropout
        x = F.dropout(x, p=DROPOUT, training=self.training)
        x = self.glu(x)
        
        # 4. Add & Norm
        return self.norm(x + residual)

# Test z Kontekstem
grn = GRN(input_dim=10, hidden_dim=64, context_dim=5)
x_in = torch.randn(32, 10) # 32 pr√≥bki, 10 cech
c_in = torch.randn(32, 5)  # Kontekst (np. ID sklepu)

out = grn(x_in, c_in)
print(f"GRN Output: {out.shape}")

GRN Output: torch.Size([32, 64])


## Krok 3: Variable Selection Network (VSN)

To jest unikalne dla TFT.
Zamiast wrzucaƒá wszystkie cechy do jednego worka (jak w MLP), TFT przetwarza **ka≈ºdƒÖ kolumnƒô osobno** przez w≈Çasny GRN.
Na ko≈Ñcu sieƒá decyduje (wa≈ºy), kt√≥re kolumny sƒÖ wa≈ºne dla danej pr√≥bki.

Dziƒôki temu TFT jest **Interpretowalny**. Powie Ci: *"Dla tej prognozy wziƒô≈Çam pod uwagƒô 80% Sprzeda≈ºy Wczorajszej i 20% Pogody, a zignorowa≈Çam Dzie≈Ñ Tygodnia"*.

In [4]:
class VariableSelectionNetwork(nn.Module):
    def __init__(self, num_inputs, input_dim, hidden_dim, context_dim=None):
        super().__init__()
        self.num_inputs = num_inputs # Ile mamy kolumn (zmiennych)?
        
        # Dla ka≈ºdej zmiennej tworzymy osobny GRN
        self.single_variable_grns = nn.ModuleList([
            GRN(input_dim, hidden_dim, context_dim) for _ in range(num_inputs)
        ])
        
        # GRN wa≈ºƒÖcy (decyduje o wagach dla ka≈ºdej zmiennej)
        # Wej≈õcie to sp≈Çaszczone wszystkie zmienne
        self.weighting_grn = GRN(num_inputs * input_dim, num_inputs, context_dim)
        
    def forward(self, x_list, context=None):
        # x_list: Lista tensor√≥w (ka≈ºdy to jedna zmienna np. [Batch, 1])
        # Musimy je najpierw zrzutowaƒá na ten sam wymiar (Embedding), tu pomijamy dla uproszczenia
        # Zak≈Çadamy, ≈ºe x_list to tensor [Batch, Num_Inputs, Input_Dim]
        
        batch_size = x_list.shape[0]
        
        # 1. Przetwarzamy ka≈ºdƒÖ zmiennƒÖ przez jej GRN
        processed_vars = []
        for i in range(self.num_inputs):
            var_out = self.single_variable_grns[i](x_list[:, i, :], context)
            processed_vars.append(var_out)
            
        processed_vars = torch.stack(processed_vars, dim=1) # [Batch, Num, Hidden]
        
        # 2. Obliczamy wagi wa≈ºno≈õci (Weights)
        # Sp≈Çaszczamy wej≈õcie dla Weighting GRN
        flat_input = x_list.view(batch_size, -1)
        weights = self.weighting_grn(flat_input, context)
        weights = F.softmax(weights, dim=-1) # [Batch, Num_Inputs]
        
        # 3. Suma wa≈ºona
        # weights: [Batch, Num, 1]
        weights = weights.unsqueeze(-1)
        combined = torch.sum(processed_vars * weights, dim=1)
        
        return combined, weights

# Symulacja: Mamy 3 zmienne (np. Sprzeda≈º, Pogoda, Cena), ka≈ºda ma wymiar 64 (po embeddingu)
vsn = VariableSelectionNetwork(num_inputs=3, input_dim=64, hidden_dim=64)

dummy_vars = torch.randn(32, 3, 64) # [Batch, Zmienne, Cechy]
out, weights = vsn(dummy_vars)

print(f"Wyj≈õcie VSN: {out.shape} -> Jeden wektor reprezentujƒÖcy ca≈Çy krok czasowy.")
print("--- WAGI WA≈ªNO≈öCI (Feature Importance) dla pierwszego przyk≈Çadu ---")
print(weights[0].squeeze().detach().numpy())

Wyj≈õcie VSN: torch.Size([32, 64]) -> Jeden wektor reprezentujƒÖcy ca≈Çy krok czasowy.
--- WAGI WA≈ªNO≈öCI (Feature Importance) dla pierwszego przyk≈Çadu ---
[0.08056269 0.12061661 0.79882073]


## üß† Podsumowanie: Dlaczego TFT jest SOTA?

TFT ≈ÇƒÖczy zalety wszystkich ≈õwiat√≥w:
1.  **RNN (LSTM):** U≈ºywa ich do lokalnego przetwarzania sekwencji (nie pokazali≈õmy tego tutaj, ale sƒÖ w pe≈Çnej architekturze).
2.  **Transformer (Attention):** U≈ºywa Multi-Head Attention do patrzenia na d≈Çugoterminowe zale≈ºno≈õci (np. "sprzeda≈º rok temu").
3.  **Drzewa Decyzyjne (Selection):** Dziƒôki `VariableSelectionNetwork` potrafi odrzucaƒá szum, co zwykle robiƒÖ XGBoosty.

Dlatego TFT wygrywa konkursy forecastingowe (np. M5 Competition) i jest u≈ºywany w Google Cloud Forecasting.