# ‚è© Speculative Decoding: Jak przyspieszyƒá LLM 2x bez utraty jako≈õci?

Wielkie modele (Target Model) sƒÖ ograniczone przez **Memory Bandwidth** (przepustowo≈õƒá pamiƒôci). Za≈Çadowanie wag trwa d≈Çu≈ºej ni≈º same obliczenia.
Dlatego uruchomienie modelu dla 1 tokena kosztuje tyle samo czasu, co dla 5 token√≥w (je≈õli robimy to r√≥wnolegle).

**Algorytm Spekulacyjny:**
1.  **Draft:** Ma≈Çy model (np. GPT-2) generuje szybko `K` token√≥w (np. "Ala ma kota").
2.  **Verify:** Du≈ºy model (np. GPT-4) dostaje ten ciƒÖg i liczy prawdopodobie≈Ñstwa dla wszystkich pozycji naraz.
3.  **Accept/Reject:** Sprawdzamy, czy Du≈ºy Model zgadza siƒô z Ma≈Çym.
    *   Akceptujemy prefiks, kt√≥ry jest zgodny.
    *   Resztƒô odrzucamy i generujemy poprawny token z Du≈ºego Modelu.

Zrobimy symulacjƒô tego procesu, u≈ºywajƒÖc sztucznych op√≥≈∫nie≈Ñ (`time.sleep`), ≈ºeby pokazaƒá zysk czasowy.

In [1]:
import time
import random
import torch
import numpy as np

# Konfiguracja symulacji
# Target Model jest mƒÖdry (dok≈Çadny), ale wolny
TARGET_TIME_PER_TOKEN = 0.1  # 100 ms
# Draft Model jest g≈Çupi (czƒôsto siƒô myli), ale szybki
DRAFT_TIME_PER_TOKEN = 0.01  # 10 ms

# D≈Çugo≈õƒá spekulacji (ile token√≥w zgadujemy naraz?)
K_LOOKAHEAD = 4 

# Nasze "S≈Çownictwo" (uproszczone)
target_sentence = "Sztuczna inteligencja zmienia ≈õwiat na lepsze".split()
vocab = {word: i for i, word in enumerate(target_sentence)}
vocab_inv = {i: word for word, i in vocab.items()}

print(f"Zdanie docelowe: {target_sentence}")
print(f"Draft jest {TARGET_TIME_PER_TOKEN / DRAFT_TIME_PER_TOKEN:.0f}x szybszy od Targetu.")

Zdanie docelowe: ['Sztuczna', 'inteligencja', 'zmienia', '≈õwiat', 'na', 'lepsze']
Draft jest 10x szybszy od Targetu.


## Symulacja Modeli

Stworzymy dwie funkcje:
1.  `target_model`: Zawsze zwraca poprawne s≈Çowo, ale "my≈õli" d≈Çugo.
2.  `draft_model`: My≈õli szybko, ale ma np. 70% szans na trafienie (symulacja mniejszej inteligencji).

In [2]:
class MockModel:
    def __init__(self, name, latency, accuracy, true_sentence):
        self.name = name
        self.latency = latency
        self.accuracy = accuracy
        self.true_sentence = true_sentence

    def forward(self, input_ids):
        """
        Zwraca nastƒôpny token (lub listƒô token√≥w).
        """
        # Symulacja czasu oblicze≈Ñ
        time.sleep(self.latency)
        
        current_len = len(input_ids)
        if current_len >= len(self.true_sentence):
            return "<EOS>" # Koniec zdania
        
        # Prawdziwy token, kt√≥ry powinien byƒá
        true_token = self.true_sentence[current_len]
        
        # Czy model zgad≈Ç?
        if random.random() < self.accuracy:
            return true_token
        else:
            # Pomy≈Çka (losowe s≈Çowo ze s≈Çownika)
            return random.choice(list(vocab.keys()))

# Inicjalizacja
# Target: 100% dok≈Çadno≈õci (to nasza wyrocznia), wolny
target_model = MockModel("Target (Big)", TARGET_TIME_PER_TOKEN, 1.0, target_sentence)

# Draft: 70% dok≈Çadno≈õci, szybki
draft_model = MockModel("Draft (Small)", DRAFT_TIME_PER_TOKEN, 0.7, target_sentence)

print("Modele gotowe.")

Modele gotowe.


## Metoda 1: Standardowa Generacja (Autoregresyjna)

To jest spos√≥b, w jaki normalnie dzia≈Ça ChatGPT. Jeden token po drugim, u≈ºywajƒÖc tylko du≈ºego modelu.

In [3]:
def standard_generation():
    current_text = []
    start_time = time.time()
    
    print("--- STANDARD GENERATION ---")
    while len(current_text) < len(target_sentence):
        # Generujemy 1 token Du≈ºym Modelem
        token = target_model.forward(current_text)
        current_text.append(token)
        print(f"Generated: {token}")
        
    total_time = time.time() - start_time
    return total_time, len(current_text)

time_std, tokens_std = standard_generation()
print(f"\nCzas Standardowy: {time_std:.4f} s")
print(f"Prƒôdko≈õƒá: {tokens_std / time_std:.2f} tokens/s")

--- STANDARD GENERATION ---
Generated: Sztuczna
Generated: inteligencja
Generated: zmienia
Generated: ≈õwiat
Generated: na
Generated: lepsze

Czas Standardowy: 0.6032 s
Prƒôdko≈õƒá: 9.95 tokens/s


## Metoda 2: Speculative Decoding

Teraz algorytm spekulacyjny:
1.  Pƒôtla g≈Ç√≥wna.
2.  **Krok Draftu:** Ma≈Çy model generuje `K` token√≥w jeden po drugim (szybko).
3.  **Krok Weryfikacji:** Du≈ºy model sprawdza te `K` token√≥w + 1 dodatkowy (r√≥wnolegle).
    *   *Uwaga: W naszej symulacji Pythona "r√≥wnoleg≈Ço≈õƒá" symulujemy tym, ≈ºe `target_model` sprawdza listƒô token√≥w w tym samym czasie co pojedynczy token (bo koszt to g≈Ç√≥wnie za≈Çadowanie wag).*
4.  **Akceptacja:** Bierzemy tyle token√≥w, ile siƒô zgadza.

In [4]:
def speculative_generation():
    current_text = []
    start_time = time.time()
    
    print("--- SPECULATIVE GENERATION ---")
    
    while len(current_text) < len(target_sentence):
        # 1. DRAFT PHASE (Ma≈Çy model zgaduje K razy)
        draft_tokens = []
        temp_context = current_text.copy()
        
        for _ in range(K_LOOKAHEAD):
            if len(temp_context) >= len(target_sentence): break
            token = draft_model.forward(temp_context)
            draft_tokens.append(token)
            temp_context.append(token)
            
        # 2. VERIFICATION PHASE (Du≈ºy model sprawdza)
        # W prawdziwym GPU to dzieje siƒô w JEDNYM przebiegu (batch)
        # Symulujemy koszt jednego uruchomienia du≈ºego modelu
        time.sleep(TARGET_TIME_PER_TOKEN) 
        
        # Sprawdzamy poprawno≈õƒá (Verify)
        # Target model generuje "swojƒÖ wersjƒô" dla ka≈ºdego kroku w drafcie
        # (W prawdziwym ≈õwiecie liczy prawdopodobie≈Ñstwa P(x))
        accepted_tokens = []
        for i, draft_tok in enumerate(draft_tokens):
            # Jaki token powinien byƒá na tej pozycji wg Targetu?
            true_pos = len(current_text) + i
            if true_pos >= len(target_sentence): break
            
            target_tok = target_sentence[true_pos]
            
            if draft_tok == target_tok:
                accepted_tokens.append(draft_tok)
            else:
                # B≈ÇƒÖd! Odrzucamy resztƒô draftu
                # Target model "poprawia" ten jeden b≈ÇƒÖd
                accepted_tokens.append(target_tok)
                break # Przerywamy akceptacjƒô
        
        # Aktualizacja tekstu
        current_text.extend(accepted_tokens)
        
        # Logowanie
        status = "‚úÖ" if len(accepted_tokens) > 1 else "‚ùå"
        print(f"Draft: {draft_tokens} -> Zaakceptowano: {accepted_tokens} {status}")

    total_time = time.time() - start_time
    return total_time, len(current_text)

time_spec, tokens_spec = speculative_generation()
print(f"\nCzas Spekulacyjny: {time_spec:.4f} s")
print(f"Prƒôdko≈õƒá: {tokens_spec / time_spec:.2f} tokens/s")

--- SPECULATIVE GENERATION ---
Draft: ['Sztuczna', 'inteligencja', '≈õwiat', '≈õwiat'] -> Zaakceptowano: ['Sztuczna', 'inteligencja', 'zmienia'] ‚úÖ
Draft: ['≈õwiat', 'na', 'lepsze'] -> Zaakceptowano: ['≈õwiat', 'na', 'lepsze'] ‚úÖ

Czas Spekulacyjny: 0.2736 s
Prƒôdko≈õƒá: 21.93 tokens/s


In [5]:
# PODSUMOWANIE
speedup = time_std / time_spec
print("-" * 30)
print(f"Standard: {time_std:.4f}s")
print(f"Speculative: {time_spec:.4f}s")
print(f"üöÄ PRZYSPIESZENIE: {speedup:.2f}x")

if speedup > 1.0:
    print("Sukces! Ma≈Çy model skutecznie pom√≥g≈Ç du≈ºemu.")
else:
    print("Pora≈ºka. Ma≈Çy model myli≈Ç siƒô zbyt czƒôsto (narzut czasowy draftu zjad≈Ç zysk).")

------------------------------
Standard: 0.6032s
Speculative: 0.2736s
üöÄ PRZYSPIESZENIE: 2.20x
Sukces! Ma≈Çy model skutecznie pom√≥g≈Ç du≈ºemu.


## üß† Podsumowanie: Hazard, kt√≥ry siƒô op≈Çaca

Je≈õli ma≈Çy model ma skuteczno≈õƒá (Acceptance Rate) powy≈ºej ~50-60%, spekulacja siƒô op≈Çaca.
Je≈õli ma≈Çy model jest beznadziejny, spekulacja tylko spowalnia (bo tracimy czas na draft, kt√≥ry i tak idzie do kosza).

**Dlaczego to dzia≈Ça na GPU?**
Uruchomienie modelu GPT-4 dla sekwencji o d≈Çugo≈õci 1 (input) kosztuje np. 50ms.
Uruchomienie go dla sekwencji o d≈Çugo≈õci 5 (input) te≈º kosztuje ok. 50-55ms.
Dziƒôki temu **weryfikacja 5 token√≥w jest prawie darmowa** w por√≥wnaniu do generowania ich pojedynczo.

To obecnie standardowa technika w bibliotekach takich jak **vLLM** czy **HuggingFace TGI**.