# üéØ Iteracja 4: Few-Shot Learning

**Czas:** ~45 minut  
**Poziom:** ≈öredniozaawansowany

---

## Cel iteracji

Poprawiƒá accuracy klasyfikacji przez **pokazanie modelowi przyk≈Çad√≥w** poprawnych klasyfikacji - i sprawdziƒá ile przyk≈Çad√≥w naprawdƒô potrzebujemy.

---

## Teoria: Zero/One/Few-Shot Learning

**Shot** = przyk≈Çad w prompcie.

| Typ | Opis | Kiedy u≈ºywaƒá |
|-----|------|--------------|
| **Zero-shot** | Brak przyk≈Çad√≥w | Prosta klasyfikacja, gdy model dobrze zna dziedzinƒô |
| **One-shot** | 1 przyk≈Çad | Gdy chcemy ustaliƒá format odpowiedzi |
| **Few-shot** | 3-8 przyk≈Çad√≥w | Gdy model nie radzi sobie zero-shot, trudne kategorie |
| **Many-shot** | 10+ przyk≈Çad√≥w | Bardzo specjalistyczne zadania, unikalne kategorie |

### Jak dobieraƒá przyk≈Çady?

Jako≈õƒá przyk≈Çad√≥w jest wa≈ºniejsza ni≈º ich liczba:

1. **Reprezentatywno≈õƒá** - pokryj r√≥≈ºne typy recenzji (kr√≥tkie, d≈Çugie, wieloznaczne)
2. **Trudne przypadki** - dodaj przyk≈Çady kt√≥re model klasyfikuje ≈∫le (analiza b≈Çƒôd√≥w!)
3. **R√≥≈ºnorodno≈õƒá** - nie dawaj 5x tego samego wzorca
4. **Graniczne przypadki** - przyk≈Çady miƒôdzy kategoriami (edge cases)
5. **Kolejno≈õƒá ma znaczenie** - ostatnie przyk≈Çady majƒÖ wiƒôkszy wp≈Çyw (recency bias)

### Few-shot vs Fine-tuning

| | Few-shot | Fine-tuning |
|--|---------|-------------|
| Koszt | Darmowy | Drogi |
| Szybko≈õƒá | Natychmiastowy | Godziny/dni treningu |
| Wymagane dane | 3-10 przyk≈Çad√≥w | Setki/tysiƒÖce |
| Jako≈õƒá | Dobra | Lepsza przy du≈ºych danych |
| Elastyczno≈õƒá | ≈Åatwa zmiana | Trzeba trenowaƒá ponownie |

> **Wniosek:** Zacznij zawsze od few-shot. Few-tuning tylko je≈õli few-shot nie wystarcza i masz du≈ºo danych.

## ‚öôÔ∏è Setup - ≈õrodowisko

Ta kom√≥rka wykrywa czy jeste≈õ w **Google Colab** czy lokalnie, a nastƒôpnie:
1. Klonuje repozytorium z GitHub (tylko Colab)
2. Instaluje wymagane biblioteki
3. Konfiguruje ≈õcie≈ºki import√≥w

In [None]:
import sys
import subprocess
from pathlib import Path

# Wykryj ≈õrodowisko
try:
    import google.colab
    IN_COLAB = True
except ImportError:
    IN_COLAB = False

print(f"{'üü° Google Colab' if IN_COLAB else 'üíª Lokalne ≈õrodowisko'}")

# ============================================================
# KONFIGURACJA REPO (zmie≈Ñ URL na w≈Ça≈õciwe przed warsztatami)
# ============================================================
REPO_URL = "https://github.com/JSerek/techland-genai-workshop.git"
REPO_DIR = Path("/content/szkolenie_techland") if IN_COLAB else Path(".").resolve().parent
# ============================================================

if IN_COLAB:
    if not REPO_DIR.exists():
        print(f"üì• Klonujƒô repo...")
        subprocess.run(["git", "clone", REPO_URL, str(REPO_DIR)], check=True)
        print("‚úÖ Repo sklonowane")
    else:
        print("üîÑ Aktualizujƒô repo (git pull)...")
        subprocess.run(["git", "-C", str(REPO_DIR), "pull"], check=True)

    # Dodaj repo do sys.path
    sys.path.insert(0, str(REPO_DIR))

    # Zainstaluj zale≈ºno≈õci
    print("üì¶ Instalujƒô biblioteki...")
    subprocess.run(
        [sys.executable, "-m", "pip", "install", "-r", str(REPO_DIR / "requirements.txt"), "-q"],
        check=True
    )
    print("‚úÖ Biblioteki zainstalowane")
else:
    # Lokalnie: dodaj root projektu do sys.path
    sys.path.insert(0, str(REPO_DIR))
    print(f"üìÇ ≈öcie≈ºka projektu: {REPO_DIR}")

print("\n‚úÖ Setup zako≈Ñczony")

In [None]:
# ============================================================
# üîë Konfiguracja API
# W Google Colab: dodaj sekrety w menu po lewej (üîë ikona)
#   Nazwy sekret√≥w: VERTEX_AI_API_KEY, VERTEX_AI_BASE_URL, MODEL_NAME
#
# Lokalnie: ustaw zmienne ≈õrodowiskowe lub wpisz warto≈õci bezpo≈õrednio
# ============================================================

if IN_COLAB:
    from google.colab import userdata
    API_KEY   = userdata.get("VERTEX_AI_API_KEY")
    BASE_URL  = userdata.get("VERTEX_AI_BASE_URL")
    MODEL_NAME = userdata.get("MODEL_NAME") or "google/gemini-2.5-flash-lite"
else:
    import os
    API_KEY   = os.environ.get("VERTEX_AI_API_KEY", "TODO: wklej API key")
    BASE_URL  = os.environ.get("VERTEX_AI_BASE_URL", "TODO: wklej endpoint URL")
    MODEL_NAME = os.environ.get("MODEL_NAME", "google/gemini-2.5-flash-lite")

# Walidacja
if not API_KEY or API_KEY == "TODO: wklej API key":
    print("‚ùå Brak API_KEY! Dodaj sekret 'VERTEX_AI_API_KEY' w Colab Secrets.")
elif not BASE_URL or BASE_URL == "TODO: wklej endpoint URL":
    print("‚ùå Brak BASE_URL! Dodaj sekret 'VERTEX_AI_BASE_URL' w Colab Secrets.")
else:
    print(f"‚úÖ API skonfigurowane: {MODEL_NAME}")
    print(f"   Endpoint: {BASE_URL[:60]}...")

In [None]:
# Konfiguracja klienta LLM - dane pobrane z Secrets w kom√≥rce powy≈ºej
from src.utils.llm_client import create_client, LLMProvider

PROVIDER = LLMProvider.VERTEX_AI  # Zmie≈Ñ je≈õli u≈ºywasz innego providera

client = create_client(
    provider=PROVIDER,
    api_key=API_KEY,
    base_url=BASE_URL,
)
print(f"‚úÖ Klient LLM gotowy: {PROVIDER.value} / {MODEL_NAME}")

In [None]:
import json
import pandas as pd
from pathlib import Path
from pydantic import BaseModel, Field
from typing import Optional

from src.evaluation.evaluator import evaluate_trial, compare_trials, MatchStrategy


# Kategorie tematyczne
CATEGORIES = [
    "gameplay",       # Mechaniki rozgrywki, walka, parkour, sterowanie, balans
    "story",          # Fabu≈Ça, postacie, dialogi, scenariusz
    "bugs",           # Crashe, glitche, b≈Çƒôdy, problemy techniczne
    "performance",    # FPS, lag, stuttering, optymalizacja ≈Çadowania
    "content",        # Ilo≈õƒá contentu, d≈Çugo≈õƒá gry, powtarzalno≈õƒá
    "graphics",       # Grafika, wizualia, animacje
    "audio",          # Muzyka, d≈∫wiƒôki, voice acting
    "price",          # Cena, warto≈õƒá za pieniƒÖdze, DLC
]
categories_str = ', '.join(f'"{{c}}"' for c in CATEGORIES)

print('‚úÖ Biblioteki za≈Çadowane')
print(f'Kategorie ({len(CATEGORIES)}): {categories_str}')


In [None]:
DATA_DIR = REPO_DIR / 'data'

# Wczytaj golden dataset
golden_path = DATA_DIR / 'evaluation' / 'golden_dataset.json'
with open(golden_path) as f:
    golden_data = json.load(f)

golden_texts  = [item['review_text'] for item in golden_data]
golden_labels = [item['labels']      for item in golden_data]

print(f'‚úÖ Golden dataset: {len(golden_data)} recenzji')
print(f'   Kategorie: {sorted(set(l for item in golden_data for l in item["labels"]))}')

## üìã Golden Dataset

Poni≈ºej 100 recenzji z przypisanymi kategoriami ‚Äî to nasz punkt odniesienia do ewaluacji.
Model bƒôdzie klasyfikowa≈Ç te same recenzje, a my sprawdzimy czy jego wyniki zgadzajƒÖ siƒô z etykietami.

| Kategoria | Opis |
|-----------|------|
| `gameplay` | Mechaniki rozgrywki, walka, parkour, sterowanie, balans |
| `story` | Fabu≈Ça, postacie, dialogi, scenariusz |
| `bugs` | Crashe, glitche, b≈Çƒôdy, problemy techniczne |
| `performance` | FPS, lag, stuttering, optymalizacja |
| `content` | Ilo≈õƒá contentu, d≈Çugo≈õƒá gry, powtarzalno≈õƒá |
| `graphics` | Grafika, wizualia, animacje |
| `audio` | Muzyka, d≈∫wiƒôki, voice acting |
| `price` | Cena, warto≈õƒá za pieniƒÖdze, DLC |

In [None]:
from IPython.display import display, HTML

def show_golden_dataset(data: list[dict], max_text: int = 120) -> None:
    """Wy≈õwietla golden dataset jako sformatowanƒÖ tabelƒô HTML."""
    rows = []
    for item in data:
        text = item['review_text']
        if len(text) > max_text:
            text = text[:max_text] + '...'
        # Ka≈ºda etykieta jako kolorowy badge
        COLORS = {
            'gameplay':    '#4C72B0', 'story':       '#DD8452',
            'bugs':        '#55A868', 'performance': '#C44E52',
            'content':     '#8172B2', 'graphics':    '#937860',
            'audio':       '#DA8BC3', 'price':       '#8C8C8C',
        }
        badges = ' '.join(
            f'<span style="background:{COLORS.get(l, "#888")};color:white;'
            f'padding:2px 8px;border-radius:10px;font-size:11px;">{l}</span>'
            for l in item['labels']
        )
        rows.append(f'<tr><td style="text-align:center;color:#888;">{item["id"]}</td>'
                    f'<td style="font-size:12px;">{text}</td>'
                    f'<td>{badges}</td></tr>')

    html = f'''
    <style>
        .golden-table {{ border-collapse: collapse; width: 100%; font-family: sans-serif; }}
        .golden-table th {{ background: #2d2d2d; color: white; padding: 8px 12px; text-align: left; }}
        .golden-table td {{ padding: 6px 12px; border-bottom: 1px solid #eee; vertical-align: top; }}
        .golden-table tr:hover td {{ background: #f9f9f9; }}
    </style>
    <table class="golden-table">
        <thead><tr>
            <th style="width:40px">#</th>
            <th>Recenzja</th>
            <th style="width:200px">Kategorie</th>
        </tr></thead>
        <tbody>{''.join(rows)}</tbody>
    </table>
    '''
    display(HTML(html))

print(f'Golden dataset ‚Äî {len(golden_data)} recenzji:')
show_golden_dataset(golden_data)

## üèóÔ∏è Model Pydantic (z CoT z Iteracji 3)

In [None]:
class ReviewClassificationFewShot(BaseModel):
    """Klasyfikacja z CoT i few-shot examples."""

    reasoning: str = Field(
        description="Analiza recenzji krok po kroku przed klasyfikacjƒÖ"
    )
    categories: list[str] = Field(
        description=f"Finalna lista kategorii. Dozwolone: {CATEGORIES}"
    )

print("‚úÖ Model zdefiniowany")

## üìù Definiowanie przyk≈Çad√≥w

> üöß **TODO:** Uzupe≈Çnij przyk≈Çady po analizie danych i przygotowaniu golden dataset.
>
> **Wskaz√≥wka:** Przyk≈Çady powinny:
> - Pokrywaƒá r√≥≈ºne typy recenzji
> - Zawieraƒá trudne przypadki (wieloznaczne, graniczne)
> - Pokazywaƒá recenzje z 1 kategoriƒÖ I z wieloma kategoriami

In [None]:
# ============================================================
# FEW-SHOT EXAMPLES
# TODO: Uzupe≈Çnij po analizie danych
# Format: lista s≈Çownik√≥w {"review": str, "categories": list[str]}
# ============================================================

FEW_SHOT_EXAMPLES = [
    # Przyk≈Çadowy format (zastƒÖp prawdziwymi przyk≈Çadami):
    # {
    #     "review": "The game crashes every time I try to enter a new area...",
    #     "categories": ["bug"]
    # },
    # {
    #     "review": "FPS drops to 20 in crowded areas, unplayable on my RTX 3080",
    #     "categories": ["performance"]
    # },
    # {
    #     "review": "Beautiful world, but the story feels rushed and shallow characters",
    #     "categories": ["story", "graphics"]
    # },
]

print(f"Zdefiniowano {len(FEW_SHOT_EXAMPLES)} przyk≈Çad√≥w.")
if not FEW_SHOT_EXAMPLES:
    print("‚ö†Ô∏è  Lista jest pusta - uzupe≈Çnij FEW_SHOT_EXAMPLES!")

In [None]:
def build_few_shot_examples_text(examples: list[dict]) -> str:
    """Buduje fragment promptu z przyk≈Çadami few-shot."""
    if not examples:
        return ""

    text = "\nPRZYK≈ÅADY POPRAWNYCH KLASYFIKACJI:\n"
    for i, ex in enumerate(examples, 1):
        cats = ", ".join(ex["categories"])
        text += f"\n[Przyk≈Çad {i}]\n"
        text += f"Recenzja: {ex['review']}\n"
        text += f"Kategorie: {cats}\n"
    return text


examples_text = build_few_shot_examples_text(FEW_SHOT_EXAMPLES)

SYSTEM_PROMPT_FEW_SHOT = f"""Jeste≈õ ekspertem od analizy recenzji gier komputerowych.
Klasyfikujesz recenzje do kategorii tematycznych.

Dostƒôpne kategorie: {categories_str}
{examples_text}
Analizuj ka≈ºdƒÖ recenzjƒô krok po kroku, a nastƒôpnie podaj kategorie."""

USER_PROMPT = "Recenzja do sklasyfikowania: {review_text}"

print("System prompt:")
print(SYSTEM_PROMPT_FEW_SHOT)

## üß™ Trzy warianty: Zero-shot vs One-shot vs Few-shot

Por√≥wnamy 3 pr√≥by jednocze≈õnie - to jest w≈Ça≈õnie ta funkcja `compare_trials()`!

In [None]:
from tqdm.notebook import tqdm


def run_classification(system_prompt: str, texts: list[str]) -> list[list[str]]:
    """Uruchamia klasyfikacjƒô dla listy recenzji."""
    predictions = []
    for text in tqdm(texts):
        try:
            result = client.chat.completions.create(
                model=MODEL_NAME,
                messages=[
                    {"role": "system", "content": system_prompt},
                    {"role": "user", "content": USER_PROMPT.format(review_text=text)},
                ],
                response_model=ReviewClassificationFewShot,
                temperature=0.0,
            )
            predictions.append(result.categories)
        except Exception as e:
            print(f"B≈ÇƒÖd: {e}")
            predictions.append([])
    return predictions


texts_to_classify = golden_texts if golden_texts else review_texts[:10]

# Wariant 1: Zero-shot (bez przyk≈Çad√≥w)
SYSTEM_ZERO_SHOT = f"""Jeste≈õ ekspertem od analizy recenzji gier.
Klasyfikuj recenzje do kategorii. Dostƒôpne: {categories_str}
Analizuj krok po kroku."""

# Wariant 2: One-shot (1 przyk≈Çad)
one_shot_ex = FEW_SHOT_EXAMPLES[:1] if FEW_SHOT_EXAMPLES else []
SYSTEM_ONE_SHOT = SYSTEM_ZERO_SHOT + build_few_shot_examples_text(one_shot_ex)

# Wariant 3: Few-shot (wszystkie przyk≈Çady)
SYSTEM_FEW_SHOT = SYSTEM_PROMPT_FEW_SHOT

print("Uruchamiam 3 warianty klasyfikacji...")
print("\n[1/3] Zero-shot...")
preds_zero = run_classification(SYSTEM_ZERO_SHOT, texts_to_classify)

print("\n[2/3] One-shot...")
preds_one = run_classification(SYSTEM_ONE_SHOT, texts_to_classify)

print("\n[3/3] Few-shot...")
preds_few = run_classification(SYSTEM_FEW_SHOT, texts_to_classify)

print("\n‚úÖ Wszystkie warianty gotowe!")

## üìä Por√≥wnanie wszystkich wariant√≥w

In [None]:
if golden_labels:
    trial_zero = evaluate_trial(
        trial_name=f"Zero-shot",
        model=MODEL_NAME, prompt_variant="zero-shot + CoT",
        predictions=preds_zero, expected=golden_labels,
        review_texts=golden_texts, strategy=MatchStrategy.CONTAINS_ALL,
    )

    trial_one = evaluate_trial(
        trial_name=f"One-shot",
        model=MODEL_NAME, prompt_variant="one-shot + CoT",
        predictions=preds_one, expected=golden_labels,
        review_texts=golden_texts, strategy=MatchStrategy.CONTAINS_ALL,
    )

    trial_few = evaluate_trial(
        trial_name=f"Few-shot ({len(FEW_SHOT_EXAMPLES)} przyk≈Çad√≥w)",
        model=MODEL_NAME, prompt_variant="few-shot + CoT",
        predictions=preds_few, expected=golden_labels,
        review_texts=golden_texts, strategy=MatchStrategy.CONTAINS_ALL,
    )

    # Por√≥wnanie - tabela + wykres
    compare_trials([trial_zero, trial_one, trial_few])

## üèÜ Por√≥wnanie WSZYSTKICH iteracji

Zestawienie accuracy od Iteracji 1 do Iteracji 4.

In [None]:
# ============================================================
# Za≈Çaduj wyniki z poprzednich iteracji
# Uzupe≈Çnij trial1, trial2, trial3 z poprzednich notebook√≥w
# lub uruchom re-klasyfikacjƒô tutaj
# ============================================================

# Przyk≈Çad jak po≈ÇƒÖczyƒá wszystkie iteracje:
# all_trials = [trial1, trial2, trial3, trial_few]
# compare_trials(all_trials[:3])  # max 3 naraz w compare_trials

# Mo≈ºesz te≈º pokazaƒá tabelƒô rƒôcznie:
import pandas as pd

# TODO: Uzupe≈Çnij po zako≈Ñczeniu wszystkich iteracji
results_summary = pd.DataFrame([
    {"Iteracja": "1 - Zero-shot (raw)", "Podej≈õcie": "basic prompt", "Accuracy": "TODO%"},
    {"Iteracja": "2 - Structured Output", "Podej≈õcie": "Pydantic + Instructor", "Accuracy": "TODO%"},
    {"Iteracja": "3 - Chain-of-Thought", "Podej≈õcie": "CoT + Structured", "Accuracy": "TODO%"},
    {"Iteracja": "4 - Few-shot", "Podej≈õcie": f"Few-shot ({len(FEW_SHOT_EXAMPLES)} ex) + CoT", "Accuracy": "TODO%"},
])

print("PODSUMOWANIE WSZYSTKICH ITERACJI:")
print(results_summary.to_string(index=False))

## üí° ƒÜwiczenie: Wybierz najlepszy prompt

### Zadanie:
Po≈ÇƒÖcz wszystko czego siƒô nauczy≈Çe≈õ - napisz prompt kt√≥ry osiƒÖga najwy≈ºszƒÖ accuracy.

**Mo≈ºesz:**
1. Zmieniƒá model (`MODEL_NAME`)
2. Dodaƒá wiƒôcej/lepszych przyk≈Çad√≥w
3. Ulepszy≈Ç instrukcje CoT
4. Przetestowaƒá r√≥≈ºne strategie matchowania (`EXACT`, `CONTAINS_ANY`, `CONTAINS_ALL`)

**üèÜ Kto ma najwy≈ºszƒÖ accuracy wygrywa!**

In [None]:
# ============================================================
# üñäÔ∏è  ƒÜWICZENIE: Tw√≥j najlepszy prompt
# ============================================================

MY_BEST_SYSTEM_PROMPT = """
# TODO: Napisz sw√≥j najlepszy prompt kombinujƒÖc wszystkie techniki
"""

MY_FEW_SHOT_EXAMPLES = [
    # TODO: Dodaj najlepsze przyk≈Çady
]

# Uruchom i ewaluuj:
# my_preds = run_classification(MY_BEST_SYSTEM_PROMPT, texts_to_classify)
# my_trial = evaluate_trial(
#     trial_name="M√≥j najlepszy prompt",
#     model=MODEL_NAME,
#     prompt_variant="custom best",
#     predictions=my_preds,
#     expected=golden_labels,
#     review_texts=golden_texts,
#     strategy=MatchStrategy.CONTAINS_ALL,
# )
# my_trial.display()

print("Uzupe≈Çnij MY_BEST_SYSTEM_PROMPT i przetestuj!")

---

## üèÜ Podsumowanie ca≈Çego warsztatu

### Czego siƒô nauczy≈Çe≈õ:

| Iteracja | Technika | Kluczowy koncept |
|----------|----------|-----------------|
| 1 | Zero-shot prompting | System/user prompt, anatoma zapytania API |
| 2 | Structured Output | Pydantic BaseModel, Instructor, walidacja |
| 3 | Chain-of-Thought | reasoning ‚Üí categories, "my≈õlenie" modelu |
| 4 | Few-shot learning | Przyk≈Çady w prompcie, dob√≥r przyk≈Çad√≥w |

### Kluczowe zasady:

1. **Zawsze waliduj output** - Pydantic + Instructor = brak niespodzianek
2. **Testuj iteracyjnie** - zacznij prosto (zero-shot), dodawaj z≈Ço≈ºono≈õƒá tylko gdy potrzebna
3. **Mierz dok≈Çadnie** - golden dataset + ewaluacja = prawdziwy postƒôp, nie tylko "wydaje mi siƒô ≈ºe lepiej"
4. **Analizuj b≈Çƒôdy** - patrz CO model klasyfikuje ≈∫le, nie tylko ILE
5. **Dokumentuj eksperymenty** - nadawaj nazwy pr√≥bom, zapisuj wyniki

### Dalsze kroki:
- **Fine-tuning** - gdy few-shot nie wystarcza i masz 100+ przyk≈Çad√≥w
- **RAG** - gdy potrzebujesz zewnƒôtrznej wiedzy w odpowiedziach
- **Agents** - gdy zadanie wymaga wielokrokowego rozumowania i narzƒôdzi