# üß† Iteracja 3: Chain-of-Thought (CoT) Prompting

**Czas:** ~45 minut  
**Poziom:** ≈öredniozaawansowany

---

## Cel iteracji

Poprawiƒá accuracy klasyfikacji przez wymuszenie na modelu **jawnego rozumowania krok po kroku** przed podaniem ostatecznej odpowiedzi.

---

## Teoria: Chain-of-Thought

**Chain-of-Thought (CoT)** to technika promptowania, w kt√≥rej instruujemy model, ≈ºeby przed podaniem odpowiedzi wypisa≈Ç sw√≥j tok rozumowania.

### Dlaczego CoT dzia≈Ça?

Modele jƒôzykowe generujƒÖ tekst token po tokenie. Kiedy model "pisze swoje my≈õli", ka≈ºdy wygenerowany token staje siƒô kontekstem dla nastƒôpnego - model dos≈Çownie **"my≈õli g≈Ço≈õno"** i mo≈ºe siƒô korygowaƒá w trakcie.

```
Bez CoT:
  Recenzja ‚Üí [model] ‚Üí "bug"
  
Z CoT:
  Recenzja ‚Üí [model] ‚Üí "Recenzja m√≥wi o crashach i FPS drops.  
                        Crasze to kategoria bug, FPS to performance.
                        Wniosek: bug, performance" ‚Üí ["bug", "performance"]
```

### Rodzaje CoT

| Typ | Opis | Jak u≈ºyƒá |
|-----|------|----------|
| **Zero-shot CoT** | Magiczne zdanie w prompcie | `"Think step by step"` lub `"Przemy≈õl to krok po kroku"` |
| **Manual CoT** | Jawny format rozumowania | Pole `reasoning: str` przed `categories` w Pydantic |
| **Self-consistency** | Kilka przebieg√≥w + g≈Çosowanie | Zaawansowane - nie dzi≈õ |

### Kluczowa zasada przy Pydantic + CoT:

> **Pole `reasoning` musi byƒá PRZED `categories`** w modelu Pydantic.
> Model generuje pola w kolejno≈õci ich definicji.
> Je≈õli `categories` jest pierwsze, model podaje kategoriƒô PRZED rozumowaniem - efekt odwrotny!

```python
# ‚ùå Z≈ÅE: categories przed reasoning
class Bad(BaseModel):
    categories: list[str]
    reasoning: str  # Model ju≈º podjƒÖ≈Ç decyzjƒô!

# ‚úÖ DOBRE: reasoning przed categories  
class Good(BaseModel):
    reasoning: str   # Model "my≈õli" najpierw
    categories: list[str]  # Potem decyduje
```

## ‚öôÔ∏è Setup - ≈õrodowisko

Ta kom√≥rka wykrywa czy jeste≈õ w **Google Colab** czy lokalnie, a nastƒôpnie:
1. Klonuje repozytorium z GitHub (tylko Colab)
2. Instaluje wymagane biblioteki
3. Konfiguruje ≈õcie≈ºki import√≥w

In [None]:
import sys
import subprocess
from pathlib import Path

# Wykryj ≈õrodowisko
try:
    import google.colab
    IN_COLAB = True
except ImportError:
    IN_COLAB = False

print(f"{'üü° Google Colab' if IN_COLAB else 'üíª Lokalne ≈õrodowisko'}")

# ============================================================
# KONFIGURACJA REPO (zmie≈Ñ URL na w≈Ça≈õciwe przed warsztatami)
# ============================================================
REPO_URL = "https://github.com/JSerek/techland-genai-workshop.git"
REPO_DIR = Path("/content/szkolenie_techland") if IN_COLAB else Path(".").resolve().parent
# ============================================================

if IN_COLAB:
    if not REPO_DIR.exists():
        print(f"üì• Klonujƒô repo...")
        subprocess.run(["git", "clone", REPO_URL, str(REPO_DIR)], check=True)
        print("‚úÖ Repo sklonowane")
    else:
        print("üîÑ Aktualizujƒô repo (git pull)...")
        subprocess.run(["git", "-C", str(REPO_DIR), "pull"], check=True)

    # Dodaj repo do sys.path
    sys.path.insert(0, str(REPO_DIR))

    # Zainstaluj zale≈ºno≈õci
    print("üì¶ Instalujƒô biblioteki...")
    subprocess.run(
        [sys.executable, "-m", "pip", "install", "-r", str(REPO_DIR / "requirements.txt"), "-q"],
        check=True
    )
    print("‚úÖ Biblioteki zainstalowane")
else:
    # Lokalnie: dodaj root projektu do sys.path
    sys.path.insert(0, str(REPO_DIR))
    print(f"üìÇ ≈öcie≈ºka projektu: {REPO_DIR}")

print("\n‚úÖ Setup zako≈Ñczony")

In [None]:
# ============================================================
# üîë Konfiguracja API
# W Google Colab: dodaj sekrety w menu po lewej (üîë ikona)
#   Nazwy sekret√≥w: VERTEX_AI_API_KEY, VERTEX_AI_BASE_URL, MODEL_NAME
#
# Lokalnie: ustaw zmienne ≈õrodowiskowe lub wpisz warto≈õci bezpo≈õrednio
# ============================================================

if IN_COLAB:
    from google.colab import userdata
    API_KEY   = userdata.get("VERTEX_AI_API_KEY")
    BASE_URL  = userdata.get("VERTEX_AI_BASE_URL")
    MODEL_NAME = userdata.get("MODEL_NAME") or "google/gemini-2.5-flash-lite"
else:
    import os
    API_KEY   = os.environ.get("VERTEX_AI_API_KEY", "TODO: wklej API key")
    BASE_URL  = os.environ.get("VERTEX_AI_BASE_URL", "TODO: wklej endpoint URL")
    MODEL_NAME = os.environ.get("MODEL_NAME", "google/gemini-2.5-flash-lite")

# Walidacja
if not API_KEY or API_KEY == "TODO: wklej API key":
    print("‚ùå Brak API_KEY! Dodaj sekret 'VERTEX_AI_API_KEY' w Colab Secrets.")
elif not BASE_URL or BASE_URL == "TODO: wklej endpoint URL":
    print("‚ùå Brak BASE_URL! Dodaj sekret 'VERTEX_AI_BASE_URL' w Colab Secrets.")
else:
    print(f"‚úÖ API skonfigurowane: {MODEL_NAME}")
    print(f"   Endpoint: {BASE_URL[:60]}...")

In [None]:
# Konfiguracja klienta LLM - dane pobrane z Secrets w kom√≥rce powy≈ºej
from src.utils.llm_client import create_client, LLMProvider

PROVIDER = LLMProvider.VERTEX_AI  # Zmie≈Ñ je≈õli u≈ºywasz innego providera

client = create_client(
    provider=PROVIDER,
    api_key=API_KEY,
    base_url=BASE_URL,
)
print(f"‚úÖ Klient LLM gotowy: {PROVIDER.value} / {MODEL_NAME}")

In [None]:
import json
import pandas as pd
from pathlib import Path
from pydantic import BaseModel, Field
from typing import Optional

from src.evaluation.evaluator import evaluate_trial, compare_trials, MatchStrategy


# Kategorie tematyczne
CATEGORIES = [
    "gameplay",       # Mechaniki rozgrywki, walka, parkour, sterowanie, balans
    "story",          # Fabu≈Ça, postacie, dialogi, scenariusz
    "bugs",           # Crashe, glitche, b≈Çƒôdy, problemy techniczne
    "performance",    # FPS, lag, stuttering, optymalizacja ≈Çadowania
    "content",        # Ilo≈õƒá contentu, d≈Çugo≈õƒá gry, powtarzalno≈õƒá
    "graphics",       # Grafika, wizualia, animacje
    "audio",          # Muzyka, d≈∫wiƒôki, voice acting
    "price",          # Cena, warto≈õƒá za pieniƒÖdze, DLC
]
categories_str = ', '.join(f'"{{c}}"' for c in CATEGORIES)

print('‚úÖ Biblioteki za≈Çadowane')
print(f'Kategorie ({len(CATEGORIES)}): {categories_str}')


In [None]:
DATA_DIR = REPO_DIR / 'data'

# Wczytaj golden dataset
golden_path = DATA_DIR / 'evaluation' / 'golden_dataset.json'
with open(golden_path) as f:
    golden_data = json.load(f)

golden_texts  = [item['review_text'] for item in golden_data]
golden_labels = [item['labels']      for item in golden_data]

print(f'‚úÖ Golden dataset: {len(golden_data)} recenzji')
print(f'   Kategorie: {sorted(set(l for item in golden_data for l in item["labels"]))}')

## üìã Golden Dataset

Poni≈ºej 100 recenzji z przypisanymi kategoriami ‚Äî to nasz punkt odniesienia do ewaluacji.
Model bƒôdzie klasyfikowa≈Ç te same recenzje, a my sprawdzimy czy jego wyniki zgadzajƒÖ siƒô z etykietami.

| Kategoria | Opis |
|-----------|------|
| `gameplay` | Mechaniki rozgrywki, walka, parkour, sterowanie, balans |
| `story` | Fabu≈Ça, postacie, dialogi, scenariusz |
| `bugs` | Crashe, glitche, b≈Çƒôdy, problemy techniczne |
| `performance` | FPS, lag, stuttering, optymalizacja |
| `content` | Ilo≈õƒá contentu, d≈Çugo≈õƒá gry, powtarzalno≈õƒá |
| `graphics` | Grafika, wizualia, animacje |
| `audio` | Muzyka, d≈∫wiƒôki, voice acting |
| `price` | Cena, warto≈õƒá za pieniƒÖdze, DLC |

In [None]:
from IPython.display import display, HTML

def show_golden_dataset(data: list[dict], max_text: int = 120) -> None:
    """Wy≈õwietla golden dataset jako sformatowanƒÖ tabelƒô HTML."""
    rows = []
    for item in data:
        text = item['review_text']
        if len(text) > max_text:
            text = text[:max_text] + '...'
        # Ka≈ºda etykieta jako kolorowy badge
        COLORS = {
            'gameplay':    '#4C72B0', 'story':       '#DD8452',
            'bugs':        '#55A868', 'performance': '#C44E52',
            'content':     '#8172B2', 'graphics':    '#937860',
            'audio':       '#DA8BC3', 'price':       '#8C8C8C',
        }
        badges = ' '.join(
            f'<span style="background:{COLORS.get(l, "#888")};color:white;'
            f'padding:2px 8px;border-radius:10px;font-size:11px;">{l}</span>'
            for l in item['labels']
        )
        rows.append(f'<tr><td style="text-align:center;color:#888;">{item["id"]}</td>'
                    f'<td style="font-size:12px;">{text}</td>'
                    f'<td>{badges}</td></tr>')

    html = f'''
    <style>
        .golden-table {{ border-collapse: collapse; width: 100%; font-family: sans-serif; }}
        .golden-table th {{ background: #2d2d2d; color: white; padding: 8px 12px; text-align: left; }}
        .golden-table td {{ padding: 6px 12px; border-bottom: 1px solid #eee; vertical-align: top; }}
        .golden-table tr:hover td {{ background: #f9f9f9; }}
    </style>
    <table class="golden-table">
        <thead><tr>
            <th style="width:40px">#</th>
            <th>Recenzja</th>
            <th style="width:200px">Kategorie</th>
        </tr></thead>
        <tbody>{''.join(rows)}</tbody>
    </table>
    '''
    display(HTML(html))

print(f'Golden dataset ‚Äî {len(golden_data)} recenzji:')
show_golden_dataset(golden_data)

## üî¨ Eksperyment: Zero-shot CoT

Najprostsza forma CoT - jedno zdanie w prompcie.

In [None]:
class ReviewClassification(BaseModel):
    """Klasyfikacja bez CoT (baseline z Iteracji 2)."""
    categories: list[str] = Field(description=f"Kategorie: {CATEGORIES}")


class ReviewClassificationCoT(BaseModel):
    """Klasyfikacja z Chain-of-Thought - reasoning PRZED categories."""

    reasoning: str = Field(
        description=(
            "Krok po kroku analiza recenzji: "
            "1) Co konkretnie opisuje recenzja? "
            "2) Kt√≥re fragmenty wskazujƒÖ na poszczeg√≥lne kategorie? "
            "3) Ostateczne uzasadnienie wyboru kategorii."
        )
    )
    categories: list[str] = Field(
        description=f"Finalna lista kategorii po analizie. Dozwolone: {CATEGORIES}"
    )


print("‚úÖ Modele zdefiniowane")
print(f"ReviewClassification pola: {list(ReviewClassification.model_fields.keys())}")
print(f"ReviewClassificationCoT pola: {list(ReviewClassificationCoT.model_fields.keys())}")

In [None]:
# Systemy prompt√≥w: bez CoT vs z CoT

SYSTEM_PROMPT_BASELINE = f"""Klasyfikuj recenzjƒô gry do kategorii tematycznych.
Dostƒôpne kategorie: {categories_str}
Przypisz jednƒÖ lub wiƒôcej pasujƒÖcych kategorii."""

SYSTEM_PROMPT_COT = f"""Jeste≈õ ekspertem od analizy recenzji gier komputerowych.
Klasyfikujesz recenzje do kategorii tematycznych.

Dostƒôpne kategorie: {categories_str}

Tw√≥j proces:
1. Przeczytaj recenzjƒô uwa≈ºnie
2. Zidentyfikuj konkretne elementy/problemy opisane w recenzji
3. Dla ka≈ºdego elementu - okre≈õl odpowiadajƒÖcƒÖ kategoriƒô
4. Podaj finalnƒÖ listƒô kategorii

Przemy≈õl to krok po kroku przed podaniem ostatecznej odpowiedzi."""

USER_PROMPT = "Recenzja do sklasyfikowania: {review_text}"

In [None]:
# Demo: por√≥wnanie baseline vs CoT na jednej recenzji
test_review = review_texts[0]
print(f"Recenzja: '{test_review[:300]}'\n")

# Baseline (bez CoT)
result_baseline = client.chat.completions.create(
    model=MODEL_NAME,
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT_BASELINE},
        {"role": "user", "content": USER_PROMPT.format(review_text=test_review)},
    ],
    response_model=ReviewClassification,
    temperature=0.0,
)

# Z CoT
result_cot = client.chat.completions.create(
    model=MODEL_NAME,
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT_COT},
        {"role": "user", "content": USER_PROMPT.format(review_text=test_review)},
    ],
    response_model=ReviewClassificationCoT,
    temperature=0.0,
)

print("=" * 50)
print("BASELINE (bez CoT):")
print(f"  Kategorie: {result_baseline.categories}")

print("\n" + "=" * 50)
print("Z CHAIN-OF-THOUGHT:")
print(f"  Rozumowanie: {result_cot.reasoning}")
print(f"  Kategorie: {result_cot.categories}")

## üéØ ƒÜwiczenie: Zoptymalizuj CoT prompt

### Zadanie:
Napisz w≈Çasny system prompt z Chain-of-Thought i sprawd≈∫ czy poprawia accuracy.

**Eksperymenty do przeprowadzenia:**
1. Zmie≈Ñ jƒôzyk promptu (EN vs PL)
2. Dodaj przyk≈Çady toku rozumowania (manual CoT)
3. Zmie≈Ñ sformu≈Çowanie krok√≥w analizy
4. Dodaj instrukcjƒô sprawdzenia w≈Çasnej odpowiedzi: `"Review your answer and correct any mistakes"`
5. Eksperymentuj z temperaturƒÖ (0.0 vs 0.3 vs 0.7)

In [None]:
# ============================================================
# üñäÔ∏è  ƒÜWICZENIE: Tw√≥j CoT prompt
# ============================================================

MY_COT_SYSTEM_PROMPT = """
# TODO: Napisz sw√≥j system prompt z Chain-of-Thought
"""

# Opcjonalnie: w≈Çasny Pydantic model z innym polem reasoning
# class MyCoTModel(BaseModel):
#     ...

print("Uzupe≈Çnij MY_COT_SYSTEM_PROMPT i przetestuj!")

## üìä Por√≥wnanie: Iteracja 2 vs Iteracja 3

In [None]:
from tqdm.notebook import tqdm

texts_to_classify = golden_texts if golden_texts else review_texts[:10]

# Klasyfikacja CoT
print("Klasyfikujƒô z Chain-of-Thought...")
predictions_cot = []
for text in tqdm(texts_to_classify):
    try:
        result = client.chat.completions.create(
            model=MODEL_NAME,
            messages=[
                {"role": "system", "content": SYSTEM_PROMPT_COT},
                {"role": "user", "content": USER_PROMPT.format(review_text=text)},
            ],
            response_model=ReviewClassificationCoT,
            temperature=0.0,
        )
        predictions_cot.append(result.categories)
    except Exception as e:
        print(f"B≈ÇƒÖd: {e}")
        predictions_cot.append([])

print("‚úÖ Gotowe")

In [None]:
if golden_labels:
    trial3 = evaluate_trial(
        trial_name=f"{MODEL_NAME} + Chain-of-Thought",
        model=MODEL_NAME,
        prompt_variant="CoT",
        predictions=predictions_cot,
        expected=golden_labels,
        review_texts=golden_texts,
        strategy=MatchStrategy.CONTAINS_ALL,
    )
    trial3.display()

    # Por√≥wnanie z IteracjƒÖ 2 (za≈Çaduj trial2 je≈õli masz)
    # compare_trials([trial2, trial3])
    
    print(f"\nüíæ Accuracy Iteracja 3: {trial3.summary.accuracy:.1%}")

---

## ‚úÖ Podsumowanie Iteracji 3

**Czego siƒô nauczy≈Çe≈õ:**
- Chain-of-Thought: dlaczego zmuszanie modelu do "my≈õlenia" poprawia jako≈õƒá
- Zero-shot CoT vs Manual CoT
- Dlaczego kolejno≈õƒá p√≥l w Pydantic ma znaczenie (reasoning ‚Üí categories)
- Analiza b≈Çƒôd√≥w: kt√≥re recenzje model klasyfikuje ≈∫le i dlaczego

**Kluczowa zasada:**  
> Dla trudnych zada≈Ñ klasyfikacyjnych zawsze dodaj `reasoning: str` jako pierwsze pole w modelu.

**Nastƒôpna iteracja:**  
Few-shot learning - poka≈ºemy modelowi przyk≈Çady poprawnych klasyfikacji.