# üìä Notebook 02: Przygotowanie danych

**Cel:** Za≈Çadowanie zebranych recenzji, podstawowa eksploracja danych oraz przygotowanie pr√≥bki do ƒáwicze≈Ñ klasyfikacji.

---

## Co robimy w tym notebooku?

1. ≈Åadujemy recenzje ze Steam (wynik scrapera z Notebook 01)
2. Explorujemy dane - ile recenzji, jak wyglƒÖdajƒÖ, jakie majƒÖ cechy
3. Przygotowujemy **pr√≥bkƒô roboczƒÖ** do ƒáwicze≈Ñ
4. Tworzymy **golden dataset** - rƒôcznie etykietowanƒÖ pr√≥bkƒô do ewaluacji

---

> üí° **Golden dataset** to zbi√≥r przyk≈Çad√≥w z poprawnymi odpowiedziami, kt√≥ry s≈Çu≈ºy jako punkt odniesienia do oceny jako≈õci modelu. W tym warsztacie stworzymy go rƒôcznie na podstawie pr√≥bki recenzji.

## ‚öôÔ∏è Setup - ≈õrodowisko

Ta kom√≥rka wykrywa czy jeste≈õ w **Google Colab** czy lokalnie, a nastƒôpnie:
1. Klonuje repozytorium z GitHub (tylko Colab)
2. Instaluje wymagane biblioteki
3. Konfiguruje ≈õcie≈ºki import√≥w

In [None]:
import sys
import subprocess
from pathlib import Path

# Wykryj ≈õrodowisko
try:
    import google.colab
    IN_COLAB = True
except ImportError:
    IN_COLAB = False

print(f"{'üü° Google Colab' if IN_COLAB else 'üíª Lokalne ≈õrodowisko'}")

# ============================================================
# KONFIGURACJA REPO (zmie≈Ñ URL na w≈Ça≈õciwe przed warsztatami)
# ============================================================
REPO_URL = "https://github.com/JSerek/techland-genai-workshop.git"
REPO_DIR = Path("/content/szkolenie_techland") if IN_COLAB else Path(".").resolve().parent
# ============================================================

if IN_COLAB:
    if not REPO_DIR.exists():
        print(f"üì• Klonujƒô repo...")
        subprocess.run(["git", "clone", REPO_URL, str(REPO_DIR)], check=True)
        print("‚úÖ Repo sklonowane")
    else:
        print("üîÑ Aktualizujƒô repo (git pull)...")
        subprocess.run(["git", "-C", str(REPO_DIR), "pull"], check=True)

    # Dodaj repo do sys.path
    sys.path.insert(0, str(REPO_DIR))

    # Zainstaluj zale≈ºno≈õci
    print("üì¶ Instalujƒô biblioteki...")
    subprocess.run(
        [sys.executable, "-m", "pip", "install", "-r", str(REPO_DIR / "requirements.txt"), "-q"],
        check=True
    )
    print("‚úÖ Biblioteki zainstalowane")
else:
    # Lokalnie: dodaj root projektu do sys.path
    sys.path.insert(0, str(REPO_DIR))
    print(f"üìÇ ≈öcie≈ºka projektu: {REPO_DIR}")

print("\n‚úÖ Setup zako≈Ñczony")

In [None]:
# ============================================================
# üîë Konfiguracja API
# W Google Colab: dodaj sekrety w menu po lewej (üîë ikona)
#   Nazwy sekret√≥w: VERTEX_AI_API_KEY, VERTEX_AI_BASE_URL, MODEL_NAME
#
# Lokalnie: ustaw zmienne ≈õrodowiskowe lub wpisz warto≈õci bezpo≈õrednio
# ============================================================

if IN_COLAB:
    from google.colab import userdata
    API_KEY   = userdata.get("VERTEX_AI_API_KEY")
    BASE_URL  = userdata.get("VERTEX_AI_BASE_URL")
    MODEL_NAME = userdata.get("MODEL_NAME") or "google/gemini-2.5-flash-lite"
else:
    import os
    API_KEY   = os.environ.get("VERTEX_AI_API_KEY", "TODO: wklej API key")
    BASE_URL  = os.environ.get("VERTEX_AI_BASE_URL", "TODO: wklej endpoint URL")
    MODEL_NAME = os.environ.get("MODEL_NAME", "google/gemini-2.5-flash-lite")

# Walidacja
if not API_KEY or API_KEY == "TODO: wklej API key":
    print("‚ùå Brak API_KEY! Dodaj sekret 'VERTEX_AI_API_KEY' w Colab Secrets.")
elif not BASE_URL or BASE_URL == "TODO: wklej endpoint URL":
    print("‚ùå Brak BASE_URL! Dodaj sekret 'VERTEX_AI_BASE_URL' w Colab Secrets.")
else:
    print(f"‚úÖ API skonfigurowane: {MODEL_NAME}")
    print(f"   Endpoint: {BASE_URL[:60]}...")

## 1. ≈Åadowanie danych

Dane zosta≈Çy wcze≈õniej zebrane za pomocƒÖ scrapera Steam (Notebook 01).
≈Åadujemy je z pliku CSV.

In [None]:
# ============================================================
# KONFIGURACJA - zmie≈Ñ ≈õcie≈ºkƒô do pliku z danymi
# ============================================================
DATA_PATH = "../data/raw/steam_reviews.csv"  # TODO: zaktualizuj nazwƒô pliku
# ============================================================

data_file = Path(DATA_PATH)

if not data_file.exists():
    print(f"‚ùå Nie znaleziono pliku: {DATA_PATH}")
    print("Upewnij siƒô ≈ºe uruchomi≈Çe≈õ Notebook 01 i dane zosta≈Çy zapisane.")
else:
    df = pd.read_csv(data_file)
    print(f"‚úÖ Za≈Çadowano {len(df):,} recenzji")
    print(f"Kolumny: {list(df.columns)}")

## 2. Eksploracja danych

In [None]:
# Podstawowe statystyki
print("=" * 50)
print("PODSTAWOWE STATYSTYKI")
print("=" * 50)
print(f"Liczba recenzji:          {len(df):,}")
print(f"Pozytywne:                {df['sentiment'].value_counts().get('positive', 0):,}")
print(f"Negatywne:                {df['sentiment'].value_counts().get('negative', 0):,}")
print(f"\n≈örednia d≈Çugo≈õƒá recenzji: {df['review_text'].str.len().mean():.0f} znak√≥w")
print(f"Mediana d≈Çugo≈õci:         {df['review_text'].str.len().median():.0f} znak√≥w")
print(f"Max d≈Çugo≈õƒá:              {df['review_text'].str.len().max():,} znak√≥w")

In [None]:
# Wy≈õwietl przyk≈Çadowe recenzje
print("\nPRZYK≈ÅADOWE RECENZJE:")
print("=" * 50)
for i, row in df.sample(5, random_state=42).iterrows():
    print(f"[{row['sentiment'].upper()}] {row['review_text'][:200]}...")
    print("-" * 40)

In [None]:
# Rozk≈Çad d≈Çugo≈õci recenzji
df["review_length"] = df["review_text"].str.len()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histogram d≈Çugo≈õci
axes[0].hist(df["review_length"].clip(upper=2000), bins=40, color="#4C72B0", edgecolor="white")
axes[0].set_xlabel("D≈Çugo≈õƒá recenzji (znaki)")
axes[0].set_ylabel("Liczba recenzji")
axes[0].set_title("Rozk≈Çad d≈Çugo≈õci recenzji")

# D≈Çugo≈õƒá per sentyment
df.boxplot(column="review_length", by="sentiment", ax=axes[1])
axes[1].set_title("D≈Çugo≈õƒá recenzji per sentyment")
axes[1].set_xlabel("Sentyment")
axes[1].set_ylabel("D≈Çugo≈õƒá (znaki)")
plt.suptitle("")

plt.tight_layout()
plt.show()

## 3. Przygotowanie pr√≥bki roboczej

Do ƒáwicze≈Ñ klasyfikacji potrzebujemy **zarzƒÖdzalnej pr√≥bki** recenzji.
Na warsztacie bƒôdziemy u≈ºywaƒá ok. 50-100 recenzji.

In [None]:
# ============================================================
# KONFIGURACJA pr√≥bki
# ============================================================
SAMPLE_SIZE = 50           # Liczba recenzji do ƒáwicze≈Ñ
RANDOM_SEED = 42           # Dla reprodukowalno≈õci
MIN_REVIEW_LENGTH = 50     # Minimalna d≈Çugo≈õƒá recenzji (filtrowujemy zbyt kr√≥tkie)
MAX_REVIEW_LENGTH = 1000   # Maksymalna d≈Çugo≈õƒá (opcjonalnie)
# ============================================================

# Filtrowanie
df_filtered = df[
    (df["review_length"] >= MIN_REVIEW_LENGTH) &
    (df["review_length"] <= MAX_REVIEW_LENGTH)
].copy()

print(f"Po filtrowaniu: {len(df_filtered):,} recenzji")

# Pr√≥bka
df_sample = df_filtered.sample(n=min(SAMPLE_SIZE, len(df_filtered)), random_state=RANDOM_SEED)
df_sample = df_sample.reset_index(drop=True)

print(f"Pr√≥bka robocza: {len(df_sample)} recenzji")
df_sample[["sentiment", "review_text"]].head(5)

In [None]:
# Zapisz pr√≥bkƒô
sample_path = Path("../data/processed/workshop_sample.csv")
sample_path.parent.mkdir(parents=True, exist_ok=True)
df_sample.to_csv(sample_path, index=False)
print(f"‚úÖ Pr√≥bka zapisana: {sample_path}")

## 4. Golden Dataset

> üöß **TODO po analizie danych**
>
> Ten sekcja zostanie uzupe≈Çniona po:
> 1. Okre≈õleniu kategorii tematycznych (analiza jako≈õciowa recenzji)
> 2. Rƒôcznym etykietowaniu pr√≥bki recenzji
>
> Kategorie tematyczne bƒôdƒÖ wynikiem analizy ‚Äî np. `bug`, `performance`, `story`, `gameplay`, `graphics` itd.

**Format golden dataset:**
```json
[
  {
    "review_text": "The game crashes every 20 minutes...",
    "labels": ["bug", "performance"]
  },
  {
    "review_text": "Amazing story but repetitive gameplay...",
    "labels": ["story", "gameplay"]
  }
]
```

In [None]:
# ============================================================
# TODO: Uzupe≈Çnij po analizie danych
# ============================================================

# ≈öcie≈ºka do golden dataset
GOLDEN_DATASET_PATH = "../data/evaluation/golden_dataset.json"  # TODO

# Kategorie tematyczne
CATEGORIES = [
    # TODO: uzupe≈Çnij po analizie danych
    # Przyk≈Çady: "bug", "performance", "story", "gameplay", "graphics", "price", "other"
]

print("‚ö†Ô∏è  Golden dataset nie jest jeszcze zdefiniowany.")
print(f"Po uzupe≈Çnieniu wczytaj go z: {GOLDEN_DATASET_PATH}")

# Tak bƒôdzie wyglƒÖda≈Ço wczytanie golden dataset:
# golden_path = Path(GOLDEN_DATASET_PATH)
# if golden_path.exists():
#     with open(golden_path) as f:
#         golden_data = json.load(f)
#     golden_texts = [item["review_text"] for item in golden_data]
#     golden_labels = [item["labels"] for item in golden_data]
#     print(f"‚úÖ Golden dataset: {len(golden_data)} przyk≈Çad√≥w")

---

## ‚úÖ Podsumowanie

Po uruchomieniu tego notebooka masz:
- **`data/processed/workshop_sample.csv`** - pr√≥bka recenzji do ƒáwicze≈Ñ
- Podstawowe rozumienie struktury danych

**Nastƒôpny krok:** Notebook 03 - Iteracja 1: Podstawowe promptowanie