# RAG dla materia≈Ç√≥w edukacyjnych z internetu (notatki, slajdy, wykresy)

Ten notatnik pokazuje **system RAG** do wyszukiwania i analizy **materia≈Ç√≥w pobranych z internetu**:
- üìÑ Strony z PDF-√≥w (wyk≈Çady, artyku≈Çy naukowe)
- üé• Screenshoty z YouTube/wyk≈Çad√≥w online
- üìä Wykresy i diagramy z artyku≈Ç√≥w
- üñºÔ∏è Infografiki i schematy
- üìë Slajdy z prezentacji

## ‚öôÔ∏è Optymalizacja dla GitHub Codespace (CPU)

‚úÖ **Zoptymalizowane do dzia≈Çania na CPU**
- Model embeddings: `paraphrase-multilingual-MiniLM-L12-v2` (~120MB)
- Model LLM: `TinyLlama-1.1B-Chat` (~2GB RAM, dzia≈Ça na CPU)
- Baza danych: SQLite (fallback, bez wymaga≈Ñ zewnƒôtrznych)
- Obs≈Çuga format√≥w: JPG, PNG, JPEG, WebP

## üìã PLACEHOLDERY DO UZUPE≈ÅNIENIA

Przed uruchomieniem produkcyjnym uzupe≈Çnij:

1. **[PLACEHOLDER 1]** Kom√≥rka 3: `DATABASE_URL` - je≈õli u≈ºywasz PostgreSQL
2. **[PLACEHOLDER 2]** Kom√≥rka 26: `notes_root` - ≈õcie≈ºka do notatek tekstowych (podsumowania)
3. **[PLACEHOLDER 3]** Kom√≥rka 26: `images_root` - ≈õcie≈ºka do materia≈Ç√≥w z internetu
4. **[PLACEHOLDER 4]** Kom√≥rka 26: `default_project_id` - ID projektu/kursu (np. "ML-COURSE-2025")
5. **[PLACEHOLDER 5]** Kom√≥rka 14: `LLM_MODEL_NAME` - zmie≈Ñ model je≈õli potrzebujesz innego

## üè∑Ô∏è Automatyczne tagowanie

System rozpoznaje typy materia≈Ç√≥w po nazwie pliku:
- `lecture_*` / `wyklad_*` ‚Üí **wyk≈Çad**
- `slide_*` / `slajd_*` ‚Üí **slajd**
- `chart_*` / `wykres_*` ‚Üí **wykres**
- `infographic_*` ‚Üí **infografika**
- `youtube_*` / `yt_*` ‚Üí **youtube**
- `arxiv_*` ‚Üí **arxiv**

## Zawiera:

1. Definicjƒô modeli danych (materia≈Çy, notatki).
2. Pipeline do:
   - wczytania materia≈Ç√≥w z internetu (PNG/JPG/WebP)
   - automatycznego tagowania (wyk≈Çady, wykresy, YouTube, etc.)
   - powiƒÖzania z notatkami tekstowymi
   - wygenerowania embedding√≥w i zapisania w bazie
3. Modu≈Ç wyszukiwania (retriever) oparty na embeddingach i tagach.
4. Warstwƒô RAG do odpowiadania na pytania o zgromadzone materia≈Çy.

In [71]:
# === INSTALACJA PAKIET√ìW (uruchom tylko raz) ===
# Po uruchomieniu tej kom√≥rki, ZRESTARTUJ KERNEL przed uruchomieniem kolejnych kom√≥rek!
# Instalacja w trakcie sesji mo≈ºe powodowaƒá konflikty i awariƒô kernela.

%pip install -q sentence-transformers transformers accelerate torch Pillow pgvector SQLAlchemy psycopg2-binary

# Po zako≈Ñczeniu instalacji:
# 1. Kliknij "Kernel ‚Üí Restart Kernel" (lub Ctrl+Shift+P ‚Üí "Restart Kernel")
# 2. Nastƒôpnie uruchamiaj kom√≥rki po kolei od poczƒÖtku

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [72]:
from __future__ import annotations

from pathlib import Path
from typing import List, Optional

import os
import torch
from PIL import Image as PILImage
from PIL.ExifTags import TAGS

from sqlalchemy import create_engine
from sqlalchemy.orm import declarative_base, sessionmaker, Session

# === [PLACEHOLDER 1] DATABASE_URL ===
# Dla GitHub Codespace: domy≈õlnie SQLite (bez konfiguracji)
# Dla PostgreSQL: ustaw zmiennƒÖ ≈õrodowiskowƒÖ DATABASE_URL, np:
#   export DATABASE_URL="postgresql://user:password@localhost:5432/vision_db"
# lub w Codespace: dodaj do secrets/env vars
DATABASE_URL = os.getenv("DATABASE_URL", "sqlite:///./vision.db")
USE_POSTGRES = DATABASE_URL.startswith("postgres")

# IMPORT ARRAY tylko je≈õli ≈ÇƒÖczymy siƒô z Postgres (unikamy b≈Çƒôd√≥w dla SQLite)
if USE_POSTGRES:
    try:
        from sqlalchemy.dialects.postgresql import ARRAY
    except Exception:
        ARRAY = None
else:
    ARRAY = None

# pgvector (tylko je≈õli pracujesz na Postgresie i zainstalowanym pgvector)
try:
    if USE_POSTGRES:
        from pgvector.sqlalchemy import Vector
    else:
        Vector = None
except Exception:
    Vector = None

Base = declarative_base()
engine = create_engine(DATABASE_URL, echo=False)
SessionLocal = sessionmaker(bind=engine)

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
print("U≈ºywane urzƒÖdzenie:", DEVICE)
if USE_POSTGRES:
    print('DATABASE_URL wskazuje na Postgresa ‚Äî upewnij siƒô, ≈ºe serwer dzia≈Ça i ma rozszerzenie pgvector (je≈õli u≈ºywasz wektor√≥w).')
else:
    print('Fallback: u≈ºywamy SQLite demo:', DATABASE_URL)


U≈ºywane urzƒÖdzenie: cpu
Fallback: u≈ºywamy SQLite demo: sqlite:///./vision.db


## 1. Modele danych (obrazy, notatki, powiƒÖzania)

In [73]:
from sqlalchemy import Column, Integer, String, Float, DateTime, ForeignKey, JSON
from sqlalchemy.orm import relationship

class Image(Base):
    __tablename__ = "images"

    id = Column(Integer, primary_key=True, autoincrement=True)
    path = Column(String, nullable=False)
    title = Column(String, nullable=True)

    # Dla Postgresa: ARRAY(String) | Dla SQLite: JSON
    if USE_POSTGRES and ARRAY is not None:
        tags = Column(ARRAY(String), nullable=True)
    else:
        tags = Column(JSON, nullable=True)

    project_id = Column(String, nullable=True)
    experiment_id = Column(String, nullable=True)

    capture_time = Column(DateTime, nullable=True)
    camera_model = Column(String, nullable=True)
    iso = Column(Integer, nullable=True)
    aperture = Column(Float, nullable=True)
    focal_length = Column(Float, nullable=True)
    gps_lat = Column(Float, nullable=True)
    gps_lng = Column(Float, nullable=True)

    # Kolumna na embedding tekstowy (pgvector)
    if 'Vector' in globals() and Vector is not None:
        text_embedding = Column(Vector(768), nullable=True)  # 768 wymiar√≥w dla MiniLM
    else:
        # Fallback ‚Äì je≈õli nie u≈ºywasz pgvector, mo≈ºesz trzymaƒá embedding np. jako tekst JSON
        text_embedding = Column(String, nullable=True)

    notes = relationship("ImageNote", back_populates="image")


class Note(Base):
    __tablename__ = "notes"

    id = Column(Integer, primary_key=True, autoincrement=True)
    experiment_id = Column(String, nullable=True)
    language = Column(String, nullable=True)
    text = Column(String, nullable=False)

    images = relationship("ImageNote", back_populates="note")


class ImageNote(Base):
    __tablename__ = "image_notes"

    image_id = Column(Integer, ForeignKey("images.id"), primary_key=True)
    note_id = Column(Integer, ForeignKey("notes.id"), primary_key=True)

    image = relationship("Image", back_populates="notes")
    note = relationship("Note", back_populates="images")


def create_tables() -> None:
    """Utw√≥rz tabele w bazie danych (wywo≈Çaj raz)."""
    Base.metadata.create_all(engine)
    print("Tabele zosta≈Çy utworzone (lub ju≈º istnia≈Çy).")


In [74]:
# Test 1: po≈ÇƒÖczenie z bazƒÖ + tworzenie tabel
create_tables()

with SessionLocal() as db:
    print("Po≈ÇƒÖczenie z bazƒÖ dzia≈Ça, SessionLocal OK.")
    print("Liczba obraz√≥w:", db.query(Image).count())
    print("Liczba notatek:", db.query(Note).count())
    print("Liczba powiƒÖza≈Ñ:", db.query(ImageNote).count())

Tabele zosta≈Çy utworzone (lub ju≈º istnia≈Çy).
Po≈ÇƒÖczenie z bazƒÖ dzia≈Ça, SessionLocal OK.
Liczba obraz√≥w: 3
Liczba notatek: 2
Liczba powiƒÖza≈Ñ: 3


In [75]:
# Test 1: po≈ÇƒÖczenie z bazƒÖ + tworzenie tabel
create_tables()

with SessionLocal() as db:
    print("Po≈ÇƒÖczenie z bazƒÖ dzia≈Ça, SessionLocal OK.")
    print("Liczba obraz√≥w:", db.query(Image).count())
    print("Liczba notatek:", db.query(Note).count())
    print("Liczba powiƒÖza≈Ñ:", db.query(ImageNote).count())

Tabele zosta≈Çy utworzone (lub ju≈º istnia≈Çy).
Po≈ÇƒÖczenie z bazƒÖ dzia≈Ça, SessionLocal OK.
Liczba obraz√≥w: 3
Liczba notatek: 2
Liczba powiƒÖza≈Ñ: 3


## 2. Pipeline indeksowania: obrazy + EXIF + notatki

In [76]:
def extract_exif(path: Path) -> dict:
    """WyciƒÖga EXIF z obrazu jako s≈Çownik."""
    img = PILImage.open(path)
    exif_raw = getattr(img, "_getexif", lambda: None)() or {}
    exif: dict = {}
    for tag_id, value in exif_raw.items():
        tag = TAGS.get(tag_id, tag_id)
        exif[tag] = value
    return exif


def exif_to_fields(exif: dict) -> dict:
    """Mapuje surowy EXIF do p√≥l, kt√≥re chcemy trzymaƒá w bazie."""
    fields: dict = {}

    fields["camera_model"] = exif.get("Model")
    fields["iso"] = exif.get("ISOSpeedRatings") or exif.get("ISO")
    fields["focal_length"] = exif.get("FocalLength")
    fields["aperture"] = exif.get("FNumber")

    # TODO: dodaj parsowanie capture_time, GPS itd. je≈õli potrzebujesz
    return fields

In [77]:
def load_note_text_from_file(path: Path) -> str:
    """≈Åaduje tekst notatki z pliku (np. .txt / .md)."""
    return path.read_text(encoding="utf-8")


def index_notes_from_folder(
    db: Session,
    notes_root: Path,
    experiment_id_from_name: bool = True,
) -> None:
    """Indeksuje notatki z folderu w bazie.

    Zak≈Çadamy, ≈ºe id eksperymentu mo≈ºna wydobyƒá z nazwy pliku,
    np. 'EXP-2025-01_notatka1.md' ‚Üí 'EXP-2025-01'.
    """
    for note_path in notes_root.rglob("*.md"):
        text = load_note_text_from_file(note_path)

        if experiment_id_from_name:
            exp_id = note_path.stem.split("_")[0]
        else:
            exp_id = None

        note = Note(
            experiment_id=exp_id,
            language="pl",
            text=text,
        )
        db.add(note)

    db.commit()
    print("Zindeksowano notatki z folderu:", notes_root)

In [78]:
def index_images_from_folder(
    db: Session,
    images_root: Path,
    default_project_id: Optional[str] = None,
    experiment_id_from_folder: bool = True,
) -> None:
    """Indeksuje pliki .jpg ze zdjƒôciami notatek z internetu.
    
    Obs≈Çuguje:
    - Zdjƒôcia slajd√≥w PDF-√≥w z wyk≈Çad√≥w
    - Screenshoty z YouTube/webinar√≥w
    - Fotografie tablic bia≈Çych/czarnych
    - Skany dokument√≥w/protoko≈Ç√≥w
    - Wykresy i diagramy z artyku≈Ç√≥w
    """
    # Szukamy wy≈ÇƒÖcznie plik√≥w .jpg
    for img_path in images_root.rglob("*.jpg"):
        try:
            exif = extract_exif(img_path)
            fields = exif_to_fields(exif)
        except Exception:
            # Zdjƒôcia z internetu rzadko majƒÖ EXIF - to normalne
            fields = {}

        if experiment_id_from_folder:
            exp_id = img_path.parent.name
        else:
            exp_id = None
        
        # Automatyczne tagowanie na podstawie nazwy pliku
        auto_tags = []
        filename_lower = img_path.stem.lower()
        
        # Tagi tematyczne
        if any(word in filename_lower for word in ["lecture", "wyklad", "presentation", "prezentacja"]):
            auto_tags.append("wyk≈Çad")
        if any(word in filename_lower for word in ["slide", "slajd", "page"]):
            auto_tags.append("slajd")
        if any(word in filename_lower for word in ["chart", "graph", "wykres", "diagram"]):
            auto_tags.append("wykres")
        if any(word in filename_lower for word in ["infographic", "infografika", "schema", "schemat"]):
            auto_tags.append("infografika")
        if any(word in filename_lower for word in ["note", "notatka", "summary", "podsumowanie"]):
            auto_tags.append("notatki")
        if any(word in filename_lower for word in ["screenshot", "zrzut", "screen"]):
            auto_tags.append("screenshot")
        
        # Tagi ≈∫r√≥d≈Çowe
        if "youtube" in filename_lower or "yt" in filename_lower:
            auto_tags.append("youtube")
        if "pdf" in filename_lower:
            auto_tags.append("pdf")
        if "arxiv" in filename_lower:
            auto_tags.append("arxiv")
        
        # Je≈õli brak tag√≥w, dodaj uniwersalny
        if not auto_tags:
            auto_tags.append("materia≈Ç")

        image = Image(
            path=str(img_path),
            title=img_path.stem,
            tags=auto_tags,
            project_id=default_project_id,
            experiment_id=exp_id,
            camera_model=fields.get("camera_model"),
            iso=fields.get("iso"),
            aperture=fields.get("aperture"),
            focal_length=fields.get("focal_length"),
        )
        db.add(image)

    db.commit()
    print("Zindeksowano pliki .jpg z folderu:", images_root)

    db.commit()
    print("Zindeksowano obrazy z folderu:", images_root)


def link_images_to_notes_by_experiment(db: Session) -> None:
    """≈ÅƒÖczy obrazy i notatki po experiment_id (prosty wariant)."""
    images = db.query(Image).all()
    notes = db.query(Note).all()

    notes_by_exp: dict[str, list[Note]] = {}
    for note in notes:
        if note.experiment_id:
            notes_by_exp.setdefault(note.experiment_id, []).append(note)

    for img in images:
        if not img.experiment_id:
            continue

        for note in notes_by_exp.get(img.experiment_id, []):
            existing = (
                db.query(ImageNote)
                .filter_by(image_id=img.id, note_id=note.id)
                .first()
            )
            if existing is None:
                db.add(ImageNote(image_id=img.id, note_id=note.id))

    db.commit()
    print("Po≈ÇƒÖczono obrazy z notatkami po experiment_id.")

In [79]:
# Test 2: sprawd≈∫ efekty indeksowania obraz√≥w i notatek

with SessionLocal() as db:
    images_count = db.query(Image).count()
    notes_count = db.query(Note).count()
    links_count = db.query(ImageNote).count()
    print("Liczba obraz√≥w:", images_count)
    print("Liczba notatek:", notes_count)
    print("Liczba powiƒÖza≈Ñ (image_notes):", links_count)

    example_img = db.query(Image).first()
    if example_img:
        print("Przyk≈Çadowy obraz:")
        print("  ID:", example_img.id)
        print("  ≈öcie≈ºka:", example_img.path)
        print("  Eksperyment:", example_img.experiment_id)
    else:
        print("Brak obraz√≥w w bazie ‚Äì upewnij siƒô, ≈ºe masz dane (syntetyczne lub z plik√≥w).")


Liczba obraz√≥w: 3
Liczba notatek: 2
Liczba powiƒÖza≈Ñ (image_notes): 3
Przyk≈Çadowy obraz:
  ID: 1
  ≈öcie≈ºka: obrazy/img1.jpg
  Eksperyment: EXP-2025-01


## 3. Modele: embeddingi (MiniLM) i LLM (Qwen2.5-1.5B-Instruct)

In [None]:
# UWAGA: Je≈õli instalowa≈Çe≈õ pakiety w tej sesji kernela, zrestartuj kernel (Kernel ‚Üí Restart) przed importami.
# Instalacja w trakcie sesji mo≈ºe powodowaƒá konflikty i awariƒô kernela.

# Wy≈ÇƒÖcz backend TensorFlow w Transformers, aby nie wymaga≈Ç tf-keras (unikamy b≈Çƒôdu Keras 3)
import os
os.environ["TRANSFORMERS_NO_TF"] = "1"

# Teraz mo≈ºna bezpiecznie importowaƒá
from sentence_transformers import SentenceTransformer
from transformers import AutoModelForCausalLM, AutoTokenizer

# === Konfiguracja modelu embeddingowego ===
EMBEDDING_MODEL_NAME = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME, device=DEVICE)
print("Za≈Çadowano model embeddingowy:", EMBEDDING_MODEL_NAME)

# === Konfiguracja modelu LLM ===
# === [PLACEHOLDER 5] Wyb√≥r modelu LLM ===
# Domy≈õlnie: TinyLlama (zoptymalizowany dla CPU, ~2GB RAM)
LLM_MODEL_CANDIDATES = [
    "TinyLlama/TinyLlama-1.1B-Chat-v1.0",  # ‚úÖ REKOMENDOWANE dla Codespace/CPU
    "gpt2",  # ~500MB, tylko angielski (backup)
    "distilgpt2",  # ~350MB, szybszy, tylko angielski
]

llm_model = None
tokenizer = None

for candidate in LLM_MODEL_CANDIDATES:
    try:
        print(f"≈Åadowanie modelu LLM: {candidate} (mo≈ºe potrwaƒá kilka minut)...")
        tokenizer = AutoTokenizer.from_pretrained(candidate)
        llm_model = AutoModelForCausalLM.from_pretrained(candidate, low_cpu_mem_usage=True)
        llm_model.to(DEVICE)
        tokenizer.padding_side = "left"

        # Dodaj pad_token je≈õli nie istnieje (potrzebne dla niekt√≥rych modeli)
        if tokenizer.pad_token is None:
            tokenizer.pad_token = tokenizer.eos_token

        print("‚úì Za≈Çadowano model LLM:", candidate)
        break
    except Exception as e:
        print(f"‚úó B≈ÅƒÑD podczas ≈Çadowania LLM {candidate}: {e}")
        print("Pr√≥ba kolejnego modelu (mniejszy / l≈ºejszy)...")
        llm_model = None
        tokenizer = None
        continue

if llm_model is None or tokenizer is None:
    print("Nie uda≈Ço siƒô za≈Çadowaƒá ≈ºadnego modelu LLM z listy LLM_MODEL_CANDIDATES.")
    print("Mo≈ºliwe przyczyny:")
    print("  - Brak pamiƒôci RAM (model wymaga ~4-6GB)")
    print("  - B≈ÇƒÖd pobierania z Hugging Face")
    print("\nRozwiƒÖzania:")
    print("  1. U≈ºyj mniejszego modelu (np. TinyLlama lub gpt2)")
    print("  2. Zwiƒôksz pamiƒôƒá kontenera/VM")
    print("  3. Pomi≈Ñ funkcje RAG wymagajƒÖce LLM (u≈ºyj tylko wyszukiwania)")

ERROR: Could not install packages due to an OSError: [WinError 5] Odmowa dostƒôpu: 'c:\\Users\\hubik\\AppData\\Local\\Programs\\Python\\Python312\\Lib\\site-packages\\tensorflow\\compiler\\mlir\\lite\\python\\_pywrap_converter_api.pyd'
Consider using the `--user` option or check the permissions.


[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.


ValueError: Your currently installed version of Keras is Keras 3, but this is not yet supported in Transformers. Please install the backwards-compatible tf-keras package with `pip install tf-keras`.

In [None]:
# Test 3: szybki test embedding√≥w (bez bazy)

test_text = "To jest przyk≈Çadowa notatka z eksperymentu o wysokiej temperaturze."
emb = get_embedding(test_text) if 'get_embedding' in globals() else None

if emb is None:
    print("Funkcja get_embedding jeszcze nie jest zdefiniowana ‚Äì uruchom najpierw kom√≥rkƒô z jej definicjƒÖ.")
else:
    print("D≈Çugo≈õƒá embeddingu:", len(emb))
    print("Pierwsze 5 warto≈õci:", emb[:5])

## 4. Tekst do embedding√≥w i funkcja `get_embedding`

In [None]:
def build_image_text(db: Session, image: Image) -> str:
    """Buduje tekstowy opis obrazu na podstawie metadanych i notatek."""
    links = db.query(ImageNote).filter_by(image_id=image.id).all()
    note_ids = [ln.note_id for ln in links]

    notes: List[Note] = []
    if note_ids:
        notes = db.query(Note).filter(Note.id.in_(note_ids)).all()

    notes_text = "\n\n---\n\n".join(n.text for n in notes[:3])  # max 3 notatki

    tags_str = ", ".join(image.tags or [])
    exif_summary_parts: list[str] = []

    if image.camera_model:
        exif_summary_parts.append(f"Model aparatu: {image.camera_model}")
    if image.iso is not None:
        exif_summary_parts.append(f"ISO: {image.iso}")
    if image.focal_length is not None:
        exif_summary_parts.append(f"Ogniskowa: {image.focal_length}mm")
    if image.aperture is not None:
        exif_summary_parts.append(f"Przys≈Çona: {image.aperture}")

    exif_summary = ", ".join(exif_summary_parts)

    base = f"""Tytu≈Ç: {image.title or ''}
Tagi: {tags_str}
Projekt: {image.project_id or ''}
Eksperyment: {image.experiment_id or ''}
Parametry: {exif_summary}
"""

    if notes_text:
        return base + "\n\nNotatki:\n" + notes_text
    return base


def get_embedding(text: str) -> list[float]:
    """Zwraca embedding tekstu korzystajƒÖc z SentenceTransformer (MiniLM)."""
    emb = embedding_model.encode(text, normalize_embeddings=True)
    return emb.tolist()

In [None]:
def update_image_embeddings(db: Session) -> None:
    """Generuje embeddingi tekstowe dla wszystkich obraz√≥w i zapisuje w bazie."""
    images = db.query(Image).all()

    for img in images:
        text = build_image_text(db, img)
        emb = get_embedding(text)

        if Vector is not None:
            img.text_embedding = emb  # pgvector przyjmie listƒô float√≥w
        else:
            # Fallback ‚Äì zapis jako tekst (np. do dalszego u≈ºycia w Pythonie)
            img.text_embedding = ";".join(str(x) for x in emb)

    db.commit()
    print("Zaktualizowano embeddingi dla", len(images), "obraz√≥w.")

In [None]:
# Test 4: embeddingi w bazie

with SessionLocal() as db:
    img = db.query(Image).first()
    if img is None:
        print("Brak obraz√≥w w bazie ‚Äì nic nie mo≈ºna sprawdziƒá.")
    else:
        print("Obraz ID:", img.id)
        print("≈öcie≈ºka:", img.path)
        print("Eksperyment:", img.experiment_id)
        print("Pole text_embedding (przyciƒôte do 120 znak√≥w):")
        print(str(img.text_embedding)[:120], "...")

## 5. Retriever: wyszukiwanie obraz√≥w po embeddingach i metadanych

In [None]:
def search_images(
    db: Session,
    query: str,
    project_id: Optional[str] = None,
    experiment_id: Optional[str] = None,
    limit: int = 10,
) -> List[Image]:
    """Zwraca listƒô obraz√≥w pasujƒÖcych do zapytania."""
    q_emb = get_embedding(query)

    base_query = db.query(Image)
    if project_id:
        base_query = base_query.filter(Image.project_id == project_id)
    if experiment_id:
        base_query = base_query.filter(Image.experiment_id == experiment_id)

    if Vector is not None:
        # U≈ºywamy operatora l2_distance (lub cosine_distance, je≈õli skonfigurowany)
        base_query = base_query.order_by(Image.text_embedding.l2_distance(q_emb))
        images = base_query.limit(limit).all()
        return images

    # Fallback ‚Äì je≈õli nie ma pgvector, mo≈ºemy na szybko zwr√≥ciƒá pierwsze N
    all_images = base_query.all()
    return all_images[:limit]


## 6. Warstwa RAG: budowanie kontekstu i wywo≈Çanie LLM

In [None]:
def summarize_notes_text(text: str, max_chars: int = 800) -> str:
    """Bardzo prosty skr√≥t notatek (obciƒôcie do max_chars)."""
    if len(text) <= max_chars:
        return text
    return text[: max_chars - 3] + "..."


def build_context_for_llm(db: Session, images: List[Image]) -> str:
    """Buduje tekstowy kontekst dla LLM na podstawie obraz√≥w i ich notatek."""
    parts: list[str] = []

    for img in images:
        links = db.query(ImageNote).filter_by(image_id=img.id).all()
        note_ids = [ln.note_id for ln in links]

        notes: List[Note] = []
        if note_ids:
            notes = db.query(Note).filter(Note.id.in_(note_ids)).all()

        notes_short: list[str] = []
        for n in notes[:3]:
            notes_short.append(summarize_notes_text(n.text, max_chars=600))

        notes_joined = "\n\n".join(notes_short)
        tags_str = ", ".join(img.tags or [])

        part = f"""[OBRAZ {img.id}]
≈öcie≈ºka: {img.path}
Projekt: {img.project_id or ''}, Eksperyment: {img.experiment_id or ''}
Tagi: {tags_str}
Parametry: ISO {img.iso}, ogniskowa {img.focal_length}, przys≈Çona {img.aperture}

Notatki (skr√≥t):
{notes_joined}
"""
        parts.append(part)

    return "\n\n---\n\n".join(parts)


def chat_completion(prompt: str) -> str:
    """Wywo≈Çuje model LLM i zwraca odpowied≈∫ tekstowƒÖ.
    
    Je≈õli LLM nie za≈Çadowa≈Ç siƒô (llm_model is None), zwraca informacjƒô o b≈Çƒôdzie.
    """
    if llm_model is None or tokenizer is None:
        return "[B≈ÅƒÑD: Model LLM nie zosta≈Ç za≈Çadowany. Sprawd≈∫ komunikaty z kom√≥rki ≈Çadowania modelu.]"
    
    # Prosty format promptu (dzia≈Ça z wiƒôkszo≈õciƒÖ modeli)
    system_text = "Jeste≈õ pomocnym asystentem, odpowiadasz po polsku."
    full_prompt = system_text + "\n\n" + prompt
    
    # Tokenizacja
    inputs = tokenizer(full_prompt, return_tensors="pt", padding=True)
    input_ids = inputs["input_ids"].to(DEVICE)
    attention_mask = inputs.get("attention_mask")
    if attention_mask is not None:
        attention_mask = attention_mask.to(DEVICE)
    
    # Generowanie
    with torch.no_grad():
        gen_kwargs = dict(
            input_ids=input_ids,
            max_new_tokens=384,
            do_sample=False,
            temperature=1.0,
            top_p=1.0,
            eos_token_id=tokenizer.eos_token_id,
            pad_token_id=tokenizer.pad_token_id,
        )
        if attention_mask is not None:
            gen_kwargs["attention_mask"] = attention_mask
        
        outputs = llm_model.generate(**gen_kwargs)
    
    # Dekodowanie tylko nowo wygenerowanych token√≥w
    generated_ids = outputs[0, input_ids.shape[-1]:]
    text = tokenizer.decode(generated_ids, skip_special_tokens=True)
    return text.strip()


def answer_question(
    db: Session,
    question: str,
    limit_images: int = 5,
) -> dict:
    """G≈Ç√≥wna funkcja RAG.

    1. Wyszukuje obrazy pasujƒÖce do pytania.
    2. Buduje kontekst.
    3. Wywo≈Çuje LLM z pytaniem + kontekstem.
    4. Zwraca odpowied≈∫ i listƒô ID obraz√≥w.
    """
    images = search_images(db, question, limit=limit_images)
    context = build_context_for_llm(db, images)

    prompt = f"""Jeste≈õ asystentem analizujƒÖcym wyniki eksperyment√≥w na podstawie obraz√≥w i notatek.
Odpowiadasz po polsku, rzeczowo, powo≈ÇujƒÖc siƒô na ID obraz√≥w w nawiasach kwadratowych.

Pytanie u≈ºytkownika:
{question}

Dostƒôpne obrazy i notatki:
{context}

Na podstawie tych danych:
1. Odpowiedz na pytanie.
2. Je≈õli to mo≈ºliwe, wska≈º, kt√≥re obrazy sƒÖ kluczowe (podaj [OBRAZ ID]).
"""

    answer_text = chat_completion(prompt)

    return {
        "answer": answer_text,
        "image_ids": [img.id for img in images],
    }

In [None]:
# Test 5: mini RAG end-to-end (wyszukiwanie materia≈Ç√≥w z internetu)

test_question = "Poka≈º materia≈Çy o gradient descent i optymalizacji"

with SessionLocal() as db:
    result = answer_question(db, test_question, limit_images=3)

print("ODPOWIED≈π:\n")
print(result["answer"])
print("\nZnalezione materia≈Çy (IDs):", result["image_ids"])

## 7. Przyk≈Çadowe u≈ºycie (uruchamiane krok po kroku)

In [None]:
# === PRZYK≈ÅADOWE U≈ªYCIE Z DANYMI TESTOWYMI ===
# Uruchom tƒô kom√≥rkƒô, aby stworzyƒá syntetyczne dane i przetestowaƒá system

if __name__ == "__main__":
    # 1. Utw√≥rz tabele
    create_tables()

    with SessionLocal() as db:
        # === OPCJA A: DANE TESTOWE (syntetyczne) ===
        # Odkomentuj poni≈ºsze linie, aby stworzyƒá przyk≈Çadowe dane bez plik√≥w:
        
        # # Stw√≥rz przyk≈Çadowe materia≈Çy z internetu
        # test_img1 = Image(
        #     path="obrazy/machine_learning/lecture_03_slide_15.png",
        #     title="Machine Learning - Gradient Descent explained",
        #     tags=["wyk≈Çad", "slajd", "machine-learning", "pdf"],
        #     project_id="ML-COURSE-2025",
        #     experiment_id="TOPIC-OPTIMIZATION"
        # )
        # db.add(test_img1)
        # 
        # test_img2 = Image(
        #     path="obrazy/deep_learning/youtube_screenshot_backprop.jpg",
        #     title="3Blue1Brown - Backpropagation explained",
        #     tags=["youtube", "screenshot", "deep-learning", "wykres"],
        #     project_id="ML-COURSE-2025",
        #     experiment_id="TOPIC-NEURAL-NETS"
        # )
        # db.add(test_img2)
        # 
        # test_img3 = Image(
        #     path="obrazy/statistics/infographic_distributions.png",
        #     title="Statistical Distributions Cheat Sheet",
        #     tags=["infografika", "statystyka", "wykres"],
        #     project_id="STATS-REFERENCE",
        #     experiment_id="TOPIC-PROBABILITY"
        # )
        # db.add(test_img3)
        # 
        # test_img4 = Image(
        #     path="obrazy/algorithms/arxiv_paper_fig3.png",
        #     title="Novel sorting algorithm - complexity chart",
        #     tags=["arxiv", "wykres", "algorytmy", "pdf"],
        #     project_id="RESEARCH-2025",
        #     experiment_id="TOPIC-ALGORITHMS"
        # )
        # db.add(test_img4)
        # db.commit()
        # 
        # # Stw√≥rz przyk≈Çadowe notatki tekstowe (podsumowania z internetu)
        # test_note1 = Note(
        #     experiment_id="TOPIC-OPTIMIZATION",
        #     language="pl",
        #     text="Gradient descent - algorytm optymalizacji. Kluczowe parametry: learning rate, momentum. "
        #          "Materia≈Ç z kursu Andrew Ng na Coursera."
        # )
        # db.add(test_note1)
        # 
        # test_note2 = Note(
        #     experiment_id="TOPIC-NEURAL-NETS",
        #     language="pl",
        #     text="Backpropagation - propagacja wsteczna b≈Çƒôdu w sieciach neuronowych. "
        #          "Wyja≈õnienie wizualne z kana≈Çu 3Blue1Brown na YouTube."
        # )
        # db.add(test_note2)
        # 
        # test_note3 = Note(
        #     experiment_id="TOPIC-PROBABILITY",
        #     language="pl",
        #     text="Rozk≈Çady statystyczne: normalne, binomialne, Poissona. Infografika z r/datascience."
        # )
        # db.add(test_note3)
        # db.commit()
        # 
        # # Po≈ÇƒÖcz materia≈Çy z notatkami
        # db.add(ImageNote(image_id=test_img1.id, note_id=test_note1.id))
        # db.add(ImageNote(image_id=test_img2.id, note_id=test_note2.id))
        # db.add(ImageNote(image_id=test_img3.id, note_id=test_note3.id))
        # db.commit()
        # 
        # # Wygeneruj embeddingi
        # update_image_embeddings(db)
        # 
        # # Testowe zapytanie
        # result = answer_question(db, "Poka≈º materia≈Çy o gradient descent i optymalizacji")
        # print("ODPOWIED≈π:", result["answer"])
        # print("Znalezione materia≈Çy:", result["image_ids"])
        
        # === OPCJA B: U≈ªYJ W≈ÅASNYCH DANYCH ===
        # === [PLACEHOLDER 2] ≈öcie≈ºka do notatek tekstowych (pliki .md z podsumowaniami) ===
        # notes_root = Path("./notatki")  # Zmie≈Ñ na swojƒÖ ≈õcie≈ºkƒô
        # index_notes_from_folder(db, notes_root)

        # === [PLACEHOLDER 3] ≈öcie≈ºka do materia≈Ç√≥w z internetu (jpg/png/webp) ===
        # images_root = Path("./obrazy")  # ‚Üê Tutaj sƒÖ zdjƒôcia notatek z internetu
        # Przyk≈Çadowa struktura:
        #   obrazy/
        #   ‚îú‚îÄ‚îÄ machine_learning/
        #   ‚îÇ   ‚îú‚îÄ‚îÄ lecture_03_slide_15.png
        #   ‚îÇ   ‚îî‚îÄ‚îÄ youtube_screenshot_backprop.jpg
        #   ‚îî‚îÄ‚îÄ statistics/
        #       ‚îî‚îÄ‚îÄ infographic_distributions.png
        # 
        # === [PLACEHOLDER 4] ID projektu (np. nazwa kursu) ===
        # index_images_from_folder(db, images_root, default_project_id="ML-COURSE-2025")  # Zmie≈Ñ ID

        # # Po≈ÇƒÖcz obrazy z notatkami
        # link_images_to_notes_by_experiment(db)

        # # Wygeneruj embeddingi
        # update_image_embeddings(db)

        # # Zadaj pytanie
        # question = "Poka≈º eksperymenty z wysokƒÖ temperaturƒÖ i opisz problemy z pƒôkaniem materia≈Çu."
        # result = answer_question(db, question)
        # print("ODPOWIED≈π:\n", result["answer"])
        # print("PowiƒÖzane obrazy:", result["image_ids"])

        print(
            "‚úÖ Notatnik skonfigurowany dla GitHub Codespace (CPU).\n"
            "üìã Sprawd≈∫ placeholdery w kom√≥rce 1 i w tej kom√≥rce.\n"
            "üöÄ Uruchom kom√≥rki testowe lub odkomentuj sekcje z danymi."
        )