In [1]:
import torch
import gc
gc.collect()              # uruchamia garbage collector
torch.cuda.empty_cache()   # zwalnia pamięć zaalokowaną w cache
torch.cuda.ipc_collect()   # dodatkowe czyszczenie pamięci współdzielonej



In [2]:

import os
os.environ["LANGCHAIN_API_KEY"] = "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"
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_PROJECT"] = "KRUS-debug"

from huggingface_hub import login

login("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")


sorDEBUG = True
DEBUG = sorDEBUG
RETURN_STRING_WHEN_DEBUG_FALSE = True


DATA_PATH = "C:/Users/admin/Desktop/krus-chatbot/AgroBot/data/ustawa_with_paragraph_headers.md"
PERSIST_PATH = "chroma_ustawa"

EMBEDDER_MODEL   = "intfloat/multilingual-e5-base"
RERANKER_MODEL   = "radlab/polish-cross-encoder" 
BASE_MODEL_ID    = "speakleash/Bielik-11B-v2.6-Instruct"
#"CYFRAGOVPL/PLLuM-12B-chat"

RERANK_THRESHOLD = 0.30
K_SIM   = 10
K_FINAL = 3



In [3]:
import os, torch, platform
os.environ["TOKENIZERS_PARALLELISM"] = "true"   
torch.backends.cuda.matmul.allow_tf32 = True    

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModelForSequenceClassification

print("PyTorch:", torch.__version__, "| CUDA available:", torch.cuda.is_available(), "| GPUs:", torch.cuda.device_count())
print("Platform:", platform.platform()) 

try:
    tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL_ID, use_fast=True, trust_remote_code=False)
except Exception as e:
    print("Fast tokenizer fail → slow:", e)
    tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL_ID, use_fast=False)

gen_model = AutoModelForCausalLM.from_pretrained(
    BASE_MODEL_ID,
    torch_dtype=torch.bfloat16,      
    device_map="cuda:0",               
    low_cpu_mem_usage=False,
    attn_implementation="sdpa",      
    trust_remote_code=True,
).eval()


print("model załadowany bez kwantyzacji")


PyTorch: 2.9.0.dev20250903+cu128 | CUDA available: True | GPUs: 2
Platform: Windows-11-10.0.26100-SP0


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

model załadowany bez kwantyzacji


In [4]:
import shutil, re
from typing import List
from langchain.docstore.document import Document
from langchain.embeddings import HuggingFaceBgeEmbeddings
from langchain.vectorstores import Chroma
from langchain.document_loaders import TextLoader
from langchain.text_splitter import MarkdownHeaderTextSplitter


persist_path = PERSIST_PATH
shutil.rmtree(persist_path, ignore_errors=True)
os.makedirs(persist_path, exist_ok=True)

docs_raw = TextLoader(DATA_PATH, encoding="utf-8").load()
header_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=[("###", "ustep")])
chunks = header_splitter.split_text(docs_raw[0].page_content)

# meta: <!-- chapter:1 article:16a paragraph:3 id:ch1-art16a-ust3 -->
meta_re = re.compile(
    r"<!--\s*chapter\s*:\s*(\d+)\s+article\s*:\s*([0-9a-z]+)\s+paragraph\s*:\s*([0-9a-z]+)\s+id\s*:\s*([^\s>]+)\s*-->",
    re.I
)

normed: List[Document] = []
for d in chunks:
    md = dict(d.metadata)
    header_text = md.get("ustep", "") or ""
    source_for_meta = header_text + "\n" + d.page_content
    m = meta_re.search(source_for_meta)
    if m:
        md["chapter"]   = int(m.group(1))
        md["article"]   = m.group(2).lower()
        md["paragraph"] = m.group(3).lower()
        md["id"]        = m.group(4)
        md["rozdzial"]  = md["chapter"]
        md["artykul"]   = md["article"]
        md["ust"]       = md["paragraph"]

    clean_header = meta_re.sub("", header_text).strip()
    if clean_header:
        md["ustep"] = clean_header

    content = meta_re.sub("", d.page_content).strip()
    normed.append(Document(page_content=content, metadata=md))

if DEBUG:
    print(f"[INDEX] Liczba dokumentów (ustępów): {len(normed)}")

embedder = HuggingFaceBgeEmbeddings(
    model_name=EMBEDDER_MODEL,
    model_kwargs={'device': 'cuda' if torch.cuda.is_available() else 'cpu'},
    encode_kwargs={'normalize_embeddings': True}
)

shutil.rmtree(persist_path, ignore_errors=True)
db = Chroma.from_documents(
    documents=normed,
    embedding=embedder,
    persist_directory=persist_path,
    collection_metadata={"hnsw:space": "cosine"}
)
db.persist()


[INDEX] Liczba dokumentów (ustępów): 444


  embedder = HuggingFaceBgeEmbeddings(
  db.persist()


In [5]:
K_SIM = globals().get("K_SIM", 12)
K_FINAL = globals().get("K_FINAL", 6)
RERANK_THRESHOLD = globals().get("RERANK_THRESHOLD", None) 
RERANKER_MODEL = globals().get("RERANKER_MODEL", "cross-encoder/ms-marco-MiniLM-L-6-v2")

import os, re, shutil, unicodedata, asyncio
from typing import List, Optional, Dict, Any, Tuple, Callable
import numpy as np
import torch

from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceBgeEmbeddings
from langchain.memory import ConversationBufferWindowMemory
from langchain_community.llms import HuggingFacePipeline
from langchain.prompts import PromptTemplate
from langchain.chains import ConversationalRetrievalChain
from langchain_core.callbacks import CallbackManager
from langchain.callbacks.tracers.langchain import LangChainTracer
from langchain_core.retrievers import BaseRetriever
from langchain_core.documents import Document  

# Reranker + LLM
from sentence_transformers import CrossEncoder
from transformers import pipeline as hf_pipeline
from transformers import pipeline

from pydantic import PrivateAttr

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer
import onnxruntime as ort

def strip_accents_lower(s: str) -> str:
    if not s:
        return ""
    s = unicodedata.normalize("NFKD", s)
    s = "".join(ch for ch in s if not unicodedata.combining(ch))
    return s.lower().strip()

# --- wymagane globalne uchwyty (jak w Twojej komórce) ---
if "db" not in globals():
    raise RuntimeError("Brak globalnej bazy `db` (Chroma). Zainicjalizuj ją przed załadowaniem skryptu.")
model = gen_model

ROLE_CUT_RE = re.compile(
    r"(?i)"                              
    r"(###\s*(?:user|asystent|dokumenty|system)?\s*:?" 
    r"|(?:^|\s)(?:user|asystent|dokumenty|system)\s*:" 
    r"|<\s*(?:user|assistant|docs?|system)\s*>)"      
)

def cut_after_role_markers(s: str) -> str:
    if not s:
        return s
    m = ROLE_CUT_RE.search(s)
    return s[:m.start()].rstrip() if m else s

if globals().get("model", None) is None or globals().get("tokenizer", None) is None:
    raise RuntimeError("Załaduj wcześniej LLM do zmiennych `model` i `tokenizer`.")

# =======================
# RERANKER: ONNX na CPU
# =======================
device = "cpu"

class OptimizedONNXCrossEncoder:
    def __init__(self, model_name, device="cpu"):
        self.device = device
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        providers = ["CPUExecutionProvider"]
        try:
            self.model = ORTModelForSequenceClassification.from_pretrained(
                model_name,
                provider=providers[0],
                export=True
            )
            print("ONNX Cross Encoder załadowany na CPU!")
        except Exception as e:
            print(f"Fallback do zwykłego CrossEncoder na CPU: {e}")
            from sentence_transformers import CrossEncoder
            self.fallback_model = CrossEncoder(model_name, device="cpu")
            self.model = None
    
    def predict(self, pairs, batch_size=32, **kwargs):
        if self.model is None:
            return self.fallback_model.predict(pairs, batch_size=batch_size)
        
        all_scores = []
        for i in range(0, len(pairs), batch_size):
            batch = pairs[i:i+batch_size]
            texts_1 = [p[0] for p in batch]
            texts_2 = [p[1] for p in batch]
            
            inputs = self.tokenizer(
                texts_1, texts_2,
                padding=True,
                truncation=True,
                max_length=512,
                return_tensors="pt"
            )
            with torch.no_grad():
                outputs = self.model(**inputs)
                if outputs.logits.shape[-1] == 2:
                    scores = torch.softmax(outputs.logits, dim=-1)[:, 1]
                else:
                    scores = outputs.logits[:, 0]
                scores = scores.cpu().numpy()
                all_scores.extend(scores.tolist())
        return np.array(all_scores)

cross_encoder = OptimizedONNXCrossEncoder(RERANKER_MODEL, device=device)

# =======================
# Parsowanie referencji
# =======================
REF_RE_EXT = re.compile(
    r"(?:art\.?\s*(?P<art>[0-9]+[a-z]?))"
    r"(?:\s*(?:ust(?:\.|ęp)?|ustep)\s*(?P<ust>[0-9]+[a-z]?))?"
    r"(?:\s*(?:pkt\.?)\s*(?P<pkt>[0-9]+[a-z]?))?"
    r"(?:\s*(?:lit\.?)\s*(?P<lit>[a-z]))?",
    re.IGNORECASE
)
def parse_ref_ext(query: str) -> Optional[Dict[str, str]]:
    m = REF_RE_EXT.search(query or "")
    if not m:
        return None
    ref = {}
    if m.group("art"): ref["article"]   = m.group("art").lower()
    if m.group("ust"): ref["paragraph"] = m.group("ust").lower()
    if m.group("pkt"): ref["punkt"]     = m.group("pkt").lower()
    if m.group("lit"): ref["litera"]    = m.group("lit").lower()
    return ref if ref else None

# =======================
# Retriever + reranker
# =======================
def retrieve_basic(query: str, k_sim: int = K_SIM, k_final: int = K_FINAL, rerank_threshold: float | None = RERANK_THRESHOLD) -> List[Document]:
    ref = parse_ref_ext(query)
    filter_dict = {}
    if ref:
        if "article" in ref:   filter_dict["article"]   = ref["article"]
        if "paragraph" in ref: filter_dict["paragraph"] = ref["paragraph"]
    if not filter_dict:
        filter_dict = None

    docs = db.similarity_search(query, k=k_sim, filter=filter_dict)
    if not docs:
        return []

    pairs = [(query, d.page_content) for d in docs]
    scores = cross_encoder.predict(pairs, batch_size=32) 
    scores = np.asarray(scores, dtype=float)

    scored_docs = [(d, s) for d, s in zip(docs, scores)]
    if rerank_threshold is not None:
        scored_docs = [(d, s) for d, s in scored_docs if s >= rerank_threshold]
        if not scored_docs:
            return []

    scored_docs = sorted(scored_docs, key=lambda x: x[1], reverse=True)[:k_final]
    out: List[Document] = []
    for d, s in scored_docs:
        md = dict(d.metadata or {})
        md["rerank_score"] = float(s)
        d.metadata = md
        out.append(d)
    return out

# =======================
# Memory + LLM
# =======================
memory = ConversationBufferWindowMemory(
    k=3, memory_key="chat_history", return_messages=True, output_key="answer"
)

hf_pipe = pipeline(
    "text-generation",
    model=globals().get("model"),
    tokenizer=globals().get("tokenizer"),
    max_new_tokens=512,
    do_sample=True,
    temperature=0.35,
    top_p=0.95,
    top_k=50,
    repetition_penalty=1.0,
    pad_token_id=(getattr(globals().get("tokenizer"), "eos_token_id", None)),
    eos_token_id=(getattr(globals().get("tokenizer"), "eos_token_id", None)),
    return_full_text=False,
    use_cache=True,
    batch_size=1,  
    num_beams=1,
)
llm = HuggingFacePipeline(pipeline=hf_pipe)

# Dwa prompty (opcjonalnie różne)
prompt_base = PromptTemplate(
    input_variables=["context", "question"],
    template=(
        "### System:\n"
        "Jesteś ekspertem prawa ubezpieczeń społecznych rolników. "
        "Odpowiadasz WYŁĄCZNIE na podstawie Dokumentów poniżej. "
        "Twoim zadaniem jest odpowiedzenie na pytanie na podstawie Dokumentów. "
        "Jeśli w dokumentach jest BRAK, powiedz, że nie masz wiedzy na ten temat.\n"
        "Formatowanie: bez **…** ani __…__. Limit 6–8 zdań lub 8 punktów.\n"
        "### User:\n{question}\n\n"
        "### Dokumenty:\n{context}\n"
        "### Asystent:\n"
    )
)

prompt_followup = PromptTemplate(
    input_variables=["context", "question"],
    template=(
        "### System:\n"
        "Kontynuacja rozmowy. Odpowiadaj WYŁĄCZNIE w oparciu o poniższe dokumenty, "
        "które akumulujemy w toku dopytań użytkownika. "
        "Jeśli dokumenty nie zawierają odpowiedzi, powiedz o tym wprost.\n"
        "Format: bez **…** ani __…__. Zwięźle: 5–7 zdań lub 6 punktów.\n"
        "### User:\n{question}\n\n"
        "### Dokumenty (skumulowane):\n{context}\n"
        "### Asystent:\n"
    )
)

tracer = LangChainTracer()
callback_manager = CallbackManager([tracer])

class FunctionRetriever(BaseRetriever):
    k_sim: int
    k_final: int
    rerank_threshold: Optional[float] = None
    _fn: Callable[..., List[Document]] = PrivateAttr()

    def __init__(self, fn: Callable[..., List[Document]], **data):
        super().__init__(**data)
        self._fn = fn

    def _get_relevant_documents(self, query: str) -> List[Document]:
        return self._fn(query, k_sim=self.k_sim, k_final=self.k_final, rerank_threshold=self.rerank_threshold)

    async def _aget_relevant_documents(self, query: str) -> List[Document]:
        loop = asyncio.get_event_loop()
        return await loop.run_in_executor(None, lambda: self._get_relevant_documents(query))

init_retriever = FunctionRetriever(fn=retrieve_basic, k_sim=K_SIM, k_final=K_FINAL, rerank_threshold=RERANK_THRESHOLD)

qa_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=init_retriever,
    memory=memory,
    combine_docs_chain_kwargs={"prompt": prompt_base},
    return_source_documents=True,
    output_key="answer",
    callback_manager=callback_manager
)

# =======================
# Formatowanie odpowiedzi
# =======================
def _build_citations_block(docs: List[Document]) -> str:
    if not docs:
        return "Cytowane ustępy:\n(brak)\n"
    lines = ["Cytowane ustępy:"]
    for d in docs:
        md = d.metadata or {}
        rozdz = md.get("rozdzial", md.get("chapter"))
        art   = md.get("artykul",  md.get("article"))
        ust   = md.get("ust",      md.get("paragraph"))
        pid   = md.get("id", f"ch{rozdz}-art{art}-ust{ust}")
        lines.append(f"- [{pid}] Rozdz.{rozdz} Art.{art} Ust.{ust}")
    return "\n".join(lines) + "\n"

def format_docs_for_prompt(docs: List[Document]) -> str:
    blocks = []
    for d in docs:
        md = d.metadata or {}
        rozdz = md.get("rozdzial", md.get("chapter"))
        art   = md.get("artykul",  md.get("article"))
        ust   = md.get("ust",      md.get("paragraph"))
        pid   = md.get("id", f"ch{rozdz}-art{art}-ust{ust}")
        blocks.append(f"[{pid}]\n{d.page_content}")
    return "\n\n---\n\n".join(blocks)

def log_rerank_scores(docs: List[Document], header: str = "DEBUG rerank scores") -> None:
    if not DEBUG: return
    print(header)
    if not docs:
        print("(brak dokumentów)"); return
    for d in docs:
        md = d.metadata or {}
        pid = md.get("id") or f"ch{md.get('chapter')}-art{md.get('article')}-ust{md.get('paragraph')}"
        sc  = md.get("rerank_score")
        print(f"- {pid}: score={sc:.6f}" if isinstance(sc, (int, float)) else f"- {pid}: score=(brak)")

def strip_markdown_bold(text: str) -> str:
    if not text:
        return text
    text = re.sub(r"\*\*(.*?)\*\*", r"\1", text, flags=re.DOTALL)
    text = re.sub(r"__(.*?)__", r"\1", text, flags=re.DOTALL)
    text = text.replace("**", "").replace("__", "")
    return text

_SENT_ENDERS = ".?!…"
_CLOSERS = "”»\")]’"

def _rstrip_u(s: str) -> str:
    return s.rstrip(" \t\r\n\u00A0")

_LIST_MARKER_ONLY_RE = re.compile(
    r"""^[\s\u00A0]*(
            [-*+•·—–]
          | (?:\(?\d+[a-z]?\)|\d+[a-z]?[.)])
          | (?:\(?[ivxlcdm]+\)|[ivxlcdm]+[.)])
          | (?:[a-z][.)])
        )[\s\u00A0]*$""",
    re.IGNORECASE | re.VERBOSE
)
def _strip_trailing_empty_list_item(s: str) -> tuple[str, bool]:
    if not s:
        return s, False
    s2 = _rstrip_u(s)
    if not s2:
        return s2, (s2 != s)
    lines = s2.splitlines()
    last = _rstrip_u(lines[-1])
    if _LIST_MARKER_ONLY_RE.match(last or ""):
        return _rstrip_u("\n".join(lines[:-1])), True
    return s2, False

def _ends_with_full_stop(s: str) -> bool:
    return re.search(rf"[{re.escape(_SENT_ENDERS)}][{re.escape(_CLOSERS)}]*[\s\u00A0]*$", s) is not None

_ABBR_SET = {"art","ust","pkt","lit","tj","tzw","np","itd","itp","m.in","prof","dr","nr","poz","cd","al","ul","pl","św","sw"}
def _last_token_before_dot_for_trim(buf: str) -> str:
    m = re.search(r"([A-Za-zÀ-ÖØ-öø-ÿŁŚŻŹĆŃÓÄÖÜĄĘłśżźćńóäöüąę]+)\.\s*$", buf)
    return (m.group(1).lower() if m else "")
def _is_abbreviation_dot(text: str, dot_pos: int) -> bool:
    prev = text[:dot_pos+1]
    tok = _last_token_before_dot_for_trim(prev)
    return tok in _ABBR_SET
def _find_last_safe_boundary(s: str) -> int | None:
    i = len(s) - 1
    while i >= 0 and (s[i].isspace() or s[i] in _CLOSERS or s[i] == "\u00A0"):
        i -= 1
    while i >= 0:
        ch = s[i]
        if ch in _SENT_ENDERS:
            if ch == "." and _is_abbreviation_dot(s[:i+1], i):
                i -= 1
                continue
            return i + 1
        i -= 1
    return None
def trim_incomplete_sentences(text: str) -> str:
    if not text:
        return text
    text = cut_after_role_markers(text)
    s = _rstrip_u(text)
    changed = True
    while changed:
        s, changed = _strip_trailing_empty_list_item(s)
    if s.endswith(":"):
        last_nl = s.rfind("\n")
        s = _rstrip_u(s[:last_nl]) if last_nl != -1 else ""
    if not s:
        return s
    if _ends_with_full_stop(s):
        return s
    cut = _find_last_safe_boundary(s)
    if cut is None:
        return s
    return _rstrip_u(s[:cut])

def _finalize_return(text: str, docs: List[Document], mode: str):
    # dopisujemy zachętę do dopytania (zostaje jak było)
    hint = "\n\n(Jeśli chcesz dopytać, kliknij „Chciałbym dopytać”, a dodam kolejny ustęp do kontekstu.)"
    text_out = text + hint

    debug = [{"id": (d.metadata or {}).get("id"),
              "score": (d.metadata or {}).get("rerank_score")} for d in (docs or [])]
    payload = {"answer": text_out, "source_documents": docs, "debug": {"mode": mode, "rerank": debug}}

    # USUWAMY efekt uboczny printowania, zwracamy tylko payload.
    # Jeśli chcesz zachować opcjonalne drukowanie z tego miejsca, dodaj
    # flagę np. PRINT_FROM_CORE=True i owiń print w if.
    # if DEBUG and PRINT_FROM_CORE:
    #     print("\nODPOWIEDŹ\n", text_out, "\n\n *Mogę popełniać błędy...*\n")

    return payload


# =======================
# Smalltalk
# =======================
_SMALLTALK_RULES = [
    (r"^(czesc|cze|hej|heja|hejka|witam|siema|elo|halo|dzien dobry|dobry wieczor)\b",
     "Cześć! W czym mogę pomóc w sprawie KRUS/ustawy?"),
    (r"\b(dzieki|dziekuje|dzieki wielkie|dziekuje bardzo|thx|thanks)\b",
     "Nie ma sprawy! Jeśli chcesz, podaj kolejne pytanie."),
]
def smalltalk_reply(user_q: str) -> Optional[str]:
    qn = strip_accents_lower(user_q)
    for pat, resp in _SMALLTALK_RULES:
        if re.search(pat, qn, flags=re.IGNORECASE):
            return resp
    return None

# =======================
# Stan rozmowy (manual follow-up)
# =======================
class ConversationState:
    def __init__(self):
        self.last_article_num: Optional[str] = None
        self.last_paragraph_num: Optional[str] = None
        self.last_docs: List[Document] = []
        self.accum_docs: List[Document] = []   # AKUMULOWANY KONTEKST
        self.last_query: Optional[str] = None

STATE = ConversationState()
_FOLLOW_UP_NEXT = False

def want_follow_up() -> None:
    """Wywołaj PRZED kolejnym ask(), jeśli user kliknął 'Chciałbym dopytać'."""
    global _FOLLOW_UP_NEXT
    _FOLLOW_UP_NEXT = True

def reset_context() -> None:
    """Czyści akumulowany kontekst i metadane."""
    STATE.accum_docs.clear()
    STATE.last_docs.clear()
    STATE.last_article_num = None
    STATE.last_paragraph_num = None
    STATE.last_query = None

def _short_doc_label(d: Document) -> str:
    md = d.metadata or {}
    rozdz = md.get("rozdzial", md.get("chapter"))
    art   = md.get("artykul",  md.get("article"))
    ust   = md.get("ust",      md.get("paragraph"))
    pid   = md.get("id", f"ch{rozdz}-art{art}-ust{ust}")
    return f"{pid}"

def _update_state_from_docs(docs: List[Document], user_q: str):
    if not docs: return
    STATE.last_docs = docs[:]
    STATE.last_query = user_q
    md0 = docs[0].metadata or {}
    STATE.last_article_num   = (md0.get("artykul")  or md0.get("article"))
    STATE.last_paragraph_num = (md0.get("ust")      or md0.get("paragraph"))

# =======================
# Router
# =======================
def route_query(query: str):
    qn = strip_accents_lower(query)
    ref = parse_ref_ext(query)
    if DEBUG:
        print(f"[ROUTER] raw='{query}' | norm='{qn}' | ref={ref}")
    if ref:
        return "EXPLICIT_REF", {"ref": ref}
    return "GENERAL", {"query": query}

# =======================
# Generacja
# =======================
def _llm_generate(prompt_tmpl: PromptTemplate, **kwargs) -> str:
    text = prompt_tmpl.format(**kwargs)
    out = llm.invoke(text)
    return (out or "").strip()

def answer_from_docs(question: str, docs: List[Document], *, followup: bool):
    ctx = format_docs_for_prompt(docs) if docs else "(brak dokumentów)"
    p = prompt_followup if followup else prompt_base
    answer = _llm_generate(p, question=question, context=ctx)
    answer = trim_incomplete_sentences(strip_markdown_bold(answer)) or answer
    final_text = f"{_build_citations_block(docs)}\nOdpowiedź:\n{answer}"
    return _finalize_return(final_text, docs, mode=("follow_up" if followup else "new_query"))

# =======================
# Główna funkcja
# =======================
def ask(q: str, reset_memory: bool=False):
    if reset_memory:
        try:
            qa_chain.memory.clear()
        except Exception:
            pass
        reset_context()

    st = smalltalk_reply(q)
    if st is not None:
        return _finalize_return(st, [], mode="smalltalk")

    action, payload = route_query(q)
    if action == "EXPLICIT_REF":
        ref = payload["ref"]
        flt = {}
        if "article" in ref:   flt["article"]   = ref["article"]
        if "paragraph" in ref: flt["paragraph"] = ref["paragraph"]
        docs = db.similarity_search("treść przepisu", k=5, filter=flt)
        if DEBUG:
            print("[ROUTER] EXPLICIT_REF → filter", flt, "→ docs:", [ (d.metadata or {}).get("id") for d in docs ])
        if docs:
            _update_state_from_docs(docs, q)
            content = strip_markdown_bold(docs[0].page_content or "")
            content = trim_incomplete_sentences(content) or content
            final_text = f"{_build_citations_block(docs)}\nOdpowiedź (pełny przepis):\n{content}"
            return _finalize_return(final_text, docs, mode="explicit")
        else:
            return _finalize_return("Nie znalazłem takiego artykułu/ustępu.", [], mode="explicit")

    # ========= RĘCZNE DOPYTANIE =========
    global _FOLLOW_UP_NEXT
    if _FOLLOW_UP_NEXT:
        _FOLLOW_UP_NEXT = False  # zużyj flagę

        # spróbuj dociągnąć TOP-1 w obrębie ostatniego artykułu
        docs_narrow: List[Document] = []
        if STATE.last_article_num:
            flt = {"article": STATE.last_article_num}
            docs_tmp = db.similarity_search(q, k=K_SIM, filter=flt)
            if docs_tmp:
                pairs = [(q, d.page_content) for d in docs_tmp]
                scores = cross_encoder.predict(pairs, batch_size=32)
                scored = sorted([(d, float(s)) for d, s in zip(docs_tmp, np.asarray(scores))],
                                key=lambda x: x[1], reverse=True)[:1]
                docs_narrow = [d for d, _ in scored]

        # fallback: global TOP-1
        if not docs_narrow:
            top_global = retrieve_basic(q, k_sim=K_SIM, k_final=1, rerank_threshold=RERANK_THRESHOLD)
            docs_narrow = top_global[:1] if top_global else []

        # dołóż do stosu (deduplikacja po id)
        def _doc_id(d: Document) -> str:
            md = d.metadata or {}
            return md.get("id") or f"ch{md.get('chapter')}-art{md.get('article')}-ust{md.get('paragraph')}"
        seen = {_doc_id(d) for d in STATE.accum_docs}
        for d in docs_narrow:
            if _doc_id(d) not in seen:
                STATE.accum_docs.append(d)

        if docs_narrow:
            _update_state_from_docs(docs_narrow, q)

        context_docs = STATE.accum_docs if STATE.accum_docs else docs_narrow
        return answer_from_docs(q, context_docs, followup=True)

    # ========= NOWE PYTANIE =========
    res = qa_chain.invoke({"question": q})
    docs = res.get("source_documents", []) or []
    _update_state_from_docs(docs, q)

    # zaczynamy stos od TOP-1 (Twoja koncepcja)
    STATE.accum_docs = [docs[0]] if docs else []

    # odpowiedź z aktualnego stosu (czyli TOP-1 przy pierwszym pytaniu)
    return answer_from_docs(q, STATE.accum_docs if STATE.accum_docs else docs, followup=False)


  inverted_mask = torch.tensor(1.0, dtype=dtype) - expanded_mask
  memory = ConversationBufferWindowMemory(
Device set to use cuda:0


ONNX Cross Encoder załadowany na CPU!


  llm = HuggingFacePipeline(pipeline=hf_pipe)


In [7]:
print(ask("kto moze byc ubezpieczony w KRUS", reset_memory=True))

[ROUTER] raw='kto moze byc ubezpieczony w KRUS' | norm='kto moze byc ubezpieczony w krus' | ref=None
{'answer': 'Cytowane ustępy:\n- [ch1-art2-ust3] Rozdz.1 Art.2 Ust.3\n\nOdpowiedź:\nW KRUS mogą być ubezpieczeni rolnicy oraz ich domownicy, a także inne osoby pracujące w gospodarstwie rolnym, które spełniają określone warunki. Do ubezpieczenia w KRUS kwalifikują się m.in.:\n\n1. Rolnicy prowadzący działalność rolniczą na własny rachunek.\n2. Domownicy rolnika, czyli osoby bliskie rolnikowi, które stale pracują w gospodarstwie rolnym.\n3. Osoby, które zaprzestały prowadzenia działalności rolniczej, ale mają ustalone prawo do emerytury lub renty rolniczej.\n4. Inne osoby pracujące w gospodarstwie rolnym, jeśli nie podlegają ubezpieczeniu w ZUS (np. studenci, uczniowie).\n\nWażne jest, aby osoby te prowadziły wyłącznie działalność rolniczą lub były z nią związane, a ich gospodarstwo spełniało określone kryteria obszarowe. Ubezpieczenie w KRUS obejmuje zarówno ubezpieczenie emerytalno-rent

In [6]:
# =======================
# PROSTE CLI DO DOPYTAŃ
# =======================

def run_cli():
    reset_context() 

    while True:
        try:
            q = input("> ").strip()
            if not q:
                continue
            if q.lower() in ("q", "quit", "exit"):
                print("Bye!")
                break
            result = ask(q)
            text = result["answer"] if isinstance(result, dict) and "answer" in result else str(result)
            print("\n" + text + "\n")

            while True:
                dec = input("Czy chcesz dopytać? [t/n/q]: ").strip().lower()
                if dec in ("t", "tak", "y", "yes"):
                    want_follow_up()
                    print("(\n")
                    break  
                elif dec in ("n", "nie", "no"):
                    reset_context()
                    print("\n")
                    break
                elif dec in ("q", "quit", "exit"):
                    print("\n")
                    return
                else:
                    print("\n")
        except (KeyboardInterrupt, EOFError):
            print("\nBye!")
            break
if __name__ == "__main__":
    run_cli()



[ROUTER] raw='co to znaczy osoba niezdolna do samodzielnej egzystencji?' | norm='co to znaczy osoba niezdolna do samodzielnej egzystencji?' | ref=None

Cytowane ustępy:
- [ch2-art7-ust4] Rozdz.2 Art.7 Ust.4

Odpowiedź:
Osoba niezdolna do samodzielnej egzystencji to emeryt lub rencista, który posiada orzeczenie stwierdzające, że nie jest w stanie samodzielnie zaspokajać podstawowych potrzeb życiowych, takich jak jedzenie, ubieranie się, higiena osobista czy poruszanie się. Takie orzeczenie zwalnia tę osobę z obowiązku przestrzegania określonych przepisów, które mogłyby dotyczyć innych emerytów i rencistów. 

1. Orzeczenie o niezdolności do samodzielnej egzystencji.
2. Zwolnienie z przepisów ust. 2 i 3.
3. Podstawowe potrzeby życiowe.
4. Emeryci i renciści jako grupa objęta tym przepisem.
5. Brak obowiązku przestrzegania określonych regulacji.
6. Znaczenie orzeczenia w kontekście prawnym.
7. Ograniczenia w samodzielnym funkcjonowaniu.
8. Specyficzne wyłączenie z przepisów.

(Jeśli chcesz

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset



Cytowane ustępy:
- [ch2-art17-ust4] Rozdz.2 Art.17 Ust.4

Odpowiedź:
Warunki uzyskania emerytury rolniczej obejmują:
1. Wiek emerytalny – ukończenie 60 lat (kobiety) lub 65 lat (mężczyźni).
2. Okres ubezpieczenia – co najmniej 25 lat opłacania składek na ubezpieczenie emerytalno-rentowe.
3. Zaprzestanie prowadzenia działalności rolniczej – złożenie wniosku o emeryturę i zaprzestanie aktywnej działalności rolniczej.
4. Wielkość gospodarstwa – nie ma bezpośredniego wpływu na prawo do emerytury, ale wpływa na wysokość składek.

Dodatkowe informacje:
- Wysokość składki zależy od wielkości gospodarstwa (patrz art. 17 ust. 4).
- Emerytura rolnicza może być przyznana wcześniej w określonych przypadkach (np. niezdolność do pracy).

(Jeśli chcesz dopytać, kliknij „Chciałbym dopytać”, a dodam kolejny ustęp do kontekstu.)



[ROUTER] raw='co można ubezpieczyć w krus?' | norm='co mozna ubezpieczyc w krus?' | ref=None

Cytowane ustępy:
- [ch1-art5c-ust1] Rozdz.1 Art.5c Ust.1

Odpowiedź:
W KRUS moż

# GRADIO

In [30]:
import gradio as gr
import time
import re

# Globalna zmienna do przechowania pytania
current_question = ""

def fast_answer(reset_memory, history):
    global current_question
    
    print(f"DEBUG: Przetwarzam pytanie: '{current_question}'")
    
    if not current_question or not current_question.strip():
        return history, "💭 Oczekuję na pytanie prawnicze...", '<div class="time-display">-</div>'

    # Pokaż loading state
    loading_history = history + [(current_question, "🔍 Analizuję przepisy prawne...")]
    
    start = time.time()
    print(f"DEBUG: Start czasu: {start}")

    try:
        # Wywołaj funkcję ask - tu jest właściwy czas przetwarzania
        result = ask(current_question, reset_memory=reset_memory)
        ask_time = time.time()
        print(f"DEBUG: ask() zakończone po {ask_time - start:.2f}s")
        
        if isinstance(result, dict):
            answer = result.get("answer", str(result))
        else:
            answer = str(result)
        
        print(f"DEBUG: Długość odpowiedzi: {len(answer)} znaków")
        
        # Formatowanie odpowiedzi
        formatted_answer = answer
        if 'Cytowane ustępy:' in formatted_answer:
            formatted_answer = formatted_answer.replace('Cytowane ustępy:', '📖 **Podstawa prawna:**')
            formatted_answer = formatted_answer.replace('- [', '  📋 **[')
            formatted_answer = formatted_answer.replace('] Rozdz.', ']** Rozdział ')
            formatted_answer = formatted_answer.replace(' Art.', ' • Artykuł ')
            formatted_answer = formatted_answer.replace(' Ust.', ' • Ustęp ')
        
        if 'Odpowiedź:' in formatted_answer:
            formatted_answer = formatted_answer.replace('Odpowiedź:', '\n💬 **Interpretacja prawna:**')
        
        # Wyróżnij kluczowe elementy prawne
        formatted_answer = re.sub(r'\bart\.\s*(\d+)', r'**art. \1**', formatted_answer, flags=re.IGNORECASE)
        formatted_answer = re.sub(r'\bust\.\s*(\d+)', r'**ust. \1**', formatted_answer, flags=re.IGNORECASE)
        
        # Sprawdź czy końcówka nie została ucięta
        if "*Mogę popełniać błędy" not in formatted_answer and "skonsultuj się z" not in formatted_answer:
            formatted_answer += "\n\n*Mogę popełniać błędy, skonsultuj się z placówką KRUS w celu potwierdzenia informacji.*"
        
        format_time = time.time()
        print(f"DEBUG: Formatowanie zakończone po {format_time - ask_time:.2f}s")

        # Oblicz całkowity czas
        end_time = time.time()
        total_time = end_time - start
        print(f"DEBUG: Całkowity czas: {total_time:.2f}s")
        
        # Zwróć finalną odpowiedź
        final_history = history + [(current_question, formatted_answer)]
        final_status = "✅ Analiza prawna zakończona!"
        time_display = f'<div class="time-display success">{total_time:.2f}s</div>'
        
        return final_history, final_status, time_display
        
    except Exception as e:
        print(f"ERROR: {e}")
        import traceback
        print(traceback.format_exc())
        
        error_msg = f"❌ **Błąd analizy prawnej:** {str(e)}\n\nSpróbuj przeformułować pytanie."
        error_history = history + [(current_question, error_msg)]
        error_status = "❌ Wystąpił błąd podczas analizy"
        error_time = '<div class="time-display error">❌</div>'
        
        return error_history, error_status, error_time

# Minimalistyczny jasny theme - identyczny jak poprzednio
with gr.Blocks(
    theme=gr.themes.Soft(
        primary_hue=gr.themes.colors.blue,
        secondary_hue=gr.themes.colors.gray,
        neutral_hue=gr.themes.colors.gray,
        font=gr.themes.GoogleFont("Inter")
    ).set(
        background_fill_primary="#ffffff",
        background_fill_secondary="#f8fafc",
        border_color_primary="#e2e8f0",
        button_primary_background_fill="linear-gradient(90deg, #3b82f6, #2563eb)",
        button_primary_background_fill_hover="linear-gradient(90deg, #2563eb, #1d4ed8)",
        button_secondary_background_fill="#f1f5f9",
        button_secondary_background_fill_hover="#e2e8f0",
        button_secondary_text_color="#475569",
        input_background_fill="#ffffff",
        input_border_color="#cbd5e1"
    ),
    css="""
    .gradio-container { 
        max-width: 1400px !important; 
        font-family: 'Inter', -apple-system, BlinkMacSystemFont, sans-serif;
    }
    
    /* Minimalistyczny header */
    .header {
        background: linear-gradient(135deg, #f8fafc 0%, #e2e8f0 100%);
        border-radius: 12px;
        padding: 32px;
        margin-bottom: 24px;
        border: 1px solid #cbd5e1;
        text-align: center;
    }
    
    /* Status panel */
    .status-panel { 
        background: #f1f5f9;
        color: #475569;
        padding: 12px 16px;
        border-radius: 8px;
        text-align: center;
        font-weight: 500;
        margin: 8px 0;
        border: 1px solid #e2e8f0;
        font-size: 14px;
    }
    
    /* Time display - wyróżniony */
    .time-display {
        background: #ffffff;
        border: 2px solid #e2e8f0;
        border-radius: 12px;
        padding: 20px;
        text-align: center;
        margin: 12px 0;
        font-size: 32px;
        font-weight: 700;
        color: #64748b;
        min-height: 85px;
        display: flex;
        align-items: center;
        justify-content: center;
        transition: all 0.3s ease;
        font-family: 'Inter', monospace;
    }
    
    .time-display.processing {
        border-color: #f59e0b;
        color: #d97706;
        background: #fffbeb;
        animation: pulse 2s infinite;
    }
    
    .time-display.success {
        border-color: #10b981;
        color: #059669;
        background: #f0fdf4;
    }
    
    .time-display.error {
        border-color: #ef4444;
        color: #dc2626;
        background: #fef2f2;
    }
    
    @keyframes pulse {
        0%, 100% { opacity: 1; }
        50% { opacity: 0.7; }
    }
    
    /* Example buttons */
    .example-btn { 
        margin: 3px;
        border-radius: 8px;
        transition: all 0.2s ease;
        background: #ffffff;
        border: 1px solid #e2e8f0;
        color: #475569;
        font-size: 13px;
        padding: 8px 12px;
    }
    
    .example-btn:hover { 
        background: #f8fafc;
        border-color: #3b82f6;
        color: #1e40af;
        transform: translateY(-1px);
        box-shadow: 0 4px 12px rgba(59, 130, 246, 0.15);
    }
    
    /* Tech panel */
    .tech-panel {
        background: #f8fafc;
        border: 1px solid #e2e8f0;
        border-radius: 12px;
        padding: 20px;
        margin: 20px 0;
    }
    
    /* Performance panel */
    .perf-panel {
        background: #f0fdf4;
        border: 1px solid #bbf7d0;
        border-radius: 12px;
        padding: 16px;
        margin: 16px 0;
    }
    
    /* Category headers */
    .category-header {
        color: #475569;
        font-weight: 600;
        margin: 20px 0 12px 0;
        font-size: 15px;
        padding-bottom: 6px;
        border-bottom: 2px solid #e2e8f0;
    }
    
    /* Footer */
    .footer {
        background: #f8fafc;
        border-radius: 12px;
        border: 1px solid #e2e8f0;
        padding: 20px;
        margin-top: 32px;
        text-align: center;
    }
    """,
    title="Chatbot Prawniczy KRUS"
) as demo:
    
    # Header
    gr.HTML("""
    <div class="header">
        <h1 style="margin: 0; font-size: 2.4em; font-weight: 600; color: #1e40af;">
            ⚖️ Chatbot Prawniczy KRUS
        </h1>
        <p style="margin: 12px 0 0 0; font-size: 1.1em; color: #64748b; font-weight: 400;">
            System Analizy Prawnej
        </p>
    </div>
    """)
    
    with gr.Row():
        # Kolumna główna - Chat
        with gr.Column(scale=3):
            chatbot = gr.Chatbot(
                label="💬 Konsultacja prawnicza",
                height=520,
                bubble_full_width=False,
                show_copy_button=True
            )
            
            status_display = gr.HTML(
                value='<div class="status-panel">💭 System gotowy do analizy prawnej</div>'
            )
            
            with gr.Row():
                user_input = gr.Textbox(
                    label="Pytanie prawnicze",
                    placeholder="Np: Jak oblicza się wysokość emerytury rolniczej?",
                    lines=2,
                    scale=4
                )
                send_btn = gr.Button("🚀 Analizuj", variant="primary", size="lg", scale=1)
            
            with gr.Row():
                reset_memory = gr.Checkbox(
                    label="🔄 Reset kontekstu", 
                    value=False,
                    info="Wyczyść pamięć poprzednich pytań"
                )
                clear_btn = gr.Button("🗑️ Nowa sesja", variant="secondary")
        
        # Kolumna boczna
        with gr.Column(scale=2):
            gr.HTML('<h3 style="margin: 20px 0 15px 0; color: #475569; font-weight: 600;">⚡ Czas odpowiedzi</h3>')
            
            response_time_display = gr.HTML('<div class="time-display">Oczekiwanie...</div>')
            
            # Przykładowe pytania
            gr.HTML('<h3 style="margin: 32px 0 20px 0; color: #475569; font-weight: 600;">💡 Przykłady</h3>')
            
            gr.HTML('<h4 class="category-header">🏛️ Emerytury</h4>')
            emerytura_examples = [
                "Warunki nabycia prawa do emerytury rolniczej",
                "Wymagania wiekowe dla emerytury", 
                "Obliczanie wysokości emerytury"
            ]
            
            for example in emerytura_examples:
                btn = gr.Button(f"📋 {example}", variant="secondary", size="sm", elem_classes=["example-btn"])
                btn.click(fn=lambda q=example: q, outputs=user_input)
            
            gr.HTML('<h4 class="category-header">🛡️ Ubezpieczenia</h4>')
            ubezpieczenia_examples = [
                "Kto podlega ubezpieczeniu w KRUS?",
                "Składki na ubezpieczenie rolników",
                "Definicja gospodarstwa rolnego"
            ]
            
            for example in ubezpieczenia_examples:
                btn = gr.Button(f"📋 {example}", variant="secondary", size="sm", elem_classes=["example-btn"])
                btn.click(fn=lambda q=example: q, outputs=user_input)
            
            gr.HTML('<h4 class="category-header">💰 Świadczenia</h4>')
            swiadczenia_examples = [
                "Prawo do renty rodzinnej",
                "Dokumenty przy wniosku o świadczenia", 
                "Okres wypłaty zasiłku macierzyńskiego"
            ]
            
            for example in swiadczenia_examples:
                btn = gr.Button(f"📋 {example}", variant="secondary", size="sm", elem_classes=["example-btn"])
                btn.click(fn=lambda q=example: q, outputs=user_input)
            
            # Panel techniczny
            gr.HTML("""
            <div class="tech-panel">
                <h3 style="margin: 0 0 12px 0; color: #374151; font-weight: 600; font-size: 16px;">🔧 Optymalizacja</h3>
                <div style="font-size: 12px; line-height: 1.6; color: #64748b;">
                    <strong>Tryb:</strong><br>
                    <strong>Overhead:</strong> Zminimalizowany<br>
                    <strong>Czas:</strong> ask() + ~1-2s Gradio<br>
                    <strong>Queue:</strong> Wyłączona<br>
                    <strong>Network:</strong> 1 request zamiast 100+
                </div>
            </div>
            """)
            
            # Wskaźniki
            gr.HTML("""
            <div class="perf-panel">
                <h4 style="color: #065f46; margin: 0 0 8px 0; font-weight: 600; font-size: 14px;">📈 Wydajność</h4>
                <div style="font-size: 11px; color: #059669; line-height: 1.5;">
                    <strong>Czas:</strong> ~20-25s (vs 90s ze streamowaniem)<br>
                    <strong>Requests:</strong> 1 (vs 100+)<br>
                    <strong>CPU:</strong> Minimalne obciążenie
                </div>
            </div>
            """)
    
    # Funkcje obsługi - BEZ KOLEJKI I GENERATORÓW
    def save_question_and_clear(msg, history):
        global current_question
        current_question = msg.strip()
        print(f"DEBUG: Zapisano pytanie: '{current_question}'")
        return history, ""

    def clear_chat():
        global current_question
        current_question = ""
        return [], "💭 System zresetowany", '<div class="time-display">-</div>'
    
    # Event binding - WSZYSTKO BEZ QUEUE
    send_btn.click(
        fn=save_question_and_clear,
        inputs=[user_input, chatbot],
        outputs=[chatbot, user_input],
        queue=False
    ).then(
        fn=fast_answer,  # Funkcja bez generatora!
        inputs=[reset_memory, chatbot],
        outputs=[chatbot, status_display, response_time_display],
        queue=False  # Kluczowe - bez kolejki
    )
    
    user_input.submit(
        fn=save_question_and_clear,
        inputs=[user_input, chatbot],
        outputs=[chatbot, user_input],
        queue=False
    ).then(
        fn=fast_answer,
        inputs=[reset_memory, chatbot],
        outputs=[chatbot, status_display, response_time_display],
        queue=False
    )
    
    clear_btn.click(
        fn=clear_chat,
        outputs=[chatbot, status_display, response_time_display],
        queue=False
    )
    
    # Footer
    gr.HTML("""
    <div class="footer">
        <p style="margin: 0 0 8px 0; font-weight: 600; color: #374151;">
            ⚖️ Chatbot Prawniczy KRUS v2.0 - Fast Mode
        </p>
        <p style="font-size: 11px; color: #64748b; margin: 0; line-height: 1.4;">
            Bez streamowania = prawdziwy czas odpowiedzi. System służy celom informacyjnym.
        </p>
    </div>
    """)

# Uruchomienie BEZ KOLEJKI
if __name__ == "__main__":
    print("⚖️ CHATBOT PRAWNICZY KRUS - FAST MODE")
    print("="*50)
    print("")
    print("")
    print("📊 Czas = ask() + ~1-2s (zamiast +70s)")
    print("🚀 Uruchamiam na porcie 7882...")
    
    # BEZ demo.queue() - to było główne źródło opóźnień
    demo.launch(
        server_name="0.0.0.0",
        server_port=7890,
        share=True,
        show_error=True,
        inbrowser=True
    )

  chatbot = gr.Chatbot(
  chatbot = gr.Chatbot(


⚖️ CHATBOT PRAWNICZY KRUS - FAST MODE


📊 Czas = ask() + ~1-2s (zamiast +70s)
🚀 Uruchamiam na porcie 7882...
* Running on local URL:  http://0.0.0.0:7890
* Running on public URL: https://2610e3311768f1f754.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


DEBUG: Zapisano pytanie: 'co to znaczy niezdolność do samodzielnej egzystencji?'
DEBUG: Przetwarzam pytanie: 'co to znaczy niezdolność do samodzielnej egzystencji?'
DEBUG: Start czasu: 1757415838.4218018
[ROUTER] raw='co to znaczy niezdolność do samodzielnej egzystencji?' | norm='co to znaczy niezdolnosc do samodzielnej egzystencji?' | ref=None
[CTX-JUDGE] dist={'NIE': 0.5041980147361755, 'TAK': 0.4958019554615021} margin=0.01
[INTENT] judge_verdict=None conf=0.50
DEBUG rerank scores
(brak dokumentów)

ODPOWIEDŹ
 Cytowane ustępy:
(brak)

Odpowiedź:
Niezdolność do samodzielnej egzystencji to stan, w którym osoba wymaga stałej lub długotrwałej opieki i pomocy innych w zaspokajaniu podstawowych potrzeb życiowych. Obejmuje to m.in. zdolność do samodzielnego poruszania się, przygotowywania posiłków, dbania o higienę osobistą oraz załatwiania spraw urzędowych. W kontekście ubezpieczeń społecznych rolników, orzeczenie o niezdolności do samodzielnej egzystencji może wpływać na wysokość świadcz