<span style="color:#8B949E;">
<b>Note de lecture</b> ‚Äî Notebook issu de tests it√©ratifs (‚Äúspeed-tests‚Äù).  
Le corpus utilis√© ici est un <b>dataset de substitution</b> (non align√© client) uniquement pour valider la m√©canique (retrieval + √©valuation) et d√©rouler la roadmap.  
Pour le chemin complet, suivre l‚Äôordre 01 ‚Üí 10 et lire en priorit√© les sections Markdown.
</span>


# üß™ Script 10 ‚Äî Benchmark Hybride sur corpus chunk√© (JSONL)  
### BM25 ‚Ä¢ Dense ‚Ä¢ Hybride **RRF** (BM25 + Dense)

## üß≠ Pourquoi ce stage (progression logique)
Apr√®s :
- **Stage 8** : construction d‚Äôun corpus **chunk√©** (XML ‚Üí JSONL) pour obtenir une granularit√© exploitable,
- **Stage 9** : benchmark BM25 **sur chunks** (baseline plus r√©aliste que sur documents entiers),

‚û°Ô∏è ce **Stage 10** vise √† comparer, sur **exactement le m√™me corpus chunk√©** et le m√™me benchmark :

- üßæ **BM25** (lexical)
- üß† **Dense retrieval** (embeddings)
- üß© **Hybride via RRF** : fusion de deux classements ind√©pendants (**BM25 rank** + **Dense rank**) via *Reciprocal Rank Fusion*

üéØ Objectif : **mesurer l‚Äôapport r√©el de l‚Äôhybride**, tout en gardant une logique ‚Äúaudit-ready‚Äù :
- le retrieval **bench√©** est le m√™me que celui affich√© en **verbatim** (top-k),
- l‚Äôoracle de pertinence **V2** (article-aware via `meta.num`) est utilis√© de mani√®re coh√©rente.

---

## ‚úÖ Ce que ce notebook contient
- ‚öôÔ∏è Un bloc ‚Äúsetup notebook‚Äù (install + `sys.path`) pour √©viter les erreurs en Jupyter
- üßæ Le **code original** du script (non r√©√©crit ; seulement encapsul√© en cellule)
- üßæ Une cellule Markdown s√©par√©e avec la **conclusion / bilan** (d√©tach√©e de la fin de script)

> üìå Note : le script utilise des chemins Windows par d√©faut (Spyder).  
> Dans un notebook, on peut soit :
> - lancer `main()` tel quel **apr√®s avoir ajust√©** les arguments/chemins,
> - ou ex√©cuter le script en ligne de commande avec `--corpus-jsonl`, `--cache-dir`, etc.


In [1]:
# üß± D√©pendances (√† ex√©cuter une seule fois par environnement)
# Si tu es d√©j√† dans un venv o√π tout est install√©, tu peux sauter cette cellule.

%pip -q install rank-bm25 sentence-transformers numpy


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
# üîß Import de modules locaux (si le notebook n'est pas √† la racine du projet)
from pathlib import Path
import sys

PROJECT_ROOT = Path.cwd()  # ajuste en .parent si besoin (ex: notebook dans /notebooks)
sys.path.insert(0, str(PROJECT_ROOT))

print("PROJECT_ROOT:", PROJECT_ROOT)


PROJECT_ROOT: d:\-- Projet RAG Avocats --\codes_python\notebooks


## ‚ñ∂Ô∏è Ex√©cution (2 options)

### Option A ‚Äî ex√©cuter `main()` dans le notebook
Dans le code, `main()` force quelques param√®tres ‚ÄúIDE-friendly‚Äù (verbatim, query understanding, filtres).  
Tu peux donc simplement ex√©cuter la cellule du script, puis appeler :

```python
main()
```

‚ö†Ô∏è Pense √† **adapter** les chemins par d√©faut dans `parse_args()` si ton JSONL/cache ne sont pas au m√™me endroit.

### Option B ‚Äî ex√©cuter en ligne de commande (reproductible)
Exemple (√† adapter) :

```bash
python 10_benchmark_hybride_rrf_bm25_dense_chunks.py --retriever hybrid --k 10 --doc-types article --collection-contains LEGITEXT000006072050
```


In [4]:
# -*- coding: utf-8 -*-
"""
SCRIPT 10 ‚Äî BENCHMARK RETRIEVAL SUR CORPUS CHUNK√â (JSONL) :
BM25, Dense, et Hybride BM25 + Dense via RRF (Reciprocal Rank Fusion)

But du script
-------------
Ce script bench un moteur de retrieval sur un corpus juridique d√©j√† chunk√© (format JSONL).
Il compare trois strat√©gies :
- BM25 (lexical) sur texte chunk√©,
- Dense retrieval (embeddings Sentence-Transformers) sur tous les chunks,
- Hybride RRF : fusion de deux rankings (BM25 et Dense) via Reciprocal Rank Fusion.

Le script a √©t√© stabilis√© pour que :
- le retrieval √©valu√© (benchmark) soit exactement le m√™me que celui affich√© en mode verbatim,
- l‚Äôoracle de pertinence V2 soit utilis√© de mani√®re coh√©rente (article-aware).

Corpus & filtrage
-----------------
Le corpus est charg√© depuis un JSONL (1 ligne = 1 chunk).
Un filtrage optionnel r√©duit le corpus √† une sous-collection et √† des types de documents (doc_type),
par ex. sur le Code du travail :
- collection_contains="LEGITEXT000006072050"
- doc_types=["article"]

Dense embeddings & cache
------------------------
Les embeddings sont calcul√©s (ou recharg√©s) avec SentenceTransformer
(ex: "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2").
Un cache .npy est utilis√©, avec une cl√© qui inclut les param√®tres qui impactent le corpus filtr√©
(chemin corpus, mod√®le, doc_types, title_contains, collection_contains, limit).
Une v√©rification bloque l‚Äôex√©cution si le cache ne correspond pas au nombre de chunks filtr√©s
(anti-d√©salignement).

Hybride RRF
-----------
L‚Äôhybride ne fait pas un simple ‚ÄúBM25 shortlist -> rerank dense‚Äù.
Il produit deux rankings ind√©pendants :
- ranking BM25 (sur tokens normalis√©s + stopwords FR),
- ranking Dense (cosine similarity via embeddings normalis√©s),
puis les fusionne via RRF :
score(doc) = Œ£ 1 / (rrf_k + rank_i(doc))
Le top-k final provient du ranking fusionn√©.

√âvaluation (oracle V2)
----------------------
Le benchmark utilise un oracle V2 ‚Äúarticle-aware‚Äù (via benchmark_queries_v2) :
- si meta.num est pr√©sent et qu‚Äôon a des pr√©fixes attendus, un chunk est pertinent
  uniquement si meta.num commence par un des pr√©fixes ;
- le fallback mots-cl√©s n‚Äôest utilis√© que si meta.num est absent (ou si aucun pr√©fixe n‚Äôest d√©fini).
Un fallback V1 (keywords via metrics.py) reste possible uniquement si V2 n‚Äôest pas importable.

Sorties
-------
- M√©triques : Recall@k, MRR, nDCG@k (pertinence binaire, compatible POC).
- Mode verbatim : affiche le top-k par requ√™te avec doc_id, meta.num et le flag PERTINENT/NON PERTINENT
  pour audit qualitatif du pipeline r√©ellement bench√©.

Constat sur le dernier test (r√©f√©rence)
---------------------------------------
Avec filtrage Code du travail + doc_types=article (~386 chunks), en hybride RRF :
- la query "licenciement pour motif √©conomique" est correctement retrouv√©e (L1233-3),
- les queries "CDI rompu sans pr√©avis" et "contester un licenciement" ne retombent pas dans les pr√©fixes attendus,
d‚Äôo√π un plateau de m√©triques √† 0.333 sur un benchmark de 3 questions.
Ce r√©sultat refl√®te le comportement r√©el du retrieval (plus un artefact de scoring/verbatim).

R√©f√©rence fichiers : script test√© et log du dernier run = resultats_script_10_dernier_test.txt 
"""


import argparse
import hashlib
import json
import os
import re
from typing import Any, Dict, List, Optional, Sequence, Tuple
import unicodedata  # Normalisation simple (accents) pour une tokenisation BM25 plus stable

import numpy as np
from rank_bm25 import BM25Okapi
from sentence_transformers import SentenceTransformer

from query_understanding import load_juridical_dictionary, process_user_query
import math  # Utilis√© pour nDCG (log2)

# On garde metrics.py uniquement comme fallback (oracle keywords) si jamais V2 n‚Äôest pas dispo
import metrics as kw_metrics  # recall_at_k / reciprocal_rank / ndcg_at_k bas√©s sur mots-cl√©s

# ---------------------------------------------------------------------
# Benchmark queries (V2 oracle meta.num) avec fallback
# ---------------------------------------------------------------------
try:
    # Cas recommand√© : benchmark_queries_v2.py expose une fonction de g√©n√©ration
    from benchmark_queries_v2 import get_benchmark_queries_v2  # type: ignore

    BENCHMARK_QUERIES = get_benchmark_queries_v2()  # Liste d‚Äôobjets ou de dicts selon mon impl√©mentation
    USING_V2 = True  # Flag utilis√© dans l‚Äô√©valuation + verbatim

except Exception:
    try:
        # Cas simple : benchmark_queries_v2.py expose directement une liste (ex: benchmark_queries_v2 = [...])
        from benchmark_queries_v2 import benchmark_queries_v2  # type: ignore

        BENCHMARK_QUERIES = benchmark_queries_v2  # Alias unique utilis√© partout
        USING_V2 = True  # Flag utilis√© dans l‚Äô√©valuation + verbatim

    except Exception:
        # Fallback ultime : ancien benchmark keywords (si tu veux garder une compatibilit√©)
        from benchmark_queries import get_benchmark_queries  # type: ignore

        BENCHMARK_QUERIES = get_benchmark_queries()  # Liste de dicts (question + relevant_keywords)
        USING_V2 = False  # On reste sur oracle keywords



# ---------------------------------------------------------------------
# 1) IO ‚Äî Chargement JSONL
# ---------------------------------------------------------------------

def load_chunks_jsonl(jsonl_path: str, limit: Optional[int] = None) -> List[Dict[str, Any]]:
    """Charge un JSONL (1 ligne = 1 chunk dict)."""
    if not os.path.exists(jsonl_path):
        raise FileNotFoundError(f"Fichier introuvable: {jsonl_path}")

    chunks: List[Dict[str, Any]] = []
    with open(jsonl_path, "r", encoding="utf-8") as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            try:
                obj = json.loads(line)
            except json.JSONDecodeError:
                continue
            if "doc_id" not in obj or "text" not in obj:
                continue
            chunks.append(obj)
            if limit is not None and len(chunks) >= limit:
                break
    return chunks


# ---------------------------------------------------------------------
# 2) Filtrage m√©tier (optionnel)
# ---------------------------------------------------------------------

def chunk_matches_title(chunk: Dict[str, Any], needle: str) -> bool:
    """Match sur meta.titre (sinon fallback doc_id)."""
    needle_low = (needle or "").lower().strip()
    if not needle_low:
        return True
    meta = chunk.get("meta") or {}
    titre = (meta.get("titre") or "").lower()
    doc_id = (chunk.get("doc_id") or "").lower()
    return (needle_low in titre) or (needle_low in doc_id)


def filter_chunks(
    chunks: Sequence[Dict[str, Any]],
    allowed_doc_types: Optional[Sequence[str]] = None,
    title_contains: Optional[str] = None,
    collection_contains: Optional[str] = None,
) -> List[Dict[str, Any]]:
    """Filtre par doc_type + sous-cha√Æne dans titre/doc_id + sous-cha√Æne de collection dans doc_id."""
    allowed = None if allowed_doc_types is None else {t.lower().strip() for t in allowed_doc_types}  # Normalise la whitelist
    needle_collection = (collection_contains or "").lower().strip() or None  # Normalise le filtre ‚Äúcollection‚Äù
    out: List[Dict[str, Any]] = []

    for c in chunks:
        if allowed is not None:
            dt = (c.get("doc_type") or "").lower()  # Normalise doc_type
            if dt not in allowed:  # Filtre doc_type
                continue

        if title_contains:
            if not chunk_matches_title(c, title_contains):  # Filtre m√©tier existant
                continue

        if needle_collection:
            doc_id = (c.get("doc_id") or "").lower()  # Fallback simple et stable car doc_id est toujours pr√©sent
            if needle_collection not in doc_id:  # Filtre ‚Äúcollection‚Äù par chemin
                continue

        out.append(c)

    return out



# ---------------------------------------------------------------------
# 3) BM25 ‚Äî pour mode hybride (shortlist)
# ---------------------------------------------------------------------

# ---------------------------------------------------------------------
# Stopwords FR (liste volontairement courte et stable pour un POC)
# ---------------------------------------------------------------------

STOPWORDS_FR = {
    # Articles / d√©terminants
    "le", "la", "les", "un", "une", "des", "du", "de", "d", "au", "aux", "ce", "cet", "cette", "ces",
    # Pronoms / relatifs
    "je", "tu", "il", "elle", "on", "nous", "vous", "ils", "elles", "qui", "que", "quoi", "dont", "o√π",
    # Pr√©positions / conjonctions courantes
    "a", "√†", "en", "dans", "sur", "sous", "chez", "par", "pour", "avec", "sans", "entre", "vers",
    "et", "ou", "mais", "donc", "or", "ni", "car",
    # Verbes tr√®s fr√©quents (bruit pour BM25)
    "est", "sont", "etre", "√™tre", "avoir", "peut", "peuvent", "doit", "doivent",
    # Question / formulation (bruit)
    "qu", "que", "quels", "quelles", "quel", "quelle", "quand", "comment", "pourquoi",
    "cas", "faire", "fait", "faits", "afin",
    # Divers
    "plus", "moins", "tres", "tr√®s", "tout", "toute", "tous", "toutes",
}


def normalize_for_bm25(text: str) -> str:
    """
    Normalise un texte pour BM25 :
    - minuscule
    - suppression des accents (√©quilibre pratique/robustesse en POC)
    - uniformisation d‚Äôapostrophes/espaces
    """
    text = (text or "").lower()  # Uniformise la casse pour √©viter des doublons lexicaux
    text = text.replace("‚Äô", "'")  # Uniformise apostrophes typographiques (fr√©quentes en juridique)
    text = unicodedata.normalize("NFKD", text)  # D√©compose lettres+accents pour pouvoir retirer les accents
    text = "".join(ch for ch in text if not unicodedata.combining(ch))  # Retire les diacritiques (accents)
    text = re.sub(r"\s+", " ", text).strip()  # Compacte les espaces (plus stable pour regex)
    return text


def tokenize(text: str) -> List[str]:
    """
    Tokenisation BM25 robuste :
    - normalisation (accents, casse)
    - extraction de tokens alphanum√©riques
    - filtrage stopwords
    - filtrage tokens trop courts (r√©duit fortement les faux positifs)
    """
    normalized = normalize_for_bm25(text)  # Normalise texte (m√™mes r√®gles pour requ√™te et corpus)
    raw_tokens = re.findall(r"\b\w+\b", normalized)  # Extrait tokens ‚Äúmots‚Äù (simple et debug-friendly)
    tokens: List[str] = []
    for tok in raw_tokens:
        if len(tok) < 3:  # Ignore ‚Äúa‚Äù, ‚Äúde‚Äù, ‚Äúdu‚Äù‚Ä¶ et autres tokens courts tr√®s bruit√©s
            continue
        if tok.isdigit():  # √âvite de surpond√©rer des num√©ros isol√©s (souvent du bruit)
            continue
        if tok in STOPWORDS_FR:  # Retire stopwords (√©vite shortlist pollu√©e par ‚Äúcas‚Äù, ‚Äúsans‚Äù, etc.)
            continue
        tokens.append(tok)
    return tokens



def build_bm25_index(documents: Sequence[Dict[str, Any]]) -> BM25Okapi:
    """Construit un index BM25 sur documents[i]['text']."""
    return BM25Okapi([tokenize(d["text"]) for d in documents])


def bm25_search(
    query: str,
    documents: Sequence[Dict[str, Any]],
    bm25: BM25Okapi,
    top_k: int
) -> List[Tuple[int, float]]:
    """
    Retourne une liste (doc_index, score) BM25 tri√©e, sur top_k.
    On retourne des index pour pouvoir reranker dense proprement.
    """
    scores = bm25.get_scores(tokenize(query))
    ranked = sorted(enumerate(scores), key=lambda x: x[1], reverse=True)
    return ranked[:top_k]

def hybrid_rrf_search(
    query: str,
    documents: Sequence[Dict[str, Any]],
    bm25: BM25Okapi,
    model: SentenceTransformer,
    doc_emb: np.ndarray,
    top_k: int,
    shortlist_k: int = 200,
    rrf_k: int = 60,
) -> List[Tuple[Dict[str, Any], float]]:
    """
    Fusion BM25 + Dense via RRF (Reciprocal Rank Fusion).
    Objectif : √©viter que le dense 'casse' BM25, tout en ajoutant du signal s√©mantique.
    """
    # Top indices BM25 (shortlist)
    bm25_top = bm25_search(query, documents, bm25, top_k=shortlist_k)  # [(idx, score), ...]
    bm25_idx = [i for i, _ in bm25_top]  # On ne garde que les rangs (plus stable que les scores bruts)

    # Top indices Dense (shortlist)
    q_emb = model.encode([query], normalize_embeddings=True).astype(np.float32)[0]  # Embedding requ√™te normalis√©
    dense_scores = doc_emb @ q_emb  # Similarit√©s cosinus (dot product sur vecteurs normalis√©s)
    dense_idx = np.argsort(-dense_scores)[:shortlist_k].tolist()  # Rang dense

    # Fusion RRF sur indices
    fused: Dict[int, float] = {}  # idx_doc -> score_rff

    for rank, idx in enumerate(bm25_idx, start=1):
        fused[idx] = fused.get(idx, 0.0) + 1.0 / (rrf_k + rank)  # Contribution BM25 par rang

    for rank, idx in enumerate(dense_idx, start=1):
        fused[idx] = fused.get(idx, 0.0) + 1.0 / (rrf_k + rank)  # Contribution Dense par rang

    # Tri final
    best = sorted(fused.items(), key=lambda x: x[1], reverse=True)[:top_k]  # Top-k fusionn√©s
    return [(documents[idx], float(score)) for idx, score in best]  # Retour (doc, score)




# ---------------------------------------------------------------------
# 4) Dense ‚Äî embeddings + search (avec cache)
# ---------------------------------------------------------------------

def _cache_key(*parts: str) -> str:
    """Fabrique une cl√© stable pour le cache embeddings."""
    h = hashlib.md5()
    for p in parts:
        h.update(p.encode("utf-8"))
    return h.hexdigest()


def build_dense_embeddings(
    documents: Sequence[Dict[str, Any]],
    model_name: str,
    cache_dir: str,
    cache_tag: str,
) -> Tuple[SentenceTransformer, np.ndarray]:
    """
    Construit (ou recharge) la matrice d'embeddings des chunks.
    - Normalisation activ√©e => cos-sim = produit scalaire.
    """
    os.makedirs(cache_dir, exist_ok=True)
    cache_path = os.path.join(cache_dir, f"dense_emb_{cache_tag}.npy")

    model = SentenceTransformer(model_name)

    if os.path.exists(cache_path):
        emb = np.load(cache_path)
        # S√©curit√© : si le cache ne correspond pas au corpus courant, on le reconstruit
        if emb.shape[0] != len(documents):  # Nombre de vecteurs != nombre de chunks filtr√©s
            # On reconstruit pour √©viter de reranker sur des embeddings d‚Äôun autre corpus
            os.remove(cache_path)  # Supprime le cache incoh√©rent pour forcer un rebuild propre
            emb = model.encode(
                [d.get("text", "") for d in documents],     # Embeddings calcul√©s exactement sur docs filtr√©s
                batch_size=64,                              # Batch raisonnable pour CPU
                show_progress_bar=True,                     # Progress bar utile en POC
                normalize_embeddings=True                   # Normalisation => cos-sim = dot product
            ).astype(np.float32)                            # float32 pour perf/m√©moire
            np.save(cache_path, emb)                        # Sauvegarde du nouveau cache coh√©rent
            return model, emb                               # Retourne mod√®le + embeddings align√©s



    texts = [d.get("text", "") for d in documents]
    emb = model.encode(
        texts,
        batch_size=64,
        show_progress_bar=True,
        normalize_embeddings=True
    ).astype(np.float32)

    np.save(cache_path, emb)
    return model, emb


def dense_search_all(
    query: str,
    documents: Sequence[Dict[str, Any]],
    model: SentenceTransformer,
    doc_emb: np.ndarray,
    top_k: int
) -> List[Tuple[Dict[str, Any], float]]:
    """Dense search sur tous les documents (cosine similarity)."""
    q_emb = model.encode([query], normalize_embeddings=True).astype(np.float32)[0]
    scores = doc_emb @ q_emb  # (N,)
    idx = np.argsort(-scores)[:top_k]
    return [(documents[i], float(scores[i])) for i in idx]


def dense_rerank_subset(
    query: str,
    documents: Sequence[Dict[str, Any]],
    model: SentenceTransformer,
    doc_emb: np.ndarray,
    subset_idx: Sequence[int],
    top_k: int
) -> List[Tuple[Dict[str, Any], float]]:
    """Rerank dense sur un sous-ensemble d'indices (mode hybride)."""
    q_emb = model.encode([query], normalize_embeddings=True).astype(np.float32)[0]
    sub = np.array(list(subset_idx), dtype=np.int64)
    scores = doc_emb[sub] @ q_emb  # (M,)
    order = np.argsort(-scores)[:top_k]
    best = sub[order]
    return [(documents[i], float(scores[j])) for j, i in zip(order, best)]


# ---------------------------------------------------------------------
# 5) Query text ‚Äî brut / enrichi / minimal m√©tier
# ---------------------------------------------------------------------

def minimal_business_expansion(query: str) -> str:
    """
    Expansion ultra-minimale, ‚Äúm√©tier‚Äù, sans d√©pendre du dictionnaire.
    Objectif : aider BM25/dense sur certaines requ√™tes RH typiques.

    Note : c‚Äôest volontairement petit, pour rester POC.
    """
    q = query.lower()
    extra = []

    if "sans pr√©avis" in q or ("rompu" in q and "pr√©avis" in q):
        extra += ["faute grave", "faute lourde", "prise d'acte", "d√©mission", "rupture"]
    if "contester" in q and "licenciement" in q:
        extra += ["prud'hommes", "d√©lai", "contestations", "cause r√©elle et s√©rieuse", "nullit√©"]

    if not extra:
        return query
    return query + " " + " ".join(extra)


def _safe_lower(s: str) -> str:
    """Lowercase s√ªr (√©vite None)."""
    return (s or "").lower()

def _q_get(q: Any, key: str, default: Any = None) -> Any:
    """
    Acc√®s robuste aux champs des queries.
    - Supporte dict (q["question"]) OU objet/dataclass (q.question).
    """
    if isinstance(q, dict):  # Cas dict
        return q.get(key, default)
    return getattr(q, key, default)  # Cas objet (dataclass / class)


def q_id(q: Any) -> str:
    """Retourne l‚ÄôID de la query (qid / id)."""
    return str(_q_get(q, "qid", _q_get(q, "id", "")))


def q_question(q: Any) -> str:
    """Retourne la question (texte) de la query."""
    return str(_q_get(q, "question", ""))


def q_num_prefixes(q: Any) -> List[str]:
    """Retourne la liste des pr√©fixes meta.num attendus (oracle V2)."""
    prefixes = _q_get(q, "relevant_num_prefixes", [])
    return list(prefixes) if prefixes else []


def q_keywords_fallback(q: Any) -> List[str]:
    """
    Retourne la liste de mots-cl√©s fallback.
    - En V2 : relevant_keywords_fallback
    - En V1 : relevant_keywords (oracle keywords)
    """
    kw = _q_get(q, "relevant_keywords_fallback", None)
    if kw is None:
        kw = _q_get(q, "relevant_keywords", [])
    return list(kw) if kw else []


def is_relevant_v2(doc: Dict[str, Any], q: Any) -> bool:
    """
    Oracle V2 : pertinence principalement par meta.num (pr√©fixes attendus).
    Le fallback par mots-cl√©s ne doit servir que si meta.num est manquant (sinon on r√©introduit du bruit type V1).

    R√®gles
    ------
    1) Si on a des pr√©fixes attendus ET que meta.num est pr√©sent :
       - pertinent uniquement si meta.num commence par un des pr√©fixes.
       - sinon NON pertinent (on ne tente pas le fallback keywords).
    2) Si meta.num est absent (ou si aucun pr√©fixe n'est d√©fini) :
       - fallback : pertinent si le texte contient un des mots-cl√©s fallback.
    """
    meta = doc.get("meta") or {}
    num = (meta.get("num") or "").strip()

    prefixes = q_num_prefixes(q)

    # Cas "article-aware" strict : meta.num existe et on sait quelles zones on attend
    if num and prefixes:
        for p in prefixes:
            if num.startswith(p):
                return True
        return False  # meta.num est pr√©sent mais hors-zone => on refuse (pas de fallback keywords)

    # Fallback uniquement si meta.num est absent (ou si prefixes est vide)
    kw_fallback = q_keywords_fallback(q)
    if kw_fallback:
        text = _safe_lower(doc.get("text", ""))
        for kw in kw_fallback:
            if _safe_lower(kw) in text:
                return True

    return False



def recall_at_k_v2(results: List[Tuple[Dict[str, Any], float]], q: Any, k: int) -> float:
    """
    Recall@k (V2) :
    - 1 si au moins un chunk pertinent (oracle V2) est pr√©sent dans le top-k
    - 0 sinon
    """
    for doc, _ in results[:k]:
        if is_relevant_v2(doc, q):
            return 1.0
    return 0.0


def reciprocal_rank_v2(results: List[Tuple[Dict[str, Any], float]], q: Any) -> float:
    """
    MRR (V2) :
    - 1 / rang du premier chunk pertinent
    - 0 si aucun chunk pertinent
    """
    for rank, (doc, _) in enumerate(results, start=1):
        if is_relevant_v2(doc, q):
            return 1.0 / float(rank)
    return 0.0


def ndcg_at_k_v2(results: List[Tuple[Dict[str, Any], float]], q: Any, k: int) -> float:
    """
    nDCG@k (V2) en pertinence binaire.

    On reproduit l‚Äôesprit de metrics.py :
    - DCG : somme(1/log2(rank+1)) sur les chunks pertinents trouv√©s dans le top-k
    - IDCG : DCG id√©al avec le m√™me nombre de pertinents ‚Äútrouv√©s‚Äù remont√©s en t√™te
    """
    dcg = 0.0
    found_rels = 0  # Nombre de pertinents trouv√©s dans le top-k

    for rank, (doc, _) in enumerate(results[:k], start=1):
        if is_relevant_v2(doc, q):
            dcg += 1.0 / math.log2(rank + 1)  # Gain binaire (1) discount√© par le rang
            found_rels += 1  # On compte les pertinents trouv√©s

    if found_rels == 0:
        return 0.0  # Aucun pertinent => nDCG nul

    idcg = 0.0
    for i in range(1, found_rels + 1):
        idcg += 1.0 / math.log2(i + 1)  # Classement id√©al : pertinents aux premiers rangs

    return float(dcg / idcg) if idcg > 0 else 0.0


def get_query_variant(
    base_query: str,
    dictionary: Optional[Dict[str, Any]],
    use_query_understanding: bool,
    use_min_expansion: bool,
) -> str:
    """Construit la requ√™te effective (brute / enrichie / minimale m√©tier)."""
    q = base_query
    if use_query_understanding and dictionary is not None:
        enriched = process_user_query(base_query, dictionary)
        q = enriched.get("enriched_query", base_query)

    if use_min_expansion:
        q = minimal_business_expansion(q)

    return q


# ---------------------------------------------------------------------
# 6) Benchmark ‚Äî g√©n√©rique (BM25 / dense / hybride)
# ---------------------------------------------------------------------

def evaluate_retriever(
    retriever_name: str,
    documents: Sequence[Dict[str, Any]],
    k: int,
    dictionary: Optional[Dict[str, Any]],
    use_query_understanding: bool,
    use_min_expansion: bool,
    bm25: Optional[BM25Okapi] = None,
    bm25_shortlist: int = 200,
    model: Optional[SentenceTransformer] = None,
    doc_emb: Optional[np.ndarray] = None,
) -> Dict[str, float]:
    """Calcule Recall@k, MRR, nDCG@k sur benchmark_queries pour un retriever donn√©."""
    recall_scores: List[float] = []
    mrr_scores: List[float] = []
    ndcg_scores: List[float] = []

    for q in BENCHMARK_QUERIES:

        qtext = get_query_variant(
            base_query=q_question(q),
            dictionary=dictionary,
            use_query_understanding=use_query_understanding,
            use_min_expansion=use_min_expansion,
        )

        if retriever_name == "bm25":
            if bm25 is None:
                raise ValueError("bm25 requis pour retriever=bm25")
            results = [(doc, score) for doc, score in [(documents[i], s) for i, s in bm25_search(qtext, documents, bm25, top_k=k)]]

        elif retriever_name == "dense":
            if model is None or doc_emb is None:
                raise ValueError("model + doc_emb requis pour retriever=dense")
            results = dense_search_all(qtext, documents, model, doc_emb, top_k=k)

        elif retriever_name == "hybrid":
            # Hybride = fusion BM25 + dense via RRF.
            # On garde exactement le m√™me chemin que celui audit√© en verbatim (voir show_verbatim),
            # sinon on "d√©buggue" un pipeline diff√©rent de celui r√©ellement scor√©.
            if bm25 is None or model is None or doc_emb is None:
                raise ValueError("bm25 + model + doc_emb requis pour retriever=hybrid")
            results = hybrid_rrf_search(
                query=qtext,                 # Requ√™te finale (brute/enrichie)
                documents=documents,          # Corpus filtr√©
                bm25=bm25,                    # Index BM25
                model=model,                  # Mod√®le dense
                doc_emb=doc_emb,              # Embeddings docs
                top_k=k,                      # Top-k affich√©
                shortlist_k=bm25_shortlist,    # Taille shortlist interne
                rrf_k=60,                     # Constante RRF standard POC
            )


        else:
            raise ValueError(f"retriever inconnu: {retriever_name}")

        if USING_V2:
            # Oracle V2 : pertinence par meta.num + fallback keywords
            recall_scores.append(recall_at_k_v2(results, q, k))
            mrr_scores.append(reciprocal_rank_v2(results, q))
            ndcg_scores.append(ndcg_at_k_v2(results, q, k))
        else:
            # Fallback : ancien oracle keywords (metrics.py)
            relevant_keywords = q_keywords_fallback(q)  # Sur V1, c‚Äôest relevant_keywords
            recall_scores.append(kw_metrics.recall_at_k(results, relevant_keywords, k))
            mrr_scores.append(kw_metrics.reciprocal_rank(results, relevant_keywords))
            ndcg_scores.append(kw_metrics.ndcg_at_k(results, relevant_keywords, k))



    return {
        f"Recall@{k}": float(sum(recall_scores) / len(recall_scores)),
        "MRR": float(sum(mrr_scores) / len(mrr_scores)),
        f"nDCG@{k}": float(sum(ndcg_scores) / len(ndcg_scores)),
    }


def show_verbatim(
    retriever_name: str,
    documents: Sequence[Dict[str, Any]],
    k: int,
    dictionary: Optional[Dict[str, Any]],
    use_query_understanding: bool,
    use_min_expansion: bool,
    bm25: Optional[BM25Okapi] = None,
    bm25_shortlist: int = 200,
    model: Optional[SentenceTransformer] = None,
    doc_emb: Optional[np.ndarray] = None,
    preview_chars: int = 450,
) -> None:
    """Affiche top-k par requ√™te pour audit qualitatif."""
    for q in BENCHMARK_QUERIES:
        qtext = get_query_variant(
            base_query=q_question(q),
            dictionary=dictionary,
            use_query_understanding=use_query_understanding,
            use_min_expansion=use_min_expansion,
        )

        print("\n" + "=" * 110)
        print(f"ID: {q_id(q)} | Question: {q_question(q)}")
        print(f"Query effective: {qtext}")
        print("=" * 110)

        if retriever_name == "bm25":
            ranked_idx = bm25_search(qtext, documents, bm25, top_k=k)
            results = [(documents[i], float(s)) for i, s in ranked_idx]
            score_label = "BM25"
        elif retriever_name == "dense":
            results = dense_search_all(qtext, documents, model, doc_emb, top_k=k)
            score_label = "DenseSim"
        elif retriever_name == "hybrid":
            # IMPORTANT : alignement strict verbatim <-> benchmark.
            # Le benchmark "hybrid" utilise RRF (BM25 + dense). Le verbatim doit afficher la m√™me chose.
            if bm25 is None or model is None or doc_emb is None:
                raise ValueError("bm25 + model + doc_emb requis pour retriever=hybrid")
            results = hybrid_rrf_search(
                query=qtext,
                documents=documents,
                bm25=bm25,
                model=model,
                doc_emb=doc_emb,
                top_k=k,
                shortlist_k=bm25_shortlist,
                rrf_k=60,
            )
            score_label = "RRF"
        else:
            raise ValueError(retriever_name)

        for rank, (doc, score) in enumerate(results, start=1):
            text = doc.get("text", "")
            meta = doc.get("meta") or {}
            doc_type = doc.get("doc_type")
            chunk_index = doc.get("chunk_index")
            
            if USING_V2:
                # Oracle V2 : pertinence par meta.num (pr√©fixes) puis fallback keywords.
                is_rel = is_relevant_v2(doc, q)
            else:
                # Oracle V1 : pertinence par pr√©sence de mots-cl√©s dans le texte (metrics.py).
                relevant_keywords = q_keywords_fallback(q)
                is_rel = kw_metrics.is_relevant(doc.get("text", ""), relevant_keywords)

            flag = "PERTINENT" if is_rel else "NON PERTINENT"

            print(f"\n--- Rang {rank} | Score {score_label}: {score:.3f} | {flag}")
            print(f"doc_type={doc_type} | chunk_index={chunk_index} | meta.id={meta.get('id')} | meta.num={meta.get('num')}")
            print(f"doc_id: {doc.get('doc_id')}")
            print(text[:preview_chars].replace("\n", " "))


# ---------------------------------------------------------------------
# 7) Main ‚Äî valeurs par d√©faut compatibles Spyder
# ---------------------------------------------------------------------

def parse_args() -> argparse.Namespace:
    """Arguments CLI (defaults pour run Spyder)."""
    p = argparse.ArgumentParser(add_help=True)

    p.add_argument("--corpus-jsonl", default=r"D:\-- Projet RAG Avocats --\data_main\result_tests\corpus_chunks.jsonl")
    p.add_argument("--dictionary-yml", default="juridical_dictionary.yml")
    p.add_argument("--k", type=int, default=10)

    p.add_argument("--doc-types", default="article")
    p.add_argument("--title-contains", default="")

    p.add_argument("--limit", type=int, default=None)

    p.add_argument("--retriever", choices=["bm25", "dense", "hybrid"], default="hybrid")
    p.add_argument("--embedding-model", default="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
    p.add_argument("--cache-dir", default=r"D:\-- Projet RAG Avocats --\data_main\result_tests\cache_dense")
    p.add_argument("--bm25-shortlist", type=int, default=200)

    p.add_argument("--use-query-understanding", action="store_true")
    p.add_argument("--min-expansion", action="store_true")

    p.add_argument("--show-verbatim", action="store_true")
    
    # LEGITEXT000006072050 semble correspondre √† "code du travail" r√©f√©rence (√† confirmer)
    p.add_argument("--collection-contains", default="", help="Filtre collection : sous-cha√Æne √† trouver dans doc_id (ex: LEGITEXT000006072050). Vide => pas de filtre.")


    return p.parse_args()


def main() -> None:
    args = parse_args()

    # R√©glages ‚ÄúIDE-friendly‚Äù
    args.show_verbatim = True  # Audit qualitatif top-k
    args.use_query_understanding = True  # Requ√™te enrichie via dictionnaire
    args.min_expansion = False  # Expansion minimale (si tu la gardes dans le script)
    args.collection_contains = "LEGITEXT000006072050"  # Code du travail (stable dans doc_id)
    args.doc_types = "article"



    doc_types = [x.strip() for x in (args.doc_types or "").split(",") if x.strip()]
    title_contains = (args.title_contains or "").strip() or None

    print("\n=== Chargement corpus chunk√© (JSONL) ===")
    chunks = load_chunks_jsonl(args.corpus_jsonl, limit=args.limit)
    print(f"Chunks charg√©s : {len(chunks)}")

    print("\n=== Filtrage (optionnel) ===")
    docs = filter_chunks(
        chunks,
        allowed_doc_types=doc_types if doc_types else None,
        title_contains=title_contains,
        collection_contains=(args.collection_contains or "").strip() or None,  # Active filtre si non vide
    )

    print(f"Chunks apr√®s filtre : {len(docs)}")
    # Affiche le filtre collection utilis√© (utile pour comprendre pourquoi on passe √† 386 docs)
    if (args.collection_contains or "").strip():
        print(f"Filtre collection_contains : {args.collection_contains!r}")  # Debug explicite

    if title_contains:
        print(f"Filtre titre_contains : {title_contains!r}")
    if doc_types:
        print(f"Filtre doc_types : {doc_types}")

    if not docs:
        raise RuntimeError("Aucun chunk apr√®s filtrage. Ajuste doc_types / title_contains.")

    dictionary = load_juridical_dictionary(args.dictionary_yml)

    bm25 = None
    model = None
    doc_emb = None

    if args.retriever in ("bm25", "hybrid"):
        print("\n=== Construction index BM25 ===")
        bm25 = build_bm25_index(docs)
        print("Index BM25 construit.")

    if args.retriever in ("dense", "hybrid"):
        print("\n=== Construction / chargement embeddings (dense) ===")
        # On r√©cup√®re la valeur du filtre "collection" (si pr√©sent) pour l‚Äôutiliser partout de fa√ßon coh√©rente
        collection_contains = (args.collection_contains or "").strip() or ""  # Vide => pas de filtre

        # La cl√© de cache DOIT inclure tous les param√®tres qui changent le corpus "docs" final
        tag = _cache_key(
            os.path.abspath(args.corpus_jsonl),             # Chemin corpus (impacte le contenu)
            args.embedding_model,                           # Mod√®le embedding (impacte le vecteur)
            ",".join(doc_types),                            # Doc types retenus (impacte docs)
            title_contains or "",                           # Filtre titre (impacte docs)
            collection_contains,                            # Filtre collection (impacte docs)  <-- CRITIQUE
            str(args.limit or ""),                          # Limite (impacte docs)
        )

        model, doc_emb = build_dense_embeddings(
            documents=docs,
            model_name=args.embedding_model,
            cache_dir=args.cache_dir,
            cache_tag=tag,
        )
        print(f"Embeddings pr√™ts: {doc_emb.shape}")
        
        # S√©curit√© absolue : si √ßa ne matche pas, on arr√™te tout
        if doc_emb.shape[0] != len(docs):
            raise ValueError(
                "Embeddings d√©salign√©s avec le corpus filtr√© : "
                f"len(docs)={len(docs)} vs doc_emb.shape[0]={doc_emb.shape[0]}. "
                "Le cache dense ne correspond pas aux filtres courants (doc_types/titre/collection/limit)."
            )

    print(f"\n=== Benchmark ({args.retriever}) ‚Äî brute ===")
    res_raw = evaluate_retriever(
        retriever_name=args.retriever,
        documents=docs,
        k=args.k,
        dictionary=dictionary,
        use_query_understanding=False,
        use_min_expansion=False,
        bm25=bm25,
        bm25_shortlist=args.bm25_shortlist,
        model=model,
        doc_emb=doc_emb,
    )
    for kk, vv in res_raw.items():
        print(f"{kk} : {vv:.3f}")

    print(f"\n=== Benchmark ({args.retriever}) ‚Äî query understanding ===")
    res_enriched = evaluate_retriever(
        retriever_name=args.retriever,
        documents=docs,
        k=args.k,
        dictionary=dictionary,
        use_query_understanding=True,
        use_min_expansion=False,
        bm25=bm25,
        bm25_shortlist=args.bm25_shortlist,
        model=model,
        doc_emb=doc_emb,
    )
    for kk, vv in res_enriched.items():
        print(f"{kk} : {vv:.3f}")

    print(f"\n=== Benchmark ({args.retriever}) ‚Äî expansion minimale m√©tier ===")
    res_minexp = evaluate_retriever(
        retriever_name=args.retriever,
        documents=docs,
        k=args.k,
        dictionary=dictionary,
        use_query_understanding=False,
        use_min_expansion=True,
        bm25=bm25,
        bm25_shortlist=args.bm25_shortlist,
        model=model,
        doc_emb=doc_emb,
    )
    for kk, vv in res_minexp.items():
        print(f"{kk} : {vv:.3f}")

    if args.show_verbatim:
        print(f"\n=== VERBATIM ({args.retriever}) ‚Äî brute ===")
        show_verbatim(
            retriever_name=args.retriever,
            documents=docs,
            k=args.k,
            dictionary=dictionary,
            use_query_understanding=False,
            use_min_expansion=False,
            bm25=bm25,
            bm25_shortlist=args.bm25_shortlist,
            model=model,
            doc_emb=doc_emb,
        )

        print(f"\n=== VERBATIM ({args.retriever}) ‚Äî expansion minimale m√©tier ===")
        show_verbatim(
            retriever_name=args.retriever,
            documents=docs,
            k=args.k,
            dictionary=dictionary,
            use_query_understanding=False,
            use_min_expansion=True,
            bm25=bm25,
            bm25_shortlist=args.bm25_shortlist,
            model=model,
            doc_emb=doc_emb,
        )


if __name__ == "__main__":
    import sys
    sys.argv = [sys.argv[0]]

    main()


=== Chargement corpus chunk√© (JSONL) ===
Chunks charg√©s : 13180

=== Filtrage (optionnel) ===
Chunks apr√®s filtre : 386
Filtre collection_contains : 'LEGITEXT000006072050'
Filtre doc_types : ['article']

=== Construction index BM25 ===
Index BM25 construit.

=== Construction / chargement embeddings (dense) ===


Batches:   0%|          | 0/7 [00:00<?, ?it/s]

Embeddings pr√™ts: (386, 384)

=== Benchmark (hybrid) ‚Äî brute ===
Recall@10 : 0.333
MRR : 0.333
nDCG@10 : 0.333

=== Benchmark (hybrid) ‚Äî query understanding ===
Recall@10 : 0.333
MRR : 0.333
nDCG@10 : 0.333

=== Benchmark (hybrid) ‚Äî expansion minimale m√©tier ===
Recall@10 : 0.333
MRR : 0.333
nDCG@10 : 0.333

=== VERBATIM (hybrid) ‚Äî brute ===

ID: Q1 | Question: Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?
Query effective: Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?

--- Rang 1 | Score RRF: 0.024 | NON PERTINENT
doc_type=article | chunk_index=1 | meta.id=None | meta.num=L1251-43
doc_id: D:\-- Projet RAG Avocats --\data_main\data\20250731-220719\legi\global\code_et_TNC_en_vigueur\code_en_vigueur\LEGI\TEXT\00\00\06\07\20\LEGITEXT000006072050\article\LEGI\ARTI\00\00\06\90\12\LEGIARTI000006901299.xml
5¬∞ La nature des √©quipements de protection individuelle que le salari√© utilise. Il pr√©cise, le cas √©ch√©ant, si ceux-ci sont fournis par l'entreprise d

## üßæ Conclusion / Bilan (d√©tach√©)

BILAN FINAL ‚Äî Script 10 (BM25 + Dense + Hybride RRF) : √©tat des lieux apr√®s corrections

R√©f√©rences :
- Script 10 corrig√© : alignement benchmark/verbatim + oracle V2 strict (meta.num) + doc_types=article. :contentReference[oaicite:0]{index=0}
- R√©sultats du dernier test : filtre Code du travail + articles uniquement + verbatim d√©taill√©. :contentReference[oaicite:1]{index=1}

1) Ce qui est d√©sormais "verrouill√©" et sain (objectif du mini-patch atteint)
- Une seule logique de v√©rit√© terrain utilis√©e partout en V2 : pertinence = meta.num commence par un pr√©fixe attendu ;
  le fallback keywords n'intervient que si meta.num est absent. (Plus de faux positifs type V1 d√©guis√©s.)
- Une seule fonction de retrieval hybride utilis√©e partout : HYBRID = RRF(BM25_rank, Dense_rank) pour benchmark + verbatim.
- Cache dense rendu coh√©rent : la cl√© inclut les filtres (doc_types/titre/collection/limit) et un garde-fou stoppe si d√©salignement.

2) Lecture des r√©sultats du dernier run (important : on interpr√®te un benchmark √† 3 questions)
- Corpus : 13 180 chunks charg√©s, filtr√©s √† 386 (collection_contains='LEGITEXT000006072050', doc_types=['article']). :contentReference[oaicite:2]{index=2}
- Embeddings : (386, 384) => coh√©rents avec le corpus filtr√©. :contentReference[oaicite:3]{index=3}
- Scores (hybrid, k=10) :
  * brute        : Recall@10=0.333, MRR=0.333, nDCG@10=0.333
  * query_understanding : identique
  * min_expansion : identique
  => Sur 3 queries, cela signifie : 1 seule query a un "hit" pertinent dans le top-10, et ce hit est rang 1.

3) Diagnostic qualitatif (verbatim)
- Q2 (licenciement √©conomique) : succ√®s net.
  L1233-3 remonte rang 1..8 et est jug√© PERTINENT => oracle V2 valide, retrieval coh√©rent. :contentReference[oaicite:4]{index=4}
- Q1 (rompre un CDI sans pr√©avis) : √©chec au sens de l‚Äôoracle V2.
  Le top-10 ne contient pas d'article dont meta.num commence par les pr√©fixes attendus (ex: L1234*),
  et les r√©sultats sont hors-sujet (L1251-43, L3142-17, etc.). :contentReference[oaicite:5]{index=5}
- Q3 (contester un licenciement) : √©chec au sens de l‚Äôoracle V2.
  Le top-10 est massivement attir√© par L1233-3 (√©conomique), m√™me apr√®s expansion "prud'hommes / d√©lai / nullit√©". :contentReference[oaicite:6]{index=6}

4) Conclusion : le "plateau √† 0.333" est maintenant EXPLICABLE et NON ambig√º
- Ce n‚Äôest plus un artefact de mix V1/V2 ou de verbatim d√©cal√©.
- On observe un vrai ph√©nom√®ne : avec ce corpus filtr√© (386 articles) et ces 3 requ√™tes,
  l‚Äôhybride RRF retrouve correctement la d√©finition du licenciement √©conomique (Q2),
  mais ne r√©cup√®re pas les zones attendues pour "sans pr√©avis" (Q1) et "contester" (Q3).

5) Causes probables (sans lancer de nouveaux tests, juste lecture logique des sorties)
- "Sans pr√©avis" et "contester un licenciement" sont des intentions juridiques qui, dans le Code,
  peuvent se formuler via des notions/conditions (faute grave, pr√©avis, rupture, prescription/d√©lai, contestation prud‚Äôhomale)
  qui ne matchent pas assez bien les formulations pr√©sentes dans les chunks filtr√©s OU qui sont dispers√©es ailleurs.
- Sur Q3, l‚Äôattraction par L1233-3 indique un fort signal lexical/s√©mantique autour de "licenciement"
  qui domine le ranking ; sans √©tape de "query routing" / r√©√©criture cibl√©e / contraintes structurelles,
  l‚Äôhybride peut rester bloqu√© sur le mauvais chapitre.
- Query understanding et min_expansion n‚Äôapportent pas d‚Äôam√©lioration => leur enrichissement actuel n‚Äôest pas assez discriminant
  ou pas align√© avec les cibles oracle (pr√©fixes meta.num attendus).

6) Ce que nous validons d√©finitivement √† ce stade (pour la roadmap / entretien)
- Le script 10 est devenu un banc d‚Äôessai propre : retrieval √©valu√© = retrieval affich√© ; oracle V2 strict = m√©triques fiables.
- Les scores bas restants refl√®tent un probl√®me "produit" (strat√©gie retrieval/QA) et/ou "donn√©es" (structure/metadata),
  pas un bug d‚Äô√©valuation.
- Implication directe pour une mise en production RAG juridique :
  il faut une √©tude syst√©matique du corpus (inventaire balises/structures XML, qualit√© m√©tadonn√©es meta.num,
  versions/dates, typologies, √©volution temporelle) afin de d√©finir une strat√©gie d‚Äôextraction/chunking
  + un retrieval robuste (routing par typologie, contraintes par livre/titre, etc.).