# üß™ Script 09 ‚Äî Benchmark BM25 sur corpus chunk√© (JSONL)

## üéØ Pourquoi cette √©tape dans la progression ?
Apr√®s le **chunking XML (Script 08)**, l‚Äôobjectif est de mesurer imm√©diatement l‚Äôimpact du passage au **niveau ‚Äúpassage/chunk‚Äù** sur le retrieval.

- En BM25, indexer des documents trop longs augmente le bruit (beaucoup de tokens non discriminants).
- Le **chunking** cr√©e des unit√©s plus fines (articles / passages) : on s‚Äôattend √† un **ranking plus propre** et des m√©triques (MRR/nDCG) qui montent.
- On conserve un protocole simple et comparable (m√™mes requ√™tes et m√©triques), puis on teste des variantes :
  - requ√™te brute
  - requ√™te enrichie via `query_understanding.py`
  - (optionnel) **expansion minimale m√©tier** (heuristique explicable)

---

SCRIPT 9 ‚Äî BENCHMARK BM25 SUR CORPUS CHUNK√â (JSONL)

But
---
Mesurer rapidement l'impact d'un preprocessing "passage-level" (Script 8) sur un retriever BM25 :
- Recall@k, MRR, nDCG@k
- audit qualitatif (verbatim top-k)

Pourquoi
--------
- Les chunks plus fins r√©duisent le bruit et am√©liorent le retrieval.
- BM25 reste tr√®s lexical : certaines requ√™tes "s√©mantiques" (Q1/Q3) peuvent √©chouer.
- On ajoute donc (optionnel) une "expansion minimale m√©tier" pour augmenter la robustesse
  sans partir dans une refonte compl√®te.

Modes √©valu√©s
-------------
1) BM25 ‚Äî requ√™te brute
2) BM25 ‚Äî requ√™te enrichie (query_understanding.py)
3) (Optionnel) BM25 ‚Äî requ√™te brute + expansion minimale m√©tier
4) (Optionnel) BM25 ‚Äî requ√™te enrichie + expansion minimale m√©tier

Notes d'impl√©mentation
----------------------
- Chargement via corpus_loader_jsonl.py (load_documents + filter_documents_by_substring).
- Robustesse Spyder : parse_known_args() ignore les arguments inconnus.
- D√©duplication optionnelle du top-k (√©vite d'afficher 10 variantes d'un m√™me article).

## ‚öôÔ∏è Setup notebook (imports locaux & d√©pendances)

Ce notebook ex√©cute un script qui d√©pend de modules locaux (ex: `corpus_loader_jsonl.py`, `query_understanding.py`, etc.).  
En notebook, il faut s‚Äôassurer que la **racine du projet** est dans `sys.path`.

> üîß Astuce : place ce notebook dans le dossier projet, ou ajuste `PROJECT_ROOT` ci-dessous.


In [1]:
from pathlib import Path
import sys

# Ajuste PROJECT_ROOT si notre notebook est dans un sous-dossier (ex: notebooks/)
PROJECT_ROOT = Path.cwd()
# Exemple : si notre notebook est dans ./notebooks, d√©commente :
# PROJECT_ROOT = Path.cwd().parent

if str(PROJECT_ROOT) not in sys.path:
    sys.path.insert(0, str(PROJECT_ROOT))

print("PROJECT_ROOT =", PROJECT_ROOT)


PROJECT_ROOT = d:\-- Projet RAG Avocats --\codes_python\notebooks


In [2]:
# D√©pendances externes (√† installer une seule fois par environnement)
%pip -q install rank_bm25 pyyaml


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


## üß† Code du script 09 (inchang√©)

Le code ci-dessous est repris du `.py` **tel quel** (√† l‚Äôexception du fait qu‚Äôil est plac√© en cellule notebook).


In [3]:
from __future__ import annotations

import argparse
import re
from typing import Any, Dict, List, Optional, Sequence, Tuple

from rank_bm25 import BM25Okapi

from benchmark_queries import benchmark_queries
from metrics import recall_at_k, reciprocal_rank, ndcg_at_k
from query_understanding import load_juridical_dictionary, process_user_query

# D√©pendance locale
from corpus_loader_jsonl import load_documents, filter_documents_by_substring


# =========================================================
# 1) Tokenisation BM25 (simple et stable)
# =========================================================

def tokenize(text: str) -> List[str]:
    """
    Tokenisation simple : minuscules + mots alphanum√©riques.

    Remarque :
    - BM25 √©tant lexical, garder une tokenisation simple est utile pour le debug.
    - On pourra ajouter stopwords plus tard si besoin.
    """
    return re.findall(r"\b\w+\b", (text or "").lower())


# =========================================================
# 2) Expansion minimale m√©tier (optionnelle)
# =========================================================

def expand_query_minimal_legal(query: str) -> str:
    """
    Ajoute quelques termes "m√©tier" tr√®s fr√©quents, de fa√ßon heuristique,
    pour r√©duire les √©checs BM25 dus au mismatch lexical.

    Objectif :
    - rester petit / explicable / non invasif
    - aider surtout les requ√™tes type Q1/Q3 (rupture CDI sans pr√©avis / contester licenciement)
    """
    q = (query or "").lower()
    expansions: List[str] = []

    # Contrat / CDI
    if "cdi" in q or "dur√©e ind√©termin√©e" in q:
        expansions += [
            "contrat de travail √† dur√©e ind√©termin√©e",
            "rupture du contrat de travail",
        ]

    # Pr√©avis / rupture sans pr√©avis
    if "pr√©avis" in q or ("sans" in q and "pr√©avis" in q):
        expansions += [
            "faute grave",
            "faute lourde",
            "dispense de pr√©avis",
        ]

    # Rupture (verbes fr√©quents)
    if "rompu" in q or "rompre" in q or "rupture" in q:
        expansions += [
            "licenciement",
            "d√©mission",
            "prise d'acte",
        ]

    # Contestation / recours licenciement
    if "contester" in q or "contest" in q or "recours" in q:
        expansions += [
            "conseil de prud'hommes",
            "motif r√©el et s√©rieux",
            "indemnit√©s",
        ]

    if "licenciement" in q:
        expansions += [
            "prud'hommes",
            "irr√©gulier",
            "nul",
        ]

    # Motif √©conomique (pour compl√©ter l√©g√®rement Q2)
    if "motif √©conomique" in q or ("licenciement" in q and "√©conomique" in q):
        expansions += [
            "difficult√©s √©conomiques",
            "mutations technologiques",
            "sauvegarde de la comp√©titivit√©",
        ]

    # Normalisation : unicit√© + √©viter d'ajouter trop de bruit
    cleaned: List[str] = []
    seen = set()
    for e in expansions:
        e = e.strip()
        if not e:
            continue
        if e in seen:
            continue
        seen.add(e)
        cleaned.append(e)

    if not cleaned:
        return query

    return (query.rstrip() + " " + " ".join(cleaned)).strip()


# =========================================================
# 3) D√©duplication optionnelle du top-k
# =========================================================

def get_dedupe_value(doc: Dict[str, Any], dedupe_key: str) -> str:
    """
    Extrait une valeur stable pour d√©dupliquer un ranking.

    Exemples :
    - "meta.num" -> doc["meta"]["num"]
    - "meta.id"  -> doc["meta"]["id"]
    - "doc_id"   -> doc["doc_id"]
    """
    key = (dedupe_key or "").strip()
    if not key:
        return ""

    if key == "doc_id":
        return str(doc.get("doc_id") or "")

    if key.startswith("meta."):
        meta = doc.get("meta") or {}
        subkey = key.split(".", 1)[1]
        return str(meta.get(subkey) or "")

    return str(doc.get(key) or "")


def dedupe_ranked_results(
    ranked: List[Tuple[Dict[str, Any], float]],
    dedupe_key: str
) -> List[Tuple[Dict[str, Any], float]]:
    """
    D√©duplique une liste tri√©e (doc, score) en conservant le premier doc
    pour chaque valeur de dedupe_key.
    """
    key = (dedupe_key or "").strip()
    if not key:
        return ranked

    seen = set()
    out: List[Tuple[Dict[str, Any], float]] = []

    for doc, score in ranked:
        v = get_dedupe_value(doc, key)
        if not v:
            out.append((doc, score))
            continue
        if v in seen:
            continue
        seen.add(v)
        out.append((doc, score))

    return out


# =========================================================
# 4) BM25 search + √©valuation
# =========================================================

def bm25_search(
    query: str,
    documents: Sequence[Dict[str, Any]],
    bm25: BM25Okapi,
    top_k: int,
    dedupe_key: str = ""
) -> List[Tuple[Dict[str, Any], float]]:
    """
    Retourne le top_k (doc, score) BM25.
    """
    scores = bm25.get_scores(tokenize(query))
    ranked = sorted(zip(documents, scores), key=lambda x: x[1], reverse=True)

    if dedupe_key:
        ranked = dedupe_ranked_results(ranked, dedupe_key)

    return ranked[:top_k]


def is_relevant_by_keywords(text: str, relevant_keywords: Sequence[str]) -> bool:
    """
    Oracle simple : pertinent si au moins un mot-cl√© du benchmark est pr√©sent.
    """
    t = (text or "").lower()
    return any((kw or "").lower() in t for kw in relevant_keywords)


def evaluate_bm25(
    documents: Sequence[Dict[str, Any]],
    bm25: BM25Okapi,
    k: int,
    use_query_understanding: bool,
    dictionary: Optional[Dict[str, Any]],
    use_min_expansion: bool,
    dedupe_key: str,
) -> Dict[str, float]:
    """
    Calcule Recall@k, MRR, nDCG@k sur benchmark_queries.
    """
    recall_scores: List[float] = []
    mrr_scores: List[float] = []
    ndcg_scores: List[float] = []

    for q in benchmark_queries:
        query_text = q["question"]

        if use_query_understanding:
            if dictionary is None:
                raise ValueError("dictionary requis si use_query_understanding=True")
            enriched = process_user_query(query_text, dictionary)
            query_text = enriched.get("enriched_query", query_text)

        if use_min_expansion:
            query_text = expand_query_minimal_legal(query_text)

        results = bm25_search(
            query=query_text,
            documents=documents,
            bm25=bm25,
            top_k=k,
            dedupe_key=dedupe_key,
        )

        recall_scores.append(recall_at_k(results, q["relevant_keywords"], k))
        mrr_scores.append(reciprocal_rank(results, q["relevant_keywords"]))
        ndcg_scores.append(ndcg_at_k(results, q["relevant_keywords"], k))

    n = max(1, len(benchmark_queries))
    return {
        f"Recall@{k}": sum(recall_scores) / n,
        "MRR": sum(mrr_scores) / n,
        f"nDCG@{k}": sum(ndcg_scores) / n,
    }


def display_results_per_query(
    label: str,
    documents: Sequence[Dict[str, Any]],
    bm25: BM25Okapi,
    k: int,
    use_query_understanding: bool,
    dictionary: Optional[Dict[str, Any]],
    use_min_expansion: bool,
    dedupe_key: str,
) -> None:
    """
    Affiche le top-k par requ√™te (audit qualitatif).
    """
    print(f"\n=== VERBATIM ‚Äî {label} ===")

    for q in benchmark_queries:
        base_query = q["question"]
        final_query = base_query

        if use_query_understanding:
            enriched = process_user_query(base_query, dictionary or {})
            final_query = enriched.get("enriched_query", base_query)

        if use_min_expansion:
            final_query = expand_query_minimal_legal(final_query)

        print("\n" + "=" * 110)
        print(f"ID: {q.get('id')} | Question: {base_query}")
        if final_query != base_query:
            print(f"Requ√™te utilis√©e: {final_query}")
        print("=" * 110)

        results = bm25_search(
            query=final_query,
            documents=documents,
            bm25=bm25,
            top_k=k,
            dedupe_key=dedupe_key,
        )

        for rank, (doc, score) in enumerate(results, start=1):
            text = doc.get("text", "")
            relevant = is_relevant_by_keywords(text, q["relevant_keywords"])
            tag = "PERTINENT" if relevant else "NON PERTINENT"

            meta = doc.get("meta") or {}
            doc_type = doc.get("doc_type")
            chunk_index = doc.get("chunk_index")
            meta_id = meta.get("id")
            meta_num = meta.get("num")

            print(f"\n--- Rang {rank} | Score BM25: {score:.3f} | {tag}")
            print(f"doc_type={doc_type} | chunk_index={chunk_index} | meta.id={meta_id} | meta.num={meta_num}")
            print(f"doc_id: {doc.get('doc_id')}")
            print(text[:450].replace("\n", " ").strip())


# =========================================================
# 5) CLI / main
# =========================================================

def parse_args(argv: Optional[List[str]] = None) -> argparse.Namespace:
    """
    Parse des arguments CLI.

    Robustesse Spyder/IPython :
    - parse_known_args() ignore les arguments inconnus (√©vite SystemExit).
    """
    parser = argparse.ArgumentParser(add_help=True)

    parser.add_argument(
        "--corpus-jsonl",
        default=r"D:\-- Projet RAG Avocats --\data_main\result_tests\corpus_chunks.jsonl",
        help="Chemin du JSONL (sortie Script 8)."
    )
    parser.add_argument(
        "--dictionary-yml",
        default="juridical_dictionary.yml",
        help="Chemin du dictionnaire m√©tier (YAML)."
    )
    parser.add_argument(
        "--k",
        type=int,
        default=10,
        help="Top-k pour Recall@k et nDCG@k."
    )
    parser.add_argument(
        "--doc-types",
        default="article",
        help='Doc types autoris√©s, s√©par√©s par virgule. Ex: "article,section_ta".'
    )
    parser.add_argument(
        "--title-contains",
        default="",
        help='Filtre m√©tier: sous-cha√Æne √† trouver dans meta.titre (ou doc_id fallback). Vide => pas de filtre.'
    )
    parser.add_argument(
        "--limit",
        type=int,
        default=None,
        help="Limiter le nombre de chunks charg√©s (debug)."
    )
    parser.add_argument(
        "--show-verbatim",
        action="store_true",
        help="Afficher le top-k par question."
    )
    parser.add_argument(
        "--dedupe-key",
        default="",
        help='D√©duplique le ranking dans le top-k. Ex: "meta.num" ou "meta.id". Vide => pas de d√©duplication.'
    )
    parser.add_argument(
        "--min-expansion",
        action="store_true",
        help="Active l'expansion minimale m√©tier (BM25 + expansion)."
    )

    args, _unknown = parser.parse_known_args(argv)
    return args


def parse_csv_list(value: str) -> List[str]:
    """
    Parse une liste CSV simple (s√©par√©e par virgule) en nettoyant les espaces.
    """
    if not value:
        return []
    return [v.strip() for v in value.split(",") if v.strip()]


def load_jsonl_documents_robust(jsonl_path: str, limit: Optional[int]) -> List[Dict[str, Any]]:
    """
    Chargement via corpus_loader_jsonl.load_documents, avec robustesse sur signature.

    On essaie plusieurs signatures possibles pour √©viter de casser le script si le loader √©volue.
    """
    # Essai 1 : loader unifi√© type load_documents(source="jsonl", path=..., ...)
    try:
        return load_documents(source="jsonl", path=jsonl_path, min_text_len=50, limit=limit)
    except TypeError:
        pass

    # Essai 2 : load_documents(jsonl_path, min_text_len=..., limit_lines=...)
    try:
        return load_documents(jsonl_path, min_text_len=50, limit_lines=limit)
    except TypeError:
        pass

    # Essai 3 : load_documents(jsonl_path) (mode minimal)
    return load_documents(jsonl_path)


def main() -> None:
    args = parse_args()
    
    # Overrides pratiques pour run dans Spyder (sans arguments)
    args.show_verbatim = True
    args.dedupe_key = "meta.num"   # ou "meta.id" selon ce qu'on veut
    args.min_expansion = True


    allowed_doc_types = [d.lower() for d in parse_csv_list(args.doc_types)]
    title_contains = (args.title_contains or "").strip() or None
    dedupe_key = (args.dedupe_key or "").strip()
    use_min_expansion = bool(args.min_expansion)

    print("\n=== Chargement corpus chunk√© (JSONL) ===")
    documents = load_jsonl_documents_robust(args.corpus_jsonl, limit=args.limit)
    print(f"Chunks charg√©s : {len(documents)}")

    # Filtre doc_types (simple)
    if allowed_doc_types:
        documents = [d for d in documents if (d.get("doc_type") or "").lower() in allowed_doc_types]

    # Filtre m√©tier optionnel (titre / doc_id fallback)
    print("\n=== Filtrage (optionnel) ===")
    if title_contains:
        documents = filter_documents_by_substring(documents, title_contains, search_in=("meta.titre", "doc_id"))
        print(f"Filtre titre_contains : '{title_contains}'")

    print(f"Chunks apr√®s filtre : {len(documents)}")
    if allowed_doc_types:
        print(f"Filtre doc_types : {allowed_doc_types}")

    # BM25
    print("\n=== Construction index BM25 ===")
    tokenized_corpus = [tokenize(d.get("text", "")) for d in documents]
    bm25 = BM25Okapi(tokenized_corpus)
    print("Index BM25 construit.")

    # Dictionnaire m√©tier pour query understanding
    dictionary = load_juridical_dictionary(args.dictionary_yml)

    # 1) Brute
    print("\n=== Benchmark BM25 sur chunks ‚Äî requ√™te brute ===")
    res_raw = evaluate_bm25(
        documents=documents,
        bm25=bm25,
        k=args.k,
        use_query_understanding=False,
        dictionary=None,
        use_min_expansion=False,
        dedupe_key=dedupe_key,
    )
    print(f"Recall@{args.k} : {res_raw[f'Recall@{args.k}']:.3f}")
    print(f"MRR : {res_raw['MRR']:.3f}")
    print(f"nDCG@{args.k} : {res_raw[f'nDCG@{args.k}']:.3f}")

    # 2) Query understanding
    print("\n=== Benchmark BM25 sur chunks ‚Äî requ√™te enrichie (query understanding) ===")
    res_enriched = evaluate_bm25(
        documents=documents,
        bm25=bm25,
        k=args.k,
        use_query_understanding=True,
        dictionary=dictionary,
        use_min_expansion=False,
        dedupe_key=dedupe_key,
    )
    print(f"Recall@{args.k} : {res_enriched[f'Recall@{args.k}']:.3f}")
    print(f"MRR : {res_enriched['MRR']:.3f}")
    print(f"nDCG@{args.k} : {res_enriched[f'nDCG@{args.k}']:.3f}")

    # 3) Expansion minimale (optionnelle)
    if use_min_expansion:
        print("\n=== Benchmark BM25 sur chunks ‚Äî requ√™te brute + expansion minimale m√©tier ===")
        res_exp = evaluate_bm25(
            documents=documents,
            bm25=bm25,
            k=args.k,
            use_query_understanding=False,
            dictionary=None,
            use_min_expansion=True,
            dedupe_key=dedupe_key,
        )
        print(f"Recall@{args.k} : {res_exp[f'Recall@{args.k}']:.3f}")
        print(f"MRR : {res_exp['MRR']:.3f}")
        print(f"nDCG@{args.k} : {res_exp[f'nDCG@{args.k}']:.3f}")

        print("\n=== Benchmark BM25 sur chunks ‚Äî requ√™te enrichie + expansion minimale m√©tier ===")
        res_enriched_exp = evaluate_bm25(
            documents=documents,
            bm25=bm25,
            k=args.k,
            use_query_understanding=True,
            dictionary=dictionary,
            use_min_expansion=True,
            dedupe_key=dedupe_key,
        )
        print(f"Recall@{args.k} : {res_enriched_exp[f'Recall@{args.k}']:.3f}")
        print(f"MRR : {res_enriched_exp['MRR']:.3f}")
        print(f"nDCG@{args.k} : {res_enriched_exp[f'nDCG@{args.k}']:.3f}")

    # Verbatim
    if args.show_verbatim:
        display_results_per_query(
            label="Requ√™te brute",
            documents=documents,
            bm25=bm25,
            k=args.k,
            use_query_understanding=False,
            dictionary=None,
            use_min_expansion=False,
            dedupe_key=dedupe_key,
        )

        display_results_per_query(
            label="Requ√™te enrichie",
            documents=documents,
            bm25=bm25,
            k=args.k,
            use_query_understanding=True,
            dictionary=dictionary,
            use_min_expansion=False,
            dedupe_key=dedupe_key,
        )

        if use_min_expansion:
            display_results_per_query(
                label="Requ√™te brute + expansion minimale",
                documents=documents,
                bm25=bm25,
                k=args.k,
                use_query_understanding=False,
                dictionary=None,
                use_min_expansion=True,
                dedupe_key=dedupe_key,
            )

            display_results_per_query(
                label="Requ√™te enrichie + expansion minimale",
                documents=documents,
                bm25=bm25,
                k=args.k,
                use_query_understanding=True,
                dictionary=dictionary,
                use_min_expansion=True,
                dedupe_key=dedupe_key,
            )


if __name__ == "__main__":
    main()


=== Chargement corpus chunk√© (JSONL) ===
Chunks charg√©s : 13180

=== Filtrage (optionnel) ===
Chunks apr√®s filtre : 11323
Filtre doc_types : ['article']

=== Construction index BM25 ===
Index BM25 construit.

=== Benchmark BM25 sur chunks ‚Äî requ√™te brute ===
Recall@10 : 0.667
MRR : 0.444
nDCG@10 : 0.500

=== Benchmark BM25 sur chunks ‚Äî requ√™te enrichie (query understanding) ===
Recall@10 : 0.667
MRR : 0.444
nDCG@10 : 0.500

=== Benchmark BM25 sur chunks ‚Äî requ√™te brute + expansion minimale m√©tier ===
Recall@10 : 0.667
MRR : 0.667
nDCG@10 : 0.667

=== Benchmark BM25 sur chunks ‚Äî requ√™te enrichie + expansion minimale m√©tier ===
Recall@10 : 0.667
MRR : 0.667
nDCG@10 : 0.667

=== VERBATIM ‚Äî Requ√™te brute ===

ID: Q1 | Question: Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?

--- Rang 1 | Score BM25: 20.945 | NON PERTINENT
doc_type=article | chunk_index=0 | meta.id=None | meta.num=L3142-17
doc_id: D:\-- Projet RAG Avocats --\data_main\data\20250731-220719\leg

## ‚ñ∂Ô∏è Ex√©cution (optionnelle)

Par d√©faut, le script utilise un chemin Windows en argument `--corpus-jsonl`.  
En notebook, on peut surcharger les arguments en d√©finissant `sys.argv` avant d‚Äôappeler `main()`.

‚ö†Ô∏è Pense √† mettre le chemin r√©el vers notre `corpus_chunks.jsonl` (sortie Script 08).


In [4]:
import sys

# Exemple : surcharge des arguments CLI (√† adapter)
# sys.argv = [
#     "",
#     "--corpus-jsonl", r"D:\-- Projet RAG Avocats --\data_main\result_tests\corpus_chunks.jsonl",
#     "--k", "10",
#     "--doc-types", "article",
#     "--show-verbatim",
#     "--dedupe-key", "meta.num",
#     "--min-expansion",
# ]

# Lance le main
# main()


## Analyse des r√©sultats ‚Äî Script 9 (BM25 sur corpus chunk√©)

### Protocole
- **Corpus** : `corpus_chunks.jsonl` (sortie Script 8 : chunking *passage-level* + nettoyage d‚Äôen-t√™tes).
- **Filtrage m√©tier** : **d√©sactiv√©** (important : un filtre type `"code du travail"` peut artificiellement faire chuter les scores en excluant trop de chunks).
- **Doc types index√©s** : `article` uniquement (pour limiter le bruit ‚Äúplan/structure‚Äù).
- **Benchmark** : inchang√© (`benchmark_queries.py`, 3 requ√™tes Q1‚ÄìQ3).
- **M√©triques** : Recall@10, MRR, nDCG@10 (`metrics.py`).
- **Options de debug** :
  - `show_verbatim=True` pour audit qualitatif.
  - `dedupe_key` activable (ex: `meta.num`) pour √©viter d‚Äôafficher/compter des quasi-doublons.

### R√©sultats
| Configuration                                                  | Recall@10 | MRR   | nDCG@10 |
|---|---:|---:|---:|
| BM25 chunks ‚Äî requ√™te brute                                    | 0.667 | 0.444 | 0.500 |
| BM25 chunks ‚Äî requ√™te enrichie (query understanding)           | 0.667 | 0.444 | 0.500 |
| BM25 chunks ‚Äî requ√™te brute + **expansion minimale m√©tier**    | 0.667 | 0.667 | 0.667 |
| BM25 chunks ‚Äî enrichie + **expansion minimale m√©tier**         | 0.667 | 0.667 | 0.667 |

### Lecture / Interpr√©tation (quantitatif)
- **Recall@10 stable (0.667)** : on r√©cup√®re toujours **2 requ√™tes sur 3** dans le top-10.
- **Gain fort sur MRR et nDCG** avec l‚Äô**expansion minimale** :
  - **MRR 0.444 ‚Üí 0.667** : quand on trouve, on trouve **plus haut** (souvent rang 1).
  - **nDCG@10 0.500 ‚Üí 0.667** : le top-10 est **mieux ordonn√©**, avec plus de pertinents en haut.

### Lecture / Interpr√©tation (qualitatif ‚Äî verbatim)
- **Q2 (licenciement pour motif √©conomique)** : bon comportement (articles tr√®s ‚Äúlexicalis√©s‚Äù, BM25 fonctionne bien).
- **Q1 (CDI rompu sans pr√©avis)** : √©chec persistant m√™me apr√®s expansion :
  - L‚Äôexpansion ajoute des bons concepts (faute grave, faute lourde, dispense de pr√©avis‚Ä¶),
  - mais BM25 remonte surtout des passages ‚Äústructure du code / plan‚Äù qui matchent fortement (`rupture`, `contrat`, `licenciement`),
  - sans n√©cessairement tomber sur l‚Äôarticle normatif attendu sur le pr√©avis.
- **Q3 (contester un licenciement)** : l‚Äôexpansion aide le ranking global, mais l‚Äôaudit est indispensable pour v√©rifier que les ‚ÄúPERTINENT‚Äù le sont vraiment (limites d‚Äôun oracle bas√© sur mots-cl√©s).

### Points cl√©s √† retenir (√† valoriser en entretien)
1. **Le chunking passage-level** rend le retrieval plus exploitable : passages plus courts, moins de bruit, et surtout **meilleur ranking**.
2. Une **expansion m√©tier minimale** (m√™me simple) peut am√©liorer **fortement** MRR/nDCG sans changer de mod√®le.
3. Les √©checs restants (Q1) illustrent une limite attendue de BM25 : **d√©calage entre langage utilisateur et formulation juridique** + ‚Äúbruit structurel‚Äù.
   ‚Üí Justification naturelle d‚Äôun **dense retrieval** ou **hybride BM25 + dense rerank**, et/ou d‚Äôun filtrage plus fin des passages ‚Äúplan de code‚Äù.

### Pistes d‚Äôam√©lioration rapides (sans sur-optimiser)
- **R√©duire le bruit ‚Äúplan/structure‚Äù** : d√©tecter ces passages (patterns type ‚ÄúPartie / Livre / Titre / Chapitre / Section‚Äù sans contenu normatif) et les exclure ou les downweight.
- **Am√©liorer l‚Äô√©valuation** : passer progressivement d‚Äôun oracle ‚Äúmots-cl√©s‚Äù √† une cible plus robuste (`meta.num`, `meta.id`, ou mapping question ‚Üí article(s) attendus).
- **√âtape suivante logique** : tester un **dense retrieval sur chunks** (ou rerank dense) pour r√©soudre les requ√™tes ‚Äús√©mantiques‚Äù type Q1.