<span style="color:#8B949E;">
<b>Note de lecture</b> ‚Äî Notebook issu de tests it√©ratifs (‚Äúspeed-tests‚Äù).  
Le corpus utilis√© ici est un <b>dataset de substitution</b> (non align√© client) uniquement pour valider la m√©canique (retrieval + √©valuation) et d√©rouler la roadmap.  
Pour le chemin complet, suivre l‚Äôordre 01 ‚Üí 10 et lire en priorit√© les sections Markdown.
</span>


# üìä Benchmark BM25 (Stage 2) ‚Äî Notebook de pr√©sentation

Ce notebook reprend le script **`2_Benchmark_BM25.py`** et le d√©coupe en √©tapes lisibles, avec :
- ‚úÖ une ex√©cution **pas √† pas**
- üìè des **m√©triques retrieval** (Recall@k, MRR, nDCG@k)
- üßæ une **analyse qualitative** (verbatim) pour comprendre faux positifs / faux n√©gatifs

> **Note compatibilit√© Python :** ce notebook √©vite les annotations du type `str | None` (Python 3.10+).  
> On utilise `Optional[str]` pour rester compatible avec Python 3.8/3.9.

In [1]:
# üîç V√©rification rapide de la version Python du kernel
import sys
print(sys.version)

3.9.13 (tags/v3.9.13:6de2ca5, May 17 2022, 16:36:42) [MSC v.1929 64 bit (AMD64)]


## ‚öôÔ∏è 0) D√©pendances

Ce notebook a besoin de :
- `rank_bm25`

Si tu ex√©cutes dans un environnement o√π le paquet n‚Äôest pas install√©, d√©commente la cellule d‚Äôinstallation ci-dessous.

In [2]:
# üì¶ Installation (optionnel) ‚Äî d√©commente si besoin
# %pip install rank_bm25

## üß± 1) Construction du corpus (XML ‚ûú texte)

On parcourt un dossier de fichiers XML et on construit un corpus minimal :
- `doc_id` : identifiant stable (ici : chemin complet)
- `text` : texte extrait

üí° Dans un vrai projet, cette phase serait souvent **externalis√©e** (normalisation, m√©tadonn√©es, filtrage m√©tier‚Ä¶).

In [3]:
import os
import xml.etree.ElementTree as ET
from typing import Optional, List, Dict, Any, Tuple

# ‚úÖ Ajuste ce chemin √† ton poste
# Windows (comme ton script) :
DATA_ROOT = r"D:\-- Projet RAG Avocats --\data_main\data"

# Linux / WSL2 (exemple) :
# DATA_ROOT = "/mnt/d/-- Projet RAG Avocats --/data_main/data"

def extract_text_from_xml(xml_path: str) -> Optional[str]:
    """
    Extrait de mani√®re robuste tout le texte d'un fichier XML.

    Hypoth√®se volontairement simple pour un POC p√©dagogique :
    - it√®re sur tous les √©l√©ments
    - concat√®ne les champs .text
    """
    try:
        tree = ET.parse(xml_path)
        root = tree.getroot()
        texts: List[str] = []
        for elem in root.iter():
            if elem.text:
                t = elem.text.strip()
                if t:
                    texts.append(t)
        return " ".join(texts)
    except Exception:
        return None

documents: List[Dict[str, Any]] = []

if not os.path.exists(DATA_ROOT):
    raise FileNotFoundError(
        f"DATA_ROOT introuvable: {DATA_ROOT}\n"
        "üëâ Mets √† jour la variable DATA_ROOT (Windows vs WSL2)."
    )

for root_dir, _, files in os.walk(DATA_ROOT):
    for file in files:
        if file.lower().endswith(".xml"):
            full_path = os.path.join(root_dir, file)
            text = extract_text_from_xml(full_path)

            # Filtre minimal : √©vite les docs trop pauvres (POC)
            if text and len(text) > 200:
                documents.append({"doc_id": full_path, "text": text})

print(f"üìö Corpus charg√© : {len(documents)} documents")

üìö Corpus charg√© : 4395 documents


## üîé 2) Indexation BM25

On tokenise simplement en `lower().split()` puis on construit l‚Äôindex BM25.

> Objectif : observer les limites du **lexical pur** (synonymie, paraphrase, implicite, etc.).

In [4]:
from rank_bm25 import BM25Okapi

def tokenize(text: str) -> List[str]:
    """Tokenisation volontairement simple."""
    return text.lower().split()

# Corpus tokenis√© dans le M√äME ordre que documents
corpus_tokens: List[List[str]] = [tokenize(doc["text"]) for doc in documents]

# Construction de l'index BM25
bm25 = BM25Okapi(corpus_tokens)

print("‚úÖ Index BM25 construit")

‚úÖ Index BM25 construit


## üß™ 3) Jeu de questions (benchmark)

Ici, on associe √† chaque question :
- une formulation utilisateur r√©aliste
- une liste de **mots-cl√©s attendus** (proxy de pertinence)

‚ö†Ô∏è Dans un vrai projet, la v√©rit√© terrain serait plut√¥t :
- des `doc_id` pertinents annot√©s par des juristes, ou
- des passages (chunks) pertinents, pas seulement des mots-cl√©s.

In [5]:
benchmark_queries = [
    {
        "query_id": "Q1",
        "question": "Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?",
        "relevant_keywords": ["faute grave", "rupture sans pr√©avis", "L1234"],
    },
    {
        "query_id": "Q2",
        "question": "Qu'est-ce qu'un licenciement pour motif √©conomique ?",
        "relevant_keywords": ["motif √©conomique", "L1233-3"],
    },
    {
        "query_id": "Q3",
        "question": "Un salari√© peut-il contester un licenciement ?",
        "relevant_keywords": ["contestation", "sanctions", "irr√©gularit√©s du licenciement"],
    },
]

print(f"üßæ Questions benchmark : {len(benchmark_queries)}")

üßæ Questions benchmark : 3


## üîç 4) Recherche BM25

On r√©cup√®re les scores BM25 et on trie les documents par score d√©croissant.

In [6]:
def bm25_search(
    query: str,
    documents: List[Dict[str, Any]],
    bm25: BM25Okapi,
    top_k: int = 10,
) -> List[Tuple[Dict[str, Any], float]]:
    """
    Ex√©cute une recherche BM25 sur le corpus.

    Retour :
    - liste de (doc, score) tri√©e du + pertinent au - pertinent (selon BM25)
    """
    query_tokens = tokenize(query)
    scores = bm25.get_scores(query_tokens)

    ranked = sorted(zip(documents, scores), key=lambda x: x[1], reverse=True)
    return ranked[:top_k]

## üìè 5) M√©triques retrieval : Recall@k, MRR, nDCG@k

- **Recall@k** : retrouve-t-on *au moins une* source pertinente dans le top-k ?
- **MRR** : √† quel rang arrive le **premier** document pertinent ?
- **nDCG@k** : qualit√© globale du ranking (pertinent en haut = mieux)

üí° On reste volontairement simple : pertinence = pr√©sence d‚Äôau moins un mot-cl√©.

In [7]:
import math

def is_relevant(document_text: str, relevant_keywords: List[str]) -> bool:
    """Pertinence proxy : un mot-cl√© attendu pr√©sent dans le texte."""
    text_lower = document_text.lower()
    return any(keyword.lower() in text_lower for keyword in relevant_keywords)

def recall_at_k(results: List[Tuple[Dict[str, Any], float]], relevant_keywords: List[str], k: int) -> int:
    """Recall@k binaire : 1 si un pertinent dans top-k, sinon 0."""
    top_k_docs = results[:k]
    return int(any(is_relevant(doc["text"], relevant_keywords) for doc, _ in top_k_docs))

def reciprocal_rank(results: List[Tuple[Dict[str, Any], float]], relevant_keywords: List[str]) -> float:
    """MRR : 1/rang du 1er pertinent, 0 si aucun."""
    for rank, (doc, _) in enumerate(results, start=1):
        if is_relevant(doc["text"], relevant_keywords):
            return 1.0 / rank
    return 0.0

def ndcg_at_k(results: List[Tuple[Dict[str, Any], float]], relevant_keywords: List[str], k: int) -> float:
    """nDCG@k : mesure la qualit√© du ranking (pertinent t√¥t = mieux)."""
    def dcg(res: List[Tuple[Dict[str, Any], float]]) -> float:
        score = 0.0
        for i, (doc, _) in enumerate(res[:k]):
            if is_relevant(doc["text"], relevant_keywords):
                score += 1.0 / math.log2(i + 2)
        return score

    actual = dcg(results)

    # DCG id√©al : tous les pertinents en t√™te (dans la fen√™tre top-k)
    # Ici on approxime l'id√©al via le nombre de pertinents pr√©sents dans top-k
    nb_rel = sum(is_relevant(doc["text"], relevant_keywords) for doc, _ in results[:k])
    ideal = sum(1.0 / math.log2(i + 2) for i in range(nb_rel))

    return actual / ideal if ideal > 0 else 0.0

## üßÆ 6) √âvaluation globale du benchmark

On calcule les m√©triques **moyennes** sur toutes les questions.

In [8]:
def evaluate_benchmark(
    queries: List[Dict[str, Any]],
    documents: List[Dict[str, Any]],
    bm25: BM25Okapi,
    k: int = 10,
) -> Dict[str, float]:
    """Lance le benchmark et renvoie les moyennes des m√©triques."""
    recall_scores: List[int] = []
    mrr_scores: List[float] = []
    ndcg_scores: List[float] = []

    for q in queries:
        results = bm25_search(q["question"], documents, bm25, top_k=k)

        recall_scores.append(recall_at_k(results, q["relevant_keywords"], k))
        mrr_scores.append(reciprocal_rank(results, q["relevant_keywords"]))
        ndcg_scores.append(ndcg_at_k(results, q["relevant_keywords"], k))

    return {
        "Recall@k": sum(recall_scores) / len(recall_scores),
        "MRR": sum(mrr_scores) / len(mrr_scores),
        "nDCG@k": sum(ndcg_scores) / len(ndcg_scores),
    }

results = evaluate_benchmark(benchmark_queries, documents, bm25, k=10)

print("\n=== üìä R√âSULTATS DU BENCHMARK BM25 ===")
for metric, value in results.items():
    print(f"{metric} : {value:.3f}")


=== üìä R√âSULTATS DU BENCHMARK BM25 ===
Recall@k : 0.667
MRR : 0.375
nDCG@k : 0.459


## üßæ 7) Analyse qualitative (VERBATIM)

Les m√©triques donnent une vision globale, mais en juridique on compl√®te souvent par une lecture qualitative :
- comprendre *pourquoi* un r√©sultat est faux positif,
- et *pourquoi* un document attendu n‚Äôappara√Æt pas (faux n√©gatif),
- diagnostiquer les limites lexicales (synonymie, paraphrase, implicite).

In [9]:
def display_results_per_query(
    queries: List[Dict[str, Any]],
    documents: List[Dict[str, Any]],
    bm25: BM25Okapi,
    k: int = 5,
) -> None:
    """
    Affiche les r√©sultats BM25 pour chaque question (verbatim),
    afin d'analyser faux positifs / faux n√©gatifs et la qualit√© du ranking.
    """
    for q in queries:
        print("\n" + "=" * 100)
        print(f"‚ùì Question : {q['question']}")
        print("=" * 100)

        results = bm25_search(q["question"], documents, bm25, top_k=k)

        for rank, (doc, score) in enumerate(results, start=1):
            relevant = is_relevant(doc["text"], q["relevant_keywords"])
            flag = "‚úÖ PERTINENT" if relevant else "‚ùå NON PERTINENT"
            print(f"\n--- Rang {rank} | Score BM25 : {score:.2f} | {flag}")
            print(doc["text"][:400])

display_results_per_query(benchmark_queries, documents, bm25, k=10)


‚ùì Question : Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?

--- Rang 1 | Score BM25 : 20.37 | ‚ùå NON PERTINENT
LEGIARTI000021925677 LEGI article/LEGI/ARTI/00/00/21/92/56/LEGIARTI000021925677.xml Article L3142-17 MODIFIE 2010-03-04 2016-08-10 AUTONOME Code du travail Partie l√©gislative Troisi√®me partie : Dur√©e du travail, salaire, int√©ressement, participation et √©pargne salariale Livre Ier : Dur√©e du travail, repos et cong√©s Titre IV : Cong√©s pay√©s et autres cong√©s Chapitre II : Autres cong√©s Section 2 : Co

--- Rang 2 | Score BM25 : 18.30 | ‚ùå NON PERTINENT
LEGIARTI000051867286 LEGI article/LEGI/ARTI/00/00/51/86/72/LEGIARTI000051867286.xml Article 18-10 VIGUEUR 2025-08-01 2999-01-01 AUTONOME Arr√™t√© du 9 f√©vrier 2009 relatif aux modalit√©s d'immatriculation des v√©hicules Arr√™t√© du 9 f√©vrier 2009 relatif aux modalit√©s d'immatriculation des v√©hicules CHAPITRE 12 :  L'HABILITATION DES PROFESSIONNELS DE L'AUTOMOBILE Conform√©ment √† l'article 8 de l'arr√

## üß† 8) Lecture attendue des r√©sultats (guide)

- **Recall@k faible** ‚Üí faux n√©gatifs (risque critique en juridique)
- **MRR moyenne** ‚Üí documents pertinents trouv√©s mais pas assez haut
- **nDCG@k mod√©r√©e** ‚Üí ranking global bruit√©

üëâ Typiquement, cela motive ensuite :
- des **filtres m√©tier** (collections, typologies, p√©rim√®tre)
- puis une couche **s√©mantique** (embeddings) ou un **hybride** (BM25 + dense via RRF)