<span style="color:#8B949E;">
<b>Note de lecture</b> ‚Äî Notebook issu de tests it√©ratifs (‚Äúspeed-tests‚Äù).  
Le corpus utilis√© ici est un <b>dataset de substitution</b> (non align√© client) uniquement pour valider la m√©canique (retrieval + √©valuation) et d√©rouler la roadmap.  
Pour le chemin complet, suivre l‚Äôordre 01 ‚Üí 10 et lire en priorit√© les sections Markdown.
</span>


# üß† Stage 7 ‚Äî BM25 + *Query Understanding* (requ√™te enrichie)

**But :** comparer un **BM25 sur requ√™te brute** vs un **BM25 sur requ√™te enrichie m√©tier** (dictionnaire juridique), puis mesurer l'impact via **Recall@10**, **MRR** et **nDCG@10**.

---

## ‚úÖ √Ä avoir dans le projet
- `corpus_loader.py` (ou package) ‚Üí fournit `documents`
- `query_understanding.py` ‚Üí `process_user_query`, `load_juridical_dictionary`
- `benchmark_queries.py` ‚Üí `benchmark_queries`
- `juridical_dictionary.yml` ‚Üí dictionnaire m√©tier
- (optionnel) `metrics.py` ‚Üí fonctions de m√©triques


In [1]:
# ‚ñ∂Ô∏è D√©pendances "pip" (uniquement celles qui sont externes au projet)
# Note : les modules `corpus_loader`, `query_understanding`, `benchmark_queries`, `metrics`
# sont suppos√©s √™tre des fichiers .py DU PROJET (donc pas installables via pip).

import sys, os
print("Python:", sys.version)

# Installation dans l'environnement Jupyter courant
# (relance la cellule si besoin apr√®s un red√©marrage du kernel)
%pip -q install rank_bm25 pyyaml


Python: 3.9.13 (tags/v3.9.13:6de2ca5, May 17 2022, 16:36:42) [MSC v.1929 64 bit (AMD64)]
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
# üîß Rendre importables les modules locaux du projet
# Si notre notebook est dans un sous-dossier (ex: "notebooks/"), on ajoute la racine du projet au PYTHONPATH.

from pathlib import Path
import sys

# Point de d√©part : dossier du notebook
HERE = Path.cwd()

# Cas fr√©quent : notebook dans "notebooks/" ‚Üí racine = parent
# Ajuste si besoin (parent.parent, etc.)
PROJECT_ROOT = HERE
if (HERE / "notebooks").exists() and not (HERE / "corpus_loader.py").exists():
    PROJECT_ROOT = HERE.parent

# On ajoute au sys.path en priorit√© (index 0)
sys.path.insert(0, str(PROJECT_ROOT))

print("Notebook folder :", HERE)
print("Project root    :", PROJECT_ROOT)
print("corpus_loader.py:", (PROJECT_ROOT / "corpus_loader.py").exists())


Notebook folder : d:\-- Projet RAG Avocats --\codes_python\notebooks
Project root    : d:\-- Projet RAG Avocats --\codes_python\notebooks
corpus_loader.py: True


In [3]:
# üì¶ Imports
from rank_bm25 import BM25Okapi
import re

# Imports "locaux projet" : on affiche une erreur claire si un fichier manque
try:
    from corpus_loader import documents
except ModuleNotFoundError as e:
    raise ModuleNotFoundError(
        "Impossible d'importer `corpus_loader`. "
        "V√©rifie que `corpus_loader.py` est bien dans PROJECT_ROOT (ou ajuste la cellule sys.path)."
    ) from e

try:
    from query_understanding import process_user_query, load_juridical_dictionary
except ModuleNotFoundError as e:
    raise ModuleNotFoundError(
        "Impossible d'importer `query_understanding`. "
        "V√©rifie que `query_understanding.py` est bien dans PROJECT_ROOT."
    ) from e

try:
    from benchmark_queries import benchmark_queries
except ModuleNotFoundError:
    # Fallback : mini jeu de requ√™tes pour que le notebook tourne quand m√™me
    benchmark_queries = [
        {"question": "Quelles sont les conditions de la garde √† vue ?", "relevant_keywords": ["garde", "vue"]},
        {"question": "D√©lai de prescription en mati√®re civile", "relevant_keywords": ["prescription", "d√©lai"]},
    ]
    print("‚ö†Ô∏è `benchmark_queries` introuvable ‚Üí fallback minimal utilis√© (pour d√©mo).")

# Metrics : soit un module local, soit un fallback minimal
try:
    from metrics import recall_at_k, reciprocal_rank, ndcg_at_k
except ModuleNotFoundError:
    print("‚ö†Ô∏è `metrics` introuvable ‚Üí fallback minimal utilis√© (pour d√©mo).")

    def _is_relevant(doc_text: str, relevant_keywords) -> bool:
        t = (doc_text or "").lower()
        return any((kw or "").lower() in t for kw in relevant_keywords)

    def recall_at_k(results, relevant_keywords, k: int = 10) -> float:
        topk = results[:k]
        return 1.0 if any(_is_relevant(doc.get("text", ""), relevant_keywords) for doc, _ in topk) else 0.0

    def reciprocal_rank(results, relevant_keywords) -> float:
        for i, (doc, _) in enumerate(results, start=1):
            if _is_relevant(doc.get("text", ""), relevant_keywords):
                return 1.0 / i
        return 0.0

    def ndcg_at_k(results, relevant_keywords, k: int = 10) -> float:
        # Gain binaire : 1 si doc pertinent, sinon 0
        gains = [1.0 if _is_relevant(doc.get("text", ""), relevant_keywords) else 0.0
                 for doc, _ in results[:k]]

        def dcg(vals):
            s = 0.0
            for i, v in enumerate(vals, start=1):
                s += v / ( (i + 1) ** 0.5 )  # discount doux (d√©mo)
            return s

        ideal = sorted(gains, reverse=True)
        denom = dcg(ideal)
        return (dcg(gains) / denom) if denom > 0 else 0.0


Corpus brut charg√© : 4422 documents
Corpus filtr√© 'Code du travail' : 882 documents


In [4]:
# üìö Chargement du dictionnaire juridique
# Assure-toi que `juridical_dictionary.yml` est bien pr√©sent √† la racine du projet.
dictionary_path = "juridical_dictionary.yml"
dictionary = load_juridical_dictionary(dictionary_path)
print("Dico charg√© ‚úÖ")


Dico charg√© ‚úÖ


## üî§ 1) Tokenisation (simple & robuste)

In [5]:
def tokenize(text: str):
    # Tokenisation simple : mots alphanum√©riques en minuscules
    return re.findall(r"\b\w+\b", (text or "").lower())

# Petit test
tokenize("Article L. 123-4 : d√©lai de prescription ?")


['article', 'l', '123', '4', 'd√©lai', 'de', 'prescription']

## üß± 2) Construction de l‚Äôindex BM25

In [6]:
# On tokenise les documents (attendu : documents = [{"text": ...}, ...])
tokenized_docs = [tokenize(doc.get("text", "")) for doc in documents]

bm25 = BM25Okapi(tokenized_docs)

def bm25_search(query: str, k: int = 10):
    # Calcule les scores BM25 et retourne les top-k
    scores = bm25.get_scores(tokenize(query))
    ranked = sorted(zip(documents, scores), key=lambda x: x[1], reverse=True)
    return ranked[:k]

print("BM25 pr√™t ‚úÖ - nb docs:", len(documents))


BM25 pr√™t ‚úÖ - nb docs: 882


## üß™ 3) √âvaluation : requ√™te brute vs requ√™te enrichie

In [7]:
def evaluate_bm25(use_query_understanding: bool = False, k: int = 10):
    recall_scores = []
    mrr_scores = []
    ndcg_scores = []

    for q in benchmark_queries:
        query = q["question"]

        # Enrichissement "m√©tier"
        if use_query_understanding:
            enriched = process_user_query(query, dictionary)
            query = enriched.get("enriched_query", query)

        results = bm25_search(query, k=k)

        recall_scores.append(recall_at_k(results, q["relevant_keywords"], k))
        mrr_scores.append(reciprocal_rank(results, q["relevant_keywords"]))
        ndcg_scores.append(ndcg_at_k(results, q["relevant_keywords"], k))

    n = max(len(benchmark_queries), 1)
    return {
        f"Recall@{k}": sum(recall_scores) / n,
        "MRR": sum(mrr_scores) / n,
        f"nDCG@{k}": sum(ndcg_scores) / n,
    }

baseline = evaluate_bm25(use_query_understanding=False, k=10)
enriched = evaluate_bm25(use_query_understanding=True, k=10)

baseline, enriched


({'Recall@10': 0.3333333333333333,
  'MRR': 0.3333333333333333,
  'nDCG@10': 0.3333333333333333},
 {'Recall@10': 0.3333333333333333,
  'MRR': 0.3333333333333333,
  'nDCG@10': 0.3333333333333333})

## üìä 4) Comparaison lisible

In [8]:
import pandas as pd

df = pd.DataFrame([baseline, enriched], index=["BM25 requ√™te brute", "BM25 requ√™te enrichie"])
df


Unnamed: 0,Recall@10,MRR,nDCG@10
BM25 requ√™te brute,0.333333,0.333333,0.333333
BM25 requ√™te enrichie,0.333333,0.333333,0.333333


## üîé 5) Inspection qualitative sur une requ√™te

In [9]:
# Modifier la requ√™te pour tester rapidement
query = benchmark_queries[0]["question"]

print("=== Requ√™te brute ===")
for i, (doc, score) in enumerate(bm25_search(query, k=5), start=1):
    print(f"{i:02d}  score={score:.4f}  |  {doc.get('id', '(no id)')}")

print("\n=== Requ√™te enrichie ===")
enriched_q = process_user_query(query, dictionary).get("enriched_query", query)
print("Enriched query:", enriched_q)

for i, (doc, score) in enumerate(bm25_search(enriched_q, k=5), start=1):
    print(f"{i:02d}  score={score:.4f}  |  {doc.get('id', '(no id)')}")


=== Requ√™te brute ===
01  score=23.5373  |  (no id)
02  score=12.7041  |  (no id)
03  score=12.6815  |  (no id)
04  score=12.6591  |  (no id)
05  score=12.2068  |  (no id)

=== Requ√™te enrichie ===
Enriched query: Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?
01  score=23.5373  |  (no id)
02  score=12.7041  |  (no id)
03  score=12.6815  |  (no id)
04  score=12.6591  |  (no id)
05  score=12.2068  |  (no id)


In [11]:
res = process_user_query(query, dictionary)
print(res["intent_detected"]) # si None explique pourquoi requete ET requete enrichie donnent le m√™me r√©sultat
print(res["notes"] if "notes" in res else "")
print(res["enriched_query"])


None
Aucune intention m√©tier d√©tect√©e
Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?


## üß© STAGE 5 ‚Äî BM25 + ‚ÄúQuery Understanding‚Äù : analyse finale (avec le diagnostic intention=None)

### üßæ Donn√©es & p√©rim√®tre (inchang√©s)
- Corpus brut : **4422** documents  
- Corpus filtr√© **¬´ Code du travail ¬ª** : **882** documents  
‚úÖ M√™me p√©rim√®tre que les stages pr√©c√©dents ‚Üí comparaison directe.

---

## üìä R√©sultats (m√©triques)
### BM25 ‚Äî requ√™te brute
- Recall@10 = **0.333**
- MRR = **0.333**
- nDCG@10 = **0.333**

### BM25 ‚Äî requ√™te enrichie ‚Äúm√©tier‚Äù
- Recall@10 = **0.333**
- MRR = **0.333**
- nDCG@10 = **0.333**

‚û°Ô∏è Lecture : aucune am√©lioration mesurable sur ce benchmark.

---

## üîç Diagnostic cl√© (pour expliquer pourquoi c‚Äôest identique)
Sur la requ√™te test√©e, le module de ‚Äúquery understanding‚Äù renvoie :

- `intent_detected = None`
- message : **¬´ Aucune intention m√©tier d√©tect√©e ¬ª**
- `enriched_query` = **requ√™te d‚Äôorigine** (inchang√©e)

‚úÖ Cons√©quence directe : comme la requ√™te envoy√©e √† BM25 est **strictement la m√™me**,  
le ranking et les scores BM25 sont **strictement identiques** :

- Top-5 scores identiques (23.5373, 12.7041, 12.6815, 12.6591, 12.2068)
- Donc aucune variation possible sur Recall@10 / MRR / nDCG@10.

‚û°Ô∏è Conclusion importante : **l‚Äôabsence de gain ne refl√®te pas un √©chec de BM25**,  
mais le fait que la couche ‚Äúm√©tier‚Äù **n‚Äôa pas √©t√© activ√©e** sur cette question.

---

## üß† Comparaison avec les stages pr√©c√©dents
- **STAGE 3 (BM25 filtr√©)** : baseline = **0.333 / 0.333 / 0.333**
- **STAGE 4 (Dense)** : **0.333 / 0.333 / 0.292** (ranking plus bruit√©)
- **STAGE 5 (BM25 + enrichissement)** : **identique** √† STAGE 3, car `intent=None` ‚Üí pas d‚Äôenrichissement

---

## ‚úÖ Conclusion
√Ä ce stade, le STAGE 5 montre surtout un point ‚Äúing√©nierie‚Äù essentiel :

> Tant que l‚Äôintention m√©tier n‚Äôest pas d√©tect√©e (`intent=None`),
> la requ√™te enrichie = requ√™te brute,
> donc aucune am√©lioration n‚Äôest possible.

La prochaine √©tape logique (sans changer la logique BM25) serait de **renforcer la d√©tection d‚Äôintention** et/ou le dictionnaire, afin que l‚Äôenrichissement se d√©clenche r√©ellement et puisse √™tre √©valu√© objectivement.
