# üß≠ Script 06 ‚Äî BM25 filtr√© + Query Understanding (Notebook de pr√©sentation)

## üß© Pourquoi cette progression ?
Dans les scripts pr√©c√©dents, nous avons √©tabli une **baseline BM25** puis test√© deux leviers classiques d‚Äôam√©lioration :

- **Filtrage m√©tier** (r√©duire le bruit documentaire en limitant le p√©rim√®tre au *Code du travail*).
- **Query Understanding** (tenter d‚Äô**enrichir** la requ√™te utilisateur avec des termes ‚Äúm√©tier‚Äù issus d‚Äôun dictionnaire).

L‚Äôid√©e de ce script est de **combiner** ces deux leviers :
1) on restreint le corpus √† un p√©rim√®tre juridique coh√©rent (*Code du travail*),  
2) puis on applique l‚Äôenrichissement de requ√™te **avant** le retrieval BM25,  
3) et on r√©-√©value **sur le m√™me benchmark** avec **les m√™mes m√©triques** (Recall@10, MRR, nDCG@10).

‚úÖ Si les m√©triques bougent, c‚Äôest attribuable √† cette combinaison (filtrage + enrichissement), √† p√©rim√®tre et protocole constants.


## ‚öôÔ∏è Pr√©-requis (Notebook)
Ce notebook ajoute uniquement des cellules ‚Äúsetup‚Äù (installation + import du projet) pour √©viter les erreurs dans Jupyter.

- Les modules `corpus_loader`, `benchmark_queries`, `metrics`, `query_understanding` sont **locaux au projet** : il faut que la racine de notre projet soit dans `sys.path`.
- D√©pendances externes attendues : `rank-bm25` (et souvent `pyyaml` si le dictionnaire est en YAML).


In [1]:
# ‚úÖ Installation des d√©pendances externes (√† ex√©cuter une seule fois par environnement)
# Note: dans Jupyter, %pip installe dans le kernel courant.
%pip install -q rank-bm25 pyyaml ipywidgets tqdm


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
# ‚úÖ Rendre les modules locaux importables (ex: corpus_loader.py, metrics.py, etc.)
# Si notre notebook est dans un sous-dossier (ex: notebooks/), remonter d'un ou plusieurs niveaux.
from pathlib import Path
import sys

PROJECT_ROOT = Path.cwd()
# Exemple si le notebook est dans un dossier notebooks/ :
# PROJECT_ROOT = Path.cwd().parent

sys.path.insert(0, str(PROJECT_ROOT))

print("PROJECT_ROOT:", PROJECT_ROOT)


PROJECT_ROOT: d:\-- Projet RAG Avocats --\codes_python\notebooks


## üßæ Code du script (inchang√©)

> Le code ci-dessous est repris tel quel du fichier `.py` (hors cellules setup notebook).

In [3]:
# -*- coding: utf-8 -*-

"""
STAGE 8 ‚Äì BM25 + FILTRAGE M√âTIER + QUERY UNDERSTANDING
"""

from rank_bm25 import BM25Okapi
from corpus_loader import documents
from query_understanding import process_user_query, load_juridical_dictionary
from benchmark_queries import benchmark_queries
from metrics import recall_at_k, reciprocal_rank, ndcg_at_k
import re


# =========================================================
# 0. CHARGEMENT DU DICO DE juridical_dictionary.yml
# =========================================================
dictionary = load_juridical_dictionary("juridical_dictionary.yml")


# =========================================================
# 1. FILTRAGE M√âTIER (CODE DU TRAVAIL)
# =========================================================
def tokenize(text):
    return re.findall(r"\b\w+\b", text.lower())


filtered_documents = [
    doc for doc in documents
    if "code du travail" in doc["text"].lower()
]

tokenized_docs = [tokenize(doc["text"]) for doc in filtered_documents]
bm25 = BM25Okapi(tokenized_docs)


def bm25_search(query, k=10):
    scores = bm25.get_scores(tokenize(query))
    ranked = sorted(
        zip(filtered_documents, scores),
        key=lambda x: x[1],
        reverse=True
    )
    return ranked[:k]


# =========================================================
# 2. BENCHMARK
# =========================================================

def evaluate():
    recall_scores, mrr_scores, ndcg_scores = [], [], []

    for q in benchmark_queries:
        enriched = process_user_query(q["question"], dictionary)
        query = enriched["enriched_query"]

        results = bm25_search(query, k=10)

        recall_scores.append(recall_at_k(results, q["relevant_keywords"], 10))
        mrr_scores.append(reciprocal_rank(results, q["relevant_keywords"]))
        ndcg_scores.append(ndcg_at_k(results, q["relevant_keywords"], 10))

    return {
        "Recall@10": sum(recall_scores) / len(recall_scores),
        "MRR": sum(mrr_scores) / len(mrr_scores),
        "nDCG@10": sum(ndcg_scores) / len(ndcg_scores),
    }


if __name__ == "__main__":
    print("\n=== BM25 filtr√© + requ√™te enrichie ===")
    print(evaluate())


Corpus brut charg√© : 4422 documents
Corpus filtr√© 'Code du travail' : 882 documents

=== BM25 filtr√© + requ√™te enrichie ===
{'Recall@10': 0.3333333333333333, 'MRR': 0.3333333333333333, 'nDCG@10': 0.3333333333333333}


## üìä Analyse finale (comparative)

R√©sultat observ√© lors du run :

- Corpus brut charg√© : **4422** documents  
- Corpus filtr√© **¬´ Code du travail ¬ª** : **882** documents  
- **BM25 filtr√© + requ√™te enrichie** :  
  - Recall@10 = **0.333**
  - MRR = **0.333**
  - nDCG@10 = **0.333**

### üîç Lecture
- Le score est **identique** √† la baseline observ√©e dans les stages BM25 pr√©c√©dents.
- Dans notre cas, cela s‚Äôexplique tr√®s souvent par un point d√©j√† identifi√© :  
  si `process_user_query()` ne d√©tecte **pas d‚Äôintention m√©tier** (`intent_detected=None`), alors `enriched_query == query` ‚Üí **aucune variation possible** c√¥t√© BM25.

### ‚úÖ Conclusion
Ce stage est surtout utile pour **valider l‚Äôarchitecture exp√©rimentale** :  
filtrage + enrichissement sont ‚Äúbranch√©s‚Äù, et on peut d√©sormais mesurer un gain **d√®s que** :
- la d√©tection d‚Äôintention se d√©clenche (dictionnaire plus robuste / matching moins strict),
- ou que l‚Äôon passe √† une approche hybride (BM25 + dense) / re-ranking.

> √Ä ce stade, l‚Äôabsence de gain ne signifie pas que l‚Äôid√©e est mauvaise : elle indique que l‚Äôenrichissement *n‚Äôa pas eu d‚Äôeffet* sur le benchmark actuel (souvent parce qu‚Äôil ne s‚Äôactive pas).


In [4]:
# üîÅ Optionnel : relancer l'√©valuation ici pour v√©rifier les scores dans notre environnement notebook
# (Si tout est bien install√©/import√©, cela doit reproduire les r√©sultats.)
try:
    print("\n=== BM25 filtr√© + requ√™te enrichie (re-run notebook) ===")
    print(evaluate())
except Exception as e:
    print("Erreur lors du re-run notebook:", repr(e))



=== BM25 filtr√© + requ√™te enrichie (re-run notebook) ===
{'Recall@10': 0.3333333333333333, 'MRR': 0.3333333333333333, 'nDCG@10': 0.3333333333333333}
