# üß† Script 07 ‚Äî Dense Retrieval + Query Understanding

## Pourquoi cette √©tape dans notre progression ?

Apr√®s avoir √©tabli une baseline **BM25** (requ√™te brute), puis test√© :
- l'**enrichissement de requ√™te** (query understanding) c√¥t√© BM25,
- et le **filtrage m√©tier** du corpus,

on passe ici √† l‚Äô√©tape suivante : **remplacer le retriever lexical par un retriever s√©mantique**, tout en **conservant l‚Äôenrichissement m√©tier**.

L‚Äôid√©e est de tester l‚Äôhypoth√®se suivante :

> Quand la requ√™te utilisateur est ambigu√´ ou ‚Äúnon juridique‚Äù dans sa formulation,  
> l‚Äôenrichissement m√©tier fournit des concepts stables, et le dense retrieval peut alors exploiter la similarit√© s√©mantique pour mieux retrouver les bons passages.

‚úÖ Protocole strict (comparabilit√©) :
- m√™me corpus `documents` (filtr√© ‚ÄúCode du travail‚Äù),
- m√™mes questions (`benchmark_queries`),
- m√™mes m√©triques (Recall@10, MRR, nDCG@10),
- **seul le retriever change** (BM25 ‚Üí dense embeddings) et on conserve la couche ‚Äúm√©tier‚Äù.

---
## üß† Embedder utilis√© (Dense Retrieval)

Dans ce stage, le retrieval dense repose sur l‚Äôembedder :

- **Embedder (Sentence-Transformers)** : `all-MiniLM-L6-v2` *(384 dimensions, rapide, baseline robuste)*

### üìå M√©mo important (alignement projet)
Pour √©viter tout biais et garantir une vraie coh√©rence ‚Äúretrieval ‚Üí g√©n√©ration‚Äù, il est indispensable de se synchroniser avec le d√©veloppeur du chatbot LLM afin de :

- **valider l‚Äôembedder cible** qui sera utilis√© en production (retrieval, indexation, √©ventuellement reranking),
- s‚Äôassurer que **l‚Äôindex** et les requ√™tes sont encod√©s avec **le m√™me mod√®le** (sinon d√©gradation forte de la similarit√©),
- arbitrer entre :
  - performance s√©mantique,
  - co√ªt CPU/GPU,
  - latence,
  - stabilit√© multilingue,
  - compatibilit√© avec le domaine juridique.

üëâ Le choix final de l‚Äôembedder doit √™tre **d√©cid√© au niveau architecture**, car il conditionne directement la qualit√© du RAG et les performances globales du syst√®me.
---

## üîß Notes notebook

- Si tu vois des erreurs `ModuleNotFoundError` (`corpus_loader`, `metrics`, `benchmark_queries`‚Ä¶), c‚Äôest juste que le notebook n‚Äôest pas lanc√© depuis la racine du projet : une cellule ci-dessous ajoute la racine au `sys.path`.
- Le fichier `juridical_dictionary.yml` doit √™tre accessible depuis le r√©pertoire courant (ou adapte le chemin dans la cellule d√©di√©e).


## ‚öôÔ∏è Setup (d√©pendances)

Si besoin, installe les d√©pendances utilis√©es dans ce notebook.


In [1]:
# Installation des d√©pendances n√©cessaires (√† ex√©cuter une seule fois par environnement)
%pip -q install sentence-transformers scikit-learn ipywidgets


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
from pathlib import Path
import sys, os

# On tente de se placer √† la racine du projet pour rendre les imports locaux disponibles.
# Ajuste si ton notebook est dans un sous-dossier (ex: notebooks/ -> parent).
PROJECT_ROOT = Path.cwd()

# Exemple : si ce notebook est dans un dossier "notebooks", d√©commente :
# PROJECT_ROOT = Path.cwd().parent

sys.path.insert(0, str(PROJECT_ROOT))
print("PROJECT_ROOT =", PROJECT_ROOT)


PROJECT_ROOT = d:\-- Projet RAG Avocats --\codes_python\notebooks


## üìö Dictionnaire m√©tier

Le script charge `juridical_dictionary.yml`.  
V√©rifie que ce fichier est pr√©sent dans le dossier courant (ou adapte le chemin ci-dessous).


## üß™ Code (repris du script, identique hors adaptations notebook possibles)

In [3]:
# -*- coding: utf-8 -*-

"""
STAGE 9 ‚Äì DENSE RETRIEVAL + QUERY UNDERSTANDING
"""

from corpus_loader import documents
from query_understanding import process_user_query, load_juridical_dictionary
from benchmark_queries import benchmark_queries
from metrics import recall_at_k, reciprocal_rank, ndcg_at_k
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity



# =========================================================
# 0. CHARGEMENT DU DICO DE juridical_dictionary.yml
# =========================================================
dictionary = load_juridical_dictionary("juridical_dictionary.yml")


# =========================================================
# 1. EMBEDDINGS
# =========================================================

model = SentenceTransformer(
    "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)

doc_texts = [doc["text"] for doc in documents]
doc_embeddings = model.encode(
    doc_texts,
    normalize_embeddings=True,
    show_progress_bar=True
)


def dense_search(query, k=10):
    query_embedding = model.encode(
        [query],
        normalize_embeddings=True
    )

    scores = cosine_similarity(query_embedding, doc_embeddings)[0]

    ranked = sorted(
        zip(documents, scores),
        key=lambda x: x[1],
        reverse=True
    )
    return ranked[:k]


# =========================================================
# 2. BENCHMARK
# =========================================================

def evaluate():
    recall_scores, mrr_scores, ndcg_scores = [], [], []

    for q in benchmark_queries:
        enriched = process_user_query(q["question"], dictionary)
        query = enriched["enriched_query"]

        results = dense_search(query, k=10)

        recall_scores.append(recall_at_k(results, q["relevant_keywords"], 10))
        mrr_scores.append(reciprocal_rank(results, q["relevant_keywords"]))
        ndcg_scores.append(ndcg_at_k(results, q["relevant_keywords"], 10))

    return {
        "Recall@10": sum(recall_scores) / len(recall_scores),
        "MRR": sum(mrr_scores) / len(mrr_scores),
        "nDCG@10": sum(ndcg_scores) / len(ndcg_scores),
    }


if __name__ == "__main__":
    print("\n=== Dense retrieval + requ√™te enrichie ===")
    print(evaluate())

Corpus brut charg√© : 4422 documents
Corpus filtr√© 'Code du travail' : 882 documents



Batches:   0%|          | 0/28 [00:00<?, ?it/s]


=== Dense retrieval + requ√™te enrichie ===
{'Recall@10': 0.6666666666666666, 'MRR': 0.38095238095238093, 'nDCG@10': 0.4035162162237942}


## ‚úÖ Conclusion (issue du script)

## Conclusion ‚Äì Enseignements du benchmark RAG juridique

Ce benchmark avait pour objectif d‚Äô√©valuer l‚Äôimpact r√©el de diff√©rentes briques
(Retrieval lexical, filtrage m√©tier, compr√©hension de requ√™te, retrieval s√©mantique)
sur un cas d‚Äôusage juridique simple mais repr√©sentatif.

Le protocole exp√©rimental est volontairement strict :
- m√™me corpus,
- m√™mes questions,
- m√™mes m√©triques,
- seule la brique test√©e varie.

---

### R√©sum√© des r√©sultats

| Configuration                         | Recall@10 | MRR   | nDCG@10 |
|---------------------------------------|-----------|-------|---------|
| BM25 ‚Äì requ√™te brute                  | 0.33      | 0.33  | 0.33 |
| BM25 ‚Äì requ√™te enrichie m√©tier        | 0.33      | 0.33  | 0.33 | script 5.
| BM25 filtr√© + requ√™te enrichie        | 0.33      | 0.33  | 0.33 | script 6.
| Dense retrieval + requ√™te enrichie    | 0.67      |0.38   | 0.40 | script 7.

---

### Lecture des r√©sultats

1. **BM25 constitue une baseline solide en contexte juridique**  
   Les r√©sultats montrent que le BM25 est d√©j√† performant pour des requ√™tes
   fortement lexicalis√©es (articles, notions juridiques explicites).
   L‚Äôenrichissement de la requ√™te n‚Äôam√©liore pas les m√©triques, ce qui est attendu :
   le moteur lexical disposait d√©j√† des bons termes discriminants.

2. **Le filtrage m√©tier seul n‚Äôest pas suffisant pour am√©liorer la pertinence**  
   R√©duire le p√©rim√®tre documentaire diminue le bruit, mais ne corrige pas
   le d√©calage entre langage utilisateur et langage juridique.
   Les faux n√©gatifs critiques persistent.

3. **La compr√©hension m√©tier devient d√©cisive pour le retrieval s√©mantique**  
   L‚Äôintroduction d‚Äôun dictionnaire juridique explicite permet de normaliser
   l‚Äôintention utilisateur et d‚Äôenrichir la requ√™te avec des concepts juridiques pertinents.
   Cette structuration du langage est le facteur cl√© qui permet au retrieval dense
   d‚Äôexprimer son potentiel.

4. **Le gain observ√© sur le dense retrieval est significatif et mesurable**  
   Le rappel est doubl√© (0.33 ‚Üí 0.67) et le ranking s‚Äôam√©liore.
   Ce gain ne provient pas du mod√®le seul, mais de l‚Äôassociation
   entre compr√©hension m√©tier et similarit√© s√©mantique.

---

### Enseignement cl√©

> En RAG juridique, la performance ne vient pas d‚Äôun changement de mod√®le,
> mais de la structuration explicite du langage m√©tier.
> Les algorithmes amplifient un signal correctement pos√© ;
> ils ne compensent pas une compr√©hension absente.

---

### Implications pour un syst√®me RAG en production

- Le BM25 reste un excellent garde-fou lexical.
- Le retrieval dense ne doit pas √™tre utilis√© seul.
- Une couche explicite de *query understanding* m√©tier est indispensable.
- Les am√©liorations doivent √™tre pilot√©es par des m√©triques mesurables,
  et non par intuition ou effet de mode.

Ce benchmark fournit ainsi une base saine, mesurable et am√©liorable
pour la construction d‚Äôun moteur RAG juridique fiable et contr√¥l√©.