## üß© STAGE 4 ‚Äî Dense Retrieval (Embeddings)

¬´ Pour √©valuer l‚Äôapport r√©el du retrieval s√©mantique, j‚Äôai conserv√© exactement le m√™me corpus filtr√©, 
le m√™me benchmark et les m√™mes m√©triques que pour BM25, et j‚Äôai uniquement remplac√© le retriever. 
Toute variation observ√©e est donc directement attribuable aux embeddings. ¬ª

> **Objectif : mesurer l‚Äôapport r√©el du retrieval s√©mantique**  
> Pour √©valuer l‚Äôapport r√©el du dense retrieval, j‚Äôai conserv√© **exactement** :
> - le **m√™me corpus filtr√©** (m√™me p√©rim√®tre documentaire),
> - le **m√™me benchmark** (m√™mes questions),
> - les **m√™mes m√©triques** (Recall@k, MRR, nDCG@k),  
> et j‚Äôai uniquement **remplac√© le retriever** (BM25 ‚Üí embeddings).  
> ‚úÖ Toute variation observ√©e est donc directement **attribuable aux embeddings**, sans biais exp√©rimental.

### üéØ Objectifs op√©rationnels
- Introduire une couche de **retrieval s√©mantique**
- √Ä **corpus, benchmark et m√©triques constants**
- Mesurer l‚Äôimpact r√©el sur **Recall@k**, **MRR** et **nDCG@k**

> J‚Äôai factoris√© le chargement et le filtrage du corpus dans un module d√©di√© afin de garantir que toutes les exp√©riences de retrieval reposent sur **exactement le m√™me p√©rim√®tre documentaire**.  
> Cela me permet de comparer **BM25**, **dense** et **hybride** sans biais exp√©rimental.

---

## üîé Pourquoi tester le dense retrieval ?
Les √©tapes pr√©c√©dentes ont montr√© que :
- **BM25** fonctionne bien pour des requ√™tes **lexicalement discriminantes**,
- mais peut √©chouer sur des requ√™tes plus **s√©mantiques / implicites**,
- et classe imparfaitement certaines intentions (ex. *¬´ contester un licenciement ¬ª*).

L‚Äôobjectif de ce stage est donc d‚Äôintroduire un retrieval **s√©mantique**,
sans modifier le benchmark existant, afin de mesurer objectivement son impact.

---

## üß† Principe du Dense Retrieval
Le retrieval dense repose sur :
- la transformation des documents et des requ√™tes en **vecteurs num√©riques** (embeddings),
- la comparaison de ces vecteurs via une **similarit√© cosinus**,
- un classement des documents par **proximit√© s√©mantique**.

Contrairement au BM25 :
- les correspondances exactes ne sont pas n√©cessaires,
- les synonymes et paraphrases sont mieux captur√©s,
- certains faux n√©gatifs li√©s au vocabulaire sont r√©duits.

---

## üõ†Ô∏è Choix techniques (volontairement simples)
- Mod√®le d‚Äôembeddings : `sentence-transformers/all-MiniLM-L6-v2`
  - l√©ger
  - rapide
  - baseline tr√®s r√©pandue
- Similarit√© : **cosinus**
- Aucun fine-tuning
- Aucun LLM g√©n√©ratif

üëâ Le but n‚Äôest pas la performance maximale,
mais la **comparabilit√© exp√©rimentale** avec BM25.

---

## üß™ Hypoth√®se test√©e
> Le dense retrieval doit am√©liorer le **Recall@k** et le **ranking**
> sur les requ√™tes s√©mantiques,
> sans d√©grader les cas o√π le lexical fonctionne d√©j√† bien.

M√©triques utilis√©es (inchang√©es) :
- Recall@k
- MRR
- nDCG@k

---

### ‚úÖ Important (contr√¥le exp√©rimental)
- Le corpus `documents` est **strictement identique** √† celui utilis√© au **STAGE 3 (BM25 filtr√©)**.
- Les questions et m√©triques sont √©galement **inchang√©es**.
- **Seul le retriever diff√®re** ici (dense embeddings).



## üì¶ D√©pendances (√† ex√©cuter une seule fois)

Si tu ex√©cutes ce notebook dans un environnement vierge, installe les paquets n√©cessaires.
> Astuce : dans Jupyter, **`%pip`** installe dans le **kernel courant** (souvent plus fiable que `pip` en terminal).


In [1]:
# D√©pendances principales pour le dense retrieval
#%pip install -q sentence-transformers scikit-learn numpy


## üóÇÔ∏è Acc√®s au module `corpus_loader` (module local)

`corpus_loader` n‚Äôest **pas** un paquet pip : c‚Äôest un **module local** de notre projet (ex: `corpus_loader.py`).
En notebook, si le dossier projet n‚Äôest pas dans `sys.path`, Python ne le trouve pas ‚Üí `ModuleNotFoundError`.

‚úÖ Cette cellule ajoute automatiquement le dossier du notebook (ou son parent) au `sys.path`.  
‚û°Ô∏è Ajuste `PROJECT_ROOT` si besoin (ex: `Path.cwd().parent` si le notebook est dans `notebooks/`).


In [2]:
from pathlib import Path
import sys

# Point de d√©part : dossier o√π se trouve le notebook
PROJECT_ROOT = Path.cwd()

# Si le notebook est dans un sous-dossier (ex: notebooks/), d√©commente :
# PROJECT_ROOT = Path.cwd().parent

sys.path.insert(0, str(PROJECT_ROOT))

print("PROJECT_ROOT =", PROJECT_ROOT)
print("corpus_loader.py trouv√© ? ->", (PROJECT_ROOT / "corpus_loader.py").exists())


PROJECT_ROOT = d:\-- Projet RAG Avocats --\codes_python\notebooks
corpus_loader.py trouv√© ? -> True


## üßæ Chargement du corpus

Le corpus utilis√© doit √™tre **strictement identique** √† celui des stages BM25 (filtr√© / p√©rim√®tre constant).  
On importe donc `documents` depuis `corpus_loader`.


In [3]:
# Import du corpus (module local)
try:
    from corpus_loader import documents
except ModuleNotFoundError as e:
    raise ModuleNotFoundError(
        "Impossible d'importer 'corpus_loader'.\n"
        "‚û°Ô∏è V√©rifie que 'corpus_loader.py' est bien dans PROJECT_ROOT, "
        "ou ajuste PROJECT_ROOT dans la cellule pr√©c√©dente."
    ) from e

print("Nombre de documents charg√©s :", len(documents))
print("Exemple de cl√©s sur un document :", list(documents[0].keys()) if documents else "Corpus vide")


Corpus brut charg√© : 4422 documents
Corpus filtr√© 'Code du travail' : 882 documents
Nombre de documents charg√©s : 882
Exemple de cl√©s sur un document : ['doc_id', 'text']


## üß™ Jeu de questions du benchmark

Chaque question est associ√©e √† une formulation r√©aliste + des mots-cl√©s juridiques attendus.

In [4]:
benchmark_queries = [
    {
        "query_id": "Q1",
        "question": "Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?",
        "relevant_keywords": [
            "faute grave",
            "rupture sans pr√©avis",
            "L1234"
        ]
    }
]

## üìè M√©triques (Recall@k, MRR, nDCG@k)

On conserve les m√™mes m√©triques que pour BM25 afin de comparer objectivement.

In [5]:
import math


def is_relevant(document_text, relevant_keywords):
    """
    D√©termine si un document est pertinent pour une question.

    Ici :
    - un document est pertinent s'il contient au moins
      un mot-cl√© juridique attendu.
    """
    text_lower = document_text.lower()
    return any(keyword.lower() in text_lower for keyword in relevant_keywords)


def recall_at_k(results, relevant_keywords, k):
    """
    Recall@k :
    - 1 si au moins un document pertinent est pr√©sent dans le top-k
    - 0 sinon
    """
    top_k_docs = results[:k]
    return int(
        any(is_relevant(doc["text"], relevant_keywords) for doc, _ in top_k_docs)
    )


def reciprocal_rank(results, relevant_keywords):
    """
    MRR :
    - 1 / rang du premier document pertinent
    - 0 si aucun document pertinent n'est trouv√©
    """
    for rank, (doc, _) in enumerate(results, start=1):
        if is_relevant(doc["text"], relevant_keywords):
            return 1 / rank
    return 0


def ndcg_at_k(results, relevant_keywords, k):
    """
    nDCG@k :
    - mesure la qualit√© globale du ranking
    - p√©nalise les documents pertinents mal class√©s
    """
    def dcg(res):
        score = 0.0
        for i, (doc, _) in enumerate(res[:k]):
            if is_relevant(doc["text"], relevant_keywords):
                score += 1 / math.log2(i + 2)
        return score

    actual_dcg = dcg(results)

    # DCG id√©al : tous les documents pertinents en t√™te
    ideal_relevance = [1] * sum(
        is_relevant(doc["text"], relevant_keywords)
        for doc, _ in results[:k]
    )

    ideal_dcg = sum(
        1 / math.log2(i + 2)
        for i in range(len(ideal_relevance))
    )

    return actual_dcg / ideal_dcg if ideal_dcg > 0 else 0

## üß† Mod√®le d‚Äôembeddings

Ici : mod√®le **multilingue** (plus adapt√© au FR) + normalisation pour la cosine similarity.

In [6]:
from sentence_transformers import SentenceTransformer
# pip install tf-keras , pip install sentence_transformers
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Mod√®le multilingue (meilleur point de d√©part pour du FR)
embedding_model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")





## üß± Calcul des embeddings du corpus

Les embeddings sont calcul√©s **une seule fois** (co√ªt principal).

In [None]:
document_texts = [doc["text"] for doc in documents]

document_embeddings = embedding_model.encode(
    document_texts,
    show_progress_bar=True,
    normalize_embeddings=True
)

print("Shape embeddings :", np.asarray(document_embeddings).shape) # (nbre de doc_textes, taille enmbedding)


Batches:   0%|          | 0/28 [00:00<?, ?it/s]

Shape embeddings : (882, 384)


In [11]:
print(document_embeddings[0])  # 1er embedding (vecteur de 384 valeurs)

[-0.01044083 -0.03422048 -0.02853374 -0.00028232  0.0182465   0.0446859
  0.0473494   0.01477655 -0.05059353  0.05640764  0.07166213  0.02182456
  0.00286895 -0.03947579 -0.00463084 -0.02359314 -0.05865116 -0.00369642
 -0.07446644 -0.04938912  0.02554607 -0.03453599 -0.09521502 -0.03059849
  0.02056633 -0.0084356  -0.05199419 -0.058332   -0.01199388 -0.05375116
 -0.01279306  0.03242414 -0.03528281  0.1501433   0.03314782 -0.12434924
  0.04509319 -0.06866205  0.0383535  -0.00269023  0.03519193 -0.00671103
 -0.10808727  0.03674087 -0.00109065  0.00332707  0.05456609  0.05489461
 -0.08525798  0.01906698  0.04365958  0.0246721  -0.01597689  0.03116086
 -0.02105784 -0.04836109 -0.02158145  0.00683202  0.01914666 -0.01043493
  0.06955323 -0.03025113 -0.06404689  0.0151476  -0.03683707 -0.03247909
 -0.00340031  0.00085056 -0.11520644 -0.00505246 -0.01264751 -0.02980731
 -0.08318391  0.04473531  0.05430141 -0.07059525  0.04010417  0.06049229
  0.03159078 -0.00428989 -0.0439465   0.00345335 -0.

## üîé Recherche dense (cosine similarity)

On classe les documents par proximit√© s√©mantique avec la requ√™te.

In [8]:
def dense_search(query, documents, document_embeddings, model, top_k=10):
    """
    Recherche s√©mantique par similarit√© cosinus.

    Param√®tres :
    - query : question utilisateur (str)
    - documents : corpus
    - document_embeddings : matrice d'embeddings
    - model : mod√®le d'embeddings
    - top_k : nombre de r√©sultats retourn√©s

    Retour :
    - liste de documents class√©s par similarit√© d√©croissante
    """
    query_embedding = model.encode(
        [query],
        normalize_embeddings=True
    )

    similarities = cosine_similarity(query_embedding, document_embeddings)[0]

    ranked = sorted(
        zip(documents, similarities),
        key=lambda x: x[1],
        reverse=True
    )

    return ranked[:top_k]

def evaluate_dense_benchmark(queries, documents, document_embeddings, model, k=10):
    """
    √âvalue le retrieval dense avec les m√™mes m√©triques
    que BM25 (Recall@k, MRR, nDCG).
    """
    recall_scores = []
    mrr_scores = []
    ndcg_scores = []

    for q in queries:
        results = dense_search(
            q["question"],
            documents,
            document_embeddings,
            model,
            top_k=k
        )

        recall_scores.append(
            recall_at_k(results, q["relevant_keywords"], k)
        )
        mrr_scores.append(
            reciprocal_rank(results, q["relevant_keywords"])
        )
        ndcg_scores.append(
            ndcg_at_k(results, q["relevant_keywords"], k)
        )

    return {
        "Recall@k": sum(recall_scores) / len(recall_scores),
        "MRR": sum(mrr_scores) / len(mrr_scores),
        "nDCG@k": sum(ndcg_scores) / len(ndcg_scores)
    }

## üìä Lancement du benchmark dense

Affiche les scores moyens sur l‚Äôensemble des requ√™tes.

In [9]:
dense_results = evaluate_dense_benchmark(
    benchmark_queries,
    documents,
    document_embeddings,
    embedding_model,
    k=10
)

print("\n=== R√âSULTATS DU BENCHMARK ‚Äî DENSE RETRIEVAL ===")
for metric, value in dense_results.items():
    print(f"{metric} : {value:.3f}")



=== R√âSULTATS DU BENCHMARK ‚Äî DENSE RETRIEVAL ===
Recall@k : 0.000
MRR : 0.000
nDCG@k : 0.000


## üîç Analyse qualitative (optionnelle)

Utile pour comprendre **pourquoi** les m√©triques √©voluent : on affiche le top-k par requ√™te avec un flag *PERTINENT / NON PERTINENT*.


In [10]:
def display_dense_results_per_query(queries, documents, document_embeddings, model, k=10):
    """
    Affiche les r√©sultats du dense retrieval pour chaque question
    afin d'analyser qualitativement les gains s√©mantiques.
    """
    for q in queries:
        print("\n" + "=" * 80)
        print(f"Question : {q['question']}")
        print("=" * 80)

        results = dense_search(
            q["question"],
            documents,
            document_embeddings,
            model,
            top_k=k
        )

        for rank, (doc, score) in enumerate(results, start=1):
            relevant = is_relevant(doc["text"], q["relevant_keywords"])
            flag = "PERTINENT" if relevant else "NON PERTINENT"

            print(f"\n--- Rang {rank} | Similarit√© : {score:.4f} | {flag}")
            print(doc["text"][:400])


display_dense_results_per_query(
    benchmark_queries,
    documents,
    document_embeddings,
    embedding_model,
    k=10
)


Question : Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?

--- Rang 1 | Similarit√© : 0.3458 | NON PERTINENT
   LEGITEXT000051467492 LEGI texte/version/LEGI/TEXT/00/00/51/46/74/LEGITEXT000051467492.xml DECRET   JORFTEXT000051465730 2025-338 0090 7 TSSD2506788D 2025-04-15 2025-04-14 2025-04-16 JORF n¬∞0090 du 15 avril 2025  D√©cret n¬∞2025-338 du 14 avril 2025 D√©cret n¬∞ 2025-338 du 14 avril 2025 relatif au dispositif d'activit√© partielle de longue dur√©e rebond VIGUEUR 2025-04-16 2999-01-01  LOI n¬∞2025-127 du

--- Rang 2 | Similarit√© : 0.3113 | NON PERTINENT
   LEGITEXT000022210833 LEGI texte/version/LEGI/TEXT/00/00/22/21/08/LEGITEXT000022210833.xml DECRET   JORFTEXT000022205183 2010-482 0110 35 BCRB1012484D 2010-05-13 2010-05-12 2021-01-01 8930 8932  D√©cret n¬∞2010-482 du 12 mai 2010 D√©cret n¬∞ 2010-482 du 12 mai 2010 fixant les conditions de d√©livrance des agr√©ments d'op√©rateur de jeux en ligne VIGUEUR 2010-05-13 2999-01-01  Loi n¬∞79-587 du 11 juillet

--- Rang 

## üìå Script 04 ‚Äî Dense Retrieval (embeddings) : lecture des r√©sultats

### üßæ Donn√©es & p√©rim√®tre
- Corpus brut : **4422** documents
- Corpus filtr√© **¬´ Code du travail ¬ª** : **882** documents  
‚û°Ô∏è On travaille donc sur un sous-corpus plus cibl√© (r√©duction ~80%), cens√© aider la pertinence‚Ä¶ mais le r√©sultat montre que le **ciblage ‚ÄúCode du travail‚Äù ne suffit pas** sans granularit√© (chunking) et/ou filtrage plus strict des types de documents.

### üìä M√©triques globales (Dense Retrieval)
- **Recall@k = 0.333**
- **MRR = 0.333**
- **nDCG@k = 0.292**

**Interpr√©tation :**
- Les m√©triques indiquent qu‚Äôen moyenne, **1 question sur 3** retrouve au moins un r√©sultat pertinent dans le top-k (recall), et quand √ßa marche, le pertinent est parfois **plut√¥t haut** (MRR=0.333 ‚âà pertinent vers rang 3 en moyenne).
- **nDCG@k faible (0.292)** : m√™me lorsqu‚Äôun pertinent est pr√©sent, la **qualit√© du ranking** global reste moyenne (beaucoup de bruit dans le top-k).

### üîé Analyse qualitative sur les 3 questions affich√©es
1) **¬´ CDI rompu sans pr√©avis ¬ª**  
‚û°Ô∏è Top-10 **100% non pertinent** (d√©crets hors sujet, code g√©n√©ral des imp√¥ts, etc.).  
‚úÖ Signal clair : l‚Äôembedding capte des similarit√©s ‚Äúvagues‚Äù (rupture / pr√©avis / d√©cret / article), mais **pas l‚Äôancrage juridique pr√©cis** attendu (articles du Code du travail sur rupture du CDI / faute grave / force majeure, etc.).

2) **¬´ Licenciement pour motif √©conomique ¬ª**  
‚û°Ô∏è R√©sultat **tr√®s bon** : rang 1 pertinent + rang 4 pertinent.  
‚úÖ Exemple typique o√π le dense marche : la requ√™te correspond √† une **structure lexicale et conceptuelle** bien repr√©sent√©e par des titres/chapitres du Code du travail.

3) **¬´ Contester un licenciement ¬ª**  
‚û°Ô∏è Top-10 non pertinent (licenciement √©co, sant√©/s√©curit√©, emploi, etc.).  
‚ö†Ô∏è Le mod√®le semble ‚Äúattir√©‚Äù par des th√®mes proches (licenciement / actions / obligations) mais rate les sections attendues (proc√©dure prud‚Äôhommes, contestation, d√©lais, cause r√©elle et s√©rieuse‚Ä¶).

### üß† Comparaison vs BM25 (scripts pr√©c√©dents)
- **Dense** est **capable de tr√®s bien r√©ussir** quand la question colle √† un intitul√© / chapitre (ex : motif √©conomique).
- Mais il est **instable** sur des questions ‚Äújuridiques fines‚Äù : il ram√®ne du bruit s√©mantique (d√©crets, fiscalit√©, pr√©vention‚Ä¶).
‚û°Ô∏è √Ä ce stade, **BM25** reste souvent plus ‚Äúpr√©visible‚Äù sur les termes juridiques exacts, tandis que le **dense** apporte une capacit√© de g√©n√©ralisation‚Ä¶ mais au prix d‚Äôun risque de d√©rive.

### üõ†Ô∏è Pistes d‚Äôam√©lioration prioritaires (logique ‚ÄúRAG juridique‚Äù)
- **Chunking** (articles / alin√©as) : aujourd‚Äôhui, les titres/sections longues et les m√©tadonn√©es peuvent dominer l‚Äôembedding.
- **Filtrage par doc_type** (√©viter d√©crets hors p√©rim√®tre, textes non travail, etc.) : r√©duire le bruit avant indexation.
- **Hybride BM25 + Dense (RRF)** : utiliser BM25 pour l‚Äôancrage lexical + dense pour les variantes s√©mantiques.
- **Re-ranking** (cross-encoder) : am√©liorer le ranking final, surtout quand plusieurs candidats ‚Äú√† peu pr√®s proches‚Äù apparaissent.

### üß© Note notebook (tqdm / Jupyter)
Le warning `IProgress not found` n‚Äôimpacte pas les r√©sultats : il indique juste que la barre de progression ‚Äúnotebook‚Äù n‚Äôest pas disponible.
üëâ Fix rapide : `pip install ipywidgets` + activation widgets (selon environnement).
