<span style="color:#8B949E;">
<b>Note de lecture</b> ‚Äî Notebook issu de tests it√©ratifs (‚Äúspeed-tests‚Äù).  
Le corpus utilis√© ici est un <b>dataset de substitution</b> (non align√© client) uniquement pour valider la m√©canique (retrieval + √©valuation) et d√©rouler la roadmap.  
Pour le chemin complet, suivre l‚Äôordre 01 ‚Üí 10 et lire en priorit√© les sections Markdown.
</span>


# üß™ Stage 3 ‚Äî BM25 avec filtrage m√©tier minimal (Code du travail)

Ce notebook pr√©sente et ex√©cute le script **`3_Benchmark_filtre-BM25.py`** sous forme *pas-√†-pas*, avec une lecture claire :

- üß± construction de l‚Äôindex **BM25** sur un corpus **filtr√©**
- üßæ d√©finition d‚Äôun mini **benchmark** (questions / mots-cl√©s)
- üìè calcul de **Recall@k**, **MRR**, **nDCG@k**
- üîç **analyse qualitative** des r√©sultats (verbatim)

> Astuce compatibilit√© : ce notebook est pr√©vu pour fonctionner en Python **3.8+**.


## ‚úÖ Pr√©-requis & environnement

### üì¶ D√©pendances
- `rank_bm25`
- un module local **`corpus_loader.py`** exposant `documents` (liste de dicts avec au moins `{"text": ...}`)

### üß≠ V√©rification rapide


In [7]:
# V√©rifie la version Python (utile pour √©viter les soucis de type hints en notebook)
import sys
print(sys.version)


3.9.13 (tags/v3.9.13:6de2ca5, May 17 2022, 16:36:42) [MSC v.1929 64 bit (AMD64)]


In [8]:
# Installation (si besoin) ‚Äî √† ex√©cuter une seule fois
# !pip install rank_bm25


## üóíÔ∏è Contexte (extrait)

> ¬´ Apr√®s la baseline BM25 brute, j‚Äôai introduit un filtrage m√©tier minimal (par code) 
> pour r√©duire le bruit avant toute couche s√©mantique, puis j‚Äôai re-mesur√© 
> Recall@k, MRR et nDCG afin de quantifier l‚Äôimpact. ¬ª
> 
> ¬´ Les m√©triques me donnent une vision globale, mais je compl√®te toujours par 
> une analyse qualitative des r√©sultats (VERBATIM), afin d‚Äôidentifier pr√©cis√©ment la nature 
> des faux positifs et des faux n√©gatifs. ¬ª
> 
> ¬´ J‚Äôai factoris√© le chargement et le filtrage du corpus dans un module d√©di√© afin de 
> garantir que toutes les exp√©riences de retrieval reposent sur exactement le m√™me p√©rim√®tre documentaire. 
> Cela me permet de comparer BM25, dense et hybride sans biais exp√©rimental. ¬ª
> 
> ===========================================================
> STAGE 3 ‚Äì BM25 AVEC FILTRAGE M√âTIER MINIMAL
> ===========================================================
> 
> Objectif :
> Comparer la baseline BM25 brute avec une version int√©grant
> un filtrage m√©tier simple, avant toute couche s√©mantique.
> 
> Dans ce stage :
> - le corpus est restreint √† un p√©rim√®tre juridique pertinent
>   (ici : Code du travail),
> - l‚Äôindex BM25 est reconstruit sur ce sous-ensemble,
> - le m√™me benchmark (questions, m√©triques, k) est rejou√©
>   afin de mesurer objectivement l‚Äôimpact du filtrage.
> 
> Enjeux :
> - r√©duire le bruit (faux positifs),
> - am√©liorer la qualit√© du ranking,
> - observer l‚Äô√©volution du Recall@k, de la MRR et de la nDCG,
> - pr√©parer le terrain avant l‚Äôintroduction d‚Äôembeddings.
> 
> Important :
> - aucune g√©n√©ration par LLM n‚Äôest utilis√©e,
> - aucune modification du benchmark n‚Äôest effectu√©e,
> - toute am√©lioration doit √™tre justifi√©e par des m√©triques.

## üß± 1) Chargement du corpus filtr√© & construction de l‚Äôindex BM25

In [9]:
import os
import xml.etree.ElementTree as ET
from rank_bm25 import BM25Okapi

from corpus_loader import documents  # charge les documents filtr√© par corpus_loader.py
# pi

# - construction de L'index BM25 

def tokenize(text):
    """
    Tokenisation volontairement simple.
    Suffisante pour observer les limites du lexical pur.
    """
    return text.lower().split()

# Corpus tokenis√© dans le M√äME ordre que documents
corpus_tokens = [tokenize(doc["text"]) for doc in documents]

# Construction de l'index BM25
bm25 = BM25Okapi(corpus_tokens)

print("Index BM25 construit")

Index BM25 construit


## üéØ 2) Jeu de questions (benchmark)

In [10]:
# 1. JEU DE QUESTIONS DU BENCHMARK
# =========================================================

"""
Chaque question est associ√©e √† :
- une formulation utilisateur r√©aliste
- une liste de documents juridiquement pertinents attendus

Dans un vrai projet :
- ces annotations seraient r√©alis√©es par des juristes
- ici, elles sont volontairement simples pour un POC
"""

benchmark_queries = [
    {
        "query_id": "Q1",
        "question": "Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?",
        "relevant_keywords": [
            "faute grave",
            "rupture sans pr√©avis",
            "L1234"
        ]
    },
    {
        "query_id": "Q2",
        "question": "Qu'est-ce qu'un licenciement pour motif √©conomique ?",
        "relevant_keywords": [
            "motif √©conomique",
            "L1233-3"
        ]
    },
    {
        "query_id": "Q3",
        "question": "Un salari√© peut-il contester un licenciement ?",
        "relevant_keywords": [
            "contestation",
            "sanctions",
            "irr√©gularit√©s du licenciement"
        ]
    }
]

# Remarque :
# Pour simplifier, on n'utilise pas encore de doc_id exact.
# On consid√®re qu'un document est pertinent s'il contient
# un ou plusieurs mots-cl√©s juridiques attendus.


# =========================================================

## üîé 3) Recherche BM25 (ranking)

In [None]:
# 2. FONCTION DE RECHERCHE BM25
# =========================================================

def bm25_search(query, documents, bm25, top_k=10):
    """
    Ex√©cute une recherche BM25 sur le corpus.

    Param√®tres :
    - query : question utilisateur (str)
    - documents : liste des documents index√©s
    - bm25 : index BM25 d√©j√† construit
    - top_k : nombre de r√©sultats retourn√©s

    Retour :
    - liste de documents class√©s par score d√©croissant
    """
    query_tokens = tokenize(query)
    scores = bm25.get_scores(query_tokens)

    ranked_docs = sorted(
        zip(documents, scores),
        key=lambda x: x[1],
        reverse=True
    )

    return ranked_docs[:top_k]


## üìè 4) M√©triques (Recall@k, MRR, nDCG@k)

In [None]:
# =========================================================
# 3. M√âTRIQUES DE BENCHMARK
# =========================================================

import math


def is_relevant(document_text, relevant_keywords):
    """
    D√©termine si un document est pertinent pour une question.

    Ici :
    - un document est pertinent s'il contient au moins
      un mot-cl√© juridique attendu.
    """
    text_lower = document_text.lower()
    return any(keyword.lower() in text_lower for keyword in relevant_keywords)


def recall_at_k(results, relevant_keywords, k):
    """
    Recall@k :
    - 1 si au moins un document pertinent est pr√©sent dans le top-k
    - 0 sinon
    """
    top_k_docs = results[:k]
    return int(
        any(is_relevant(doc["text"], relevant_keywords) for doc, _ in top_k_docs)
    )


def reciprocal_rank(results, relevant_keywords):
    """
    MRR :
    - 1 / rang du premier document pertinent
    - 0 si aucun document pertinent n'est trouv√©
    """
    for rank, (doc, _) in enumerate(results, start=1):
        if is_relevant(doc["text"], relevant_keywords):
            return 1 / rank
    return 0


def ndcg_at_k(results, relevant_keywords, k):
    """
    nDCG@k :
    - mesure la qualit√© globale du ranking
    - p√©nalise les documents pertinents mal class√©s
    """
    def dcg(res):
        score = 0.0
        for i, (doc, _) in enumerate(res[:k]):
            if is_relevant(doc["text"], relevant_keywords):
                score += 1 / math.log2(i + 2)
        return score

    actual_dcg = dcg(results)

    # DCG id√©al : tous les documents pertinents en t√™te
    ideal_relevance = [1] * sum(
        is_relevant(doc["text"], relevant_keywords)
        for doc, _ in results[:k]
    )

    ideal_dcg = sum(
        1 / math.log2(i + 2)
        for i in range(len(ideal_relevance))
    )

    return actual_dcg / ideal_dcg if ideal_dcg > 0 else 0


## üßÆ 5) √âvaluation globale

In [13]:
# =========================================================
# 4. √âVALUATION GLOBALE DU BENCHMARK
# =========================================================

def evaluate_benchmark(queries, documents, bm25, k=10):
    """
    Lance le benchmark sur l'ensemble des questions
    et calcule les m√©triques moyennes.
    """
    recall_scores = []
    mrr_scores = []
    ndcg_scores = []

    for q in queries:
        results = bm25_search(
            q["question"],
            documents,
            bm25,
            top_k=k
        )

        recall_scores.append(
            recall_at_k(results, q["relevant_keywords"], k)
        )
        mrr_scores.append(
            reciprocal_rank(results, q["relevant_keywords"])
        )
        ndcg_scores.append(
            ndcg_at_k(results, q["relevant_keywords"], k)
        )

    return {
        "Recall@k": sum(recall_scores) / len(recall_scores),
        "MRR": sum(mrr_scores) / len(mrr_scores),
        "nDCG@k": sum(ndcg_scores) / len(ndcg_scores)
    }


# =========================================================

# 5. LANCEMENT DU BENCHMARK
# =========================================================

results = evaluate_benchmark(
    benchmark_queries,
    documents,
    bm25,
    k=10
)

print("\n=== R√âSULTATS DU BENCHMARK BM25 (FILTR√â Code du travail) ===")
for metric, value in results.items():
    print(f"{metric} : {value:.3f}")

"""
Lecture attendue des r√©sultats :

- Recall@k faible :
  ‚Üí pr√©sence de faux n√©gatifs critiques
- MRR moyenne :
  ‚Üí documents pertinents trouv√©s mais mal class√©s
- nDCG mod√©r√©e :
  ‚Üí ranking global perfectible

Ces r√©sultats justifient :
- l'ajout de filtres m√©tier
- puis d'une couche s√©mantique (embeddings)
"""

# =========================================================


=== R√âSULTATS DU BENCHMARK BM25 (FILTR√â Code du travail) ===
Recall@k : 0.667
MRR : 0.375
nDCG@k : 0.438


"\nLecture attendue des r√©sultats :\n\n- Recall@k faible :\n  ‚Üí pr√©sence de faux n√©gatifs critiques\n- MRR moyenne :\n  ‚Üí documents pertinents trouv√©s mais mal class√©s\n- nDCG mod√©r√©e :\n  ‚Üí ranking global perfectible\n\nCes r√©sultats justifient :\n- l'ajout de filtres m√©tier\n- puis d'une couche s√©mantique (embeddings)\n"

## üó£Ô∏è 6) Analyse qualitative (verbatim)

In [14]:
# 6. ANALYSE QUALITATIVE PAR QUESTION (VERBATIM)
# =========================================================

def display_results_per_query(queries, documents, bm25, k=5):
    """
    Affiche les r√©sultats BM25 pour chaque question du benchmark,
    afin de permettre une analyse qualitative (verbatim).

    Objectif :
    - comprendre les faux positifs / faux n√©gatifs,
    - analyser le ranking,
    - compl√©ter la lecture des m√©triques chiffr√©es.
    """
    for q in queries:
        print("\n" + "=" * 80)
        print(f"Question : {q['question']}")
        print("=" * 80)

        results = bm25_search(
            q["question"],
            documents,
            bm25,
            top_k=k
        )

        for rank, (doc, score) in enumerate(results, start=1):
            relevant = is_relevant(doc["text"], q["relevant_keywords"])
            flag = "PERTINENT" if relevant else "NON PERTINENT"

            print(f"\n--- Rang {rank} | Score BM25 : {score:.2f} | {flag}")
            print(doc["text"][:400])



display_results_per_query(
    benchmark_queries,
    documents,
    bm25,
    k=10
)





Question : Dans quels cas un CDI peut-il √™tre rompu sans pr√©avis ?

--- Rang 1 | Score BM25 : 18.41 | NON PERTINENT
   LEGIARTI000021925677 LEGI article/LEGI/ARTI/00/00/21/92/56/LEGIARTI000021925677.xml Article   L3142-17 MODIFIE 2010-03-04 2016-08-10 AUTONOME   Code du travail  Partie l√©gislative  Troisi√®me partie : Dur√©e du travail, salaire, int√©ressement, participation et √©pargne salariale  Livre Ier : Dur√©e du travail, repos et cong√©s  Titre IV : Cong√©s pay√©s et autres cong√©s  Chapitre II : Autres cong√©s  S

--- Rang 2 | Score BM25 : 10.47 | NON PERTINENT
   LEGIARTI000029217417 LEGI article/LEGI/ARTI/00/00/29/21/74/LEGIARTI000029217417.xml Article   R242-1-1 MODIFIE 2014-07-11 2018-09-30 AUTONOME   Code de la s√©curit√© sociale  Partie r√©glementaire - D√©crets en Conseil d'Etat  Livre II : Organisation du r√©gime g√©n√©ral - Action de pr√©vention - Action sanitaire et sociale des caisses  Titre IV : Ressources  Chapitre 2 : Assiette, taux et calcul des c

--- Rang 3

'\n\n### 2. BM25 avec filtrage m√©tier minimal ("Code du travail")\n\n**Corpus :**\n- 882 documents apr√®s filtrage\n\n**R√©sultats :**\n- Recall@10 = **0,667**\n- MRR = **0,375**\n- nDCG@10 = **0,438**\n\n**Interpr√©tation :**\n- Le filtrage r√©duit significativement la taille du corpus, mais n‚Äôam√©liore pas encore les m√©triques globales.\n- Le rappel reste identique : les faux n√©gatifs observ√©s pr√©c√©demment persistent.\n- La l√©g√®re baisse de la nDCG indique que certains signaux lexicaux accidentels ont disparu avec le filtrage.\n\n**Analyse qualitative :**\n- Le filtrage par simple sous-cha√Æne r√©duit une partie du bruit, mais reste insuffisant.\n- Certains documents hors p√©rim√®tre apparaissent encore, car ils mentionnent le Code du travail sans en relever r√©ellement.\n- Les erreurs principales ne proviennent donc pas uniquement du bruit inter-code, mais :\n  - de la formulation des requ√™tes,\n  - de la repr√©sentation textuelle des documents,\n  - et des limites intrin

## ‚úÖ Lecture & interpr√©tation

- üîÅ **Recall@k** : indique si au moins **un** document pertinent appara√Æt dans le top-*k*.
- ü•á **MRR** : valorise le fait de trouver **vite** un document pertinent (rang du 1er pertinent).
- üìâ **nDCG@k** : mesure la qualit√© globale du ranking (p√©nalise les pertinents trop bas).

üëâ Cette √©tape sert √† **quantifier** l‚Äôimpact du filtrage m√©tier *avant* d‚Äôintroduire une couche s√©mantique (embeddings / dense).



### 2. BM25 avec filtrage m√©tier minimal ("Code du travail")

**Corpus :**
- 882 documents apr√®s filtrage

**R√©sultats :**
- Recall@10 = **0,667**
- MRR = **0,375**
- nDCG@10 = **0,438**

**Interpr√©tation :**
- Le filtrage r√©duit significativement la taille du corpus, mais n‚Äôam√©liore pas encore les m√©triques globales.
- Le rappel reste identique : les faux n√©gatifs observ√©s pr√©c√©demment persistent.
- La l√©g√®re baisse de la nDCG indique que certains signaux lexicaux accidentels ont disparu avec le filtrage.

**Analyse qualitative :**
- Le filtrage par simple sous-cha√Æne r√©duit une partie du bruit, mais reste insuffisant.
- Certains documents hors p√©rim√®tre apparaissent encore, car ils mentionnent le Code du travail sans en relever r√©ellement.
- Les erreurs principales ne proviennent donc pas uniquement du bruit inter-code, mais :
  - de la formulation des requ√™tes,
  - de la repr√©sentation textuelle des documents,
  - et des limites intrins√®ques du lexical pur.

---

### Enseignement principal

Le filtrage m√©tier minimal, bien que n√©cessaire, ne suffit pas √† r√©soudre les faux n√©gatifs ni les probl√®mes de ranking observ√©s.  
Ces r√©sultats indiquent que les limites actuelles sont principalement **s√©mantiques**, et non uniquement li√©es au p√©rim√®tre documentaire.

## Comparatif synth√©tique ‚Äì Impact du filtrage m√©tier sur le retrieval

| Configuration                   | Taille du corpus | Recall@10 | MRR   | nDCG@10 | Lecture principale |
|---------------------------------|------------------|-----------|-------|---------|--------------------|
| BM25 brut                       | 4 422            | 0,667     | 0,375 | 0,459   | Bonne couverture sur requ√™tes lexicales, bruit √©lev√© |
| BM25 + filtre "Code du travail" | 882              | 0,667     | 0,375 | 0,438   | Bruit r√©duit mais FN persistants, gain limit√© |

---

### Conclusion op√©rationnelle

- Le filtrage m√©tier est une **√©tape n√©cessaire**, mais non suffisante.
- Les m√©triques montrent que :
  - le rappel ne s‚Äôam√©liore pas,
  - le classement reste perfectible,
  - les faux n√©gatifs critiques persistent.
- Les prochaines am√©liorations doivent cibler :
  - la compr√©hension s√©mantique des requ√™tes,
  - la repr√©sentation des documents,
  - puis le ranking fin.

üëâ Ces constats justifient l‚Äôintroduction d‚Äôun retrieval s√©mantique par embeddings, 
tout en conservant le BM25 comme baseline et garde-fou.

