<span style="color:#8B949E;">
<b>Note de lecture</b> ‚Äî Notebook issu de tests it√©ratifs (‚Äúspeed-tests‚Äù).  
Le corpus utilis√© ici est un <b>dataset de substitution</b> (non align√© client) uniquement pour valider la m√©canique (retrieval + √©valuation) et d√©rouler la roadmap.  
Pour le chemin complet, suivre l‚Äôordre 01 ‚Üí 10 et lire en priorit√© les sections Markdown.
</span>


# üîé BM25 simple sur corpus XML L√©gifrance (POC)

> **But** : d√©marrer par un **BM25 pur** sur des articles r√©els pour **mesurer** (Recall@k, qualit√© du ranking) et **rep√©rer** les faux n√©gatifs / limites du lexical **avant** d‚Äôajouter une couche s√©mantique (embeddings/LLM).

---

## üß≠ Plan du notebook
1. üß© √âtape 1 ‚Äî Parcourir et charger les articles XML  
2. üß© √âtape 2 ‚Äî Construire un index **BM25** (rank-bm25)  
3. üß© √âtape 3 ‚Äî Interroger le moteur (requ√™te + top-k)  
4. ‚úÖ Ce qu‚Äôon observe (forces / limites)

üí° **Principe volontairement simple** : *1 fichier XML = 1 article* (hypoth√®se POC, assum√©e).


## ‚öôÔ∏è Pr√©-requis & configuration

### üì¶ D√©pendance Python
Ce notebook utilise `rank-bm25` :

```bash
pip install rank-bm25
```

### üóÇÔ∏è Chemin du corpus
Adapte `DATA_ROOT` vers le dossier racine qui contient tes fichiers **.xml**.


In [1]:
# --- Configuration ---
# Adapte ce chemin √† notre machine / notre arborescence.
# Exemple Windows :
DATA_ROOT = r"D:\-- Projet RAG Avocats --\data_main\data"
# Exemple Linux / WSL :
# DATA_ROOT = r"/mnt/d/-- Projet RAG Avocats --/data_main/data"

## üß© √âtape 1 ‚Äî Parcourir et charger les articles XML

üéØ Objectif :
- parcourir tous les `.xml` sous `DATA_ROOT`
- extraire **tout le texte** (version simple & robuste)
- construire un identifiant stable (**doc_id**)  
- ignorer le reste (pour l‚Äôinstant)

üëâ On ne cherche pas encore la perfection juridique : on veut une **base saine** pour √©valuer le lexical.


In [2]:
import os
import xml.etree.ElementTree as ET
from typing import Optional

def extract_text_from_xml(xml_path: str) -> Optional[str]:
    """
    Extrait tout le texte contenu dans un fichier XML.
    Version volontairement simple et robuste :
    - parse le XML
    - r√©cup√®re tous les textes des n≈ìuds
    - concat√®ne en une seule cha√Æne
    """
    try:
        tree = ET.parse(xml_path)
        root = tree.getroot()

        texts = []
        for elem in root.iter():
            if elem.text:
                t = elem.text.strip()
                if t:
                    texts.append(t)

        return " ".join(texts)
    except Exception:
        # On reste volontairement silencieux pour √©viter de casser le batch sur un XML ab√Æm√©
        return None


documents = []

for root_dir, _, files in os.walk(DATA_ROOT):
    for file in files:
        if file.lower().endswith(".xml"):
            full_path = os.path.join(root_dir, file)
            text = extract_text_from_xml(full_path)

            # Filtre simple pour √©viter les fichiers trop petits / bruit√©s
            if text and len(text) > 200:
                documents.append({
                    "doc_id": full_path,
                    "text": text
                })

print(f"Nombre total de documents charg√©s : {len(documents)}")

Nombre total de documents charg√©s : 4395


## üß© √âtape 2 ‚Äî Construire un index BM25

üéØ Objectif : cr√©er un moteur de recherche lexical (conceptuellement proche d‚Äôun Elasticsearch en mode BM25)

- tokenisation volontairement simple (`lower().split()`)
- construction de l‚Äôindex BM25 via `BM25Okapi`


In [3]:
from rank_bm25 import BM25Okapi

def tokenize(text: str) -> list[str]:
    """
    Tokenisation minimaliste pour POC :
    - passe en minuscules
    - split sur les espaces
    """
    return text.lower().split()

corpus_tokens = [tokenize(doc["text"]) for doc in documents]
bm25 = BM25Okapi(corpus_tokens)

print("Index BM25 pr√™t ‚úÖ")

Index BM25 pr√™t ‚úÖ


## üß© √âtape 3 ‚Äî Interroger le BM25

üéØ Objectif :
- poser une question juridique
- r√©cup√©rer un **top-k** de documents
- inspecter rapidement les retours (d√©but du texte + score)

üîç √Ä observer :
- BM25 favorise les **termes exacts**
- peut rater les synonymes / paraphrases
- on veut justement voir le **bruit** (FP) et les **manques** (FN)


In [4]:
def bm25_search(query: str, top_k: int = 5):
    """
    Recherche BM25 :
    - score tous les documents
    - trie par score d√©croissant
    - renvoie les top_k (document, score)
    """
    query_tokens = tokenize(query)
    scores = bm25.get_scores(query_tokens)

    ranked = sorted(
        zip(documents, scores),
        key=lambda x: x[1],
        reverse=True
    )
    return ranked[:top_k]


query = "rupture du CDI sans pr√©avis"
results = bm25_search(query, top_k=5)

for rank, (doc, score) in enumerate(results, start=1):
    print(f"\n--- R√©sultat {rank} | Score: {score:.2f}")
    print(f"doc_id: {doc['doc_id']}")
    print(doc["text"][:500])


--- R√©sultat 1 | Score: 18.98
doc_id: D:\-- Projet RAG Avocats --\data_main\data\20250731-220719\legi\global\code_et_TNC_en_vigueur\code_en_vigueur\LEGI\TEXT\00\00\06\07\20\LEGITEXT000006072050\article\LEGI\ARTI\00\00\21\92\56\LEGIARTI000021925677.xml
LEGIARTI000021925677 LEGI article/LEGI/ARTI/00/00/21/92/56/LEGIARTI000021925677.xml Article L3142-17 MODIFIE 2010-03-04 2016-08-10 AUTONOME Code du travail Partie l√©gislative Troisi√®me partie : Dur√©e du travail, salaire, int√©ressement, participation et √©pargne salariale Livre Ier : Dur√©e du travail, repos et cong√©s Titre IV : Cong√©s pay√©s et autres cong√©s Chapitre II : Autres cong√©s Section 2 : Cong√©s non r√©mun√©r√©s Section 2 : Cong√©s pour engagement associatif, politique ou militant Sous-section

--- R√©sultat 2 | Score: 13.76
doc_id: D:\-- Projet RAG Avocats --\data_main\data\20250731-220719\legi\global\code_et_TNC_en_vigueur\TNC_en_vigueur\JORF\TEXT\00\00\20\23\71\JORFTEXT000020237165\article\LEGI\ARTI\00\00\51\86\72\L

## ‚úÖ Lecture des r√©sultats : forces & limites attendues

### üëç Ce que BM25 fait bien
- Tr√®s bon sur les **mots cl√©s exacts**
- Tr√®s explicable (scores / matching)

### ‚ö†Ô∏è Ce que BM25 fait moins bien (normal)
- Synonymes / reformulations (ex : *licenciement* vs *rupture*‚Ä¶)
- Variantes morphologiques / accents / ponctuation
- D√©pend fortement de la tokenisation (ici, volontairement minimaliste)

### üß† Pourquoi cette √©tape est utile
Avant d‚Äôintroduire embeddings/LLM, on veut **mesurer** et **comprendre** :
- o√π se trouvent les faux n√©gatifs,
- ce que le lexical ‚Äúrate‚Äù intrins√®quement,
- et comment le ranking se comporte sur des requ√™tes r√©alistes.
