# Analyse NLP des Lois de Finances du Cameroun
## Notebook complet ‚Äî Pipeline de bout en bout

> **ISE3 ¬∑ ISSEA Yaound√© ¬∑ 2024-2025**

Ce notebook regroupe l'ensemble du pipeline NLP d√©velopp√© pour analyser et comparer les lois de finances camerounaises 2023-2024 et 2024-2025, les classifier selon les piliers SND30, et mesurer la conformit√© entre discours budg√©taire et allocations financi√®res r√©elles.

---

### Structure du notebook

| Phase | Contenu |
|-------|---------|
| **Phase 1** | Extraction PDF & Segmentation des articles |
| **Phase 2** | Embeddings & Audit s√©mantique |
| **Phase 3** | Classification zero-shot SND30 |
| **Phase 4** | Analyse statistique de conformit√© |

---

---
# Phase 1 ‚Äî Extraction PDF & Segmentation des articles

**Objectif :** extraire le contenu textuel des deux lois de finances et segmenter les articles individuellement.

**Deux cas de figure :**
- Loi 2023-2024 : PDF **scann√©** ‚Üí extraction par OCR (Tesseract)
- Loi 2024-2025 : PDF **num√©rique natif** ‚Üí extraction directe (pdfplumber)

**Livrables attendus :**
- `data/processed/loi_2023_2024_articles.json`
- `data/processed/loi_2024_2025_articles.json`
- `data/processed/loi2024_2025_ligne_budgetaire.json`

### 1.0 Installation des d√©pendances

In [None]:
# √Ä ex√©cuter une seule fois
# Tesseract doit √™tre install√© au niveau syst√®me :
#   sudo apt install tesseract-ocr tesseract-ocr-fra ghostscript

!pip install pdfplumber camelot-py[cv] pytesseract Pillow opencv-python tqdm --quiet

### 1.1 Imports & configuration des chemins

In [None]:
import os
import re
import json
import unicodedata
from pathlib import Path
from tqdm import tqdm

import pdfplumber
import pytesseract
from PIL import Image
import pdf2image  # pip install pdf2image

# ‚îÄ‚îÄ Chemins du projet ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
BASE_DIR      = Path(".").resolve().parent  # racine du projet
RAW_DIR       = BASE_DIR / "data" / "raw"
PROCESSED_DIR = BASE_DIR / "data" / "processed"
PROCESSED_DIR.mkdir(parents=True, exist_ok=True)

PDF_2023 = RAW_DIR / "LOI DES FINANCES 2023-2024.pdf"   # PDF scann√©
PDF_2024 = RAW_DIR / "2024-2025.pdf"                    # PDF num√©rique

print("R√©pertoire de travail :", BASE_DIR)
print("PDF 2023-2024 existe :", PDF_2023.exists())
print("PDF 2024-2025 existe :", PDF_2024.exists())

### 1.2 Extraction OCR ‚Äî Loi 2023-2024 (PDF scann√©)

In [None]:
def extraire_texte_ocr(chemin_pdf: Path, dpi: int = 300) -> list[str]:
    """
    Convertit chaque page du PDF en image et applique l'OCR Tesseract.
    Retourne une liste de textes, un par page.
    """
    print(f"Conversion en images (DPI={dpi})...")
    images = pdf2image.convert_from_path(str(chemin_pdf), dpi=dpi)
    print(f"  {len(images)} pages d√©tect√©es")

    textes = []
    for i, img in enumerate(tqdm(images, desc="OCR")):
        texte = pytesseract.image_to_string(
            img,
            lang="fra",
            config="--psm 6"  # bloc de texte uniforme
        )
        textes.append(texte)

    return textes


def nettoyer_texte_ocr(texte: str) -> str:
    """
    Nettoie les art√©facts courants de l'OCR :
    - Normalisation Unicode
    - Suppression des caract√®res parasites
    - Uniformisation des espaces
    """
    # Normalisation Unicode NFC
    texte = unicodedata.normalize("NFC", texte)
    # Supprimer les caract√®res non-imprimables sauf \n
    texte = re.sub(r"[^\x20-\x7E\u00C0-\u024F\u0300-\u036F\n]", " ", texte)
    # R√©duire les espaces multiples
    texte = re.sub(r"[ \t]+", " ", texte)
    # R√©duire les sauts de ligne multiples (max 2)
    texte = re.sub(r"\n{3,}", "\n\n", texte)
    return texte.strip()


# Extraction OCR de la loi 2023-2024
pages_2023 = extraire_texte_ocr(PDF_2023, dpi=300)
texte_complet_2023 = "\n\n".join(pages_2023)
texte_complet_2023 = nettoyer_texte_ocr(texte_complet_2023)

# Sauvegarde du texte brut
chemin_txt = PROCESSED_DIR / "loi_2023_2024_brut.txt"
chemin_txt.write_text(texte_complet_2023, encoding="utf-8")
print(f"\nTexte brut sauvegard√© : {chemin_txt.name}")
print(f"Longueur : {len(texte_complet_2023):,} caract√®res")

### 1.3 Extraction directe ‚Äî Loi 2024-2025 (PDF num√©rique)

In [None]:
def extraire_texte_numerique(chemin_pdf: Path) -> tuple[str, list[str]]:
    """
    Extrait le texte d'un PDF num√©rique natif avec pdfplumber.
    Retourne (texte_complet, liste_par_page).
    """
    pages = []
    with pdfplumber.open(str(chemin_pdf)) as pdf:
        print(f"  {len(pdf.pages)} pages d√©tect√©es")
        for page in tqdm(pdf.pages, desc="Extraction"):
            texte = page.extract_text()
            if texte:
                pages.append(texte)

    texte_complet = "\n\n".join(pages)
    return texte_complet, pages


# Extraction de la loi 2024-2025
texte_complet_2024, pages_2024 = extraire_texte_numerique(PDF_2024)

# Sauvegarde
chemin_txt_2024 = PROCESSED_DIR / "loi_2024_2025_brut.txt"
chemin_txt_2024.write_text(texte_complet_2024, encoding="utf-8")
print(f"\nTexte brut sauvegard√© : {chemin_txt_2024.name}")
print(f"Longueur : {len(texte_complet_2024):,} caract√®res")

### 1.4 Segmentation des articles

La segmentation repose sur la d√©tection des marqueurs d'articles dans les lois de finances camerounaises. Les articles sont introduits par des formulations du type :
- `Article premier`, `Article 1er`
- `ARTICLE PREMIER`, `ARTICLE UN`
- Num√©ros en toutes lettres : `Article DEUX`, `Article VINGT ET UN`, etc.

In [None]:
# Patterns de d√©tection des articles
PATTERN_ARTICLE = re.compile(
    r"(?:^|\n)\s*(?:Article|ARTICLE)\s+"
    r"(?:"
    r"[Pp]remier|[Pp]REMIER|"
    r"\d+(?:er|√®me|e)?|1er|"
    r"[A-Z][A-Z\s-]{1,50}"
    r")",
    re.MULTILINE
)


def segmenter_articles(texte: str, annee: str) -> list[dict]:
    """
    D√©coupe un texte de loi en articles individuels.
    Retourne une liste de dicts avec : id, titre, texte, position.
    """
    # Trouver toutes les positions des marqueurs d'articles
    matches = list(PATTERN_ARTICLE.finditer(texte))
    print(f"  [{annee}] {len(matches)} marqueurs d'articles d√©tect√©s")

    articles = []
    for i, match in enumerate(matches):
        debut = match.start()
        fin   = matches[i + 1].start() if i + 1 < len(matches) else len(texte)

        contenu = texte[debut:fin].strip()
        # Extraire le titre (premi√®re ligne)
        lignes = contenu.split("\n")
        titre  = lignes[0].strip()
        corps  = "\n".join(lignes[1:]).strip()

        # Filtrer les articles trop courts (< 30 caract√®res = bruit OCR)
        if len(corps) < 30:
            continue

        articles.append({
            "id":       f"{annee}_art_{i+1:03d}",
            "titre":    titre,
            "texte":    corps,
            "position": debut,
            "longueur": len(corps),
        })

    print(f"  [{annee}] {len(articles)} articles retenus apr√®s filtrage")
    return articles


# Segmentation des deux lois
articles_2023 = segmenter_articles(texte_complet_2023, "2023-2024")
articles_2024 = segmenter_articles(texte_complet_2024, "2024-2025")

# Statistiques
print(f"\n{'='*50}")
print(f"Loi 2023-2024 : {len(articles_2023)} articles")
print(f"Loi 2024-2025 : {len(articles_2024)} articles")
print(f"\nExemple ‚Äî premier article 2024-2025 :")
if articles_2024:
    ex = articles_2024[0]
    print(f"  Titre  : {ex['titre']}")
    print(f"  Texte  : {ex['texte'][:200]}...")

### 1.5 Sauvegarde des articles segment√©s

In [None]:
def sauvegarder_json(data: list, chemin: Path) -> None:
    with open(chemin, "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
    print(f"Sauvegard√© : {chemin.name} ({len(data)} entr√©es)")


sauvegarder_json(articles_2023, PROCESSED_DIR / "loi_2023_2024_articles.json")
sauvegarder_json(articles_2024, PROCESSED_DIR / "loi_2024_2025_articles.json")

### 1.6 Extraction des lignes budg√©taires ‚Äî Loi 2024-2025

Les tableaux budg√©taires se trouvent aux **pages 82 √† 108** de la loi 2024-2025. La structure est hi√©rarchique : **Chapitres minist√©riels ‚Üí Programmes**, chacun associ√© √† un libell√©, un objectif, un indicateur, et des montants AE/CP.

> Dans ce projet, l'extraction finale a √©t√© r√©alis√©e manuellement via Gemini AI pour garantir la qualit√©. Le JSON obtenu est charg√© directement ci-dessous. La cellule camelot est fournie √† titre de r√©f√©rence m√©thodologique.

In [None]:
# ‚îÄ‚îÄ Option A : Extraction automatique avec camelot (r√©f√©rence) ‚îÄ‚îÄ
# Cette approche produit ~193 lignes avec des entr√©es parasites
# (totaux minist√©riels, lignes de r√©sum√©) qu'il faut ensuite nettoyer.

# import camelot
#
# tables = camelot.read_pdf(
#     str(PDF_2024),
#     pages="82-108",
#     flavor="lattice",   # pour les tableaux avec bordures
#     strip_text="\n",
# )
# print(f"{len(tables)} tableaux extraits")
# df_budget = pd.concat([t.df for t in tables], ignore_index=True)
# print(df_budget.shape)

print("[INFO] Extraction camelot comment√©e ‚Äî on utilise le JSON Gemini (qualit√© sup√©rieure)")

In [None]:
# ‚îÄ‚îÄ Option B : Chargement du JSON Gemini (utilis√© dans le projet) ‚îÄ‚îÄ
# Structure : {credits_du_budget_general: [{chapitre, libelle_chapitre, ae, cp,
#              programmes: [{n, code, libelle, objectif, indicateur, ae, cp}]}],
#              total_2025: {ae, cp}}

CHEMIN_BUDGET_JSON = PROCESSED_DIR / "loi2024_2025_ligne_budgetaire.json"

with open(CHEMIN_BUDGET_JSON, encoding="utf-8") as f:
    budget_raw = json.load(f)

# Aplatissement : on extrait tous les programmes dans une liste plate
programmes = []
for chapitre in budget_raw.get("credits_du_budget_general", []):
    for prog in chapitre.get("programmes", []):
        programmes.append({
            "code":              str(prog.get("code", "")).strip(),
            "libelle":           prog.get("libelle", "").strip(),
            "objectif":          prog.get("objectif", "").strip(),
            "indicateur":        prog.get("indicateur", "").strip(),
            "montant_ae":        prog.get("ae"),
            "montant_cp":        prog.get("cp"),
            "libelle_chapitre":  chapitre.get("libelle_chapitre", "").strip(),
            "chapitre":          chapitre.get("chapitre", ""),
        })

total_cp = budget_raw.get("total_2025", {}).get("cp", 0)

print(f"Programmes extraits  : {len(programmes)}")
print(f"Total CP 2024-2025   : {total_cp:,} milliers FCFA")
print(f"\nExemple programme :")
if programmes:
    for k, v in programmes[0].items():
        print(f"  {k:<20} : {str(v)[:80]}")

### 1.7 Validation & statistiques descriptives

In [None]:
import numpy as np

def parse_montant(val) -> float:
    """Convertit une valeur CP/AE en float (milliers FCFA)."""
    if val is None:
        return 0.0
    v = re.sub(r"[\s\u00a0]", "", str(val))
    v = re.sub(r"[^\d.]", "", v)
    return float(v) if v else 0.0


cp_values = [parse_montant(p["montant_cp"]) for p in programmes]
ae_values = [parse_montant(p["montant_ae"]) for p in programmes]

print("‚ïê" * 55)
print("  VALIDATION ‚Äî LIGNES BUDG√âTAIRES 2024-2025")
print("‚ïê" * 55)
print(f"  Nombre de programmes          : {len(programmes)}")
print(f"  Programmes avec CP valide     : {sum(1 for v in cp_values if v > 0)}")
print(f"  Programmes avec libell√©       : {sum(1 for p in programmes if p['libelle'])}")
print(f"  Programmes avec objectif      : {sum(1 for p in programmes if p['objectif'])}")
print(f"  Programmes avec indicateur    : {sum(1 for p in programmes if p['indicateur'])}")
print(f"  Total CP (Mrd FCFA)           : {sum(cp_values)/1e6:,.3f}")
print(f"  Total AE (Mrd FCFA)           : {sum(ae_values)/1e6:,.3f}")
print(f"  CP moyen par programme (M)    : {np.mean(cp_values)/1e3:,.1f}")
print(f"  CP max (M FCFA)               : {max(cp_values)/1e3:,.0f}")
print(f"  CP min > 0 (M FCFA)           : {min(v for v in cp_values if v > 0)/1e3:,.1f}")
print("‚ïê" * 55)

# V√©rification articles
print(f"\n  Articles 2023-2024            : {len(articles_2023)}")
print(f"  Articles 2024-2025            : {len(articles_2024)}")
print(f"  Nouveaux articles (delta)     : {len(articles_2024) - len(articles_2023)}")

### Phase 1 termin√©e

Les fichiers suivants ont √©t√© produits dans `data/processed/` :

| Fichier | Contenu |
|---|---|
| `loi_2023_2024_brut.txt` | Texte brut OCR de la loi 2023-2024 |
| `loi_2024_2025_brut.txt` | Texte brut extrait de la loi 2024-2025 |
| `loi_2023_2024_articles.json` | 244 articles segment√©s |
| `loi_2024_2025_articles.json` | 338 articles segment√©s |
| `loi2024_2025_ligne_budgetaire.json` | 182 programmes budg√©taires structur√©s |

---
*La Phase 2 (Embeddings & Audit s√©mantique) utilisera ces fichiers comme entr√©es.*

---
# Phase 2 ‚Äî Embeddings & Audit S√©mantique

**Objectif :** repr√©senter chaque article sous forme de vecteur num√©rique (embedding) et comparer les deux lois article par article pour mesurer le glissement s√©mantique.

**Deux mod√®les en parall√®le :**
- `camembert-base` ‚Äî BERT entra√Æn√© sur corpus fran√ßais, id√©al pour textes juridiques
- `paraphrase-multilingual-MiniLM-L12-v2` ‚Äî compact, multilingue, optimis√© similarit√©

**Seuils de classification s√©mantique :**

| Statut | Score cosinus |
|--------|---------------|
| STABLE | ‚â• 0.90 |
| MODIFI√â | 0.70 ‚Äì 0.90 |
| TR√àS MODIFI√â / NOUVEAU | < 0.70 |

**Livrables attendus :**
- `data/processed/embeddings_camembert.npz`
- `data/processed/embeddings_minilm.npz`
- `data/processed/audit_correspondances.json`
- `reports/audit_semantique.html`

### 2.0 Installation des d√©pendances

In [None]:
!pip install torch transformers sentence-transformers plotly umap-learn --quiet

### 2.1 Imports & chargement des articles

In [None]:
import json
import numpy as np
from pathlib import Path
from collections import Counter
from tqdm import tqdm
import torch
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# ‚îÄ‚îÄ Chemins ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
BASE_DIR      = Path(".").resolve().parent
PROCESSED_DIR = BASE_DIR / "data" / "processed"
REPORTS_DIR   = BASE_DIR / "reports"
REPORTS_DIR.mkdir(parents=True, exist_ok=True)

SEUIL_STABLE  = 0.90
SEUIL_MODIFIE = 0.70

MODELES = {
    "camembert": "camembert-base",
    "minilm":    "paraphrase-multilingual-MiniLM-L12-v2",
}

# ‚îÄ‚îÄ Chargement des articles ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
def charger_articles(chemin):
    with open(chemin, encoding="utf-8") as f:
        return json.load(f)

articles_2023 = charger_articles(PROCESSED_DIR / "loi_2023_2024_articles.json")
articles_2024 = charger_articles(PROCESSED_DIR / "loi_2024_2025_articles.json")

textes_2023 = [a["texte"][:512] for a in articles_2023]
textes_2024 = [a["texte"][:512] for a in articles_2024]

print(f"Articles 2023-2024 : {len(textes_2023)}")
print(f"Articles 2024-2025 : {len(textes_2024)}")
print(f"Dispositif         : {'GPU' if torch.cuda.is_available() else 'CPU'}")

### 2.2 Calcul des embeddings

Pour chaque mod√®le, on encode les articles des deux lois et on sauvegarde les vecteurs dans un fichier `.npz` pour √©viter de recalculer √† chaque ex√©cution.

In [None]:
def calculer_embeddings(textes, modele, batch_size=32, desc="Encodage"):
    """
    Encode une liste de textes en vecteurs normalis√©s par batch.
    normalize_embeddings=True => cosinus = produit scalaire.
    """
    embeddings = []
    for i in tqdm(range(0, len(textes), batch_size), desc=desc):
        batch = textes[i:i + batch_size]
        vecs  = modele.encode(batch, normalize_embeddings=True,
                              show_progress_bar=False)
        embeddings.append(vecs)
    return np.vstack(embeddings)


embeddings_tous = {}

for nom, nom_hf in MODELES.items():
    chemin_npz = PROCESSED_DIR / f"embeddings_{nom}.npz"

    if chemin_npz.exists():
        print(f"[{nom}] Cache trouv√© ‚Üí chargement de {chemin_npz.name}")
        data = np.load(chemin_npz, allow_pickle=True)
        embeddings_tous[nom] = {
            "emb_2023": data["embeddings_2023"],
            "emb_2024": data["embeddings_2024"],
        }
    else:
        print(f"\n[{nom}] Chargement du mod√®le : {nom_hf}")
        model = SentenceTransformer(nom_hf)
        emb_2023 = calculer_embeddings(textes_2023, model, desc=f"{nom} 2023")
        emb_2024 = calculer_embeddings(textes_2024, model, desc=f"{nom} 2024")

        np.savez_compressed(
            chemin_npz,
            embeddings_2023=emb_2023,
            embeddings_2024=emb_2024,
            ids_2023=np.array([a["id"]    for a in articles_2023]),
            ids_2024=np.array([a["id"]    for a in articles_2024]),
            textes_2023=np.array([a["texte"] for a in articles_2023]),
            textes_2024=np.array([a["texte"] for a in articles_2024]),
        )
        print(f"[{nom}] Sauvegard√© : {chemin_npz.name}")
        print(f"  Forme 2023 : {emb_2023.shape}  |  Forme 2024 : {emb_2024.shape}")
        embeddings_tous[nom] = {"emb_2023": emb_2023, "emb_2024": emb_2024}

print("\n Embeddings pr√™ts.")

### 2.3 Audit s√©mantique ‚Äî Correspondances et scores

Pour chaque article de la loi 2024-2025, on cherche le meilleur correspondant dans la loi 2023-2024 (best match par similarit√© cosinus). Le score d√©termine le statut de l'article.

In [None]:
def attribuer_statut(score):
    if score >= SEUIL_STABLE:  return "STABLE"
    if score >= SEUIL_MODIFIE: return "MODIFI√â"
    return "TR√àS MODIFI√â / NOUVEAU"


def calculer_correspondances(emb_2023, emb_2024, arts_2023, arts_2024):
    """
    Calcule la matrice cosinus (n_2024 x n_2023) et identifie
    le meilleur correspondant pour chaque article 2024.
    """
    matrice = cosine_similarity(emb_2024, emb_2023)
    corresp = []

    for i, art in enumerate(arts_2024):
        idx_best = int(np.argmax(matrice[i]))
        score    = float(matrice[i, idx_best])
        ref      = arts_2023[idx_best]
        corresp.append({
            "ref_2024":   art["id"],
            "ref_2023":   ref["id"],
            "titre_2024": art.get("titre", ""),
            "titre_2023": ref.get("titre", ""),
            "texte_2024": art["texte"][:300],
            "texte_2023": ref["texte"][:300],
            "score":      round(score, 4),
            "statut":     attribuer_statut(score),
        })

    # Articles 2023 sans correspondant fiable dans 2024 ‚Üí NOUVEAU
    scores_max_2023 = matrice.max(axis=0)
    for j, ref in enumerate(arts_2023):
        if scores_max_2023[j] < SEUIL_MODIFIE:
            corresp.append({
                "ref_2024":   None,
                "ref_2023":   ref["id"],
                "titre_2024": None,
                "titre_2023": ref.get("titre", ""),
                "texte_2024": None,
                "texte_2023": ref["texte"][:300],
                "score":      round(float(scores_max_2023[j]), 4),
                "statut":     "NOUVEAU",
            })
    return corresp


audit_resultats = {}

for nom in MODELES:
    print(f"[{nom}] Calcul des correspondances...")
    corresp = calculer_correspondances(
        embeddings_tous[nom]["emb_2023"],
        embeddings_tous[nom]["emb_2024"],
        articles_2023, articles_2024,
    )
    audit_resultats[nom] = corresp
    statuts = Counter(c["statut"] for c in corresp)
    scores  = [c["score"] for c in corresp if c["score"] > 0]
    print(f"  Score moyen      : {np.mean(scores):.4f}")
    for s in ["STABLE", "MODIFI√â", "TR√àS MODIFI√â / NOUVEAU", "NOUVEAU"]:
        print(f"  {s:<28}: {statuts.get(s, 0)}")
    print()

### 2.4 Sauvegarde de l'audit

In [None]:
chemin_audit = PROCESSED_DIR / "audit_correspondances.json"

with open(chemin_audit, "w", encoding="utf-8") as f:
    json.dump(audit_resultats, f, ensure_ascii=False, indent=2)

print(f"Audit sauvegard√© : {chemin_audit.name}")
print(f"Entr√©es totales  : {sum(len(v) for v in audit_resultats.values())}")

### 2.5 Visualisations

1. **Histogramme** des scores de similarit√© avec zones color√©es par statut
2. **UMAP superpos√©** : projection 2D des embeddings des deux lois

In [None]:
import plotly.graph_objects as go

BG   = "#0F0F1A"
TEXT = "#F0EAD6"
GRID = "#1e1e30"

def plot_distribution(corresp, titre):
    scores = [c["score"] for c in corresp if c["score"] > 0]
    fig = go.Figure()
    fig.add_trace(go.Histogram(x=scores, nbinsx=40,
                               marker_color="#457B9D", opacity=0.85))
    for x0, x1, couleur, label in [
        (SEUIL_STABLE,  1.0,           "#2DC653", "Stable"),
        (SEUIL_MODIFIE, SEUIL_STABLE,  "#F4A261", "Modifi√©"),
        (0,             SEUIL_MODIFIE, "#E63946", "Tr√®s modifi√©"),
    ]:
        fig.add_vrect(x0=x0, x1=x1, fillcolor=couleur, opacity=0.07,
                      annotation_text=label, annotation_position="top left")
    fig.add_vline(x=float(np.mean(scores)), line_dash="dash", line_color=TEXT,
                  annotation_text=f"Œº = {np.mean(scores):.3f}")
    fig.update_layout(
        title=titre,
        xaxis_title="Score de similarit√© cosinus",
        yaxis_title="Nombre d'articles",
        paper_bgcolor=BG, plot_bgcolor=BG,
        font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
        xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
        height=420,
    )
    return fig

for nom, corresp in audit_resultats.items():
    plot_distribution(corresp, f"Distribution similarit√©s ‚Äî {nom.upper()}").show()

In [None]:
# ‚îÄ‚îÄ UMAP superpos√© ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
import umap
from sklearn.preprocessing import StandardScaler

NOM_UMAP = "minilm"  # ou "camembert"

emb_23 = embeddings_tous[NOM_UMAP]["emb_2023"]
emb_24 = embeddings_tous[NOM_UMAP]["emb_2024"]
X_all  = StandardScaler().fit_transform(np.vstack([emb_23, emb_24]))
n1     = len(emb_23)

print("Calcul UMAP...")
X2d = umap.UMAP(n_components=2, n_neighbors=15, min_dist=0.1,
                random_state=42).fit_transform(X_all)
X1_2d, X2_2d = X2d[:n1], X2d[n1:]

titres_2023  = [a.get("titre", "Sans titre") for a in articles_2023]
titres_2024  = [a.get("titre", "Sans titre") for a in articles_2024]
tous_titres  = sorted(set(titres_2023 + titres_2024))
PALETTE      = ["#E63946","#F4A261","#2DC653","#457B9D","#9B5DE5",
                "#00BBF9","#F15BB5","#FEE440","#00F5D4","#FB5607"]
cmap = {t: PALETTE[i % len(PALETTE)] for i, t in enumerate(tous_titres)}

fig_umap = go.Figure()
for titre in tous_titres:
    c = cmap[titre]
    idx1 = [i for i, t in enumerate(titres_2023) if t == titre]
    idx2 = [i for i, t in enumerate(titres_2024) if t == titre]
    if idx1:
        fig_umap.add_trace(go.Scatter(
            x=X1_2d[idx1, 0], y=X1_2d[idx1, 1], mode="markers",
            name=f"2023¬∑{titre[:20]}", legendgroup=titre, showlegend=True,
            marker=dict(color=c, size=7, symbol="circle", opacity=0.75,
                        line=dict(width=0.5, color="white")),
            hovertemplate=f"<b>2023-2024</b><br>{titre}<extra></extra>",
        ))
    if idx2:
        fig_umap.add_trace(go.Scatter(
            x=X2_2d[idx2, 0], y=X2_2d[idx2, 1], mode="markers",
            name=f"2024¬∑{titre[:20]}", legendgroup=titre, showlegend=False,
            marker=dict(color=c, size=7, symbol="square", opacity=0.75,
                        line=dict(width=0.5, color="white")),
            hovertemplate=f"<b>2024-2025</b><br>{titre}<extra></extra>",
        ))

fig_umap.update_layout(
    title=f"UMAP superpos√© ‚Äî {NOM_UMAP.upper()}  (‚óã 2023 ¬∑ ‚ñ° 2024)",
    xaxis_title="UMAP 1", yaxis_title="UMAP 2",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
    legend=dict(bgcolor="rgba(0,0,0,0.1)", font=dict(size=9)),
    height=580,
)
fig_umap.show()

### 2.6 Top 20 articles les plus modifi√©s

In [None]:
NOM_ANALYSE = "minilm"  # ou "camembert"
corresp     = audit_resultats[NOM_ANALYSE]

tres_modifies = sorted(
    [c for c in corresp
     if c["statut"] == "TR√àS MODIFI√â / NOUVEAU" and c["score"] > 0],
    key=lambda x: x["score"]
)

print(f"Top 10 articles les plus modifi√©s ({NOM_ANALYSE.upper()}) :\n")
print(f"{'Rang':<5} {'Score':<8} {'Titre 2024':<30} {'Titre 2023'}")
print("-" * 80)
for i, c in enumerate(tres_modifies[:10], 1):
    t24 = (c.get("titre_2024") or "N/A")[:28]
    t23 = (c.get("titre_2023") or "N/A")[:28]
    print(f"{i:<5} {c['score']:<8.4f} {t24:<30} {t23}")

# Visualisation
top20 = tres_modifies[:20]
fig_top = go.Figure(go.Bar(
    x=[c["score"] for c in top20],
    y=[(c.get("titre_2024") or "N/A")[:35] for c in top20],
    orientation="h", marker_color="#E63946",
    text=[f"{c['score']:.3f}" for c in top20], textposition="outside",
))
fig_top.update_layout(
    title=f"Top 20 articles les plus modifi√©s ‚Äî {NOM_ANALYSE.upper()}",
    xaxis_title="Score de similarit√©",
    yaxis=dict(autorange="reversed", tickfont=dict(size=9)),
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis_gridcolor=GRID,
    height=520, margin=dict(l=280, r=80, t=50, b=30),
)
fig_top.show()

### 2.7 Export du rapport HTML

In [None]:
from plotly.io import to_html

figs_html = []
for i, (nom, corresp) in enumerate(audit_resultats.items()):
    fig = plot_distribution(corresp, f"Distribution similarit√©s ‚Äî {nom.upper()}")
    figs_html.append(to_html(fig,
        include_plotlyjs="cdn" if i == 0 else False, full_html=False))
figs_html.append(to_html(fig_umap, include_plotlyjs=False, full_html=False))
figs_html.append(to_html(fig_top,  include_plotlyjs=False, full_html=False))

html_final = (
    "<!DOCTYPE html><html><head><meta charset='utf-8'>"
    "<style>body{background:#0F0F1A;margin:0;padding:10px}"
    "h1{font-family:Helvetica,Arial;color:#F0EAD6;padding:20px}</style></head>"
    "<body><h1>Audit S√©mantique ‚Äî Lois de Finances Cameroun</h1>"
    + "".join(figs_html) + "</body></html>"
)
chemin_html = REPORTS_DIR / "audit_semantique.html"
chemin_html.write_text(html_final, encoding="utf-8")
print(f"Rapport sauvegard√© : {chemin_html}")

### Phase 2 termin√©e

| Fichier | Contenu |
|---|---|
| `embeddings_camembert.npz` | Vecteurs CamemBERT (2023 + 2024) |
| `embeddings_minilm.npz` | Vecteurs MiniLM (2023 + 2024) |
| `audit_correspondances.json` | Correspondances et statuts par article |
| `reports/audit_semantique.html` | Rapport interactif Plotly |

**R√©sultats cl√©s :** 40 STABLE ¬∑ 182 MODIFI√âS ¬∑ 22 TR√àS MODIFI√âS ¬∑ 214 NOUVEAUX

---
*La Phase 3 (Classification zero-shot SND30) utilisera les embeddings MiniLM.*

---
# Phase 3 ‚Äî Classification Zero-Shot SND30

**Objectif :** assigner automatiquement chaque programme budg√©taire √† l'un des 4 piliers de la SND30, **sans donn√©es d'entra√Ænement √©tiquet√©es** (approche zero-shot).

**Principe :** pour chaque pilier, on d√©finit manuellement des descripteurs textuels riches. Le centro√Øde de chaque pilier est la moyenne normalis√©e de leurs embeddings. Un programme est assign√© au pilier dont le centro√Øde est le plus proche (similarit√© cosinus).

**Les 4 piliers SND30 :**
- üü† **Transformation Structurelle** ‚Äî industrie, infrastructure, √©nergie, agriculture, num√©rique
- üü¢ **Capital Humain** ‚Äî √©ducation, sant√©, emploi, protection sociale
- üîµ **Gouvernance** ‚Äî administration, justice, s√©curit√©, dette publique, finances
- üü£ **D√©veloppement R√©gional** ‚Äî d√©centralisation, am√©nagement, environnement

**Livrables attendus :**
- `data/processed/classification_snd30_v2.json`
- `reports/classification_snd30.html`

### 3.1 Imports & chargement des donn√©es

In [None]:
import json
import re
import numpy as np
import plotly.graph_objects as go
from pathlib import Path
from collections import Counter
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

BASE_DIR      = Path(".").resolve().parent
PROCESSED_DIR = BASE_DIR / "data" / "processed"
REPORTS_DIR   = BASE_DIR / "reports"

BG   = "#0F0F1A"
TEXT = "#F0EAD6"
GRID = "#1e1e30"
COULEURS_PILIERS = {
    "Transformation Structurelle": "#F4A261",
    "Capital Humain":              "#2DC653",
    "Gouvernance":                 "#457B9D",
    "D√©veloppement R√©gional":      "#9B5DE5",
}
PILIERS = list(COULEURS_PILIERS.keys())

# ‚îÄ‚îÄ Chargement des programmes budg√©taires ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
def parse_montant(val):
    if val is None: return 0.0
    v = re.sub(r"[\s\u00a0]", "", str(val))
    v = re.sub(r"[^\d.]", "", v)
    return float(v) if v else 0.0

chemin_budget = PROCESSED_DIR / "loi2024_2025_ligne_budgetaire.json"
with open(chemin_budget, encoding="utf-8") as f:
    budget_raw = json.load(f)

programmes = []
for chap in budget_raw.get("credits_du_budget_general", []):
    for prog in chap.get("programmes", []):
        programmes.append({
            "code":             str(prog.get("code", "")).strip(),
            "libelle":          prog.get("libelle", "").strip(),
            "objectif":         prog.get("objectif", "").strip(),
            "indicateur":       prog.get("indicateur", "").strip(),
            "montant_ae":       prog.get("ae"),
            "montant_cp":       prog.get("cp"),
            "libelle_chapitre": chap.get("libelle_chapitre", "").strip(),
            "chapitre":         chap.get("chapitre", ""),
        })

print(f"Programmes charg√©s : {len(programmes)}")
print(f"Exemple : {programmes[0]['libelle'][:60]}")

### 3.2 D√©finition des descripteurs SND30

Chaque pilier est d√©crit par **8 phrases** couvrant ses sous-th√©matiques principales. Ces descripteurs sont encod√©s en embeddings pour former le centro√Øde de chaque pilier.

In [None]:
DESCRIPTEURS_SND30 = {
    "Transformation Structurelle": [
        "D√©veloppement industriel et transformation des mati√®res premi√®res au Cameroun",
        "Construction d'infrastructures routi√®res, portuaires et ferroviaires",
        "Production et distribution d'√©nergie √©lectrique et hydraulique",
        "Modernisation de l'agriculture, de l'√©levage et de la p√™che",
        "D√©veloppement du num√©rique, des t√©l√©communications et de l'√©conomie digitale",
        "Promotion du secteur priv√©, des PME et de l'entrepreneuriat",
        "Exploitation mini√®re, p√©troli√®re et gestion des ressources naturelles",
        "D√©veloppement du tourisme, de l'artisanat et de l'√©conomie cr√©ative",
    ],
    "Capital Humain": [
        "Am√©lioration de la qualit√© de l'√©ducation et de la formation professionnelle",
        "Acc√®s aux soins de sant√©, couverture maladie universelle et h√¥pitaux",
        "Promotion de l'emploi, lutte contre le ch√¥mage et insertion des jeunes",
        "Protection sociale, aide aux personnes vuln√©rables et filets sociaux",
        "D√©veloppement de la recherche scientifique et de l'innovation technologique",
        "Promotion du sport, de la jeunesse et des loisirs",
        "√âgalit√© de genre, autonomisation des femmes et droits humains",
        "Acc√®s √† l'eau potable, √† l'assainissement et √† l'hygi√®ne publique",
    ],
    "Gouvernance": [
        "Modernisation de l'administration publique et r√©forme de l'√âtat",
        "Am√©lioration de la justice, de l'√©tat de droit et lutte contre la corruption",
        "S√©curit√© nationale, d√©fense du territoire et maintien de l'ordre",
        "Gestion de la dette publique, remboursement des emprunts et obligations",
        "Gestion des finances publiques, fiscalit√© et recouvrement des recettes",
        "Pensions, retraites et d√©penses communes de fonctionnement de l'√âtat",
        "Relations ext√©rieures, diplomatie et coop√©ration internationale",
        "Communication institutionnelle et promotion de l'image du Cameroun",
    ],
    "D√©veloppement R√©gional": [
        "D√©centralisation, d√©veloppement local et renforcement des collectivit√©s",
        "Am√©nagement du territoire, urbanisme et habitat",
        "Protection de l'environnement, gestion durable des for√™ts et biodiversit√©",
        "R√©duction des in√©galit√©s r√©gionales et d√©veloppement des zones rurales",
        "Promotion de la paix, de la coh√©sion sociale et r√©conciliation nationale",
        "D√©veloppement des r√©gions du Nord-Ouest et du Sud-Ouest post-crise",
        "Gestion des catastrophes naturelles et r√©silience climatique",
        "Coop√©ration transfrontali√®re et int√©gration sous-r√©gionale",
    ],
}

print("Descripteurs d√©finis :")
for pilier, desc in DESCRIPTEURS_SND30.items():
    print(f"  {pilier:<30} : {len(desc)} descripteurs")

### 3.3 Calcul des centro√Ødes de piliers

On encode les descripteurs avec MiniLM et on calcule la **moyenne normalis√©e** des embeddings pour obtenir le vecteur repr√©sentatif de chaque pilier.

In [None]:
NOM_MODELE = "paraphrase-multilingual-MiniLM-L12-v2"

print(f"Chargement du mod√®le : {NOM_MODELE}")
modele = SentenceTransformer(NOM_MODELE)

# Encodage et calcul des centro√Ødes
centroides = {}
for pilier, descripteurs in DESCRIPTEURS_SND30.items():
    vecs = modele.encode(descripteurs, normalize_embeddings=True)
    # Moyenne puis renormalisation L2
    centroide = vecs.mean(axis=0)
    centroide = centroide / np.linalg.norm(centroide)
    centroides[pilier] = centroide
    print(f"  [{pilier}] centro√Øde calcul√© ‚Äî dim : {centroide.shape[0]}")

# Matrice des centro√Ødes (4 x dim)
C = np.vstack([centroides[p] for p in PILIERS])
print(f"\nMatrice centro√Ødes : {C.shape}")

# Coh√©rence interne : similarit√© inter-piliers
sim_inter = cosine_similarity(C)
print("\nSimilarit√© cosinus entre piliers :")
print(f"{'':>28}", end="")
for p in PILIERS: print(f"  {p[:12]:<14}", end="")
print()
for i, pi in enumerate(PILIERS):
    print(f"{pi:<28}", end="")
    for j in range(len(PILIERS)):
        print(f"  {sim_inter[i,j]:>12.3f}  ", end="")
    print()

### 3.4 Classification des programmes

Chaque programme est repr√©sent√© par la **concat√©nation** de son libell√©, objectif et indicateur. Le pilier assign√© est celui dont le centro√Øde est le plus proche.

**Crit√®res de fiabilit√© :**
- Score dominant ‚â• 0.25
- √âcart entre 1er et 2e pilier ‚â• 0.02

In [None]:
SEUIL_SCORE  = 0.25   # score cosinus minimum
SEUIL_ECART  = 0.02   # √©cart minimum entre 1er et 2e pilier

# Texte de repr√©sentation de chaque programme
textes_prog = [
    f"{p['libelle']}. {p['objectif']}. {p['indicateur']}".strip(". ")
    for p in programmes
]

print("Encodage des programmes...")
emb_prog = modele.encode(textes_prog, normalize_embeddings=True,
                          show_progress_bar=True)

# Similarit√© programmes √ó centro√Ødes  ‚Üí  matrice (182 x 4)
sim_matrix = cosine_similarity(emb_prog, C)

# Classification
resultats = []
for i, prog in enumerate(programmes):
    scores_piliers = sim_matrix[i]                  # vecteur de 4 scores
    idx_sorted     = np.argsort(scores_piliers)[::-1]
    idx1, idx2     = idx_sorted[0], idx_sorted[1]

    score_dom  = float(scores_piliers[idx1])
    score_2nd  = float(scores_piliers[idx2])
    ecart      = score_dom - score_2nd
    fiable     = (score_dom >= SEUIL_SCORE) and (ecart >= SEUIL_ECART)

    resultats.append({
        **prog,
        "pilier":          PILIERS[idx1],
        "pilier_2":        PILIERS[idx2],
        "score_dominant":  round(score_dom, 4),
        "score_second":    round(score_2nd, 4),
        "ecart_confiance": round(ecart, 4),
        "fiable":          fiable,
        "scores_tous":     {PILIERS[j]: round(float(scores_piliers[j]), 4)
                            for j in range(len(PILIERS))},
    })

n_fiable = sum(1 for r in resultats if r["fiable"])
print(f"\n{'='*50}")
print(f"Programmes classifi√©s : {len(resultats)}")
print(f"Classifications fiables : {n_fiable} ({100*n_fiable/len(resultats):.1f}%)")
print(f"\nR√©partition par pilier :")
for pilier, n in Counter(r["pilier"] for r in resultats).most_common():
    cp_total = sum(parse_montant(r["montant_cp"]) for r in resultats if r["pilier"]==pilier)
    print(f"  {pilier:<30} : {n:>3} programmes  |  {cp_total/1e6:>8.1f} Mrd FCFA")

### 3.5 Sauvegarde des r√©sultats

In [None]:
chemin_classif = PROCESSED_DIR / "classification_snd30_v2.json"
with open(chemin_classif, "w", encoding="utf-8") as f:
    json.dump(resultats, f, ensure_ascii=False, indent=2)

print(f"Sauvegard√© : {chemin_classif.name}")
print(f"Entr√©es    : {len(resultats)}")

### 3.6 Visualisations

Trois graphiques :
1. **Camembert** CP par pilier
2. **Barres group√©es** fr√©quence vs CP
3. **Treemap** hi√©rarchique pilier ‚Üí programmes

In [None]:
from plotly.subplots import make_subplots

# ‚îÄ‚îÄ Agr√©gats par pilier ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
cp_par_pilier = {p: 0.0 for p in PILIERS}
n_par_pilier  = Counter()
for r in resultats:
    cp = parse_montant(r["montant_cp"])
    cp_par_pilier[r["pilier"]] += cp
    n_par_pilier[r["pilier"]]  += 1
total_cp = sum(cp_par_pilier.values())
total_n  = len(resultats)

# ‚îÄ‚îÄ 1. Camembert CP ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
fig_pie = go.Figure(go.Pie(
    labels=PILIERS,
    values=[cp_par_pilier[p]/1e6 for p in PILIERS],
    marker=dict(colors=[COULEURS_PILIERS[p] for p in PILIERS]),
    hole=0.45, textinfo="label+percent", textfont=dict(size=11),
))
fig_pie.update_layout(
    title="R√©partition des CP par pilier SND30 (Mrd FCFA)",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    showlegend=False, height=420,
)
fig_pie.show()

# ‚îÄ‚îÄ 2. Barres group√©es fr√©quence vs CP ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
fig_bar = go.Figure()
fig_bar.add_trace(go.Bar(
    name="Programmes (%)", x=PILIERS,
    y=[100*n_par_pilier[p]/total_n for p in PILIERS],
    marker_color=[COULEURS_PILIERS[p] for p in PILIERS], opacity=0.9,
    text=[f"{100*n_par_pilier[p]/total_n:.1f}%" for p in PILIERS],
    textposition="outside",
))
fig_bar.add_trace(go.Bar(
    name="CP (%)", x=PILIERS,
    y=[100*cp_par_pilier[p]/total_cp for p in PILIERS],
    marker_color=[COULEURS_PILIERS[p] for p in PILIERS], opacity=0.4,
    marker_pattern_shape="/",
    text=[f"{100*cp_par_pilier[p]/total_cp:.1f}%" for p in PILIERS],
    textposition="outside",
))
fig_bar.update_layout(
    title="Fr√©quence vs CP par pilier SND30",
    barmode="group",
    yaxis_title="%",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
    legend=dict(bgcolor="rgba(0,0,0,0.1)"),
    height=420,
)
fig_bar.show()

# ‚îÄ‚îÄ 3. Treemap pilier ‚Üí programmes ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
labels, parents, values, colors = [], [], [], []
labels.append("Budget 2024-2025"); parents.append("")
values.append(0);                  colors.append(BG)

for p in PILIERS:
    labels.append(p); parents.append("Budget 2024-2025")
    values.append(cp_par_pilier[p]/1e3); colors.append(COULEURS_PILIERS[p])

for r in resultats:
    cp = parse_montant(r["montant_cp"])
    if not cp: continue
    lbl = f"{r['code']} ¬∑ {r['libelle'][:35]}"
    labels.append(lbl);           parents.append(r["pilier"])
    values.append(cp/1e3);        colors.append(COULEURS_PILIERS.get(r["pilier"],"#888"))

fig_tree = go.Figure(go.Treemap(
    labels=labels, parents=parents, values=values,
    marker=dict(colors=colors, line=dict(width=1, color=BG)),
    textinfo="label", maxdepth=2,
    hovertemplate="<b>%{label}</b><br>CP : %{value:.0f} M FCFA<extra></extra>",
))
fig_tree.update_layout(
    title="Treemap hi√©rarchique ‚Äî Piliers SND30 ‚Üí Programmes",
    paper_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    height=560, margin=dict(t=40, l=5, r=5, b=5),
)
fig_tree.show()

### 3.7 √âvaluation des performances

En l'absence de jeu de test annot√©, on √©value la classification via des **m√©triques internes** : distribution des scores de confiance, taux de fiabilit√©, et coh√©rence des r√©sultats.

In [None]:
scores_dom  = [r["score_dominant"]  for r in resultats]
ecarts_conf = [r["ecart_confiance"] for r in resultats]

print("‚ïê" * 55)
print("  M√âTRIQUES DE CLASSIFICATION")
print("‚ïê" * 55)
print(f"  Taux de fiabilit√©           : {100*n_fiable/len(resultats):.1f}%")
print(f"  Score moyen (dominant)      : {np.mean(scores_dom):.4f}")
print(f"  Score m√©dian (dominant)     : {np.median(scores_dom):.4f}")
print(f"  √âcart moyen de confiance    : {np.mean(ecarts_conf):.4f}")
print(f"  Programmes non fiables      : {len(resultats)-n_fiable}")
print("‚ïê" * 55)

# Distribution des scores par pilier
print("\n  Scores moyens par pilier :")
for p in PILIERS:
    sc = [r["score_dominant"] for r in resultats if r["pilier"] == p]
    print(f"  {p:<30} : Œº={np.mean(sc):.4f}  œÉ={np.std(sc):.4f}")

# Histogramme des scores de confiance
fig_scores = go.Figure()
fig_scores.add_trace(go.Histogram(
    x=scores_dom, nbinsx=30,
    marker_color="#457B9D", opacity=0.85, name="Score dominant",
))
fig_scores.add_trace(go.Histogram(
    x=ecarts_conf, nbinsx=30,
    marker_color="#F4A261", opacity=0.65, name="√âcart confiance",
))
fig_scores.add_vline(x=SEUIL_SCORE, line_dash="dash", line_color="#2DC653",
                     annotation_text=f"Seuil score={SEUIL_SCORE}")
fig_scores.add_vline(x=SEUIL_ECART, line_dash="dot",  line_color="#E63946",
                     annotation_text=f"Seuil √©cart={SEUIL_ECART}")
fig_scores.update_layout(
    title="Distribution des scores de classification",
    xaxis_title="Score", yaxis_title="Nombre de programmes",
    barmode="overlay",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
    legend=dict(bgcolor="rgba(0,0,0,0.1)"),
    height=400,
)
fig_scores.show()

### 3.8 Inspection des programmes ambigus

In [None]:
# Programmes dont la classification est peu fiable
ambigus = sorted(
    [r for r in resultats if not r["fiable"]],
    key=lambda x: x["ecart_confiance"]
)

print(f"Programmes ambigus (non fiables) : {len(ambigus)}\n")
print(f"{'Code':<6} {'Score':<7} {'√âcart':<7} {'Pilier 1':<26} {'Pilier 2':<26} Libell√©")
print("-" * 110)
for r in ambigus[:15]:
    print(
        f"{r['code']:<6} "
        f"{r['score_dominant']:<7.4f} "
        f"{r['ecart_confiance']:<7.4f} "
        f"{r['pilier'][:24]:<26} "
        f"{r['pilier_2'][:24]:<26} "
        f"{r['libelle'][:40]}"
    )

# Top 5 programmes par CP pour chaque pilier
print("\n" + "‚ïê"*60)
print("TOP 5 PROGRAMMES PAR CP ‚Äî PAR PILIER")
print("‚ïê"*60)
for p in PILIERS:
    top5 = sorted(
        [r for r in resultats if r["pilier"] == p],
        key=lambda x: parse_montant(x["montant_cp"]), reverse=True
    )[:5]
    print(f"\n  üîπ {p}")
    for r in top5:
        cp = parse_montant(r["montant_cp"])
        print(f"     [{r['code']}] {r['libelle'][:45]:<45} {cp/1e6:>8.1f} Mrd")

### 3.9 Export du rapport HTML

In [None]:
from plotly.io import to_html

figs = [
    (fig_pie,    "R√©partition CP par pilier"),
    (fig_bar,    "Fr√©quence vs CP"),
    (fig_tree,   "Treemap hi√©rarchique"),
    (fig_scores, "Scores de classification"),
]

figs_html = [
    to_html(fig, include_plotlyjs="cdn" if i == 0 else False, full_html=False)
    for i, (fig, _) in enumerate(figs)
]

html = (
    "<!DOCTYPE html><html><head><meta charset='utf-8'>"
    "<style>body{background:#0F0F1A;margin:0;padding:10px}"
    "h1{font-family:Helvetica,Arial;color:#F0EAD6;padding:20px}</style></head>"
    "<body><h1>Classification SND30 ‚Äî Lois de Finances Cameroun</h1>"
    + "".join(figs_html) + "</body></html>"
)
chemin_html = REPORTS_DIR / "classification_snd30.html"
chemin_html.write_text(html, encoding="utf-8")
print(f"Rapport sauvegard√© : {chemin_html}")

### Phase 3 termin√©e

| Fichier | Contenu |
|---|---|
| `classification_snd30_v2.json` | 182 programmes classifi√©s avec scores |
| `reports/classification_snd30.html` | Rapport interactif Plotly |

**R√©sultats cl√©s :**
- Taux de fiabilit√© : **89.6%** (163/182 programmes)
- Gouvernance : 78 programmes / 56.2% CP total (dont dette publique)
- Transformation Structurelle : 34 programmes / **31.6% CP discr√©tionnaire**

---
*La Phase 4 (Analyse statistique de conformit√©) croisera ces r√©sultats avec les montants budg√©taires.*

---
# Phase 4 ‚Äî Analyse Statistique de Conformit√©

**Objectif :** mesurer l'alignement entre le discours budg√©taire (fr√©quence programmatique par pilier) et les allocations financi√®res r√©elles (% de CP par pilier).

**Quatre m√©thodes statistiques :**
- **Corr√©lation de Spearman** ‚Äî alignement fr√©quence vs CP
- **Test du Chi-2** ‚Äî distribution des programmes et CP
- **K-Means (k=4)** ‚Äî clustering des programmes
- **HDBSCAN** ‚Äî d√©tection des outliers budg√©taires

**Deux p√©rim√®tres d'analyse :**
- Budget **total** (182 programmes)
- Budget **discr√©tionnaire** (173 programmes, hors codes incompressibles : dette, pensions, d√©penses communes)

**Livrables attendus :**
- `reports/conformite_snd30_rapport.txt`
- `reports/conformite_snd30.html`

### 4.1 Imports & chargement des donn√©es

In [None]:
import json
import re
import numpy as np
import plotly.graph_objects as go
from pathlib import Path
from collections import Counter
from scipy import stats as sp_stats
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

BASE_DIR      = Path(".").resolve().parent
PROCESSED_DIR = BASE_DIR / "data" / "processed"
REPORTS_DIR   = BASE_DIR / "reports"

BG   = "#0F0F1A"
TEXT = "#F0EAD6"
GRID = "#1e1e30"
COULEURS_PILIERS = {
    "Transformation Structurelle": "#F4A261",
    "Capital Humain":              "#2DC653",
    "Gouvernance":                 "#457B9D",
    "D√©veloppement R√©gional":      "#9B5DE5",
}
PILIERS = list(COULEURS_PILIERS.keys())
CODES_INCOMPRESSIBLES = {"199","203","200","201","202","195","196","197","198"}

def parse_montant(val):
    if val is None: return 0.0
    v = re.sub(r"[\s\u00a0]","",str(val))
    v = re.sub(r"[^\d.]","",v)
    return float(v) if v else 0.0

# ‚îÄ‚îÄ Chargement de la classification ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
with open(PROCESSED_DIR / "classification_snd30_v2.json", encoding="utf-8") as f:
    classif = json.load(f)

print(f"Programmes charg√©s : {len(classif)}")

# ‚îÄ‚îÄ Deux p√©rim√®tres ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
progs_total = classif
progs_discr = [r for r in classif if r.get("code","") not in CODES_INCOMPRESSIBLES]

print(f"Budget total          : {len(progs_total)} programmes")
print(f"Budget discr√©tionnaire: {len(progs_discr)} programmes")

### 4.2 Agr√©gats par pilier

Calcul des fr√©quences programmatiques et des parts budg√©taires pour les deux p√©rim√®tres.

In [None]:
def agreger_par_pilier(progs):
    """Retourne (cp_par_pilier, n_par_pilier, freq_pct, cp_pct, ecarts)."""
    cp_pp = {p: 0.0 for p in PILIERS}
    n_pp  = Counter()
    for r in progs:
        cp = parse_montant(r.get("montant_cp"))
        if r.get("pilier") in cp_pp:
            cp_pp[r["pilier"]] += cp
            n_pp[r["pilier"]]  += 1
    total_cp = sum(cp_pp.values())
    total_n  = len(progs)
    freq_pct = {p: 100*n_pp[p]/total_n   for p in PILIERS}
    cp_pct   = {p: 100*cp_pp[p]/total_cp for p in PILIERS}
    ecarts   = {p: cp_pct[p]-freq_pct[p] for p in PILIERS}
    return cp_pp, n_pp, freq_pct, cp_pct, ecarts


agg_total = agreger_par_pilier(progs_total)
agg_discr = agreger_par_pilier(progs_discr)

cp_pp_t, n_pp_t, freq_t, cp_t, ecarts_t = agg_total
cp_pp_d, n_pp_d, freq_d, cp_d, ecarts_d = agg_discr

print("‚ïê"*70)
print(f"{'Pilier':<30} {'Prog':>5} {'Fr√©q%':>7} {'CP%':>7} {'√âcart':>7}  (DISCR√âTIONNAIRE)")
print("‚îÄ"*70)
for p in PILIERS:
    print(f"{p:<30} {n_pp_d[p]:>5} {freq_d[p]:>7.1f} {cp_d[p]:>7.1f} {ecarts_d[p]:>+7.1f}")
print("‚ïê"*70)
print(f"\nTotal CP discr√©tionnaire : {sum(cp_pp_d.values())/1e6:,.1f} Mrd FCFA")
print(f"Total CP budget total    : {sum(cp_pp_t.values())/1e6:,.1f} Mrd FCFA")

### 4.3 Corr√©lation de Spearman

Mesure si les piliers les plus repr√©sent√©s en nombre de programmes re√ßoivent proportionnellement plus de cr√©dits.

In [None]:
def spearman_conformite(freq_pct, cp_pct, label):
    freq_v = [freq_pct[p] for p in PILIERS]
    cp_v   = [cp_pct[p]   for p in PILIERS]
    rho, pval = sp_stats.spearmanr(freq_v, cp_v)
    sig = "Significatif" if pval < 0.05 else "Non significatif"
    print(f"[{label}]")
    print(f"  œÅ de Spearman : {rho:.4f}")
    print(f"  p-value       : {pval:.4f}")
    print(f"  R√©sultat      : {sig}")
    print()
    return rho, pval

rho_t, pval_t = spearman_conformite(freq_t, cp_t, "Budget TOTAL")
rho_d, pval_d = spearman_conformite(freq_d, cp_d, "Budget DISCR√âTIONNAIRE")

# Visualisation scatter Spearman ‚Äî budget discr√©tionnaire
freq_v = [freq_d[p] for p in PILIERS]
cp_v   = [cp_d[p]   for p in PILIERS]
m, b   = np.polyfit(freq_v, cp_v, 1)
xl     = np.linspace(min(freq_v)-2, max(freq_v)+2, 50)

fig_sp = go.Figure()
fig_sp.add_trace(go.Scatter(
    x=freq_v, y=cp_v, mode="markers+text",
    text=PILIERS, textposition="top center", textfont=dict(size=10),
    marker=dict(color=[COULEURS_PILIERS[p] for p in PILIERS],
                size=20, line=dict(width=2, color=TEXT)),
    hovertemplate="<b>%{text}</b><br>Fr√©q:%{x:.1f}%<br>CP:%{y:.1f}%<extra></extra>",
))
fig_sp.add_trace(go.Scatter(
    x=xl, y=m*xl+b, mode="lines",
    line=dict(dash="dash", color="rgba(150,150,150,0.5)"),
    showlegend=False,
))
fig_sp.update_layout(
    title=f"Corr√©lation Spearman ‚Äî œÅ={rho_d:.3f}  p={pval_d:.3f} (Budget discr√©tionnaire)",
    xaxis_title="Fr√©quence (% programmes)",
    yaxis_title="CP (% budget)",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
    annotations=[dict(
        x=0.02, y=0.97, xref="paper", yref="paper",
        text=f"œÅ = {rho_d:.3f}<br>p = {pval_d:.3f}<br>"
             f"{'Significatif' if pval_d < 0.05 else 'Non significatif'}",
        showarrow=False, bgcolor=BG, bordercolor=GRID,
        borderwidth=1, font=dict(size=12), align="left",
    )],
    height=460,
)
fig_sp.show()

### 4.4 Test du Chi-2

Teste si la distribution observ√©e des programmes (et des CP) entre piliers diff√®re significativement d'une distribution uniforme.

In [None]:
def test_chi2(n_pp, label):
    observes  = np.array([n_pp[p] for p in PILIERS], dtype=float)
    attendus  = np.full(len(PILIERS), observes.mean())
    chi2, pval = sp_stats.chisquare(observes, attendus)
    sig = "Distribution non uniforme" if pval < 0.05 else "Distribution uniforme"
    print(f"[{label}]")
    print(f"  Chi2 observ√© : {chi2:.4f}")
    print(f"  p-value      : {pval:.4f}")
    print(f"  R√©sultat     : {sig}")
    print()
    return chi2, pval


# Test sur la distribution des programmes
chi2_prog_t, pval_prog_t = test_chi2(n_pp_t, "Programmes ‚Äî Budget total")
chi2_prog_d, pval_prog_d = test_chi2(n_pp_d, "Programmes ‚Äî Budget discr√©tionnaire")

# Test sur la distribution des CP (en millions)
def test_chi2_cp(cp_pp, label):
    observes  = np.array([cp_pp[p] for p in PILIERS], dtype=float)
    attendus  = np.full(len(PILIERS), observes.mean())
    chi2, pval = sp_stats.chisquare(observes, attendus)
    sig = "Distribution non uniforme" if pval < 0.05 else "Distribution uniforme"
    print(f"[{label}]")
    print(f"  Chi2 observ√© : {chi2:.2f}")
    print(f"  p-value      : {pval:.6f}")
    print(f"  R√©sultat     : {sig}")
    print()

test_chi2_cp(cp_pp_t, "CP ‚Äî Budget total")
test_chi2_cp(cp_pp_d, "CP ‚Äî Budget discr√©tionnaire")

### 4.5 Analyse des √©carts discours‚Äìbudget

Visualisation des √©carts en points de pourcentage entre part programmatique et part budg√©taire.

In [None]:
# ‚îÄ‚îÄ Barres group√©es fr√©quence vs CP ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
fig_freq = go.Figure()
fig_freq.add_trace(go.Bar(
    name="Fr√©quence (%)", x=PILIERS,
    y=list(freq_d.values()),
    marker_color=[COULEURS_PILIERS[p] for p in PILIERS], opacity=0.9,
    text=[f"{v:.1f}%" for v in freq_d.values()], textposition="outside",
))
fig_freq.add_trace(go.Bar(
    name="CP (%)", x=PILIERS,
    y=list(cp_d.values()),
    marker_color=[COULEURS_PILIERS[p] for p in PILIERS], opacity=0.4,
    marker_pattern_shape="/",
    text=[f"{v:.1f}%" for v in cp_d.values()], textposition="outside",
))
fig_freq.update_layout(
    title="Fr√©quence vs CP par pilier ‚Äî Budget discr√©tionnaire",
    barmode="group", yaxis_title="%",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
    legend=dict(bgcolor="rgba(0,0,0,0.1)"),
    height=420,
)
fig_freq.show()

# ‚îÄ‚îÄ Barres horizontales √©carts ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
ecart_vals = [ecarts_d[p] for p in PILIERS]
fig_ecart  = go.Figure(go.Bar(
    x=ecart_vals, y=PILIERS, orientation="h",
    marker_color=["#2DC653" if e >= 0 else "#E63946" for e in ecart_vals],
    text=[f"{e:+.1f}%" for e in ecart_vals], textposition="outside",
))
fig_ecart.add_vline(x=0, line_color=TEXT, line_width=1)
fig_ecart.update_layout(
    title="√âcart CP% ‚àí Fr√©quence% par pilier (Budget discr√©tionnaire)",
    xaxis_title="Points de pourcentage",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
    height=380, margin=dict(l=220, r=80, t=50, b=30),
)
fig_ecart.show()

# ‚îÄ‚îÄ Synth√®se textuelle ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
print("SYNTH√àSE DES √âCARTS ‚Äî Budget discr√©tionnaire")
print("‚ïê"*60)
for p in sorted(PILIERS, key=lambda x: abs(ecarts_d[x]), reverse=True):
    e = ecarts_d[p]
    icone = "üü¢" if e > 5 else "üî¥" if e < -5 else "üü°"
    statut = "Sur-financ√©" if e > 5 else "Sous-financ√©" if e < -5 else "Align√©"
    print(f"{icone} {p:<30} : {freq_d[p]:.1f}% prog ‚Üí {cp_d[p]:.1f}% CP  "
          f"(√©cart {e:+.1f}pp)  [{statut}]")

### 4.6 Clustering K-Means (k=4)

Regroupement des programmes selon trois variables : score de classification, √©cart de confiance, et montant CP. L'objectif est d'identifier des profils budg√©taires distincts.

In [None]:
# Matrice de features pour le clustering
X_km = np.array([
    [
        r.get("score_dominant", 0),
        r.get("ecart_confiance", 0),
        parse_montant(r.get("montant_cp")) / 1e6,  # en milliards
    ]
    for r in classif
])

X_km_scaled = StandardScaler().fit_transform(X_km)

# K-Means avec k=4
kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
labels_km = kmeans.fit_predict(X_km_scaled)

# Caract√©risation des clusters
print("CLUSTERS K-MEANS (k=4)")
print("‚ïê"*65)
for k in range(4):
    idx      = np.where(labels_km == k)[0]
    cp_moy   = X_km[idx, 2].mean()
    cp_max   = X_km[idx, 2].max()
    score_m  = X_km[idx, 0].mean()
    piliers_k = Counter(classif[i]["pilier"] for i in idx)
    dom_pilier = piliers_k.most_common(1)[0][0]
    print(f"\n  Cluster {k} ‚Äî {len(idx)} programmes")
    print(f"    CP moyen    : {cp_moy*1e3:,.0f} M FCFA")
    print(f"    CP max      : {cp_max*1e3:,.0f} M FCFA")
    print(f"    Score moyen : {score_m:.4f}")
    print(f"    Pilier dom. : {dom_pilier}")
    print(f"    Piliers     : {dict(piliers_k.most_common())}")

# Scatter 2D : CP vs score, color√© par cluster
PALETTE_KM = ["#E63946","#F4A261","#2DC653","#9B5DE5"]
fig_km = go.Figure()
for k in range(4):
    idx = np.where(labels_km == k)[0]
    fig_km.add_trace(go.Scatter(
        x=X_km[idx, 0],
        y=X_km[idx, 2] * 1e3,  # en M FCFA
        mode="markers",
        name=f"Cluster {k} (n={len(idx)})",
        marker=dict(color=PALETTE_KM[k], size=8, opacity=0.8,
                    line=dict(width=0.5, color="white")),
        hovertemplate=(
            "<b>%{customdata}</b><br>"
            "Score:%{x:.3f}<br>CP:%{y:,.0f} M FCFA<extra></extra>"
        ),
        customdata=[classif[i]["libelle"][:40] for i in idx],
    ))
fig_km.update_layout(
    title="K-Means (k=4) ‚Äî Score de classification vs CP",
    xaxis_title="Score dominant",
    yaxis_title="CP (M FCFA)",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
    legend=dict(bgcolor="rgba(0,0,0,0.1)"),
    height=460,
)
fig_km.show()

### 4.7 Clustering HDBSCAN ‚Äî D√©tection des outliers

HDBSCAN d√©tecte automatiquement le nombre de clusters et identifie les programmes atypiques (outliers, label = -1).

In [None]:
import hdbscan

clusterer = hdbscan.HDBSCAN(
    min_cluster_size=5,
    min_samples=3,
    metric="euclidean",
)
labels_hdb = clusterer.fit_predict(X_km_scaled)

n_clusters = len(set(labels_hdb)) - (1 if -1 in labels_hdb else 0)
n_outliers = int((labels_hdb == -1).sum())

print("HDBSCAN ‚Äî R√©sultats")
print("‚ïê"*50)
print(f"  Clusters d√©tect√©s : {n_clusters}")
print(f"  Outliers (label=-1): {n_outliers}")
print()

# Caract√©risation des outliers
idx_out = np.where(labels_hdb == -1)[0]
if len(idx_out) > 0:
    cp_out = [parse_montant(classif[i]["montant_cp"]) for i in idx_out]
    print(f"  CP moyen outliers  : {np.mean(cp_out)/1e3:,.0f} M FCFA")
    print(f"  CP max outlier     : {max(cp_out)/1e3:,.0f} M FCFA")
    print(f"\n  Top 10 outliers :")
    top_out = sorted(idx_out, key=lambda i: parse_montant(classif[i]["montant_cp"]), reverse=True)
    for i in top_out[:10]:
        r  = classif[i]
        cp = parse_montant(r["montant_cp"])
        print(f"    [{r['code']}] {r['libelle'][:40]:<40} {cp/1e3:>8,.0f} M FCFA")

# Visualisation HDBSCAN
PALETTE_HDB = ["#2DC653","#F4A261","#457B9D","#9B5DE5","#00BBF9","#FEE440"]
fig_hdb = go.Figure()

for k in sorted(set(labels_hdb)):
    idx  = np.where(labels_hdb == k)[0]
    nom  = f"Outliers (n={len(idx)})" if k == -1 else f"Cluster {k} (n={len(idx)})"
    coul = "#E63946" if k == -1 else PALETTE_HDB[k % len(PALETTE_HDB)]
    fig_hdb.add_trace(go.Scatter(
        x=X_km[idx, 0],
        y=X_km[idx, 2] * 1e3,
        mode="markers", name=nom,
        marker=dict(color=coul, size=8 if k != -1 else 10,
                    symbol="circle" if k != -1 else "x",
                    opacity=0.8, line=dict(width=0.5, color="white")),
        hovertemplate=(
            "<b>%{customdata}</b><br>"
            "Score:%{x:.3f}<br>CP:%{y:,.0f} M FCFA<extra></extra>"
        ),
        customdata=[classif[i]["libelle"][:40] for i in idx],
    ))
fig_hdb.update_layout(
    title=f"HDBSCAN ‚Äî {n_clusters} clusters + {n_outliers} outliers (√ó)",
    xaxis_title="Score dominant",
    yaxis_title="CP (M FCFA)",
    paper_bgcolor=BG, plot_bgcolor=BG,
    font=dict(color=TEXT, family="Helvetica, Arial, sans-serif"),
    xaxis=dict(gridcolor=GRID), yaxis=dict(gridcolor=GRID),
    legend=dict(bgcolor="rgba(0,0,0,0.1)"),
    height=460,
)
fig_hdb.show()

### 4.8 Export du rapport texte & HTML

In [None]:
from plotly.io import to_html

# ‚îÄ‚îÄ Rapport texte ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
lignes = [
    "RAPPORT DE CONFORMIT√â DISCOURS / BUDGET",
    "Analyse NLP ‚Äî Lois de Finances Cameroun 2023-2025",
    "="*60,
    "",
    "1. CORR√âLATION DE SPEARMAN",
    f"   Budget total          : rho={rho_t:.4f}  p={pval_t:.4f}",
    f"   Budget discr√©tionnaire: rho={rho_d:.4f}  p={pval_d:.4f}",
    "",
    "2. √âCARTS DISCOURS / BUDGET (Budget discr√©tionnaire)",
]
for p in sorted(PILIERS, key=lambda x: abs(ecarts_d[x]), reverse=True):
    e = ecarts_d[p]
    statut = "Sur-financ√©" if e > 5 else "Sous-financ√©" if e < -5 else "Align√©"
    lignes.append(
        f"   {p:<30}: freq={freq_d[p]:.1f}%  CP={cp_d[p]:.1f}%  "
        f"ecart={e:+.1f}pp  [{statut}]"
    )
lignes += [
    "",
    "3. K-MEANS (k=4)",
    f"   Cluster √† fort CP : 9 m√©ga-programmes (~209 M FCFA CP moyen)",
    f"   Clusters standards : majorit√© √† 10-18 M FCFA CP moyen",
    "",
    "4. HDBSCAN",
    f"   Clusters d√©tect√©s  : {n_clusters}",
    f"   Outliers d√©tect√©s  : {n_outliers}  (CP moyen ~67 M FCFA)",
]

rapport_txt = "\n".join(lignes)
chemin_txt  = REPORTS_DIR / "conformite_snd30_rapport.txt"
chemin_txt.write_text(rapport_txt, encoding="utf-8")
print(rapport_txt)
print(f"\nRapport texte sauvegard√© : {chemin_txt.name}")

# ‚îÄ‚îÄ Rapport HTML ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
figs = [fig_freq, fig_ecart, fig_sp, fig_km, fig_hdb]
figs_html = [
    to_html(fig, include_plotlyjs="cdn" if i == 0 else False, full_html=False)
    for i, fig in enumerate(figs)
]
html = (
    "<!DOCTYPE html><html><head><meta charset='utf-8'>"
    "<style>body{background:#0F0F1A;margin:0;padding:10px}"
    "h1{font-family:Helvetica,Arial;color:#F0EAD6;padding:20px}</style></head>"
    "<body><h1>Conformit√© Discours/Budget ‚Äî Lois de Finances Cameroun</h1>"
    + "".join(figs_html) + "</body></html>"
)
chemin_html = REPORTS_DIR / "conformite_snd30.html"
chemin_html.write_text(html, encoding="utf-8")
print(f"Rapport HTML sauvegard√©  : {chemin_html.name}")

### Phase 4 termin√©e

| Fichier | Contenu |
|---|---|
| `reports/conformite_snd30_rapport.txt` | Rapport texte synth√©tique |
| `reports/conformite_snd30.html` | Rapport interactif Plotly |

**R√©sultats cl√©s :**
- Spearman œÅ = 0.00, p = 1.00 ‚Üí **d√©salignement discours/budget confirm√©**
- Gouvernance : 40.5% des programmes ‚Üí 27.9% du budget (‚àí12.6 pp)
- Transformation Structurelle : 19.6% des programmes ‚Üí 31.6% du budget (+12.0 pp)
- K-Means : 9 m√©ga-programmes √† CP moyen 209 M FCFA
- HDBSCAN : 52 outliers √† CP moyen 67 M FCFA

---
**Pipeline complet ‚Äî Les 4 phases sont termin√©es.**