In [1]:
import os
import json
import re
from collections import defaultdict
import math
import pypdf
import spacy

# --- 1. Param√®tres de Configuration et Pr√©paration spaCy ---

# Chemins relatifs √† Plant_search/plant-search-engine/indexer/
DOSSIER_PLANTES_JSON = "../docs/Plantes"
DOSSIER_CONCEPTS_PDF = "../docs/Concepts"

# FICHIER D'ENTR√âE POUR LE STOCK SCIENTIFIQUE
FICHIER_STOCK_SCIENTIFIQUE = "../docs/mot_scientifique/protected_terms.json" 

# Fichiers de sortie (dans le dossier indexer/)
FICHIER_INDEX_SORTIE = "Base_Index.json"
FICHIER_LONGUEURS_SORTIE = "document_lengths.json"

LANGUE = 'fr_core_news_sm'
MAX_NGRAM_SCIENTIFIQUE = 4 # Longueur maximale des N-grammes √† v√©rifier

# Chargement du mod√®le spaCy
try:
    nlp = spacy.load(LANGUE)
except OSError:
    print(f"\nüö® Erreur: Mod√®le spaCy '{LANGUE}' non trouv√©.")
    print(f"Veuillez l'installer avec : python -m spacy download {LANGUE}")
    exit()

# Stock des termes scientifiques charg√© au d√©marrage
TERMES_SCIENTIFIQUES_STOCK = set()

def charger_stock_scientifique(filepath: str) -> set:
    """
    Charge le stock scientifique depuis un fichier JSON. 
    Les termes sont convertis en minuscules pour la comparaison.
    """
    stock = set()
    if not os.path.exists(filepath):
        print(f"‚ö†Ô∏è Avertissement: Fichier de stock scientifique '{filepath}' non trouv√©. Le stock est vide.")
        return stock
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
            
            if isinstance(data, list):
                stock.update({item.lower().strip() for item in data})
            elif isinstance(data, dict):
                stock.update({key.lower().strip() for key in data.keys()})
            else:
                print(f"‚ö†Ô∏è Avertissement: Format du fichier '{filepath}' non reconnu.")

    except Exception as e:
        print(f"‚ùå Erreur lors du chargement du stock scientifique: {e}")
        return set()
    
    print(f"‚úÖ Stock de {len(stock)} termes scientifiques/sp√©ciaux charg√©s.")
    return stock

# Charger le stock d√®s que possible
TERMES_SCIENTIFIQUES_STOCK = charger_stock_scientifique(FICHIER_STOCK_SCIENTIFIQUE)


# --- 2. Fonctions d'Extraction et de Traitement du Texte ---

def extraire_texte_json_avec_termes_separes(filepath: str) -> tuple[str, list[str], list[str]]:
    """
    Extrait le texte g√©n√©ral, les termes num√©riques, et les termes Darija.
    Les termes Darija sont extraits directement (tels quels, en minuscule).
    """
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
    except Exception as e:
        print(f"Erreur d'extraction/lecture JSON √† {filepath}: {e}")
        return "", [], []
        
    texte_general = []
    termes_nombres = []
    termes_darija_directs = [] # Pour les termes Darija (pris tels quels)
    
    def parcourir_dict(d):
        for key, value in d.items():
            if key in ('url', 'urls', 'galerie_images', 'id'):
                continue
                
            # GESTION SP√âCIALE DES NOMS DARIJA (Indexation Directe)
            if key == 'noms_darija' and isinstance(value, list):
                # Ajout des termes Darija en minuscules, tels quels, sans lemmatisation
                termes_darija_directs.extend([t.lower().strip() for t in value if t])
                continue # NE PAS AJOUTER AU TEXTE G√âN√âRAL

            # Le reste (y compris 'nom_scientifique') est ajout√© au texte g√©n√©ral
            if isinstance(value, dict):
                parcourir_dict(value)
            elif isinstance(value, list):
                for item in value:
                    if isinstance(item, dict):
                        parcourir_dict(item)
                    elif isinstance(item, str):
                        texte_general.append(item)
            elif isinstance(value, str):
                texte_general.append(value)
    
    parcourir_dict(data)
    
    texte_complet = ' '.join(texte_general)
    
    # 3. Extraction des Nombres (sans leurs unit√©s)
    nombres = re.findall(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', texte_complet, re.IGNORECASE)
    
    for nombre, unite in nombres:
        terme_nombre = nombre.replace(',', '.') 
        termes_nombres.append(terme_nombre)
    
    # Nettoyer le texte g√©n√©ral des chiffres pour le traitement NLP
    texte_nettoye = re.sub(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', ' ', texte_complet, flags=re.IGNORECASE)
        
    return texte_nettoye, termes_nombres, termes_darija_directs

def extraire_texte_pdf(filepath: str) -> str:
    """Extrait le texte d'un fichier PDF."""
    texte = ""
    try:
        with open(filepath, 'rb') as f:
            reader = pypdf.PdfReader(f)
            for page in reader.pages:
                texte += page.extract_text() + "\n"
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur lors de l'extraction de texte du PDF {filepath}. Erreur: {e}")
        return ""
    return texte

def identifier_termes_scientifiques(tokens: list, stock_scientifique: set, max_n: int) -> tuple[list, list]:
    """
    Identifie et extrait les termes scientifiques/sp√©ciaux multi-mots (N-grammes)
    en comparant le texte tokenis√© au stock.
    """
    mots_scientifiques = []
    indices_captures = set() 
    
    i = 0
    while i < len(tokens):
        if i in indices_captures:
            i += 1
            continue
        
        terme_trouve = False
        
        # Teste les N-grammes de la plus grande taille √† la plus petite (ex: 4, 3, 2, 1)
        for n in range(min(max_n, len(tokens) - i), 0, -1):
            
            ngram_tokens = tokens[i:i+n]
            
            # Concat√©nation des tokens pour la comparaison
            ngram_candidat = " ".join(ngram_tokens)
            ngram_candidat_lower = ngram_candidat.lower().strip()
            
            if ngram_candidat_lower in stock_scientifique:
                # Terme scientifique/sp√©cial trouv√© ! On l'ajoute tel quel.
                mots_scientifiques.append(ngram_candidat_lower)
                
                # Marquer tous les tokens de ce N-gramme comme captur√©s
                for j in range(n):
                    indices_captures.add(i + j)
                
                terme_trouve = True
                i += n 
                break
        
        if not terme_trouve:
            i += 1
            
    # Extraction des tokens restants (mots g√©n√©raux)
    tokens_restants = [tokens[i] for i in range(len(tokens)) if i not in indices_captures]
    
    return mots_scientifiques, tokens_restants


def normaliser_texte_lemmatisation_filtree(tokens_restants: list) -> list[str]:
    """
    Lemmatisation stricte des tokens restants (mots g√©n√©raux). 
    Applique le filtrage : minuscules, enl√®ve ponctuation, stop words, symboles, puis lemmatise.
    """
    texte_restant = " ".join(tokens_restants) 
    doc = nlp(texte_restant.lower())
    stop_words = nlp.Defaults.stop_words
    mots_normalises = []
    
    for token in doc:
        lemma_text = token.lemma_.lower().strip()
        
        # Application du filtrage strict pour les mots g√©n√©raux
        if (
            not token.is_punct and      # Enl√®ve la ponctuation
            token.is_alpha and          # Enl√®ve les symboles et caract√®res non alphab√©tiques
            not token.is_stop and       # Enl√®ve les stop words
            len(lemma_text) > 1         # Longueur minimale du lemme
        ):
            mots_normalises.append(lemma_text) 
            
    return mots_normalises

# --- 3. Classe Principale d'Indexation ---

class IndexeurBotanique:
    
    def __init__(self, json_dir, pdf_dir):
        self.json_dir = json_dir
        self.pdf_dir = pdf_dir
        # Structure TF simple: { 'mot': { 'document_id': fr√©quence } }
        self.index = defaultdict(lambda: defaultdict(int))
        self.doc_lengths = {}
        
    def _creer_doc_id(self, filename: str, doc_type: str) -> str:
        """Cr√©e l'ID du document en utilisant LE NOM DE FICHIER COMPLET (avec extension)."""
        return filename

    def parcourir_documents(self):
        """Parcourt et indexe TOUS les JSON et TOUS les PDF."""
        documents_a_indexer = []
        
        print(f"Recherche des fichiers JSON dans '{self.json_dir}'...")
        if os.path.isdir(self.json_dir):
            for filename in os.listdir(self.json_dir):
                if filename.endswith(".json"):
                    doc_id = self._creer_doc_id(filename, 'json')
                    documents_a_indexer.append({'id': doc_id, 'type': 'json', 'path': os.path.join(self.json_dir, filename)})
        else:
            print(f"‚ùå Erreur: Dossier JSON '{self.json_dir}' introuvable.")


        print(f"Recherche des fichiers PDF dans '{self.pdf_dir}'...")
        if os.path.isdir(self.pdf_dir):
            for filename in os.listdir(self.pdf_dir):
                if filename.endswith(".pdf"):
                    doc_id = self._creer_doc_id(filename, 'pdf')
                    documents_a_indexer.append({'id': doc_id, 'type': 'pdf', 'path': os.path.join(self.pdf_dir, filename)})
        else:
            print(f"‚ùå Erreur: Dossier PDF '{self.pdf_dir}' introuvable.")
                
        print(f"\nD√©but de l'indexation de {len(documents_a_indexer)} documents...")
        
        for doc_info in documents_a_indexer:
             self.indexer_document(doc_info)
        print("\n--- Indexation Termin√©e ---")

    # La fonction parcourir_documents_test() est conserv√©e mais non utilis√©e dans le main
    def parcourir_documents_test(self, nom_json: str, nom_pdf: str):
         """Parcourt et indexe seulement 1 JSON et 1 PDF sp√©cifiques pour le test."""
         # ... (votre impl√©mentation)

    def indexer_document(self, doc_info):
        """Extrait, normalise et construit l'index TF pour un document unique."""
        doc_id = doc_info['id']
        filepath = doc_info['path']
        
        mots_indexables = []
        texte_brut_pour_tokenisation = ""
        termes_nombres = []
        termes_darija_directs = []

        # 1. Extraction du texte, nombres et termes Darija
        if doc_info['type'] == 'json':
            texte_brut_pour_tokenisation, termes_nombres, termes_darija_directs = extraire_texte_json_avec_termes_separes(filepath)
            
        elif doc_info['type'] == 'pdf':
            texte_complet_pdf = extraire_texte_pdf(filepath)
            if not texte_complet_pdf: return 
            
            # Extraction des Nombres (PDF)
            nombres = re.findall(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', texte_complet_pdf, re.IGNORECASE)
            for nombre, unite in nombres:
                 termes_nombres.append(nombre.replace(',', '.')) 
            
            # Nettoyage du texte g√©n√©ral des chiffres pour le traitement NLP
            texte_brut_pour_tokenisation = re.sub(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', ' ', texte_complet_pdf, flags=re.IGNORECASE)

        # 2. AJOUT DIRECT des Termes (Nombres et Darija)
        mots_indexables.extend(termes_nombres)
        mots_indexables.extend(termes_darija_directs) 
        
        # 3. Tokenisation pour la reconnaissance des N-grammes
        doc = nlp(texte_brut_pour_tokenisation)
        tokens_bruts = [token.text for token in doc if not token.is_space]
        
        # 4. Reconnaissance des Termes Scientifiques (non lemmatis√©s)
        mots_scientifiques, tokens_restants = identifier_termes_scientifiques(
            tokens_bruts, TERMES_SCIENTIFIQUES_STOCK, MAX_NGRAM_SCIENTIFIQUE
        )
        mots_indexables.extend(mots_scientifiques) 
        
        # 5. Lemmatisation des Mots G√©n√©raux Restants
        mots_lemmatises = normaliser_texte_lemmatisation_filtree(tokens_restants)
        mots_indexables.extend(mots_lemmatises)

        if not mots_indexables: return

        # 6. Enregistrement de la longueur et construction de l'index
        self.doc_lengths[doc_id] = len(mots_indexables)
        
        for mot in mots_indexables:
            if mot:
                self.index[mot][doc_id] += 1 

    def enregistrer_longueurs(self, output_file):
        """Enregistre les longueurs des documents."""
        os.makedirs(os.path.dirname(output_file) or '.', exist_ok=True)
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(self.doc_lengths, f, ensure_ascii=False, indent=2)
        print(f"‚úÖ Longueurs des documents (Token Counts) enregistr√©es dans '{output_file}'.")

    def enregistrer_index(self, output_file):
        """Enregistre l'index invers√© final (Base d'Index) au format simplifi√©."""
        os.makedirs(os.path.dirname(output_file) or '.', exist_ok=True)
        
        index_a_sauvegarder = dict(self.index)
        
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(index_a_sauvegarder, f, ensure_ascii=False, indent=2)
            
        print(f"‚úÖ Base d'Index finale ('{output_file}') enregistr√©e.")


# --- 4. Ex√©cution du Script Principal (Mode Production) ---

if __name__ == "__main__":
    
    print("--- D√©marrage de l'Indexation Compl√®te (M√©thode Avanc√©e) ---")

    # Le stock scientifique est d√©j√† charg√© au d√©but du script

    # 1. Initialisation de l'Indexeur
    indexeur = IndexeurBotanique(
        json_dir=DOSSIER_PLANTES_JSON,
        pdf_dir=DOSSIER_CONCEPTS_PDF
    )
    
    # 2. Ex√©cution de l'indexation sur TOUS les fichiers
    indexeur.parcourir_documents()
    
    # 3. Enregistrement des Fichiers de Sortie
    indexeur.enregistrer_longueurs(FICHIER_LONGUEURS_SORTIE)
    indexeur.enregistrer_index(FICHIER_INDEX_SORTIE)

    print("\n--- Processus d'Indexation Complet Termin√© ---")
    print(f"L'index final ('{FICHIER_INDEX_SORTIE}') et les longueurs ('{FICHIER_LONGUEURS_SORTIE}') sont g√©n√©r√©s dans le dossier de l'indexeur.")

‚úÖ Stock de 615 termes scientifiques/sp√©ciaux charg√©s.
--- D√©marrage de l'Indexation Compl√®te (M√©thode Avanc√©e) ---
Recherche des fichiers JSON dans '../docs/Plantes'...
Recherche des fichiers PDF dans '../docs/Concepts'...

D√©but de l'indexation de 95 documents...

--- Indexation Termin√©e ---
‚úÖ Longueurs des documents (Token Counts) enregistr√©es dans 'document_lengths.json'.
‚úÖ Base d'Index finale ('Base_Index.json') enregistr√©e.

--- Processus d'Indexation Complet Termin√© ---
L'index final ('Base_Index.json') et les longueurs ('document_lengths.json') sont g√©n√©r√©s dans le dossier de l'indexeur.


Ensuite genration des vocabulaires qui contient que les tokens pour les json et pour les pdf  separ√©s.
pour un usage ulterieur.

In [5]:
import os
import json
import re
import pypdf
import spacy
from typing import List, Dict, Set, Tuple

# --- 1. Param√®tres de Configuration et Pr√©paration spaCy ---

# Chemins relatifs √† Plant_search/plant-search-engine/indexer/
DOSSIER_PLANTES_JSON = "../docs/Plantes"
DOSSIER_CONCEPTS_PDF = "../docs/Concepts"

# FICHIER D'ENTR√âE POUR LE STOCK SCIENTIFIQUE
FICHIER_STOCK_SCIENTIFIQUE = "../docs/mot_scientifique/protected_terms.json" 

# Fichiers de sortie (versions Originales - avec underscores)
FICHIER_VOCABULAIRE_CONCEPTS = "vocabulaire_concepts.json"
FICHIER_VOCABULAIRE_PLANTES = "vocabulaire_plantes.json"

# Fichiers de sortie (versions Nettoy√©es - sans caract√®res sp√©ciaux)
FICHIER_VOCABULAIRE_CONCEPTS_NETTOYE = "vocabulaire_concepts_nettoye.json"
FICHIER_VOCABULAIRE_PLANTES_NETTOYE = "vocabulaire_plantes_nettoye.json"


LANGUE = 'fr_core_news_sm'
MAX_NGRAM_SCIENTIFIQUE = 4 

# Chargement du mod√®le spaCy
try:
    nlp = spacy.load(LANGUE)
except OSError:
    print(f"\nüö® Erreur: Mod√®le spaCy '{LANGUE}' non trouv√©.")
    print(f"Veuillez l'installer avec : python -m spacy download {LANGUE}")
    exit()

# Stock des termes scientifiques
TERMES_SCIENTIFIQUES_STOCK = set()

def charger_stock_scientifique(filepath: str) -> set:
    """
    Charge le stock scientifique, convertit les termes en minuscules
    et remplace les espaces par des underscores pour le format de token.
    """
    stock = set()
    if not os.path.exists(filepath):
        print(f"‚ö†Ô∏è Avertissement: Fichier de stock scientifique '{filepath}' non trouv√©. Le stock est vide.")
        return stock
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
            if isinstance(data, list):
                # Les termes N-grammes sont stock√©s avec des underscores pour l'indexation
                stock.update({item.lower().strip().replace(" ", "_") for item in data})
            elif isinstance(data, dict):
                stock.update({key.lower().strip().replace(" ", "_") for key in data.keys()})
            else:
                print(f"‚ö†Ô∏è Avertissement: Format du fichier '{filepath}' non reconnu.")
    except Exception as e:
        print(f"‚ùå Erreur lors du chargement du stock scientifique: {e}")
        return set()
    
    print(f"‚úÖ Stock de {len(stock)} termes scientifiques/sp√©ciaux charg√©s.")
    return stock

# Charger le stock d√®s que possible
TERMES_SCIENTIFIQUES_STOCK = charger_stock_scientifique(FICHIER_STOCK_SCIENTIFIQUE)


# --- 2. Fonctions d'Extraction et de Traitement du Texte ---

def extraire_texte_json_avec_termes_separes(filepath: str) -> Tuple[str, List[str], List[str]]:
    """Extrait texte g√©n√©ral, nombres, et termes Darija."""
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
    except Exception as e:
        print(f"Erreur d'extraction/lecture JSON √† {filepath}: {e}")
        return "", [], []
        
    texte_general = []
    termes_nombres = []
    termes_darija_directs = []
    
    def parcourir_dict(d):
        for key, value in d.items():
            if key in ('url', 'urls', 'galerie_images', 'id'):
                continue
                
            if key == 'noms_darija' and isinstance(value, list):
                # Les termes Darija sont index√©s directs (minuscules, underscore)
                termes_darija_directs.extend([t.lower().strip().replace(" ", "_") for t in value if t])
                continue

            if isinstance(value, dict):
                parcourir_dict(value)
            elif isinstance(value, list):
                for item in value:
                    if isinstance(item, dict):
                        parcourir_dict(item)
                    elif isinstance(item, str):
                        texte_general.append(item)
            elif isinstance(value, str):
                texte_general.append(value)
    
    parcourir_dict(data)
    
    texte_complet = ' '.join(texte_general)
    
    # Extraction des Nombres (sans leurs unit√©s)
    nombres = re.findall(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', texte_complet, re.IGNORECASE)
    
    for nombre, unite in nombres:
        # Stockage des nombres avec point '.' comme s√©parateur d√©cimal (si applicable)
        terme_nombre = nombre.replace(',', '.') 
        termes_nombres.append(terme_nombre)
    
    # Nettoyer le texte g√©n√©ral des chiffres pour le traitement NLP
    texte_nettoye = re.sub(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', ' ', texte_complet, flags=re.IGNORECASE)
        
    return texte_nettoye, termes_nombres, termes_darija_directs


def extraire_texte_pdf(filepath: str) -> str:
    """Extrait le texte d'un fichier PDF."""
    texte = ""
    try:
        with open(filepath, 'rb') as f:
            reader = pypdf.PdfReader(f)
            for page in reader.pages:
                texte += page.extract_text() + "\n"
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur lors de l'extraction de texte du PDF {filepath}. Erreur: {e}")
        return ""
    return texte

def identifier_termes_scientifiques(tokens: list, stock_scientifique: set, max_n: int) -> Tuple[List[str], List[str]]:
    """
    Identifie et extrait les termes scientifiques/sp√©ciaux multi-mots (N-grammes)
    en comparant le texte tokenis√© au stock.
    Les termes sont renvoy√©s avec des underscores (comme dans le stock).
    """
    mots_scientifiques = []
    indices_captures = set() 
    
    i = 0
    while i < len(tokens):
        if i in indices_captures:
            i += 1
            continue
        
        terme_trouve = False
        
        for n in range(min(max_n, len(tokens) - i), 0, -1):
            
            ngram_tokens = tokens[i:i+n]
            
            # Concat√©nation des tokens et conversion en underscore pour la comparaison au stock
            ngram_candidat = " ".join(ngram_tokens)
            ngram_candidat_stock = ngram_candidat.lower().strip().replace(" ", "_") 
            
            if ngram_candidat_stock in stock_scientifique:
                mots_scientifiques.append(ngram_candidat_stock)
                
                for j in range(n):
                    indices_captures.add(i + j)
                
                terme_trouve = True
                i += n 
                break
        
        if not terme_trouve:
            i += 1
            
    tokens_restants = [tokens[i] for i in range(len(tokens)) if i not in indices_captures]
    
    return mots_scientifiques, tokens_restants


def normaliser_texte_lemmatisation_filtree(tokens_restants: list) -> List[str]:
    """
    Lemmatisation stricte des tokens restants (mots g√©n√©raux). 
    """
    texte_restant = " ".join(tokens_restants) 
    doc = nlp(texte_restant.lower())
    mots_normalises = []
    
    for token in doc:
        lemma_text = token.lemma_.lower().strip()
        
        if (
            not token.is_punct and      
            token.is_alpha and          
            not token.is_stop and       
            len(lemma_text) > 1         
        ):
            mots_normalises.append(lemma_text) 
            
    return mots_normalises

def normaliser_chaine_pour_sauvegarde(mot: str) -> str:
    """
    Normalise une cha√Æne en la d√©barrassant des s√©parateurs non alphab√©tiques
    et des caract√®res sp√©ciaux (y compris '_', '√ó', '-', etc.).
    Note: Cela retire les chiffres car r'[^a-z]' est utilis√©.
    """
    mot = mot.lower().strip()
    # Retire tous les caract√®res qui ne sont pas des lettres
    mot_nettoye = re.sub(r'[^a-z]', '', mot) 
    return mot_nettoye

# --- 3. Classe Principale d'Extraction de Vocabulaire ---

class ExtracteurVocabulaire:
    
    def __init__(self, json_dir, pdf_dir):
        self.json_dir = json_dir
        self.pdf_dir = pdf_dir
        # Stockage des tokens uniques pour chaque type
        self.vocabulaire_plantes = set() # Pour JSON
        self.vocabulaire_concepts = set() # Pour PDF
        
    def _indexer_un_document(self, doc_info: dict) -> Set[str]:
        """Extrait, normalise et retourne l'ensemble de tokens indexables pour un document unique."""
        
        mots_indexables: List[str] = []
        texte_brut_pour_tokenisation = ""
        termes_nombres = []
        termes_darija_directs = []
        
        # 1. Extraction du texte, nombres et termes Darija
        if doc_info['type'] == 'json':
            texte_brut_pour_tokenisation, termes_nombres, termes_darija_directs = extraire_texte_json_avec_termes_separes(doc_info['path'])
            
        elif doc_info['type'] == 'pdf':
            texte_complet_pdf = extraire_texte_pdf(doc_info['path'])
            if not texte_complet_pdf: return set()
            
            # Extraction des Nombres (PDF)
            nombres = re.findall(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', texte_complet_pdf, re.IGNORECASE)
            for nombre, unite in nombres:
                 termes_nombres.append(nombre.replace(',', '.')) 
            
            # Nettoyage du texte g√©n√©ral des chiffres pour le traitement NLP
            texte_brut_pour_tokenisation = re.sub(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', ' ', texte_complet_pdf, flags=re.IGNORECASE)

        # 2. AJOUT DIRECT des Termes (Nombres et Darija)
        # Note: Les nombres sont conserv√©s, si l'on veut les supprimer, il faudrait les filtrer ici.
        mots_indexables.extend(termes_nombres)
        mots_indexables.extend(termes_darija_directs) 
        
        # 3. Tokenisation pour la reconnaissance des N-grammes
        doc = nlp(texte_brut_pour_tokenisation)
        tokens_bruts = [token.text for token in doc if not token.is_space]
        
        # 4. Reconnaissance des Termes Scientifiques (N-grammes prot√©g√©s)
        mots_scientifiques, tokens_restants = identifier_termes_scientifiques(
            tokens_bruts, TERMES_SCIENTIFIQUES_STOCK, MAX_NGRAM_SCIENTIFIQUE
        )
        mots_indexables.extend(mots_scientifiques) 
        
        # 5. Lemmatisation des Mots G√©n√©raux Restants
        mots_lemmatises = normaliser_texte_lemmatisation_filtree(tokens_restants)
        mots_indexables.extend(mots_lemmatises)

        return set(mots_indexables) # Retourne l'ensemble unique de tokens pour ce document
        
    def parcourir_documents(self):
        """Parcourt tous les documents et agr√®ge le vocabulaire."""
        
        print(f"Recherche des fichiers JSON dans '{self.json_dir}'...")
        json_fichiers = []
        if os.path.isdir(self.json_dir):
            json_fichiers = [
                {'id': f, 'type': 'json', 'path': os.path.join(self.json_dir, f)} 
                for f in os.listdir(self.json_dir) if f.endswith(".json")
            ]
        
        print(f"Recherche des fichiers PDF dans '{self.pdf_dir}'...")
        pdf_fichiers = []
        if os.path.isdir(self.pdf_dir):
            pdf_fichiers = [
                {'id': f, 'type': 'pdf', 'path': os.path.join(self.pdf_dir, f)}
                for f in os.listdir(self.pdf_dir) if f.endswith(".pdf")
            ]
        
        print(f"\nD√©but de l'extraction de {len(json_fichiers)} JSONs et {len(pdf_fichiers)} PDFs...")

        # A. Traitement des JSONs (Plantes)
        for doc_info in json_fichiers:
            tokens = self._indexer_un_document(doc_info)
            self.vocabulaire_plantes.update(tokens)
            print(f"  > Index√© JSON '{doc_info['id']}' : {len(tokens)} tokens.")

        # B. Traitement des PDFs (Concepts)
        for doc_info in pdf_fichiers:
            tokens = self._indexer_un_document(doc_info)
            self.vocabulaire_concepts.update(tokens)
            print(f"  > Index√© PDF '{doc_info['id']}' : {len(tokens)} tokens.")

        print("\n--- Extraction de Vocabulaire Termin√©e ---")
        print(f"Vocabulaire Plantes (JSON) : {len(self.vocabulaire_plantes)} termes uniques.")
        print(f"Vocabulaire Concepts (PDF) : {len(self.vocabulaire_concepts)} termes uniques.")

    def enregistrer_vocabulaire(self):
        """Enregistre les deux ensembles de vocabulaire dans des fichiers JSON (VERSION ORIGINALE)."""
        
        # Enregistrement du vocabulaire des Concepts (PDF)
        with open(FICHIER_VOCABULAIRE_CONCEPTS, 'w', encoding='utf-8') as f:
            json.dump(sorted(list(self.vocabulaire_concepts)), f, ensure_ascii=False, indent=2)
        print(f"‚úÖ Vocabulaire des Concepts (Original) enregistr√© dans '{FICHIER_VOCABULAIRE_CONCEPTS}'.")

        # Enregistrement du vocabulaire des Plantes (JSON)
        with open(FICHIER_VOCABULAIRE_PLANTES, 'w', encoding='utf-8') as f:
            json.dump(sorted(list(self.vocabulaire_plantes)), f, ensure_ascii=False, indent=2)
        print(f"‚úÖ Vocabulaire des Plantes (Original) enregistr√© dans '{FICHIER_VOCABULAIRE_PLANTES}'.")

    def enregistrer_vocabulaire_nettoye(self):
        """Enregistre les deux ensembles de vocabulaire dans des fichiers JSON (VERSION NETTOY√âE)."""
        
        def nettoyer_et_collecter(vocab_set: Set[str]) -> List[str]:
            mots_nettoyes = set()
            for mot in vocab_set:
                mot_nettoye = normaliser_chaine_pour_sauvegarde(mot)
                # Ajoute uniquement les mots non vides apr√®s nettoyage (ex: si le token √©tait un simple chiffre, il deviendrait vide)
                if mot_nettoye: 
                    mots_nettoyes.add(mot_nettoye)
            # Retourne la liste tri√©e des mots uniques nettoy√©s
            return sorted(list(mots_nettoyes))

        # A. Nettoyage et enregistrement des Concepts (PDF)
        vocab_concepts_net = nettoyer_et_collecter(self.vocabulaire_concepts)
        with open(FICHIER_VOCABULAIRE_CONCEPTS_NETTOYE, 'w', encoding='utf-8') as f:
            json.dump(vocab_concepts_net, f, ensure_ascii=False, indent=2)
        print(f"‚úÖ Vocabulaire des Concepts (NETTOY√â) enregistr√© dans '{FICHIER_VOCABULAIRE_CONCEPTS_NETTOYE}'.")

        # B. Nettoyage et enregistrement des Plantes (JSON)
        vocab_plantes_net = nettoyer_et_collecter(self.vocabulaire_plantes)
        with open(FICHIER_VOCABULAIRE_PLANTES_NETTOYE, 'w', encoding='utf-8') as f:
            json.dump(vocab_plantes_net, f, ensure_ascii=False, indent=2)
        print(f"‚úÖ Vocabulaire des Plantes (NETTOY√â) enregistr√© dans '{FICHIER_VOCABULAIRE_PLANTES_NETTOYE}'.")


# --- 4. Ex√©cution du Script Principal ---

if __name__ == "__main__":
    
    print("--- D√©marrage de l'Extraction S√©par√©e du Vocabulaire (Original & Nettoy√©) ---")

    # 1. Initialisation de l'Extracteur
    extracteur = ExtracteurVocabulaire(
        json_dir=DOSSIER_PLANTES_JSON,
        pdf_dir=DOSSIER_CONCEPTS_PDF
    )
    
    # 2. Ex√©cution de l'extraction
    extracteur.parcourir_documents()
    
    # 3. Enregistrement des Fichiers de Sortie
    extracteur.enregistrer_vocabulaire() # Version avec s√©parateurs (_)
    extracteur.enregistrer_vocabulaire_nettoye() # Version sans s√©parateurs

    print("\n--- Processus d'Extraction de Vocabulaire Complet Termin√© ---")

‚úÖ Stock de 615 termes scientifiques/sp√©ciaux charg√©s.
--- D√©marrage de l'Extraction S√©par√©e du Vocabulaire (Original & Nettoy√©) ---
Recherche des fichiers JSON dans '../docs/Plantes'...
Recherche des fichiers PDF dans '../docs/Concepts'...

D√©but de l'extraction de 75 JSONs et 20 PDFs...
  > Index√© JSON '98206.json' : 336 tokens.
  > Index√© JSON '157344.json' : 199 tokens.
  > Index√© JSON '104788.json' : 232 tokens.
  > Index√© JSON '284473.json' : 259 tokens.
  > Index√© JSON '211789.json' : 319 tokens.
  > Index√© JSON '161718.json' : 280 tokens.
  > Index√© JSON '158382.json' : 270 tokens.
  > Index√© JSON '103942.json' : 224 tokens.
  > Index√© JSON '186006.json' : 220 tokens.
  > Index√© JSON '204705.json' : 376 tokens.
  > Index√© JSON '5945.json' : 307 tokens.
  > Index√© JSON '102667.json' : 415 tokens.
  > Index√© JSON '109482.json' : 344 tokens.
  > Index√© JSON '253369.json' : 299 tokens.
  > Index√© JSON '78383.json' : 286 tokens.
  > Index√© JSON '64135.json' :

je teste ici si c'est vocabulaire sont dans la base d'index, comme ca je suis sur que ces tokens forment mon index.

In [7]:
import os
import json
import re
from typing import Set, Dict, List

# --- 1. Chemins des Fichiers ---

# üö® Assurez-vous que ces chemins sont corrects
FICHIER_INDEX_SORTIE = "Base_Index.json"
# Nouveaux fichiers de vocabulaire √† tester
FICHIER_VOCABULAIRE_CONCEPTS_NETTOYE = "vocabulaire_concepts_nettoye.json"
FICHIER_VOCABULAIRE_PLANTES_NETTOYE = "vocabulaire_plantes_nettoye.json"

# --- 2. Fonctions Utilitaires ---

def charger_vocabulaire(filepath: str, type_fichier: str) -> Set[str]:
    """Charge un fichier JSON et retourne l'ensemble (Set) de ses mots."""
    if not os.path.exists(filepath):
        print(f"‚ùå ERREUR : Fichier {type_fichier} non trouv√© √† {filepath}.")
        return set()
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
            
            if isinstance(data, list):
                # Vocabulaire nettoy√© : liste de mots
                return set(data)
            
            elif isinstance(data, dict):
                # Base d'Index : dictionnaire (cl√©s = mots)
                return set(data.keys())
                
            else:
                print(f"‚ùå ERREUR : Format du fichier {type_fichier} ({filepath}) inattendu.")
                return set()
    except Exception as e:
        print(f"‚ùå ERREUR de lecture : {e}")
        return set()

def normaliser_chaine_pour_comparaison(mot: str) -> str:
    """
    Normalise une cha√Æne pour la comparaison en la d√©barrassant de la plupart
    des s√©parateurs et des caract√®res non alphab√©tiques.
    Ceci est la fonction de "nettoyage" appliqu√©e √† la Base d'Index pour le test.
    """
    mot = mot.lower().strip()
    # Retire tous les caract√®res qui ne sont pas des lettres
    mot_nettoye = re.sub(r'[^a-z]', '', mot)
    return mot_nettoye

def effectuer_test(set_a: Set[str], set_b: Set[str], nom_a: str, nom_b: str):
    """Effectue et affiche le test de diff√©rence A - B."""
    mots_manquants = set_a.difference(set_b)
    
    if mots_manquants:
        print(f"‚ùå {len(mots_manquants)} mot(s) dans '{nom_a}' sont ABSENTS de '{nom_b}'.")
        mots_a_afficher = sorted(list(mots_manquants))[:20]
        print(f"  > Aper√ßu des premiers mots : {mots_a_afficher}")
        print("  > Ce sont des diff√©rences fondamentales (lemmes ou tokens non appari√©s).")
    else:
        print(f"‚úÖ Coh√©rence totale : Tous les mots de '{nom_a}' sont pr√©sents dans '{nom_b}'.")
    return mots_manquants

# --- 3. Script Principal de V√©rification ---

if __name__ == "__main__":
    
    print("--- D√©marrage de la V√©rification de Coh√©rence (Vocabulaire Nettoy√© vs Index) ---")

    # 1. Chargement des donn√©es
    mots_concepts_net = charger_vocabulaire(FICHIER_VOCABULAIRE_CONCEPTS_NETTOYE, "Vocabulaire Concepts Nettoy√©")
    mots_plantes_net = charger_vocabulaire(FICHIER_VOCABULAIRE_PLANTES_NETTOYE, "Vocabulaire Plantes Nettoy√©")
    mots_index_brut = charger_vocabulaire(FICHIER_INDEX_SORTIE, "Base d'Index")

    if not (mots_index_brut and mots_concepts_net and mots_plantes_net):
        print("\n‚ùå Arr√™t en raison d'un fichier manquant ou illisible.")
        exit()
    
    # 2. Pr√©paration de la Base d'Index pour la comparaison
    # On normalise les mots de la Base d'Index (qui contiennent encore des espaces, etc.)
    mots_index_net = {normaliser_chaine_pour_comparaison(mot) for mot in mots_index_brut}

    # 3. Cr√©ation du Vocabulaire Global Nettoy√©
    mots_vocabulaire_global_net = mots_concepts_net.union(mots_plantes_net)
    
    print(f"\n‚úÖ Total de mots dans l'Index Nettoy√© : {len(mots_index_net)}")
    print(f"‚úÖ Total de mots dans le Vocabulaire Global Nettoy√© : {len(mots_vocabulaire_global_net)}")


    # ====================================================================
    # A. TEST 1 : Vocabulaire Nettoy√© -> Index Nettoy√©
    # (Doit √™tre proche de z√©ro, car la divergence de ponctuation est r√©solue)
    # ====================================================================
    
    print("\n\n=== I. Vocabulaire Global Nettoy√© ABSENT de l'Index Nettoy√© ===")
    
    # Test Vocabulaire Global
    manquants_vocab_net = effectuer_test(mots_vocabulaire_global_net, mots_index_net, "Vocabulaire Global Nettoy√©", "Base d'Index Nettoy√©e")

    # ====================================================================
    # B. TEST 2 : Index Nettoy√© -> Vocabulaire Global Nettoy√© (Test Inverse)
    # (V√©rifie si le Vocabulaire a rat√© des mots, m√™me apr√®s nettoyage)
    # ====================================================================
    
    print("\n\n=== II. Base d'Index Nettoy√©e ABSENTE du Vocabulaire Global Nettoy√© ===")
    
    manquants_index_net = effectuer_test(mots_index_net, mots_vocabulaire_global_net, "Base d'Index Nettoy√©e", "Vocabulaire Global Nettoy√©")
    
    if len(manquants_index_net) > 0:
        print("\nüîé **Diagnostic des Mots Manquants dans le Vocabulaire :**")
        print("  Le probl√®me pourrait venir :")
        print("  1. D'un filtrage trop agressif (ex: suppression des chiffres/nombres dans le vocabulaire nettoy√©).")
        print("  2. De mots tr√®s courts ou de stop-words qui ont √©t√© r√©introduits par l'Indexeur mais pas par l'Extracteur de vocabulaire.")

    print("\n--- Processus de V√©rification Termin√© ---")

--- D√©marrage de la V√©rification de Coh√©rence (Vocabulaire Nettoy√© vs Index) ---

‚úÖ Total de mots dans l'Index Nettoy√© : 6479
‚úÖ Total de mots dans le Vocabulaire Global Nettoy√© : 6478


=== I. Vocabulaire Global Nettoy√© ABSENT de l'Index Nettoy√© ===
‚úÖ Coh√©rence totale : Tous les mots de 'Vocabulaire Global Nettoy√©' sont pr√©sents dans 'Base d'Index Nettoy√©e'.


=== II. Base d'Index Nettoy√©e ABSENTE du Vocabulaire Global Nettoy√© ===
‚ùå 1 mot(s) dans 'Base d'Index Nettoy√©e' sont ABSENTS de 'Vocabulaire Global Nettoy√©'.
  > Aper√ßu des premiers mots : ['']
  > Ce sont des diff√©rences fondamentales (lemmes ou tokens non appari√©s).

üîé **Diagnostic des Mots Manquants dans le Vocabulaire :**
  Le probl√®me pourrait venir :
  1. D'un filtrage trop agressif (ex: suppression des chiffres/nombres dans le vocabulaire nettoy√©).
  2. De mots tr√®s courts ou de stop-words qui ont √©t√© r√©introduits par l'Indexeur mais pas par l'Extracteur de vocabulaire.

--- Processus de

le teste montre que c'est compatible

In [9]:
import os
import json
from typing import Set, Dict, List, Tuple

# --- 1. Chemins des Fichiers ---

FICHIER_INDEX_SORTIE = "Base_Index.json"
# Nouveaux fichiers de sortie
FICHIER_TOKEN_PLANTE = "token_plante.json"
FICHIER_TOKEN_CONCEPT = "token_concept.json"

# D√©finition des pr√©fixes ou extensions pour identifier les types de documents
PREFIXE_PLANTE = ".json"  # ID de documents JSON
PREFIXE_CONCEPT = ".pdf" # ID de documents PDF

# --- 2. Fonction de Chargement ---

def charger_base_index(filepath: str) -> Dict[str, Dict[str, int]]:
    """Charge la Base d'Index Invers√©."""
    if not os.path.exists(filepath):
        print(f"‚ùå ERREUR : Fichier Base d'Index non trouv√© √† {filepath}. Annulation.")
        return {}
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
            if isinstance(data, dict):
                print(f"‚úÖ Base d'Index charg√©e. Contient {len(data)} tokens uniques.")
                # La structure attendue est Dict[token, Dict[doc_id, freq]]
                return data
            else:
                print("‚ùå ERREUR : Le fichier Base d'Index n'est pas un dictionnaire.")
                return {}
    except json.JSONDecodeError:
        print("‚ùå ERREUR JSON : Le fichier Base d'Index n'est pas un JSON valide.")
        return {}
    except Exception as e:
        print(f"‚ùå ERREUR de lecture : {e}")
        return {}

# --- 3. Fonction d'Extraction et de Tri (CORRIG√âE) ---

def extraire_et_trier_tokens(base_index: Dict[str, Dict[str, int]]) -> Tuple[Set[str], Set[str]]:
    """
    Parcourt l'index (cl√©=token, valeur=Dict[doc_id, freq]) et trie chaque token 
    dans les ensembles Plantes et Concepts.
    """
    
    tokens_plantes: Set[str] = set()
    tokens_concepts: Set[str] = set()
    
    total_tokens_parcourus = 0
    
    # It√©ration sur les tokens (Cl√© = le mot/token)
    for token, postings in base_index.items():
        total_tokens_parcourus += 1
        
        token_nettoye = token.lower().strip()
        if not token_nettoye:
            continue
            
        est_plante = False
        est_concept = False
        
        # It√©ration sur le dictionnaire de postings (Cl√© = doc_id, Valeur = fr√©quence)
        for doc_id, frequence in postings.items(): 
            
            # Classification bas√©e sur la fin du doc_id
            if doc_id.endswith(PREFIXE_PLANTE):
                est_plante = True
            elif doc_id.endswith(PREFIXE_CONCEPT):
                est_concept = True
            
            # Si nous avons trouv√© les deux cat√©gories, nous pouvons arr√™ter cette boucle interne
            if est_plante and est_concept:
                break 
                
        # Stockage du token dans les ensembles finaux
        if est_plante:
            tokens_plantes.add(token_nettoye)
        
        if est_concept:
            tokens_concepts.add(token_nettoye)
            
    print(f"\n--- R√©sultat du Tri ---")
    print(f"Total des tokens uniques dans l'Index : {total_tokens_parcourus}")
    print(f"Tokens class√©s comme 'Plantes' (JSON) : {len(tokens_plantes)}")
    print(f"Tokens class√©s comme 'Concepts' (PDF) : {len(tokens_concepts)}")
    
    return tokens_plantes, tokens_concepts

# --- 4. Fonction de Sauvegarde ---

def sauvegarder_vocabulaire(vocabulaire: Set[str], filepath: str, nom_type: str):
    """Sauvegarde l'ensemble de tokens tri√© dans un fichier JSON."""
    try:
        liste_triee = sorted(list(vocabulaire))
        
        with open(filepath, 'w', encoding='utf-8') as f:
            json.dump(liste_triee, f, ensure_ascii=False, indent=2)
            
        print(f"‚úÖ Vocabulaire {nom_type} enregistr√© dans '{filepath}' ({len(liste_triee)} mots).")
    except Exception as e:
        print(f"‚ùå ERREUR lors de la sauvegarde du fichier {filepath} : {e}")

# --- 5. Ex√©cution du Script Principal ---

if __name__ == "__main__":
    
    print("--- D√©marrage de la Reconstruction du Vocabulaire depuis l'Index ---")

    # 1. Chargement de la Base d'Index
    base_index = charger_base_index(FICHIER_INDEX_SORTIE)
    
    if not base_index:
        exit()

    # 2. Extraction et Tri des Tokens
    tokens_plantes, tokens_concepts = extraire_et_trier_tokens(base_index)
    
    # 3. Sauvegarde des Nouveaux Fichiers de Vocabulaire
    sauvegarder_vocabulaire(tokens_plantes, FICHIER_TOKEN_PLANTE, "Plantes (JSON)")
    sauvegarder_vocabulaire(tokens_concepts, FICHIER_TOKEN_CONCEPT, "Concepts (PDF)")

    print("\n--- Reconstruction du Vocabulaire bas√©e sur l'Index Termin√©e ---")

--- D√©marrage de la Reconstruction du Vocabulaire depuis l'Index ---
‚úÖ Base d'Index charg√©e. Contient 6748 tokens uniques.

--- R√©sultat du Tri ---
Total des tokens uniques dans l'Index : 6748
Tokens class√©s comme 'Plantes' (JSON) : 4673
Tokens class√©s comme 'Concepts' (PDF) : 3592
‚úÖ Vocabulaire Plantes (JSON) enregistr√© dans 'token_plante.json' (4673 mots).
‚úÖ Vocabulaire Concepts (PDF) enregistr√© dans 'token_concept.json' (3592 mots).

--- Reconstruction du Vocabulaire bas√©e sur l'Index Termin√©e ---


In [11]:
import json
import os

# --- D√©finition des chemins de fichiers (Ajustez si n√©cessaire) ---
# NOTE : J'utilise ici les noms de fichiers que vous avez fournis.
TOKEN_CONCEPTS_FILE = 'token_concept.json'
PROTECTED_TERMS_FILE = '../docs/mot_scientifique/protected_terms.json'
OUTPUT_FILE = 'science_concept.json'


def detect_scientific_concepts(tokens_path, protected_terms_path, output_path):
    """
    D√©tecte les mots scientifiques/techniques dans la liste des tokens 
    en les comparant √† une liste de termes prot√©g√©s et g√©n√®re un fichier JSON.
    """
    # 1. Chargement des termes prot√©g√©s (Mots Scientifiques)
    try:
        with open(protected_terms_path, 'r', encoding='utf-8') as f:
            # protected_terms.json semble √™tre une simple liste de cha√Ænes
            protected_terms_list = json.load(f)
            # Convertir la liste en un ensemble (set) pour une recherche O(1) rapide
            protected_terms_set = {term.lower() for term in protected_terms_list}
        print(f"‚úÖ Chargement r√©ussi de {len(protected_terms_set)} termes scientifiques/prot√©g√©s.")
    except FileNotFoundError:
        print(f"‚ùå Erreur: Le fichier des termes prot√©g√©s n'a pas √©t√© trouv√© √† {protected_terms_path}")
        return
    except json.JSONDecodeError:
        print(f"‚ùå Erreur de d√©codage JSON dans le fichier {protected_terms_path}")
        return

    # 2. Chargement des tokens de concepts
    try:
        with open(tokens_path, 'r', encoding='utf-8') as f:
            # token_concept.json semble √™tre une simple liste de cha√Ænes
            concept_tokens_list = json.load(f)
        print(f"‚úÖ Chargement r√©ussi de {len(concept_tokens_list)} tokens de concepts.")
    except FileNotFoundError:
        print(f"‚ùå Erreur: Le fichier des tokens n'a pas √©t√© trouv√© √† {tokens_path}")
        return
    except json.JSONDecodeError:
        print(f"‚ùå Erreur de d√©codage JSON dans le fichier {tokens_path}")
        return

    # 3. D√©tection des concepts scientifiques
    scientific_concepts = set()
    
    # Parcourir chaque token et v√©rifier s'il est dans l'ensemble des termes prot√©g√©s.
    # On met tout en minuscules pour assurer une correspondance insensible √† la casse.
    for token in concept_tokens_list:
        token_lower = token.lower()
        if token_lower in protected_terms_set:
            scientific_concepts.add(token) # Conserver la casse originale du token

    scientific_concepts_list = sorted(list(scientific_concepts))
    print(f"üîç D√©tection termin√©e. {len(scientific_concepts_list)} concepts scientifiques trouv√©s.")

    # 4. Enregistrement du r√©sultat
    try:
        # Assurez-vous que le r√©pertoire de sortie existe
        output_dir = os.path.dirname(output_path)
        if output_dir: # Ajout d'une v√©rification pour s'assurer que le chemin n'est pas vide
             os.makedirs(output_dir, exist_ok=True)
            
        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(scientific_concepts_list, f, indent=2, ensure_ascii=False)
        print(f"üíæ Succ√®s: Les concepts scientifiques ont √©t√© enregistr√©s dans {output_path}")

    except Exception as e:
        print(f"‚ùå Erreur lors de l'enregistrement du fichier {output_path}: {e}")

# --- Ex√©cution du script ---
if __name__ == "__main__":
    # --- Ligne supprim√©e ou remplac√©e : ---
    # L'ancien code causait l'erreur: os.makedirs(os.path.dirname(TOKEN_CONCEPTS_FILE), exist_ok=True)
    # Remplac√© par une simple v√©rification de chemin si n√©cessaire :
    if os.path.dirname(TOKEN_CONCEPTS_FILE):
        os.makedirs(os.path.dirname(TOKEN_CONCEPTS_FILE), exist_ok=True)
    
    # Le script suppose que vous avez cr√©√© les fichiers d'entr√©e avant de l'ex√©cuter.
    # Ex√©cutez la fonction de d√©tection
    detect_scientific_concepts(TOKEN_CONCEPTS_FILE, PROTECTED_TERMS_FILE, OUTPUT_FILE)

‚úÖ Chargement r√©ussi de 615 termes scientifiques/prot√©g√©s.
‚úÖ Chargement r√©ussi de 3592 tokens de concepts.
üîç D√©tection termin√©e. 78 concepts scientifiques trouv√©s.
üíæ Succ√®s: Les concepts scientifiques ont √©t√© enregistr√©s dans science_concept.json
