Processus d'Indexation (Base Index)
Le script Generation_Index.ipynb parcourt l'ensemble des donn√©es (JSON et PDF) pour construire une base d'index invers√© (Base_Index.json) et un fichier de longueurs de documents (document_lengths.json), essentiels pour le calcul TF-IDF.

√âtapes Cl√©s :
Chargement du Stock Prot√©g√© :

Le fichier protected_terms.json est charg√©. Ces termes (noms scientifiques, Darija, etc.) sont mis en minuscules et utilis√©s pour prot√©ger des termes sp√©cifiques de la lemmatisation.

Parcours et Extraction des Documents :

Le code it√®re sur tous les fichiers JSON (../docs/Plantes) et PDF (../docs/Concepts).

Les ID des documents sont bas√©s sur le nom de fichier.

Traitement des Termes Sp√©ciaux (Indexation Directe) :

Nombres : Les valeurs num√©riques (ex: 30, 1.5) sont extraites du texte et ajout√©es aux tokens sans modification.

Darija : Les termes du champ noms_darija sont extraits et ajout√©s tels quels, en minuscules.

Reconnaissance des Termes Scientifiques (N-grams) :

Le texte g√©n√©ral est tokenis√©.

Les s√©quences de tokens (jusqu'√† 4 mots, ou N-grams) sont compar√©es au Stock Prot√©g√©.

Si une s√©quence correspond (ex: "petroselinum crispum"), elle est captur√©e comme un terme unique et ajout√©e aux tokens indexables. Les tokens composant ce terme sont exclus de la lemmatisation.

Normalisation et Lemmatisation (Mots G√©n√©raux) :

Les tokens restants (mots g√©n√©raux) sont trait√©s par spaCy.

Ils sont filtr√©s (suppression des stop words, ponctuation, symboles).

Ils sont r√©duits √† leur lemme (ex: "cultiv√©es" ‚Üí "cultiv√©").

Construction de l'Index Invers√© (TF) :

L'index est rempli en comptant la fr√©quence brute (TF) de chaque occurrence de chaque token (lemme ou terme sp√©cial) dans chaque document.

Calcul des Longueurs :

La longueur du document est d√©finie comme le nombre total de tokens indexables (y compris les r√©p√©titions) et est enregistr√©e dans document_lengths.json.

Sauvegarde :

Les fichiers Base_Index.json et document_lengths.json sont sauvegard√©s dans le dossier de l'indexeur.

In [1]:
import os
import json
import re
from collections import defaultdict
import math
import pypdf
import spacy

# --- 1. Param√®tres de Configuration et Pr√©paration spaCy ---

# Chemins relatifs √† Plant_search/plant-search-engine/indexer/
DOSSIER_PLANTES_JSON = "../docs/Plantes"
DOSSIER_CONCEPTS_PDF = "../docs/Concepts"

# FICHIER D'ENTR√âE POUR LE STOCK SCIENTIFIQUE
FICHIER_STOCK_SCIENTIFIQUE = "../docs/mot_scientifique/protected_terms.json" 

# Fichiers de sortie (dans le dossier indexer/)
FICHIER_INDEX_SORTIE = "Base_Index.json"
FICHIER_LONGUEURS_SORTIE = "document_lengths.json"

LANGUE = 'fr_core_news_sm'
MAX_NGRAM_SCIENTIFIQUE = 4 # Longueur maximale des N-grammes √† v√©rifier

# Chargement du mod√®le spaCy
try:
    nlp = spacy.load(LANGUE)
except OSError:
    print(f"\nüö® Erreur: Mod√®le spaCy '{LANGUE}' non trouv√©.")
    print(f"Veuillez l'installer avec : python -m spacy download {LANGUE}")
    exit()

# Stock des termes scientifiques charg√© au d√©marrage
TERMES_SCIENTIFIQUES_STOCK = set()

def charger_stock_scientifique(filepath: str) -> set:
    """
    Charge le stock scientifique depuis un fichier JSON. 
    Les termes sont convertis en minuscules pour la comparaison.
    """
    stock = set()
    if not os.path.exists(filepath):
        print(f"‚ö†Ô∏è Avertissement: Fichier de stock scientifique '{filepath}' non trouv√©. Le stock est vide.")
        return stock
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
            
            if isinstance(data, list):
                stock.update({item.lower().strip() for item in data})
            elif isinstance(data, dict):
                stock.update({key.lower().strip() for key in data.keys()})
            else:
                print(f"‚ö†Ô∏è Avertissement: Format du fichier '{filepath}' non reconnu.")

    except Exception as e:
        print(f"‚ùå Erreur lors du chargement du stock scientifique: {e}")
        return set()
    
    print(f"‚úÖ Stock de {len(stock)} termes scientifiques/sp√©ciaux charg√©s.")
    return stock

# Charger le stock d√®s que possible
TERMES_SCIENTIFIQUES_STOCK = charger_stock_scientifique(FICHIER_STOCK_SCIENTIFIQUE)


# --- 2. Fonctions d'Extraction et de Traitement du Texte ---

def extraire_texte_json_avec_termes_separes(filepath: str) -> tuple[str, list[str], list[str]]:
    """
    Extrait le texte g√©n√©ral, les termes num√©riques, et les termes Darija.
    Les termes Darija sont extraits directement (tels quels, en minuscule).
    """
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
    except Exception as e:
        print(f"Erreur d'extraction/lecture JSON √† {filepath}: {e}")
        return "", [], []
        
    texte_general = []
    termes_nombres = []
    termes_darija_directs = [] # Pour les termes Darija (pris tels quels)
    
    def parcourir_dict(d):
        for key, value in d.items():
            if key in ('url', 'urls', 'galerie_images', 'id'):
                continue
                
            # GESTION SP√âCIALE DES NOMS DARIJA (Indexation Directe)
            if key == 'noms_darija' and isinstance(value, list):
                # Ajout des termes Darija en minuscules, tels quels, sans lemmatisation
                termes_darija_directs.extend([t.lower().strip() for t in value if t])
                continue # NE PAS AJOUTER AU TEXTE G√âN√âRAL

            # Le reste (y compris 'nom_scientifique') est ajout√© au texte g√©n√©ral
            if isinstance(value, dict):
                parcourir_dict(value)
            elif isinstance(value, list):
                for item in value:
                    if isinstance(item, dict):
                        parcourir_dict(item)
                    elif isinstance(item, str):
                        texte_general.append(item)
            elif isinstance(value, str):
                texte_general.append(value)
    
    parcourir_dict(data)
    
    texte_complet = ' '.join(texte_general)
    
    # 3. Extraction des Nombres (sans leurs unit√©s)
    nombres = re.findall(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', texte_complet, re.IGNORECASE)
    
    for nombre, unite in nombres:
        terme_nombre = nombre.replace(',', '.') 
        termes_nombres.append(terme_nombre)
    
    # Nettoyer le texte g√©n√©ral des chiffres pour le traitement NLP
    texte_nettoye = re.sub(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', ' ', texte_complet, flags=re.IGNORECASE)
        
    return texte_nettoye, termes_nombres, termes_darija_directs

def extraire_texte_pdf(filepath: str) -> str:
    """Extrait le texte d'un fichier PDF."""
    texte = ""
    try:
        with open(filepath, 'rb') as f:
            reader = pypdf.PdfReader(f)
            for page in reader.pages:
                texte += page.extract_text() + "\n"
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur lors de l'extraction de texte du PDF {filepath}. Erreur: {e}")
        return ""
    return texte

def identifier_termes_scientifiques(tokens: list, stock_scientifique: set, max_n: int) -> tuple[list, list]:
    """
    Identifie et extrait les termes scientifiques/sp√©ciaux multi-mots (N-grammes)
    en comparant le texte tokenis√© au stock.
    """
    mots_scientifiques = []
    indices_captures = set() 
    
    i = 0
    while i < len(tokens):
        if i in indices_captures:
            i += 1
            continue
        
        terme_trouve = False
        
        # Teste les N-grammes de la plus grande taille √† la plus petite (ex: 4, 3, 2, 1)
        for n in range(min(max_n, len(tokens) - i), 0, -1):
            
            ngram_tokens = tokens[i:i+n]
            
            # Concat√©nation des tokens pour la comparaison
            ngram_candidat = " ".join(ngram_tokens)
            ngram_candidat_lower = ngram_candidat.lower().strip()
            
            if ngram_candidat_lower in stock_scientifique:
                # Terme scientifique/sp√©cial trouv√© ! On l'ajoute tel quel.
                mots_scientifiques.append(ngram_candidat_lower)
                
                # Marquer tous les tokens de ce N-gramme comme captur√©s
                for j in range(n):
                    indices_captures.add(i + j)
                
                terme_trouve = True
                i += n 
                break
        
        if not terme_trouve:
            i += 1
            
    # Extraction des tokens restants (mots g√©n√©raux)
    tokens_restants = [tokens[i] for i in range(len(tokens)) if i not in indices_captures]
    
    return mots_scientifiques, tokens_restants


def normaliser_texte_lemmatisation_filtree(tokens_restants: list) -> list[str]:
    """
    Lemmatisation stricte des tokens restants (mots g√©n√©raux). 
    Applique le filtrage : minuscules, enl√®ve ponctuation, stop words, symboles, puis lemmatise.
    """
    texte_restant = " ".join(tokens_restants) 
    doc = nlp(texte_restant.lower())
    stop_words = nlp.Defaults.stop_words
    mots_normalises = []
    
    for token in doc:
        lemma_text = token.lemma_.lower().strip()
        
        # Application du filtrage strict pour les mots g√©n√©raux
        if (
            not token.is_punct and      # Enl√®ve la ponctuation
            token.is_alpha and          # Enl√®ve les symboles et caract√®res non alphab√©tiques
            not token.is_stop and       # Enl√®ve les stop words
            len(lemma_text) > 1         # Longueur minimale du lemme
        ):
            mots_normalises.append(lemma_text) 
            
    return mots_normalises

# --- 3. Classe Principale d'Indexation ---

class IndexeurBotanique:
    
    def __init__(self, json_dir, pdf_dir):
        self.json_dir = json_dir
        self.pdf_dir = pdf_dir
        # Structure TF simple: { 'mot': { 'document_id': fr√©quence } }
        self.index = defaultdict(lambda: defaultdict(int))
        self.doc_lengths = {}
        
    def _creer_doc_id(self, filename: str, doc_type: str) -> str:
        """Cr√©e l'ID du document en utilisant LE NOM DE FICHIER COMPLET (avec extension)."""
        return filename

    def parcourir_documents(self):
        """Parcourt et indexe TOUS les JSON et TOUS les PDF."""
        documents_a_indexer = []
        
        print(f"Recherche des fichiers JSON dans '{self.json_dir}'...")
        if os.path.isdir(self.json_dir):
            for filename in os.listdir(self.json_dir):
                if filename.endswith(".json"):
                    doc_id = self._creer_doc_id(filename, 'json')
                    documents_a_indexer.append({'id': doc_id, 'type': 'json', 'path': os.path.join(self.json_dir, filename)})
        else:
            print(f"‚ùå Erreur: Dossier JSON '{self.json_dir}' introuvable.")


        print(f"Recherche des fichiers PDF dans '{self.pdf_dir}'...")
        if os.path.isdir(self.pdf_dir):
            for filename in os.listdir(self.pdf_dir):
                if filename.endswith(".pdf"):
                    doc_id = self._creer_doc_id(filename, 'pdf')
                    documents_a_indexer.append({'id': doc_id, 'type': 'pdf', 'path': os.path.join(self.pdf_dir, filename)})
        else:
            print(f"‚ùå Erreur: Dossier PDF '{self.pdf_dir}' introuvable.")
                
        print(f"\nD√©but de l'indexation de {len(documents_a_indexer)} documents...")
        
        for doc_info in documents_a_indexer:
             self.indexer_document(doc_info)
        print("\n--- Indexation Termin√©e ---")

    # La fonction parcourir_documents_test() est conserv√©e mais non utilis√©e dans le main
    def parcourir_documents_test(self, nom_json: str, nom_pdf: str):
         """Parcourt et indexe seulement 1 JSON et 1 PDF sp√©cifiques pour le test."""
         # ... (votre impl√©mentation)

    def indexer_document(self, doc_info):
        """Extrait, normalise et construit l'index TF pour un document unique."""
        doc_id = doc_info['id']
        filepath = doc_info['path']
        
        mots_indexables = []
        texte_brut_pour_tokenisation = ""
        termes_nombres = []
        termes_darija_directs = []

        # 1. Extraction du texte, nombres et termes Darija
        if doc_info['type'] == 'json':
            texte_brut_pour_tokenisation, termes_nombres, termes_darija_directs = extraire_texte_json_avec_termes_separes(filepath)
            
        elif doc_info['type'] == 'pdf':
            texte_complet_pdf = extraire_texte_pdf(filepath)
            if not texte_complet_pdf: return 
            
            # Extraction des Nombres (PDF)
            nombres = re.findall(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', texte_complet_pdf, re.IGNORECASE)
            for nombre, unite in nombres:
                 termes_nombres.append(nombre.replace(',', '.')) 
            
            # Nettoyage du texte g√©n√©ral des chiffres pour le traitement NLP
            texte_brut_pour_tokenisation = re.sub(r'(\d+[\.,]\d+|\d+)\s*(%|ml|g|cm|mm|m|l)?', ' ', texte_complet_pdf, flags=re.IGNORECASE)

        # 2. AJOUT DIRECT des Termes (Nombres et Darija)
        mots_indexables.extend(termes_nombres)
        mots_indexables.extend(termes_darija_directs) 
        
        # 3. Tokenisation pour la reconnaissance des N-grammes
        doc = nlp(texte_brut_pour_tokenisation)
        tokens_bruts = [token.text for token in doc if not token.is_space]
        
        # 4. Reconnaissance des Termes Scientifiques (non lemmatis√©s)
        mots_scientifiques, tokens_restants = identifier_termes_scientifiques(
            tokens_bruts, TERMES_SCIENTIFIQUES_STOCK, MAX_NGRAM_SCIENTIFIQUE
        )
        mots_indexables.extend(mots_scientifiques) 
        
        # 5. Lemmatisation des Mots G√©n√©raux Restants
        mots_lemmatises = normaliser_texte_lemmatisation_filtree(tokens_restants)
        mots_indexables.extend(mots_lemmatises)

        if not mots_indexables: return

        # 6. Enregistrement de la longueur et construction de l'index
        self.doc_lengths[doc_id] = len(mots_indexables)
        
        for mot in mots_indexables:
            if mot:
                self.index[mot][doc_id] += 1 

    def enregistrer_longueurs(self, output_file):
        """Enregistre les longueurs des documents."""
        os.makedirs(os.path.dirname(output_file) or '.', exist_ok=True)
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(self.doc_lengths, f, ensure_ascii=False, indent=2)
        print(f"‚úÖ Longueurs des documents (Token Counts) enregistr√©es dans '{output_file}'.")

    def enregistrer_index(self, output_file):
        """Enregistre l'index invers√© final (Base d'Index) au format simplifi√©."""
        os.makedirs(os.path.dirname(output_file) or '.', exist_ok=True)
        
        index_a_sauvegarder = dict(self.index)
        
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(index_a_sauvegarder, f, ensure_ascii=False, indent=2)
            
        print(f"‚úÖ Base d'Index finale ('{output_file}') enregistr√©e.")


# --- 4. Ex√©cution du Script Principal (Mode Production) ---

if __name__ == "__main__":
    
    print("--- D√©marrage de l'Indexation Compl√®te (M√©thode Avanc√©e) ---")

    # Le stock scientifique est d√©j√† charg√© au d√©but du script

    # 1. Initialisation de l'Indexeur
    indexeur = IndexeurBotanique(
        json_dir=DOSSIER_PLANTES_JSON,
        pdf_dir=DOSSIER_CONCEPTS_PDF
    )
    
    # 2. Ex√©cution de l'indexation sur TOUS les fichiers
    indexeur.parcourir_documents()
    
    # 3. Enregistrement des Fichiers de Sortie
    indexeur.enregistrer_longueurs(FICHIER_LONGUEURS_SORTIE)
    indexeur.enregistrer_index(FICHIER_INDEX_SORTIE)

    print("\n--- Processus d'Indexation Complet Termin√© ---")
    print(f"L'index final ('{FICHIER_INDEX_SORTIE}') et les longueurs ('{FICHIER_LONGUEURS_SORTIE}') sont g√©n√©r√©s dans le dossier de l'indexeur.")

‚úÖ Stock de 615 termes scientifiques/sp√©ciaux charg√©s.
--- D√©marrage de l'Indexation Compl√®te (M√©thode Avanc√©e) ---
Recherche des fichiers JSON dans '../docs/Plantes'...
Recherche des fichiers PDF dans '../docs/Concepts'...

D√©but de l'indexation de 95 documents...

--- Indexation Termin√©e ---
‚úÖ Longueurs des documents (Token Counts) enregistr√©es dans 'document_lengths.json'.
‚úÖ Base d'Index finale ('Base_Index.json') enregistr√©e.

--- Processus d'Indexation Complet Termin√© ---
L'index final ('Base_Index.json') et les longueurs ('document_lengths.json') sont g√©n√©r√©s dans le dossier de l'indexeur.


Ensuite genration des vocabulaires qui contient que les tokens pour les json et pour les pdf  separ√©s.
pour un usage ulterieur.

In [9]:
import os
import json
from typing import Set, Dict, List, Tuple

# --- 1. Chemins des Fichiers ---

FICHIER_INDEX_SORTIE = "Base_Index.json"
# Nouveaux fichiers de sortie
FICHIER_TOKEN_PLANTE = "token_plante.json"
FICHIER_TOKEN_CONCEPT = "token_concept.json"

# D√©finition des pr√©fixes ou extensions pour identifier les types de documents
PREFIXE_PLANTE = ".json"  # ID de documents JSON
PREFIXE_CONCEPT = ".pdf" # ID de documents PDF

# --- 2. Fonction de Chargement ---

def charger_base_index(filepath: str) -> Dict[str, Dict[str, int]]:
    """Charge la Base d'Index Invers√©."""
    if not os.path.exists(filepath):
        print(f"‚ùå ERREUR : Fichier Base d'Index non trouv√© √† {filepath}. Annulation.")
        return {}
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
            if isinstance(data, dict):
                print(f"‚úÖ Base d'Index charg√©e. Contient {len(data)} tokens uniques.")
                # La structure attendue est Dict[token, Dict[doc_id, freq]]
                return data
            else:
                print("‚ùå ERREUR : Le fichier Base d'Index n'est pas un dictionnaire.")
                return {}
    except json.JSONDecodeError:
        print("‚ùå ERREUR JSON : Le fichier Base d'Index n'est pas un JSON valide.")
        return {}
    except Exception as e:
        print(f"‚ùå ERREUR de lecture : {e}")
        return {}

# --- 3. Fonction d'Extraction et de Tri (CORRIG√âE) ---

def extraire_et_trier_tokens(base_index: Dict[str, Dict[str, int]]) -> Tuple[Set[str], Set[str]]:
    """
    Parcourt l'index (cl√©=token, valeur=Dict[doc_id, freq]) et trie chaque token 
    dans les ensembles Plantes et Concepts.
    """
    
    tokens_plantes: Set[str] = set()
    tokens_concepts: Set[str] = set()
    
    total_tokens_parcourus = 0
    
    # It√©ration sur les tokens (Cl√© = le mot/token)
    for token, postings in base_index.items():
        total_tokens_parcourus += 1
        
        token_nettoye = token.lower().strip()
        if not token_nettoye:
            continue
            
        est_plante = False
        est_concept = False
        
        # It√©ration sur le dictionnaire de postings (Cl√© = doc_id, Valeur = fr√©quence)
        for doc_id, frequence in postings.items(): 
            
            # Classification bas√©e sur la fin du doc_id
            if doc_id.endswith(PREFIXE_PLANTE):
                est_plante = True
            elif doc_id.endswith(PREFIXE_CONCEPT):
                est_concept = True
            
            # Si nous avons trouv√© les deux cat√©gories, nous pouvons arr√™ter cette boucle interne
            if est_plante and est_concept:
                break 
                
        # Stockage du token dans les ensembles finaux
        if est_plante:
            tokens_plantes.add(token_nettoye)
        
        if est_concept:
            tokens_concepts.add(token_nettoye)
            
    print(f"\n--- R√©sultat du Tri ---")
    print(f"Total des tokens uniques dans l'Index : {total_tokens_parcourus}")
    print(f"Tokens class√©s comme 'Plantes' (JSON) : {len(tokens_plantes)}")
    print(f"Tokens class√©s comme 'Concepts' (PDF) : {len(tokens_concepts)}")
    
    return tokens_plantes, tokens_concepts

# --- 4. Fonction de Sauvegarde ---

def sauvegarder_vocabulaire(vocabulaire: Set[str], filepath: str, nom_type: str):
    """Sauvegarde l'ensemble de tokens tri√© dans un fichier JSON."""
    try:
        liste_triee = sorted(list(vocabulaire))
        
        with open(filepath, 'w', encoding='utf-8') as f:
            json.dump(liste_triee, f, ensure_ascii=False, indent=2)
            
        print(f"‚úÖ Vocabulaire {nom_type} enregistr√© dans '{filepath}' ({len(liste_triee)} mots).")
    except Exception as e:
        print(f"‚ùå ERREUR lors de la sauvegarde du fichier {filepath} : {e}")

# --- 5. Ex√©cution du Script Principal ---

if __name__ == "__main__":
    
    print("--- D√©marrage de la Reconstruction du Vocabulaire depuis l'Index ---")

    # 1. Chargement de la Base d'Index
    base_index = charger_base_index(FICHIER_INDEX_SORTIE)
    
    if not base_index:
        exit()

    # 2. Extraction et Tri des Tokens
    tokens_plantes, tokens_concepts = extraire_et_trier_tokens(base_index)
    
    # 3. Sauvegarde des Nouveaux Fichiers de Vocabulaire
    sauvegarder_vocabulaire(tokens_plantes, FICHIER_TOKEN_PLANTE, "Plantes (JSON)")
    sauvegarder_vocabulaire(tokens_concepts, FICHIER_TOKEN_CONCEPT, "Concepts (PDF)")

    print("\n--- Reconstruction du Vocabulaire bas√©e sur l'Index Termin√©e ---")

--- D√©marrage de la Reconstruction du Vocabulaire depuis l'Index ---
‚úÖ Base d'Index charg√©e. Contient 6748 tokens uniques.

--- R√©sultat du Tri ---
Total des tokens uniques dans l'Index : 6748
Tokens class√©s comme 'Plantes' (JSON) : 4673
Tokens class√©s comme 'Concepts' (PDF) : 3592
‚úÖ Vocabulaire Plantes (JSON) enregistr√© dans 'token_plante.json' (4673 mots).
‚úÖ Vocabulaire Concepts (PDF) enregistr√© dans 'token_concept.json' (3592 mots).

--- Reconstruction du Vocabulaire bas√©e sur l'Index Termin√©e ---


teste et extraction des termes scientifiques dans les concepts en pdf,

In [None]:
import json
import os

# --- D√©finition des chemins de fichiers (Ajustez si n√©cessaire) ---
# NOTE : J'utilise ici les noms de fichiers que vous avez fournis.
TOKEN_CONCEPTS_FILE = '../doc/Token/token_concept.json'
PROTECTED_TERMS_FILE = '../docs/mot_scientifique/protected_terms.json'
OUTPUT_FILE = '../docs/Token/science_concept.json'


def detect_scientific_concepts(tokens_path, protected_terms_path, output_path):
    """
    D√©tecte les mots scientifiques/techniques dans la liste des tokens 
    en les comparant √† une liste de termes prot√©g√©s et g√©n√®re un fichier JSON.
    """
    # 1. Chargement des termes prot√©g√©s (Mots Scientifiques)
    try:
        with open(protected_terms_path, 'r', encoding='utf-8') as f:
            # protected_terms.json semble √™tre une simple liste de cha√Ænes
            protected_terms_list = json.load(f)
            # Convertir la liste en un ensemble (set) pour une recherche O(1) rapide
            protected_terms_set = {term.lower() for term in protected_terms_list}
        print(f"‚úÖ Chargement r√©ussi de {len(protected_terms_set)} termes scientifiques/prot√©g√©s.")
    except FileNotFoundError:
        print(f"‚ùå Erreur: Le fichier des termes prot√©g√©s n'a pas √©t√© trouv√© √† {protected_terms_path}")
        return
    except json.JSONDecodeError:
        print(f"‚ùå Erreur de d√©codage JSON dans le fichier {protected_terms_path}")
        return

    # 2. Chargement des tokens de concepts
    try:
        with open(tokens_path, 'r', encoding='utf-8') as f:
            # token_concept.json semble √™tre une simple liste de cha√Ænes
            concept_tokens_list = json.load(f)
        print(f"‚úÖ Chargement r√©ussi de {len(concept_tokens_list)} tokens de concepts.")
    except FileNotFoundError:
        print(f"‚ùå Erreur: Le fichier des tokens n'a pas √©t√© trouv√© √† {tokens_path}")
        return
    except json.JSONDecodeError:
        print(f"‚ùå Erreur de d√©codage JSON dans le fichier {tokens_path}")
        return

    # 3. D√©tection des concepts scientifiques
    scientific_concepts = set()
    
    # Parcourir chaque token et v√©rifier s'il est dans l'ensemble des termes prot√©g√©s.
    # On met tout en minuscules pour assurer une correspondance insensible √† la casse.
    for token in concept_tokens_list:
        token_lower = token.lower()
        if token_lower in protected_terms_set:
            scientific_concepts.add(token) # Conserver la casse originale du token

    scientific_concepts_list = sorted(list(scientific_concepts))
    print(f"üîç D√©tection termin√©e. {len(scientific_concepts_list)} concepts scientifiques trouv√©s.")

    # 4. Enregistrement du r√©sultat
    try:
        # Assurez-vous que le r√©pertoire de sortie existe
        output_dir = os.path.dirname(output_path)
        if output_dir: # Ajout d'une v√©rification pour s'assurer que le chemin n'est pas vide
             os.makedirs(output_dir, exist_ok=True)
            
        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(scientific_concepts_list, f, indent=2, ensure_ascii=False)
        print(f"üíæ Succ√®s: Les concepts scientifiques ont √©t√© enregistr√©s dans {output_path}")

    except Exception as e:
        print(f"‚ùå Erreur lors de l'enregistrement du fichier {output_path}: {e}")

# --- Ex√©cution du script ---
if __name__ == "__main__":
    # --- Ligne supprim√©e ou remplac√©e : ---
    # L'ancien code causait l'erreur: os.makedirs(os.path.dirname(TOKEN_CONCEPTS_FILE), exist_ok=True)
    # Remplac√© par une simple v√©rification de chemin si n√©cessaire :
    if os.path.dirname(TOKEN_CONCEPTS_FILE):
        os.makedirs(os.path.dirname(TOKEN_CONCEPTS_FILE), exist_ok=True)
    
    # Le script suppose que vous avez cr√©√© les fichiers d'entr√©e avant de l'ex√©cuter.
    # Ex√©cutez la fonction de d√©tection
    detect_scientific_concepts(TOKEN_CONCEPTS_FILE, PROTECTED_TERMS_FILE, OUTPUT_FILE)

‚úÖ Chargement r√©ussi de 615 termes scientifiques/prot√©g√©s.
‚úÖ Chargement r√©ussi de 3592 tokens de concepts.
üîç D√©tection termin√©e. 78 concepts scientifiques trouv√©s.
üíæ Succ√®s: Les concepts scientifiques ont √©t√© enregistr√©s dans science_concept.json
