In [None]:
import os
import json
from typing import List, Dict, Set
from google import genai
from google.genai.errors import APIError

# --- 1. CONFIGURATION GLOBALE ---

# Chemins (Doivent √™tre corrects par rapport √† votre structure de dossier)
FICHIER_VOCABULAIRE_CONCEPTS = "token_concept.json" 
FICHIER_THESAURUS_SORTIE = "Thesaurus_20_Concepts.json"

# Les 20 Termes Pr√©f√©r√©s (TP) cibl√©s pour le th√©saurus
CIBLES_CONCEPTS: List[str] = [
    "Arrosage", "Luminosit√©", "Types de sol / substrat", "pH du sol", 
    "Temp√©rature", "Humidit√© ambiante", "Engrais / nutrition NPK", "Rempotage", 
    "Plantation (mise en terre / pot)", "Drainage", "Propagation / reproduction", 
    "Taille et √©lagage", "Maladies fongiques", "Parasites courants", 
    "Toxicit√© (humains & animaux)", "Croissance et d√©veloppement", 
    "Stress hydrique / thermique / lumineux", "Cycle de vie (annuelle / vivace / arbuste...)", 
    "Origine g√©ographique & biomes", "Technologies horticoles modernes (LED, capteurs, hydroponie‚Ä¶)"
]

# --- 2. INITIALISATION ET CHARGEMENT DU VOCABULAIRE ---

try:
    # Le client lit la cl√© depuis la variable d'environnement GEMINI_API_KEY
    client = genai.Client() 
    print("‚úÖ Initialisation r√©ussie (Gemini Client).")
except Exception as e:
    print(f"üö® ERREUR d'initialisation du client : {e}")
    exit()

def charger_vocabulaire_concepts(filepath: str) -> Set[str]:
    """Charge l'ensemble des tokens depuis le fichier JSON des concepts."""
    if not os.path.exists(filepath):
        print(f"üö® ERREUR : Fichier vocabulaire non trouv√© √† {filepath}. Annulation.")
        return set()
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
            if isinstance(data, list):
                return set(data)
            else:
                print("üö® ERREUR : Le fichier vocabulaire n'est pas une liste de mots.")
                return set()
    except Exception as e:
        print(f"‚ùå ERREUR lors du chargement du vocabulaire : {e}")
        return set()

# Chargement de tous les tokens du corpus concept
TERMES_CONCEPTS: Set[str] = charger_vocabulaire_concepts(FICHIER_VOCABULAIRE_CONCEPTS)

if not TERMES_CONCEPTS:
    print("\n‚ùå Arr√™t : Vocabulaire de base vide ou introuvable.")
    exit()

print(f"‚úÖ {len(TERMES_CONCEPTS)} tokens de concepts charg√©s pour le LLM.")


# --- 3. G√âN√âRATION PAR LLM ---

# Augmenter le nombre de tentatives en cas d'erreur API 503 temporaire
MAX_RETRIES = 3 

def generer_thesaurus_llm(tp_cibles: List[str], vocabulaire: Set[str]) -> str:
    """
    Construit le prompt unique avec les tokens et appelle l'API Gemini.
    """
    
    # 1. S√©rialisation de la liste de vocabulaire pour l'inclusion dans le prompt
    vocabulaire_liste_str = json.dumps(sorted(list(vocabulaire)), ensure_ascii=False, indent=2)
    
    # 2. Construction du Prompt
    prompt_template = f"""
Role: Tu es un expert en conception de th√©saurus (ISO 25964) pour la recherche botanique et agricole. Ton objectif est de g√©n√©rer des entr√©es de th√©saurus compl√®tes au format JSON pour les Termes Pr√©f√©r√©s (TP) suivants : {tp_cibles}.

R√®gles de Contenu Stricte (Bas√©es sur le Vocabulaire Brut):
1. S√âLECTION EXCLUSIVE : Les valeurs pour les relations **TP, NT (Terme Plus Sp√©cifique), BT (Terme Plus G√©n√©ral) et RT (Terme Associ√©)** DOIVENT √äTRE CHOISIES **UNIQUEMENT** parmi les tokens exacts de la "Liste de Vocabulaire Brut" fournie ci-dessous. Ces tokens repr√©sentent les mots-cl√©s index√©s du corpus PDF.
2. ENRICHISSEMENT (UF) : La section **UF (Synonymes/Non-Descripteurs)** doit √™tre enrichie avec des variations linguistiques courantes (expressions usuelles, anglicismes, ou mots en Darija si pertinents) que les utilisateurs pourraient taper. Ces termes sont les **SEULS** qui peuvent √™tre **g√©n√©r√©s librement** par toi et ne pas √™tre pr√©sents dans la "Liste de Vocabulaire Brut".
3. HI√âRARCHIE : Tu dois identifier pour chacun des {len(tp_cibles)} TP des termes plus sp√©cifiques (NT) et/ou plus g√©n√©raux (BT) en parcourant la liste de vocabulaire brut. Si un TP n'a pas de relation pertinente dans le vocabulaire, laisse le champ comme une liste vide `[]`.
4. NOTE D'APPLICATION (SN) : Fournir une br√®ve Note d'Application (SN) d√©crivant le concept pour chaque TP.

Format de Sortie Strict:
G√©n√®re STRICTEMENT un seul objet JSON. Chaque cl√© de l'objet doit √™tre un Terme Pr√©f√©r√© (TP), et sa valeur doit √™tre un objet contenant les champs BT, NT, RT, UF, et SN.

---
### DONN√âES D'ENTR√âE BRUTES DU CORPUS ({len(vocabulaire)} tokens)
---
Liste de Vocabulaire Brut (Tokens disponibles pour TP, NT, BT, RT):
{vocabulaire_liste_str}

--- SORTIE JSON ATTENDUE ---
"""
    
    print(f"\n[--- ENVOI DU PROMPT √Ä GEMINI pour {len(tp_cibles)} TP ---]")
    
    for attempt in range(MAX_RETRIES):
        try:
            print(f"Tentative {attempt + 1}/{MAX_RETRIES}...")
            response = client.models.generate_content(
                model='gemini-2.5-flash',
                contents=prompt_template,
                config={"response_mime_type": "application/json"}
            )
            # Succ√®s : Retourne la sortie JSON
            return response.text
            
        except APIError as e:
            if '503 UNAVAILABLE' in str(e) and attempt < MAX_RETRIES - 1:
                delay = 15  # Attendre 15 secondes avant de r√©essayer
                print(f"‚ùå Erreur 503 (Surcharg√©). Nouvelle tentative dans {delay} secondes...")
                time.sleep(delay)
            else:
                print(f"‚ùå ERREUR API critique : √âchec apr√®s {attempt + 1} tentatives. D√©tail : {e}")
                return None
        except Exception as e:
            print(f"‚ùå ERREUR inattendue lors de l'appel LLM : {e}")
            return None
    
    return None # Si toutes les tentatives ont √©chou√©

# --- 4. SCRIPT PRINCIPAL (Ex√©cution) ---

if __name__ == "__main__":
    
    # 1. G√âN√âRATION DU THESAURUS PAR LLM
    thesaurus_json_str = generer_thesaurus_llm(CIBLES_CONCEPTS, TERMES_CONCEPTS)
    
    # 2. SAUVEGARDE ET AFFICHAGE
    if thesaurus_json_str:
        try:
            # Charger la cha√Æne JSON renvoy√©e par le LLM
            thesaurus_data = json.loads(thesaurus_json_str)
            
            # Sauvegarder dans le fichier de sortie
            with open(FICHIER_THESAURUS_SORTIE, 'w', encoding='utf-8') as f:
                json.dump(thesaurus_data, f, ensure_ascii=False, indent=2)
                
            print(f"\n‚úÖ Th√©saurus g√©n√©r√© avec succ√®s et enregistr√© dans '{FICHIER_THESAURUS_SORTIE}'.")
            
            # Affichage d'un aper√ßu
            print("\n--- APER√áU DU R√âSULTAT FINAL (Premi√®res entr√©es) ---")
            
            # Afficher seulement quelques entr√©es pour ne pas inonder la console
            apercu_data = {}
            for i, (tp, data) in enumerate(thesaurus_data.items()):
                apercu_data[tp] = data
                if i >= 4:  # Limite √† 5 entr√©es (0 √† 4)
                    break
            
            print(json.dumps(apercu_data, indent=2, ensure_ascii=False) + "\n...")
            print("-----------------------------------------------------")
            
        except json.JSONDecodeError:
            print(f"‚ùå ERREUR : Le LLM n'a pas renvoy√© un JSON valide. Sortie brute : {thesaurus_json_str[:500]}...")
        except Exception as e:
             print(f"‚ùå ERREUR lors de la sauvegarde ou de l'affichage : {e}")

    print("\n--- Processus Termin√© ---")

‚úÖ Initialisation r√©ussie (Gemini Client).
‚úÖ 3509 tokens de concepts charg√©s pour le LLM.

[--- ENVOI DU PROMPT √Ä GEMINI pour 20 TP ---]
Tentative 1/3...

‚úÖ Th√©saurus g√©n√©r√© avec succ√®s et enregistr√© dans 'Thesaurus_20_Concepts.json'.

--- APER√áU DU R√âSULTAT FINAL (Premi√®res entr√©es) ---
{
  "Arrosage": {
    "BT": [
      "irrigation"
    ],
    "NT": [
      "bassinage",
      "aspersion",
      "drip"
    ],
    "RT": [
      "arroser",
      "eau",
      "humidit",
      "sol",
      "ollas"
    ],
    "UF": [
      "Arrosage des plantes",
      "Watering",
      "Irrigation des cultures",
      "Hydratation",
      "Apport en eau"
    ],
    "SN": "Action d'apporter de l'eau aux plantes pour satisfaire leurs besoins hydriques, cruciale pour leur survie et leur croissance."
  },
  "Luminosit√©": {
    "BT": [
      "lumire"
    ],
    "NT": [
      "photopriode"
    ],
    "RT": [
      "soleil",
      "exposition",
      "clairage",
      "photosynthse",
      "h

In [None]:
import os
import json
import time
from typing import List, Dict, Set
from google import genai
from google.genai.errors import APIError

# --- 1. CONFIGURATION GLOBALE ---

# Chemins
FICHIER_VOCABULAIRE_CONCEPTS = "token_concept.json" 
FICHIER_THESAURUS_SORTIE = "Thesaurus_20_Concepts_v3.json"

# Les 20 TH√àMES directeurs. Le LLM doit SELECTIONNER un token d'index (TP) pour chacun.
THEMES_CONCEPTS: List[str] = [
    "Arrosage", "Luminosit√©", "Types de sol / substrat", "pH du sol", 
    "Temp√©rature", "Humidit√© ambiante", "Engrais / nutrition NPK", "Rempotage", 
    "Plantation (mise en terre / pot)", "Drainage", "Propagation / reproduction", 
    "Taille et √©lagage", "Maladies fongiques", "Parasites courants", 
    "Toxicit√© (humains & animaux)", "Croissance et d√©veloppement", 
    "Stress hydrique / thermique / lumineux", "Cycle de vie (annuelle / vivace / arbuste...)", 
    "Origine g√©ographique & biomes", "Technologies horticoles modernes (LED, capteurs, hydroponie‚Ä¶)"
]

MAX_RETRIES = 5 # Augmenter le nombre de tentatives en cas d'erreur API 503 temporaire

# --- 2. INITIALISATION ET CHARGEMENT DU VOCABULAIRE ---

# üö® IMPORTANT : REMPLACEZ 'VOTRE_NOUVELLE_CLE_ICI' par la cl√© r√©elle.
# Attention : Ne pas partager cette version du script !
CLE_API_GEMINI = "here is API" 

try:
    # Initialisation explicite du client avec la nouvelle cl√©
    client = genai.Client(api_key=CLE_API_GEMINI) 
    print("‚úÖ Initialisation r√©ussie (Gemini Client avec cl√© explicite).")
except Exception as e:
    print(f"üö® ERREUR d'initialisation du client : {e}")
    exit()

# ... le reste du script continue ...

def charger_vocabulaire_concepts(filepath: str) -> Set[str]:
    """Charge l'ensemble des tokens depuis le fichier JSON des concepts."""
    if not os.path.exists(filepath):
        print(f"üö® ERREUR : Fichier vocabulaire non trouv√© √† {filepath}. Annulation.")
        return set()
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
            if isinstance(data, list):
                return set(data)
            else:
                print("üö® ERREUR : Le fichier vocabulaire n'est pas une liste de mots.")
                return set()
    except Exception as e:
        print(f"‚ùå ERREUR lors du chargement du vocabulaire : {e}")
        return set()

# Chargement de tous les tokens du corpus concept
TERMES_CONCEPTS: Set[str] = charger_vocabulaire_concepts(FICHIER_VOCABULAIRE_CONCEPTS)

if not TERMES_CONCEPTS:
    print("\n‚ùå Arr√™t : Vocabulaire de base vide ou introuvable.")
    exit()

print(f"‚úÖ {len(TERMES_CONCEPTS)} tokens de concepts charg√©s pour le LLM.")


# --- 3. G√âN√âRATION PAR LLM ---

def generer_thesaurus_llm(themes_directeurs: List[str], vocabulaire: Set[str]) -> str:
    """
    Construit le prompt unique avec les tokens et appelle l'API Gemini pour g√©n√©rer les TP.
    """
    
    # 1. S√©rialisation de la liste de vocabulaire
    vocabulaire_liste_str = json.dumps(sorted(list(vocabulaire)), ensure_ascii=False, indent=2)
    
    # 2. Construction du Prompt (Instructions Cl√©s Mises √† Jour)
    prompt_template = f"""
Role: Tu es un expert en conception de th√©saurus (ISO 25964) pour la recherche botanique.
Objectif: Construire un th√©saurus riche et structur√© pour 20 th√®mes directeurs.

R√®gles de S√©lection des Termes Pr√©f√©r√©s (TP) (NOUVELLE R√àGLE):
1. Pour chacun des {len(themes_directeurs)} th√®mes suivants : {themes_directeurs}, tu dois d'abord identifier le terme **le plus pertinent et le plus couramment utilis√©** directement dans la "Liste de Vocabulaire Brut". Ce terme sera le **TP** (Terme Pr√©f√©r√©) de l'entr√©e. Le TP DOIT √™tre un token exact de la liste.
2. Tu dois g√©n√©rer **au moins 3 TP suppl√©mentaires** pour chaque th√®me en s√©lectionnant d'autres termes pertinents dans le "Vocabulaire Brut" (mots scientifiques, techniques, synonymes) pour enrichir le th√©saurus. Cela signifie environ **80 entr√©es TP au total** (20 principaux + 3 suppl√©ments par th√®me).

R√®gles de Contenu (Similaires, mais renforc√©es pour l'enrichissement):
1. S√âLECTION EXCLUSIVE : Les valeurs pour les relations **NT, BT, et RT** DOIVENT √äTRE CHOISIES **UNIQUEMENT** parmi les tokens exacts de la "Liste de Vocabulaire Brut" fournie.
2. ENRICHISSEMENT (UF) : La section **UF (Synonymes/Non-Descripteurs)** doit √™tre enrichie avec des variations linguistiques (Darija, anglicismes, expressions communes). Ces termes sont les **SEULS** qui peuvent √™tre **g√©n√©r√©s librement** par toi et ne pas √™tre pr√©sents dans la "Liste de Vocabulaire Brut". Ajoute le nom du concept original dans l'UF pour le relier.
3. NOTE D'APPLICATION (SN) : Fournir une br√®ve Note d'Application (SN) pour chaque TP.

Format de Sortie Strict:
G√©n√®re STRICTEMENT un seul objet JSON. Chaque cl√© de l'objet DOIT √™tre un Terme Pr√©f√©r√© (TP) choisi dans la liste de vocabulaire, et sa valeur doit √™tre un objet contenant les champs BT, NT, RT, UF, et SN.

---
### DONN√âES D'ENTR√âE BRUTES DU CORPUS ({len(vocabulaire)} tokens)
---
Liste de Vocabulaire Brut (Tokens disponibles pour TP, NT, BT, RT):
{vocabulaire_liste_str}

--- SORTIE JSON ATTENDUE ---
"""
    
    print(f"\n[--- ENVOI DU PROMPT √Ä GEMINI pour g√©n√©rer au moins {len(themes_directeurs) * 4} TP ---]")
    
    for attempt in range(MAX_RETRIES):
        try:
            print(f"Tentative {attempt + 1}/{MAX_RETRIES}...")
            response = client.models.generate_content(
                model='gemini-2.5-flash',
                contents=prompt_template,
                config={"response_mime_type": "application/json"}
            )
            return response.text
            
        except APIError as e:
            if '503 UNAVAILABLE' in str(e) and attempt < MAX_RETRIES - 1:
                delay = 15
                print(f"‚ùå Erreur 503 (Surcharg√©). Nouvelle tentative dans {delay} secondes...")
                time.sleep(delay)
            else:
                print(f"‚ùå ERREUR API critique : √âchec apr√®s {attempt + 1} tentatives. D√©tail : {e}")
                return None
        except Exception as e:
            print(f"‚ùå ERREUR inattendue lors de l'appel LLM : {e}")
            return None
    
    return None 

# --- 4. SCRIPT PRINCIPAL (Ex√©cution) ---

if __name__ == "__main__":
    
    # 1. G√âN√âRATION DU THESAURUS PAR LLM
    thesaurus_json_str = generer_thesaurus_llm(THEMES_CONCEPTS, TERMES_CONCEPTS)
    
    # 2. SAUVEGARDE ET AFFICHAGE
    if thesaurus_json_str:
        try:
            thesaurus_data = json.loads(thesaurus_json_str)
            
            with open(FICHIER_THESAURUS_SORTIE, 'w', encoding='utf-8') as f:
                json.dump(thesaurus_data, f, ensure_ascii=False, indent=2)
                
            print(f"\n‚úÖ Th√©saurus g√©n√©r√© avec succ√®s et enregistr√© dans '{FICHIER_THESAURUS_SORTIE}'.")
            print(f"Le fichier contient {len(thesaurus_data)} Termes Pr√©f√©r√©s (TP) bas√©s sur votre vocabulaire d'index.")
            
            # Affichage d'un aper√ßu
            print("\n--- APER√áU DU R√âSULTAT FINAL (Exemple d'une entr√©e) ---")
            
            # Afficher la premi√®re entr√©e pour voir la nouvelle structure
            premier_tp = next(iter(thesaurus_data))
            
            print(json.dumps({premier_tp: thesaurus_data[premier_tp]}, indent=2, ensure_ascii=False))
            print("-----------------------------------------------------")
            
        except json.JSONDecodeError:
            print(f"‚ùå ERREUR : Le LLM n'a pas renvoy√© un JSON valide. Sortie brute : {thesaurus_json_str[:500]}...")
        except Exception as e:
             print(f"‚ùå ERREUR lors de la sauvegarde ou de l'affichage : {e}")

    print("\n--- Processus Termin√© ---")

‚úÖ Initialisation r√©ussie (Gemini Client avec cl√© explicite).
‚úÖ 3592 tokens de concepts charg√©s pour le LLM.

[--- ENVOI DU PROMPT √Ä GEMINI pour g√©n√©rer au moins 80 TP ---]
Tentative 1/5...
‚ùå Erreur 503 (Surcharg√©). Nouvelle tentative dans 15 secondes...
Tentative 2/5...
‚ùå Erreur 503 (Surcharg√©). Nouvelle tentative dans 15 secondes...
Tentative 3/5...
‚ùå Erreur 503 (Surcharg√©). Nouvelle tentative dans 15 secondes...
Tentative 4/5...
‚ùå Erreur 503 (Surcharg√©). Nouvelle tentative dans 15 secondes...
Tentative 5/5...
‚ùå ERREUR API critique : √âchec apr√®s 5 tentatives. D√©tail : 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The model is overloaded. Please try again later.', 'status': 'UNAVAILABLE'}}

--- Processus Termin√© ---
