In [None]:

#!/usr/bin/env python3
"""
Classificateur m√©dical avec analyse s√©mantique am√©lior√©e
Format simple - sans classes ni d√©pendances externes
"""

import os
import shutil
import json
from datetime import datetime, timedelta
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate

# Configuration
BASE_DIR = os.path.abspath(r"C:\Users\kosmo\pycode\Iqvia_process")
CHEMIN_SOURCE = os.path.join(BASE_DIR, "ProcessEx")
CHEMIN_DEPOTS = os.path.join(BASE_DIR, "Depots")

# Initialiser le LLM
api_key = os.getenv('OPENAI_API_KEY')
if not api_key:
    print("‚ö†Ô∏è ATTENTION: Cl√© API non trouv√©e dans les variables d'environnement")
    api_key = "votre_cl√©_api_openai_ici"  # √Ä remplacer par votre vraie cl√©

llm = None
if api_key != "votre_cl√©_api_openai_ici":
    try:
        llm = ChatOpenAI(
            model="gpt-4o-mini",
            temperature=0.1,
            api_key=api_key
        )
    except Exception as e:
        print(f"‚ùå Erreur initialisation LLM: {e}")
        llm = None



def analyser_titre_avec_llm_semantique(titre: str) -> dict:
    """Analyse s√©mantique avanc√©e avec LLM - prompt enrichi"""
    if not llm:
        print(f"‚ùå LLM non disponible, impossible d'analyser '{titre[:30]}...'")
        return {
            "contient_maladie": False,
            "maladies_detectees": [],
            "categorie_medicale": "autres",
            "contexte_principal": "autre",
            "clients_detectes": [],
            "bases_detectees": [],
            "confiance": "faible",
            "titre_normalise": titre,
            "score_semantique": 0.1
        }
         
    
    try:
        analysis_prompt_template = ChatPromptTemplate.from_messages([
            ("system", """Tu es un expert en analyse s√©mantique m√©dicale et business pharmaceutique. 
            Ton r√¥le est de comprendre le CONTEXTE et l'INTENTION derri√®re chaque titre, pas seulement chercher des mots-cl√©s.
            
             
            """),
            ("human", """
Analyse s√©mantique COMPL√àTE du titre : "{titre}"

Ne te contente pas de chercher des mots-cl√©s ! Analyse le CONTEXTE :

Je commence par lire attentivement le titre pour en comprendre le contexte et la structure.
             
Exemple 1 :

- "3181844   pour ABBOTT DC_Suivi national du FSL2 par segment de pat diab√©tiques 2025" 
               
Je comprends que le terme ABBOTT est le nom d'un client , "clients_detectes" = ABBOTT  
Je comprends que le terme diab√©tique est m√©dical , "maladies_detectees" = diabete 
Je comprends qu'il s'agit d'un document de type suivi , "type_document" = suivi 
 
             
Json G√©n√©r√© : 

{{
  "contexte_principal": "Data"
  "domaine_medical": "diabetologie",
  "type_document": "suivi",
  "client_detectees": "ABBOTT",
  "base_detectees": "null",
  "contient_maladie": true,
  "confiance": "haute/moyenne/faible",
  "score_semantique": 0.8,
  "titre_normalise": "3181844 _ pour ABBOTT DC_Suivi national du FSL2 par segment de pat diab√©tiques 2025"
}}             

Exemple 2 :

Je commence par lire attentivement le titre pour en comprendre le contexte et la structure.
"3204851  pour AstraZeneca - Xponent EDS Benlysta 2025"

 
Json G√©n√©r√© : 

{{
  "contexte_principal": "Data",
  "domaine_medical": "immunologie",
  "type_document": "suivi",
  "clients_detectes": "AstraZeneca",
  "bases_detectees": "Xponent",
  "contient_maladie": true,
  "confiance": "haute",
  "score_semantique": 0.95,
  "justification": "Document de suivi bas√© sur la base Xponent pour le m√©dicament Benlysta (traitement du lupus), destin√© au client AstraZeneca dans un contexte commercial.",
  "titre_normalise": "3204851   pour AstraZeneca - Xponent EDS Benlysta 2025"
}}                                        
             
Exemple 3 : 

Je commence par lire attentivement le titre pour en comprendre le contexte et la structure.
"PO-7101455030_v1_20241212"

 
Json G√©n√©r√© : 

{{
  "contexte_principal": "autre",
  "domaine_medical": "null",
  "type_document": "inconnu",
  "clients_detectes": "null",
  "bases_detectees": "null",
  "contient_maladie": false,
  "confiance": "faible",
  "score_semantique": 0.2,
  "justification": "Le titre est un identifiant technique sans indication explicite de client, maladie, base de donn√©es ou type de document. Impossible de d√©terminer un contexte clair.",
  "titre_normalise": "PO-7101455030_v1_20241212"
}}

R√©ponds UNIQUEMENT en JSON valide :
{{
    "contexte_principal": "Data si client , base donn√©es ou domaine medical , autre si non ";
    "domaine_medical": "tous termes ou expression autour de la maladie ou null",
    "type_document": "formation/etude/rapport/suivi/presentation/protocole/guide/autre",
    "clients_detectes": "nom_client_principal_ou_null",
    "bases_detectees": "Si IQVIA alors null ou nom_base_principale_ou_null Si IQVIA alors null ",
    "contient_maladie": true,
    "confiance": "haute/moyenne/faible",
    "score_semantique": 0.8,
    "justification": "Explication courte du contexte d√©tect√©",
    "titre_normalise": "{titre}"
}}
            """)
        ])
        
        prompt_value = analysis_prompt_template.invoke({"titre": titre})
        response = llm.invoke(prompt_value.to_messages())
        content = response.content.strip()
        
        # Nettoyer le JSON
        if "```json" in content:
            content = content.split("```json")[1].split("```")[0]
        elif "```" in content:
            content = content.split("```")[1].split("```")[0]
        
        resultat = json.loads(content.strip())
        print(f"üîç DEBUG resultat: {resultat}")
        
        # Validation et enrichissement
        if "categorie_medicale" not in resultat:
            resultat["categorie_medicale"] = "autres"  # Fallback par d√©faut

         

        # NOUVELLE logique simplifi√©e pour 4 dossiers - ORDRE CORRIG√â
        if resultat.get("domaine_medical") and resultat.get("domaine_medical") != "null":
            resultat["categorie_medicale"] = "domaine_medical"                
        elif resultat.get("bases_detectees") and resultat.get("bases_detectees") != "null":
            resultat["categorie_medicale"] = "base_donnees"          
        elif resultat.get("clients_detectes") and resultat.get("clients_detectes") not in ["null", "aucun"]:
            resultat["categorie_medicale"] = "client"                                 
        else:          
            resultat["categorie_medicale"] = "autres"


        
        
        # Calculer score s√©mantique si absent
        if "score_semantique" not in resultat or not isinstance(resultat["score_semantique"], (int, float)):
            contexte = resultat.get("contexte_principal", "autre")
            domaine = resultat.get("domaine_medical", "aucun")
            
            score = 0.3  # Base
            if contexte != "autre": score += 0.2
            if domaine != "aucun": score += 0.2
            if len(resultat.get("maladies_detectees", [])) > 0: score += 0.2
            if resultat.get("confiance") == "haute": score += 0.1
            
            resultat["score_semantique"] = min(0.95, score)
        
        return resultat
        
    except Exception as e:
        print(f"‚ùå Erreur LLM s√©mantique pour '{titre[:30]}...': {e}")
        return {
            "contient_maladie": False,
            "maladies_detectees": [],
            "categorie_medicale": "autres",
            "contexte_principal": "autre",
            "clients_detectes": [],
            "bases_detectees": [],
            "confiance": "faible",
            "titre_normalise": titre,
            "score_semantique": 0.1
        }

def rechercher_fichiers_filtres():
    """Phase 1: Recherche et filtre les fichiers par extension, date et taille"""
    print("üîç PHASE 1: Recherche et filtrage des fichiers...")
    print("-" * 50)
    
    if not os.path.exists(CHEMIN_SOURCE):
        print(f"‚ùå Erreur: {CHEMIN_SOURCE} n'existe pas")
        return []
    
    # D√©finition des filtres
    DATE_LIMITE = datetime.now() - timedelta(days=365)  # Fichiers de moins d'un an
    TAILLE_MIN_OCTETS = 1 * 1024         # 1 KB minimum (pour √©viter fichiers vides)
    TAILLE_MAX_OCTETS = 50 * 1024 * 1024  # 50 MB maximum
    TAILLE_CLASSIFICATION = 1000 * 1024   # 2 MB - Seuil pour classification s√©mantique
    
    print(f"üìÖ Filtre date: fichiers modifi√©s apr√®s le {DATE_LIMITE.strftime('%d/%m/%Y')}")
    print(f"üìè Filtre taille: entre {TAILLE_MIN_OCTETS//1024} KB et {TAILLE_MAX_OCTETS//1024//1024} MB")
    print(f"üß† Classification s√©mantique: fichiers > {TAILLE_CLASSIFICATION//1024} KB seulement")
    print(f"üìÅ Fichiers ‚â§ {TAILLE_CLASSIFICATION//1024} KB ‚Üí dossier AUTRES automatiquement")
    print()
    
    fichiers_trouves = []
    dossiers_stats = {}
    stats_filtrage = {
        'total_examines': 0,
        'rejetes_extension': 0,
        'rejetes_taille': 0, 
        'rejetes_date': 0,
        'rejetes_acces': 0,
        'acceptes': 0
    }
    
    for item in os.listdir(CHEMIN_SOURCE):
        item_path = os.path.join(CHEMIN_SOURCE, item)
        if os.path.isdir(item_path):
            print(f"üìÇ Analyse du dossier: {item}")
            count_dossier = 0
            
            for root, dirs, files in os.walk(item_path):
                for file in files:
                    file_path = os.path.join(root, file)
                    stats_filtrage['total_examines'] += 1
                    
                    # V√©rification de l'extension
                    if not file.lower().endswith(('.ppt', '.pptx', '.pdf')):
                        stats_filtrage['rejetes_extension'] += 1
                        continue
                    
                    try:
                        # R√©cup√©ration des m√©tadonn√©es
                        taille = os.path.getsize(file_path)
                        date_mod = datetime.fromtimestamp(os.path.getmtime(file_path))
                        
                        # Filtrage par taille
                        if not (TAILLE_MIN_OCTETS <= taille <= TAILLE_MAX_OCTETS):
                            stats_filtrage['rejetes_taille'] += 1
                            continue
                        
                        # Filtrage par date  
                        if date_mod < DATE_LIMITE:
                            stats_filtrage['rejetes_date'] += 1
                            continue
                        
                        # Fichier accept√©
                        fichier_info = {
                            'chemin': file_path,
                            'nom': file,
                            'taille': taille,
                            'date_modification': date_mod,
                            'taille_mb': round(taille / (1024*1024), 2),
                            'taille_kb': round(taille / 1024, 1),
                            'age_jours': (datetime.now() - date_mod).days,
                            'classification_semantique': taille >= TAILLE_CLASSIFICATION  # True si > 2MB
                        }
                        
                        fichiers_trouves.append(fichier_info)
                        count_dossier += 1
                        stats_filtrage['acceptes'] += 1
                        
                    except (OSError, PermissionError) as e:
                        stats_filtrage['rejetes_acces'] += 1
                        print(f"   ‚ö†Ô∏è Ignor√© (acc√®s refus√©): {os.path.basename(file_path)}")
            
            dossiers_stats[item] = count_dossier
            print(f"   ‚úÖ {count_dossier} fichier(s) retenu(s) apr√®s filtrage")
    
    # Affichage des statistiques d√©taill√©es
    print(f"\nüìä STATISTIQUES DE FILTRAGE:")
    print(f"   ‚Ä¢ Fichiers examin√©s: {stats_filtrage['total_examines']}")
    print(f"   ‚Ä¢ ‚ùå Rejet√©s - extension: {stats_filtrage['rejetes_extension']}")
    print(f"   ‚Ä¢ ‚ùå Rejet√©s - taille: {stats_filtrage['rejetes_taille']}")
    print(f"   ‚Ä¢ ‚ùå Rejet√©s - date: {stats_filtrage['rejetes_date']}")
    print(f"   ‚Ä¢ ‚ùå Rejet√©s - acc√®s: {stats_filtrage['rejetes_acces']}")
    print(f"   ‚Ä¢ ‚úÖ RETENUS: {stats_filtrage['acceptes']}")
    
    print(f"\nüìÅ R√âPARTITION PAR DOSSIER:")
    for dossier, count in dossiers_stats.items():
        print(f"   ‚Ä¢ {dossier}: {count} fichier(s)")
    
    return fichiers_trouves

def trier_fichiers_par_criteres(fichiers_info):
    """Trie les fichiers par diff√©rents crit√®res et affiche des statistiques"""
    print(f"\nüìà PHASE 1.5: Analyse et tri des fichiers retenus...")
    print("-" * 50)
    
    if not fichiers_info:
        print("‚ùå Aucun fichier √† analyser")
        return fichiers_info
    
    # Tri par taille (d√©croissant)
    fichiers_par_taille = sorted(fichiers_info, key=lambda x: x['taille'], reverse=True)
    print(f"üìè Top 5 fichiers les plus volumineux:")
    for i, f in enumerate(fichiers_par_taille[:5], 1):
        print(f"   {i}. {f['nom'][:50]}... ({f['taille_mb']} MB)")
    
    # Tri par date (plus r√©cent d'abord) 
    fichiers_par_date = sorted(fichiers_info, key=lambda x: x['date_modification'], reverse=True)
    print(f"\nüìÖ Top 5 fichiers les plus r√©cents:")
    for i, f in enumerate(fichiers_par_date[:5], 1):
        date_str = f['date_modification'].strftime('%d/%m/%Y')
        print(f"   {i}. {f['nom'][:50]}... ({date_str}, {f['age_jours']} jours)")
    
    # Statistiques de r√©partition
    tailles = [f['taille_mb'] for f in fichiers_info]
    ages = [f['age_jours'] for f in fichiers_info]
    
    print(f"\nüìä STATISTIQUES DESCRIPTIVES:")
    print(f"   Taille - Moyenne: {sum(tailles)/len(tailles):.1f} MB, Max: {max(tailles):.1f} MB, Min: {min(tailles):.1f} MB")
    print(f"   √Çge - Moyenne: {sum(ages)//len(ages)} jours, Max: {max(ages)} jours, Min: {min(ages)} jours")
    
    # R√©partition par tranches de taille et √©ligibilit√© classification
    tranches_taille = {'< 1MB': 0, '1-2MB': 0, '2-5MB': 0, '5-20MB': 0, '> 20MB': 0}
    eligibles_classification = 0
    
    for f in fichiers_info:
        mb = f['taille_mb']
        if mb < 1: tranches_taille['< 1MB'] += 1
        elif mb < 2: tranches_taille['1-2MB'] += 1  
        elif mb < 5: tranches_taille['2-5MB'] += 1
        elif mb < 20: tranches_taille['5-20MB'] += 1
        else: tranches_taille['> 20MB'] += 1
        
        if f['classification_semantique']:
            eligibles_classification += 1
    
    print(f"\nüìè R√âPARTITION PAR TAILLE:")
    for tranche, count in tranches_taille.items():
        pct = (count / len(fichiers_info) * 100) if fichiers_info else 0
        print(f"   ‚Ä¢ {tranche}: {count} fichiers ({pct:.1f}%)")
    
    print(f"\nüß† √âLIGIBILIT√â CLASSIFICATION S√âMANTIQUE:")
    print(f"   ‚Ä¢ Fichiers > 2MB (analys√©s): {eligibles_classification}")
    print(f"   ‚Ä¢ Fichiers ‚â§ 2MB (‚Üí AUTRES): {len(fichiers_info) - eligibles_classification}")
    
    return fichiers_info

def copier_fichiers(fichiers_info):
    """Phase 2: Copie vers Depots avec informations enrichies"""
    print(f"\nüìã PHASE 2: Copie vers {CHEMIN_DEPOTS}...")
    print("-" * 50)
    
    # Cr√©er le dossier Depots
    os.makedirs(CHEMIN_DEPOTS, exist_ok=True)
    print(f"‚úÖ Dossier Depots pr√™t")
    
    copied = 0
    taille_totale = 0
    
    for fichier_info in fichiers_info:
        file_path = fichier_info['chemin']
        file_name = fichier_info['nom']
        destination = os.path.join(CHEMIN_DEPOTS, file_name)
        
        try:
            shutil.copy(file_path, destination)
            copied += 1
            taille_totale += fichier_info['taille']
        except Exception as e:
            print(f"‚ùå Erreur copie {file_name}: {e}")
    
    print(f"‚úÖ {copied}/{len(fichiers_info)} fichiers copi√©s")
    print(f"üì¶ Taille totale copi√©e: {taille_totale/(1024*1024):.1f} MB")
    return copied

def analyser_et_classer_semantique():
    """Phase 3: Analyse s√©mantique LLM et classification avanc√©e (> 2MB seulement)"""
    print(f"\nüß† PHASE 3: Analyse s√©mantique et classification...")
    print("-" * 50)
    
    # Mode LLM ou fallback
    use_llm = llm is not None
    print(f"Mode: {'üî• LLM S√©mantique' if use_llm else 'üîß Mots-cl√©s enrichis'}")
    
    fichiers_a_analyser = [f for f in os.listdir(CHEMIN_DEPOTS) 
                          if f.lower().endswith(('.ppt', '.pptx', '.pdf'))]
    
    # R√©cup√©rer les infos de taille des fichiers copi√©s
    fichiers_avec_taille = []
    for file_name in fichiers_a_analyser:
        file_path = os.path.join(CHEMIN_DEPOTS, file_name)
        try:
            taille = os.path.getsize(file_path)
            fichiers_avec_taille.append({
                'nom': file_name,
                'taille': taille,
                'taille_mb': round(taille / (1024*1024), 2),
                'taille_kb': round(taille / 1024, 1),
                'eligible_classification': taille >= (1000 * 1024)  # > 2MB
            })
        except:
            # Si erreur, on consid√®re comme petit fichier
            fichiers_avec_taille.append({
                'nom': file_name,
                'taille': 0,
                'taille_mb': 0,
                'taille_kb': 0,
                'eligible_classification': False
            })
    
    analyses = []
    medicaux = 0
    contextes_stats = {}
    petits_fichiers = 0
    
    print(f"üìä R√©partition:")
    eligibles = sum(1 for f in fichiers_avec_taille if f['eligible_classification'])
    print(f"   ‚Ä¢ Fichiers > 2MB (analyse s√©mantique): {eligibles}")
    print(f"   ‚Ä¢ Fichiers ‚â§ 2MB (‚Üí AUTRES direct): {len(fichiers_avec_taille) - eligibles}")
    print()
    
    for i, fichier_info in enumerate(fichiers_avec_taille, 1):
        file_name = fichier_info['nom']
        titre = os.path.splitext(file_name)[0]
        taille_str = f"{fichier_info['taille_kb']} KB" if fichier_info['taille_mb'] < 1 else f"{fichier_info['taille_mb']} MB"
        
        print(f"[{i:2d}/{len(fichiers_avec_taille)}] {file_name[:40]}... ({taille_str})")
        
        # V√©rifier si √©ligible √† la classification s√©mantique
        if not fichier_info['eligible_classification']:
            # Fichier ‚â§ 2MB ‚Üí Dossier AUTRES automatiquement
            analyse = {
                'nom_fichier': file_name,
                'titre': titre,
                'taille_mb': fichier_info['taille_mb'],
                'contient_maladie': False,
                'categorie_medicale': 'autres',
                'contexte_principal': 'autre',
                'confiance': 'faible',
                'score_semantique': 0.1,
                'justification': f'Fichier de petite taille ({taille_str}) ‚Üí AUTRES automatiquement',
                'clients_detectes': [],
                'bases_detectees': [],
                'maladies_detectees': []
            }
            analyses.append(analyse)
            petits_fichiers += 1
            print(f"   üìÅ ‚Üí AUTRES (taille < 2MB)")
            continue
        
        # Classification s√©mantique pour fichiers > 2MB
        analyse = analyser_titre_avec_llm_semantique(titre)
         
        print(f"üîç DEBUG ANALYSE: {analyse}")
        
        # Enrichir avec m√©tadonn√©es
        analyse['nom_fichier'] = file_name
        analyse['taille_mb'] = fichier_info['taille_mb']
        
        # Compter et afficher r√©sultats
        if analyse.get('contient_maladie', False):
            medicaux += 1
        
        contexte = analyse.get('contexte_principal', 'autre')
        contextes_stats[contexte] = contextes_stats.get(contexte, 0) + 1
        
        # Affichage du r√©sultat
        categorie = analyse.get('categorie_medicale', 'aucune')
        print(f"üîç DEBUG !!!!!!!!!!!!!!!!!!!!! categorie: {categorie}") 
      
        confiance = analyse.get('confiance', 'inconnue')
        score = analyse.get('score_semantique', 0)
        
        if analyse.get('clients_detectes'):
            client_info = f" [Client: {', '.join(analyse['clients_detectes'])}]"
        elif analyse.get('bases_detectees'):
            client_info = f" [Base: {', '.join(analyse['bases_detectees'])}]"
        else:
            client_info = ""
        
        print(f"   üéØ {categorie.upper()} ({confiance}, score:{score:.2f}){client_info}")
        
        if analyse.get('maladies_detectees'):
            print(f"   üè• Termes: {', '.join(analyse['maladies_detectees'])}")
        
        analyses.append(analyse)
    
    print(f"\nüìä R√âSULTATS DE CLASSIFICATION:")
    print(f"   ‚Ä¢ Fichiers analys√©s s√©mantiquement: {len(analyses) - petits_fichiers}")
    print(f"   ‚Ä¢ Fichiers ‚Üí AUTRES (< 2MB): {petits_fichiers}")
    print(f"   ‚Ä¢ Fichiers m√©dicaux d√©tect√©s: {medicaux}")
    print(f"   ‚Ä¢ Score s√©mantique moyen: {sum(a.get('score_semantique', 0) for a in analyses) / len(analyses):.2f}")
    
    print(f"\nüìà R√âPARTITION PAR CONTEXTE:")
    for contexte, count in sorted(contextes_stats.items()):
        pct = (count / len(analyses) * 100) if analyses else 0
        print(f"   ‚Ä¢ {contexte}: {count} fichiers ({pct:.1f}%)")
    
    return analyses

def creer_dossiers_et_deplacer(analyses):
    """Phase 4: Cr√©ation des dossiers de classification et d√©placement"""
    print(f"\nüìÅ PHASE 4: Cr√©ation dossiers et d√©placement...")
    print("-" * 50)
    
    # Mapping simplifi√© pour 4 dossiers
    mapping_dossiers = {
        'client': 'CLIENTS',
        'base_donnees': 'BASES_DONNEES', 
        'domaine_medical': 'MALADIES',  # ‚Üê MAINTENANT √áA MARCHE !
        'autres': 'AUTRES'
    }
    
    # Cr√©er tous les dossiers n√©cessaires
    dossiers_crees = set()
    for categorie in mapping_dossiers.values():
        dossier_path = os.path.join(CHEMIN_DEPOTS, categorie)
        os.makedirs(dossier_path, exist_ok=True)
        dossiers_crees.add(categorie)
    
    print(f"‚úÖ {len(dossiers_crees)} dossiers de classification cr√©√©s")
    
    # D√©placer les fichiers
    stats_deplacement = {}
    erreurs_deplacement = []
    
    for analyse in analyses:
        file_name = analyse['nom_fichier']
        categorie = analyse.get('categorie_medicale', 'autres')
        dossier_cible = mapping_dossiers.get(categorie, 'AUTRES')
        
        source_path = os.path.join(CHEMIN_DEPOTS, file_name)
        destination_path = os.path.join(CHEMIN_DEPOTS, dossier_cible, file_name)
        
        try:
            if os.path.exists(source_path):
                # G√©rer les doublons
                if os.path.exists(destination_path):
                    base, ext = os.path.splitext(file_name)
                    counter = 1
                    while os.path.exists(destination_path):
                        new_name = f"{base}_({counter}){ext}"
                        destination_path = os.path.join(CHEMIN_DEPOTS, dossier_cible, new_name)
                        counter += 1
                
                shutil.move(source_path, destination_path)
                stats_deplacement[dossier_cible] = stats_deplacement.get(dossier_cible, 0) + 1
                
        except Exception as e:
            erreurs_deplacement.append(f"{file_name}: {str(e)}")
            print(f"‚ùå Erreur d√©placement {file_name}: {e}")
    
    print(f"\nüìä R√âSULTATS DE D√âPLACEMENT:")
    total_deplaces = sum(stats_deplacement.values())
    for dossier, count in sorted(stats_deplacement.items()):
        pct = (count / total_deplaces * 100) if total_deplaces > 0 else 0
        print(f"   ‚Ä¢ {dossier}: {count} fichiers ({pct:.1f}%)")
    
    if erreurs_deplacement:
        print(f"\n‚ùå ERREURS DE D√âPLACEMENT ({len(erreurs_deplacement)}):")
        for erreur in erreurs_deplacement[:5]:  # Limiter √† 5 erreurs
            print(f"   ‚Ä¢ {erreur}")
        if len(erreurs_deplacement) > 5:
            print(f"   ‚Ä¢ ... et {len(erreurs_deplacement) - 5} autres erreurs")
    
    return stats_deplacement

def consolider_resultats_globaux():
    """Phase 6: Consolidation de tous les fichiers class√©s dans un dossier global"""
    print(f"\nüìÅ PHASE 6: Consolidation dans results_global...")
    print("-" * 50)
    
    # Cr√©er le dossier results_global
    results_path = os.path.join(CHEMIN_DEPOTS, "results_global")
    os.makedirs(results_path, exist_ok=True)
    
    # Liste des dossiers √† consolider (tous sauf results_global)
    dossiers_a_consolider = [
        'CLIENTS', 'BASES_DONNEES', 'MALADIES' # ‚Üê 3 dossiers seulement
    ]
    
    fichiers_copies = 0
    erreurs_copie = []
    
    for dossier in dossiers_a_consolider:
        dossier_path = os.path.join(CHEMIN_DEPOTS, dossier)
        
        if os.path.exists(dossier_path):
            print(f"üìÇ Consolidation de {dossier}...")
            
            for file_name in os.listdir(dossier_path):
                if file_name.lower().endswith(('.ppt', '.pptx', '.pdf')):
                    source = os.path.join(dossier_path, file_name)
                    destination = os.path.join(results_path, file_name)
                    
                    try:
                        # G√©rer les doublons avec pr√©fixe du dossier source
                        if os.path.exists(destination):
                            name, ext = os.path.splitext(file_name)
                            new_name = f"{dossier}_{name}{ext}"
                            destination = os.path.join(results_path, new_name)
                        
                        shutil.copy2(source, destination)  # copy2 pr√©serve les m√©tadonn√©es
                        fichiers_copies += 1
                        
                    except Exception as e:
                        erreurs_copie.append(f"{dossier}/{file_name}: {str(e)}")
    
    print(f"\n‚úÖ Consolidation termin√©e:")
    print(f"   ‚Ä¢ {fichiers_copies} fichiers copi√©s dans {results_path}")
    print(f"   ‚Ä¢ {len(erreurs_copie)} erreurs" if erreurs_copie else "   ‚Ä¢ Aucune erreur")
    
    if erreurs_copie:
        print(f"\n‚ùå ERREURS DE COPIE:")
        for erreur in erreurs_copie[:3]:
            print(f"   ‚Ä¢ {erreur}")
        if len(erreurs_copie) > 3:
            print(f"   ‚Ä¢ ... et {len(erreurs_copie) - 3} autres erreurs")
    
    return fichiers_copies

def generer_rapport_final(analyses, stats_deplacement):
    """Phase 5: G√©n√©ration du rapport final d√©taill√©"""
    print(f"\nüìã PHASE 5: G√©n√©ration du rapport final...")
    print("-" * 50)

    TAILLE_CLASSIFICATION_MB = 1000 / 1024  # Convertir 1000 KB en MB = 0.98 MB
    
    # Cr√©er le rapport JSON d√©taill√©
    rapport = {
        'metadata': {
            'date_execution': datetime.now().isoformat(),
            'version_script': '2.0',
            'mode_llm': llm is not None,
            'total_fichiers': len(analyses)
        },
        'statistiques_globales': {
            'fichiers_medicaux': sum(1 for a in analyses if a.get('contient_maladie', False)),
            'fichiers_clients': sum(1 for a in analyses if a.get('clients_detectes')),
            'fichiers_bases_donnees': sum(1 for a in analyses if a.get('bases_detectees')),
            'score_semantique_moyen': round(sum(a.get('score_semantique', 0) for a in analyses) / len(analyses), 3) if analyses else 0
        },
        'repartition_dossiers': stats_deplacement,
        'analyses_detaillees': [a for a in analyses if a.get('taille_mb', 0) >= TAILLE_CLASSIFICATION_MB]   
    }
    
    # Sauvegarder le rapport JSON
    rapport_path = os.path.join(CHEMIN_DEPOTS, 'rapport_classification.json')
    try:
        with open(rapport_path, 'w', encoding='utf-8') as f:
            json.dump(rapport, f, indent=2, ensure_ascii=False, default=str)
        print(f"‚úÖ Rapport JSON sauvegard√©: {rapport_path}")
    except Exception as e:
        print(f"‚ùå Erreur sauvegarde rapport: {e}")
    
    # G√©n√©rer rapport texte lisible
    rapport_txt_path = os.path.join(CHEMIN_DEPOTS, 'rapport_classification.txt')
    try:
        with open(rapport_txt_path, 'w', encoding='utf-8') as f:
            f.write("=" * 80 + "\n")
            f.write("RAPPORT DE CLASSIFICATION M√âDICALE AUTOMATIQUE\n")
            f.write("=" * 80 + "\n\n")
            
            f.write(f"üìÖ Date d'ex√©cution: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}\n")
            f.write(f"üîß Mode: {'LLM S√©mantique' if llm else 'Mots-cl√©s enrichis'}\n")
            f.write(f"üìÅ Dossier source: {CHEMIN_SOURCE}\n")
            f.write(f"üìÅ Dossier d√©p√¥t: {CHEMIN_DEPOTS}\n\n")
            
            f.write("üìä STATISTIQUES GLOBALES\n")
            f.write("-" * 40 + "\n")
            f.write(f"Total fichiers trait√©s: {len(analyses)}\n")
            f.write(f"Fichiers m√©dicaux: {rapport['statistiques_globales']['fichiers_medicaux']}\n")
            f.write(f"Fichiers clients: {rapport['statistiques_globales']['fichiers_clients']}\n")
            f.write(f"Fichiers bases donn√©es: {rapport['statistiques_globales']['fichiers_bases_donnees']}\n")
            f.write(f"Score s√©mantique moyen: {rapport['statistiques_globales']['score_semantique_moyen']}\n\n")
            
            f.write("üìÅ R√âPARTITION PAR DOSSIERS\n")
            f.write("-" * 40 + "\n")
            for dossier, count in sorted(stats_deplacement.items()):
                pct = (count / len(analyses) * 100) if analyses else 0
                f.write(f"{dossier}: {count} fichiers ({pct:.1f}%)\n")
            
            # Comptage du dossier results_global
            results_global_path = os.path.join(CHEMIN_DEPOTS, "results_global")
            if os.path.exists(results_global_path):
                fichiers_consolides = len([f for f in os.listdir(results_global_path) 
                                         if f.lower().endswith(('.ppt', '.pptx', '.pdf'))])
                f.write(f"\nüìÇ CONSOLIDATION GLOBALE\n")
                f.write("-" * 40 + "\n")
                f.write(f"RESULTS_GLOBAL: {fichiers_consolides} fichiers consolid√©s\n")
        
        print(f"‚úÖ Rapport texte sauvegard√©: {rapport_txt_path}")
    except Exception as e:
        print(f"‚ùå Erreur sauvegarde rapport texte: {e}")
    
    return rapport

def deposer_vers_sharepoint():
    """Phase 7: D√©p√¥t du dossier results_global vers SharePoint"""
    print(f"\n‚òÅÔ∏è PHASE 7: D√©p√¥t vers SharePoint...")
    print("-" * 50)
    
    try:
        from office365.runtime.auth.authentication_context import AuthenticationContext
        from office365.sharepoint.client_context import ClientContext
        import requests
        
        # Configuration SharePoint (√† adapter selon vos param√®tres)
        SHAREPOINT_URL = "https://votreentreprise.sharepoint.com/sites/votre-site"
        SHAREPOINT_USERNAME = os.getenv('SHAREPOINT_USERNAME')
        SHAREPOINT_PASSWORD = os.getenv('SHAREPOINT_PASSWORD')
        SHAREPOINT_LIBRARY = "Documents Partag√©s/Classification_Medicale"  # Dossier de destination
        
        # V√©rifier les param√®tres
        if not all([SHAREPOINT_USERNAME, SHAREPOINT_PASSWORD]):
            print("‚ùå Erreur: Variables d'environnement SharePoint manquantes")
            print("   D√©finissez SHAREPOINT_USERNAME et SHAREPOINT_PASSWORD")
            return False
        
        # Chemin du dossier local √† uploader
        results_path = os.path.join(CHEMIN_DEPOTS, "results_global")
        if not os.path.exists(results_path):
            print(f"‚ùå Erreur: Dossier {results_path} n'existe pas")
            return False
        
        # Authentification SharePoint
        print("üîê Authentification SharePoint...")
        auth_context = AuthenticationContext(url=SHAREPOINT_URL)
        auth_context.acquire_token_for_user(username=SHAREPOINT_USERNAME, password=SHAREPOINT_PASSWORD)
        
        ctx = ClientContext(SHAREPOINT_URL, auth_context)
        web = ctx.web
        ctx.load(web)
        ctx.execute_query()
        
        print(f"‚úÖ Connect√© √† SharePoint: {web.properties['Title']}")
        
        # Cr√©er le dossier de destination si n√©cessaire
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        destination_folder = f"{SHAREPOINT_LIBRARY}/Classification_{timestamp}"
        
        # Upload des fichiers
        fichiers_uploades = 0
        erreurs_upload = []
        
        print(f"üìÇ Upload vers: {destination_folder}")
        
        for file_name in os.listdir(results_path):
            if file_name.lower().endswith(('.ppt', '.pptx', '.pdf')):
                file_path = os.path.join(results_path, file_name)
                
                try:
                    with open(file_path, 'rb') as file_content:
                        # Upload du fichier
                        target_folder = ctx.web.get_folder_by_server_relative_url(destination_folder)
                        target_folder.upload_file(file_name, file_content.read())
                        ctx.execute_query()
                        
                        fichiers_uploades += 1
                        print(f"   ‚úÖ {file_name}")
                        
                except Exception as e:
                    erreurs_upload.append(f"{file_name}: {str(e)}")
                    print(f"   ‚ùå {file_name}: {e}")
        
        print(f"\nüìä R√âSULTATS UPLOAD SHAREPOINT:")
        print(f"   ‚Ä¢ {fichiers_uploades} fichiers upload√©s")
        print(f"   ‚Ä¢ {len(erreurs_upload)} erreurs")
        print(f"   ‚Ä¢ Destination: {destination_folder}")
        
        if erreurs_upload:
            print(f"\n‚ùå ERREURS D'UPLOAD:")
            for erreur in erreurs_upload[:3]:
                print(f"   ‚Ä¢ {erreur}")
            if len(erreurs_upload) > 3:
                print(f"   ‚Ä¢ ... et {len(erreurs_upload) - 3} autres erreurs")
        
        return fichiers_uploades > 0
        
    except ImportError:
        print("‚ùå Erreur: Biblioth√®que Office365 manquante")
        print("   Installez avec: pip install Office365-REST-Python-Client")
        return False
        
    except Exception as e:
        print(f"‚ùå Erreur SharePoint: {e}")
        return False
    
def main():
    """Fonction principale - orchestration compl√®te"""
    print("üè• CLASSIFICATEUR M√âDICAL   - ANALYSE S√âMANTIQUE")
    print("=" * 60)
    print(f"üìÖ D√©marrage: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")
    print()
    
    try:
        # Phase 1: Recherche et filtrage
        fichiers_info = rechercher_fichiers_filtres()
        if not fichiers_info:
            print("‚ùå Aucun fichier trouv√©. Arr√™t du processus.")
            return
        
        # Phase 1.5: Tri et analyse
        fichiers_info = trier_fichiers_par_criteres(fichiers_info)
        
        # Phase 2: Copie
        copied = copier_fichiers(fichiers_info)
        if copied == 0:
            print("‚ùå Aucun fichier copi√©. Arr√™t du processus.")
            return
        
        # Phase 3: Analyse s√©mantique
        analyses = analyser_et_classer_semantique()
        if not analyses:
            print("‚ùå Aucune analyse r√©alis√©e. Arr√™t du processus.")
            return
        
        # Phase 4: D√©placement dans dossiers
        stats_deplacement = creer_dossiers_et_deplacer(analyses)

        # Phase 5: Consolidation
        fichiers_consolides = consolider_resultats_globaux()
        
        # Phase 6: D√©p√¥t SharePoint (d√©commentez quand les acc√®s seront configur√©s)
        # success_sharepoint = deposer_vers_sharepoint()

        # Phase 7: Rapport final
        rapport = generer_rapport_final(analyses, stats_deplacement)

        
        print(f"\nüéâ CLASSIFICATION TERMIN√âE AVEC SUCC√àS!")
        print("=" * 60)
        print(f"‚úÖ {len(analyses)} fichiers trait√©s")
        print(f"üìÅ {len(stats_deplacement)} dossiers cr√©√©s")
        print(f"üìÇ {fichiers_consolides} fichiers consolid√©s")
        print(f"üìã Rapports g√©n√©r√©s dans {CHEMIN_DEPOTS}")
        print(f"‚è±Ô∏è Dur√©e totale: {datetime.now().strftime('%H:%M:%S')}")
        
    except Exception as e:
        print(f"\n‚ùå ERREUR CRITIQUE: {e}")
        print("üîß V√©rifiez la configuration et les chemins d'acc√®s")
        raise

if __name__ == "__main__":
    main()