In [5]:
#!/usr/bin/env python3
"""
Script simple de classification de fichiers m√©dicaux
Fait exactement la m√™me chose que LangGraph mais en 90% moins de code !
"""

import os
import shutil
import json
from datetime import datetime
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate

# Configuration
BASE_DIR = os.path.abspath(r"C:\Users\kosmo\pycode\Iqvia_process")
CHEMIN_SOURCE = os.path.join(BASE_DIR, "ProcessEx")
CHEMIN_DEPOTS = os.path.join(BASE_DIR, "Depots")

# Initialiser le LLM
api_key = os.getenv('OPENAI_API_KEY')
if not api_key:
    print("‚ö†Ô∏è ATTENTION: Cl√© API non trouv√©e dans les variables d'environnement")
    api_key = "votre_cl√©_api_openai_ici"  # √Ä remplacer par votre vraie cl√©

llm = ChatOpenAI(
    model="gpt-4o-mini",
    temperature=0,
    api_key=api_key
)

def detection_mots_cles_medicaux(titre: str) -> dict:
    """D√©tection fallback par mots-cl√©s"""
    titre_lower = titre.lower()
    
    termes_medicaux = {
        'cancer': 'oncologie', 'tumeur': 'oncologie', 'oncologie': 'oncologie',
        'prostate': 'oncologie', 'sein': 'oncologie', 'poumon': 'oncologie',
        'diab√®te': 'diabetologie', 'diabete': 'diabetologie', 'glyc√©mie': 'diabetologie',
        'cardiaque': 'cardiologie', 'coeur': 'cardiologie', 'c≈ìur': 'cardiologie',
        'hypertension': 'cardiologie', 'infarctus': 'cardiologie',
        'alzheimer': 'neurologie', 'parkinson': 'neurologie', 'neurologie': 'neurologie',
        'asthme': 'pneumologie', 'pneumonie': 'pneumologie', 'bronchite': 'pneumologie',
        'ecz√©ma': 'dermatologie', 'eczema': 'dermatologie', 'psoriasis': 'dermatologie'
    }
    
    maladies_detectees = [terme for terme in termes_medicaux.keys() if terme in titre_lower]
    
    if maladies_detectees:
        categorie_finale = termes_medicaux[maladies_detectees[0]]
        confiance = "haute" if len(maladies_detectees) > 1 else "moyenne"
        return {
            "contient_maladie": True,
            "maladies_detectees": maladies_detectees,
            "categorie_medicale": categorie_finale,
            "confiance": confiance,
            "titre_normalise": titre
        }
    
    return {
        "contient_maladie": False,
        "maladies_detectees": [],
        "categorie_medicale": "aucune",
        "confiance": "faible",
        "titre_normalise": titre
    }

def analyser_titre_avec_llm(titre: str) -> dict:
    """Analyse avec LLM - m√™me prompt que LangGraph"""
    try:
        analysis_prompt_template = ChatPromptTemplate.from_messages([
            ("system", "Vous √™tes un expert en terminologie m√©dicale. Analysez les titres de documents m√©dicaux avec pr√©cision."),
            ("human", """
Analysez ce titre de fichier m√©dical: "{titre}"

R√àGLES PRIORITAIRES D'EXCLUSION:
1. Si le titre contient "ABBVIE" ‚Üí cat√©gorie: aucune (dossier AUTRES)
2. Si le titre contient des termes commerciaux/entreprise ‚Üí cat√©gorie: aucune (dossier AUTRES)

APR√àS v√©rification des exclusions, recherchez ces termes m√©dicaux: 
cancer, diab√®te, cardiaque, c≈ìur, hypertension, Alzheimer, asthme, prostate, sein, poumon, neurologie, psychiatrie, dermatologie, oncologie, pneumologie, DLBCL, lymphome.

EXEMPLES D'ANALYSE:
- "3252322 - Suivi Xponent std cancer de la prostate 2025" ‚Üí contient: cancer, prostate ‚Üí oncologie
- "Rapport diab√®te type 2 France" ‚Üí contient: diab√®te ‚Üí diabetologie  
- "Formation commerciale 2025" ‚Üí aucun terme m√©dical ‚Üí aucune
- "IQVIA pour ABBVIE_Channel Dynamics_Bilan March√© DLBCL_2025" ‚Üí contient ABBVIE (exclusion) ‚Üí aucune

R√©pondez UNIQUEMENT en JSON valide:
{{
    "contient_maladie": true/false,
    "maladies_detectees": ["terme1", "terme2"],
    "categorie_medicale": "oncologie/cardiologie/neurologie/diabetologie/pneumologie/dermatologie/autre/aucune",
    "confiance": "haute/moyenne/faible",
    "titre_normalise": "{titre}"
}}
            """)
        ])
        
        prompt_value = analysis_prompt_template.invoke({"titre": titre})
        response = llm.invoke(prompt_value.to_messages())
        content = response.content.strip()
        
        # Nettoyer le JSON
        if "```json" in content:
            content = content.split("```json")[1].split("```")[0]
        elif "```" in content:
            content = content.split("```")[1].split("```")[0]
        
        return json.loads(content.strip())
        
    except Exception as e:
        print(f"‚ùå Erreur LLM pour '{titre[:30]}...': {e}")
        return detection_mots_cles_medicaux(titre)

def rechercher_fichiers():
    """Phase 1: Recherche tous les fichiers dans ProcessEx"""
    print("üîç PHASE 1: Recherche des fichiers...")
    print("-" * 50)
    
    if not os.path.exists(CHEMIN_SOURCE):
        print(f"‚ùå Erreur: {CHEMIN_SOURCE} n'existe pas")
        return []
    
    fichiers_trouves = []
    dossiers_stats = {}
    
    for item in os.listdir(CHEMIN_SOURCE):
        item_path = os.path.join(CHEMIN_SOURCE, item)
        if os.path.isdir(item_path):
            print(f"üìÇ Analyse du dossier: {item}")
            count = 0
            
            for root, dirs, files in os.walk(item_path):
                for file in files:
                    if file.lower().endswith(('.ppt', '.pptx', '.pdf')):
                        fichiers_trouves.append(os.path.join(root, file))
                        count += 1
            
            dossiers_stats[item] = count
            print(f"  ‚úÖ {count} fichier(s) trouv√©(s)")
    
    print(f"\nüìä TOTAL: {len(fichiers_trouves)} fichiers dans {len(dossiers_stats)} dossiers")
    for dossier, count in dossiers_stats.items():
        print(f"  ‚Ä¢ {dossier}: {count}")
    
    return fichiers_trouves

def copier_fichiers(fichiers_trouves):
    """Phase 2: Copie vers Depots"""
    print(f"\nüìã PHASE 2: Copie vers {CHEMIN_DEPOTS}...")
    print("-" * 50)
    
    # Cr√©er le dossier Depots
    os.makedirs(CHEMIN_DEPOTS, exist_ok=True)
    print(f"‚úÖ Dossier Depots pr√™t")
    
    copied = 0
    for file_path in fichiers_trouves:
        file_name = os.path.basename(file_path)
        destination = os.path.join(CHEMIN_DEPOTS, file_name)
        
        try:
            shutil.copy(file_path, destination)
            copied += 1
        except Exception as e:
            print(f"‚ùå Erreur copie {file_name}: {e}")
    
    print(f"‚úÖ {copied}/{len(fichiers_trouves)} fichiers copi√©s")
    return copied

def analyser_et_classer():
    """Phase 3: Analyse LLM et classification"""
    print(f"\nü§ñ PHASE 3: Analyse IA et classification...")
    print("-" * 50)
    
    # Mode LLM ou fallback
    use_llm = api_key != "votre_cl√©_api_openai_ici"
    print(f"Mode: {'üî• LLM' if use_llm else 'üîß Mots-cl√©s'}")
    
    fichiers_a_analyser = [f for f in os.listdir(CHEMIN_DEPOTS) 
                          if f.lower().endswith(('.ppt', '.pptx', '.pdf'))]
    
    analyses = []
    medicaux = 0
    
    for i, file_name in enumerate(fichiers_a_analyser, 1):
        titre = os.path.splitext(file_name)[0]
        print(f"[{i:2d}/{len(fichiers_a_analyser)}] {file_name[:60]}...")
        
        # Analyser
        if use_llm:
            resultat = analyser_titre_avec_llm(titre)
        else:
            resultat = detection_mots_cles_medicaux(titre)
        
        analyses.append({
            'fichier': file_name,
            'maladies_detectees': resultat['maladies_detectees'],
            'categorie_medicale': resultat['categorie_medicale'],
            'confiance': resultat['confiance'],
            'contient_maladie': resultat['contient_maladie']
        })
        
        # Classer le fichier
        ancien_chemin = os.path.join(CHEMIN_DEPOTS, file_name)
        
        if resultat["contient_maladie"]:
            # Dossier m√©dical
            categorie = resultat["categorie_medicale"]
            dossier_medical = os.path.join(CHEMIN_DEPOTS, f"MEDICAL_{categorie.upper()}")
            os.makedirs(dossier_medical, exist_ok=True)
            nouveau_chemin = os.path.join(dossier_medical, file_name)
            medicaux += 1
            print(f"     ‚Üí MEDICAL_{categorie.upper()}/ ({'|'.join(resultat['maladies_detectees'])})")
        else:
            # Dossier autres
            dossier_autres = os.path.join(CHEMIN_DEPOTS, "AUTRES")
            os.makedirs(dossier_autres, exist_ok=True)
            nouveau_chemin = os.path.join(dossier_autres, file_name)
            print(f"     ‚Üí AUTRES/")
        
        # D√©placer
        try:
            shutil.move(ancien_chemin, nouveau_chemin)
        except Exception as e:
            print(f"     ‚ùå Erreur d√©placement: {e}")
    
    print(f"\nüìä R√âSULTATS: {medicaux}/{len(analyses)} fichiers m√©dicaux class√©s")
    return analyses

def generer_rapport(analyses):
    """Phase 4: G√©n√©ration du rapport"""
    print(f"\nüìù PHASE 4: G√©n√©ration du rapport...")
    print("-" * 50)
    
    fichiers_medicaux = sum(1 for a in analyses if a['contient_maladie'])
    categories = {}
    for a in analyses:
        if a['contient_maladie']:
            cat = a['categorie_medicale']
            categories[cat] = categories.get(cat, 0) + 1
    
    rapport = f"""# üìä Rapport d'Analyse de Fichiers M√©dicaux (Script Simple)

**Date d'analyse :** {datetime.now().strftime("%d/%m/%Y √† %H:%M:%S")}  
**Dossier analys√© :** `{CHEMIN_DEPOTS}`
**M√©thode :** Script Python direct (sans LangGraph)

---

## üìà R√©sum√© Statistique

| M√©trique | Valeur |
|----------|--------|
| **Fichiers analys√©s** | {len(analyses)} |
| **Fichiers m√©dicaux** | {fichiers_medicaux} |
| **Fichiers non-m√©dicaux** | {len(analyses) - fichiers_medicaux} |
| **Cat√©gories d√©tect√©es** | {len(categories)} |

---

## üè• R√©partition par Sp√©cialit√©s

"""
    
    if categories:
        for cat, count in sorted(categories.items()):
            pct = (count / fichiers_medicaux * 100) if fichiers_medicaux > 0 else 0
            rapport += f"- **{cat.title()}** : {count} fichier(s) ({pct:.1f}%)\n"
    else:
        rapport += "Aucune cat√©gorie m√©dicale d√©tect√©e.\n"
    
    rapport += "\n---\n\n## üìã D√©tail par Fichier\n\n"
    
    for analyse in analyses:
        dossier = f"MEDICAL_{analyse['categorie_medicale'].upper()}" if analyse['contient_maladie'] else "AUTRES"
        rapport += f"""### üìÑ {analyse['fichier']}
- **Maladies :** {', '.join(analyse['maladies_detectees']) if analyse['maladies_detectees'] else 'Aucune'}
- **Cat√©gorie :** {analyse['categorie_medicale']}
- **Dossier :** `{dossier}/`

"""
    
    rapport += f"""---

## ‚öôÔ∏è Technologie

- **Script :** Python simple (90% moins de code que LangGraph)
- **LLM :** ChatOpenAI GPT-4o-mini 
- **Fallback :** D√©tection par mots-cl√©s
- **Performance :** {len(analyses)} fichiers trait√©s

---

*Rapport g√©n√©r√© par script Python simple - Preuve que LangGraph √©tait de la sur-ing√©nierie ! üòâ*
"""
    
    # Sauvegarder
    chemin_rapport = os.path.join(CHEMIN_DEPOTS, "RAPPORT_SIMPLE.md")
    with open(chemin_rapport, 'w', encoding='utf-8') as f:
        f.write(rapport)
    
    print(f"‚úÖ Rapport sauv√©: {chemin_rapport}")

def main():
    """Fonction principale - workflow simple"""
    print("üöÄ CLASSIFICATEUR M√âDICAL SIMPLE")
    print("=" * 60)
    print(f"Source: {CHEMIN_SOURCE}")
    print(f"Destination: {CHEMIN_DEPOTS}")
    print("=" * 60)
    
    # Workflow en 4 √©tapes simples
    fichiers = rechercher_fichiers()
    if not fichiers:
        print("‚ùå Aucun fichier trouv√© - Arr√™t")
        return
    
    copier_fichiers(fichiers)
    analyses = analyser_et_classer()
    generer_rapport(analyses)
    
    print("\n" + "üéâ" * 20)
    print("‚úÖ TERMIN√â - M√™me r√©sultat qu'avec LangGraph !")
    print("üí° 90% moins de code, m√™me performance")
    print("üéâ" * 20)

if __name__ == "__main__":
    main()

üöÄ CLASSIFICATEUR M√âDICAL SIMPLE
Source: C:\Users\kosmo\pycode\Iqvia_process\ProcessEx
Destination: C:\Users\kosmo\pycode\Iqvia_process\Depots
üîç PHASE 1: Recherche des fichiers...
--------------------------------------------------
üìÇ Analyse du dossier: AAA
  ‚úÖ 11 fichier(s) trouv√©(s)
üìÇ Analyse du dossier: ABBOTT DC
  ‚úÖ 56 fichier(s) trouv√©(s)
üìÇ Analyse du dossier: ABBOTT DIAG
  ‚úÖ 10 fichier(s) trouv√©(s)
üìÇ Analyse du dossier: ABBOTT France
  ‚úÖ 4 fichier(s) trouv√©(s)
üìÇ Analyse du dossier: ABBVIE
  ‚úÖ 142 fichier(s) trouv√©(s)
üìÇ Analyse du dossier: ABOCA
  ‚úÖ 5 fichier(s) trouv√©(s)
üìÇ Analyse du dossier: ACCORD HEALTHCARE
  ‚úÖ 3 fichier(s) trouv√©(s)
üìÇ Analyse du dossier: AIR LIQUIDE
  ‚úÖ 0 fichier(s) trouv√©(s)
üìÇ Analyse du dossier: ALCON
  ‚úÖ 7 fichier(s) trouv√©(s)

üìä TOTAL: 238 fichiers dans 9 dossiers
  ‚Ä¢ AAA: 11
  ‚Ä¢ ABBOTT DC: 56
  ‚Ä¢ ABBOTT DIAG: 10
  ‚Ä¢ ABBOTT France: 4
  ‚Ä¢ ABBVIE: 142
  ‚Ä¢ ABOCA: 5
  ‚Ä¢ ACCORD HEALTHC