



Ce notebook impl√©mente l'analyse s√©mantique avec un mod√®le de langage (LLM) pour organiser selon leur titre des documents .

#### Objectifs

- **Automatiser** la classification de documents m√©dicaux (PDF, PPT, PPTX)
- **Identifier** automatiquement les clients, bases de donn√©es et domaines m√©dicaux
- **Organiser** les fichiers en 4 cat√©gories principales : CLIENTS, BASES_DONNEES, MALADIES, AUTRES
- **G√©n√©rer** des rapports d√©taill√©s avec justifications s√©mantiques
- **Consolider** tous les fichiers pertinents dans un dossier global

#### Workflow du Processus

1. **Phase 1** : Recherche et filtrage des fichiers (extension, date, taille)
2. **Phase 2** : Copie vers le dossier de travail
3. **Phase 3** : Analyse s√©mantique avec LLM (GPT-4o-mini)
4. **Phase 4** : Classification et d√©placement dans les dossiers
5. **Phase 5** : Consolidation dans `results_global`
6. **Phase 6** : G√©n√©ration des rapports JSON et TXT
7. **Phase 7** : D√©p√¥t SharePoint (optionnel)


Le syst√®me utilise **GPT-4o-mini** pour :
- Comprendre le **contexte** les titres de documents
- D√©tecter les **clients pharmaceutiques** (ABBVIE, IQVIA, etc.)
- Identifier les **bases de donn√©es** (Xponent, MIDAS, etc.)
- Reconna√Ætre les **domaines m√©dicaux** (oncologie, diab√©tologie, etc.)
- Fournir une **justification** pour chaque classification

#### Avantages par rapport aux m√©thodes classiques

- **Flexibilit√©** : S'adapte automatiquement aux nouveaux termes
- **Contexte** : Comprend l'intention derri√®re les titres
- **Tra√ßabilit√©** : Justification de chaque d√©cision
- **Pr√©cision** : Classification multi-crit√®res intelligente

In [None]:
pip install  langchain-openai langchain-core

In [None]:
import io
from google.colab import files
uploaded = files.upload()

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [83]:
#!/usr/bin/env python3


# ================================
# üì¶ IMPORTS DES BIBLIOTH√àQUES
# ================================

import os
import shutil
import json
from datetime import datetime, timedelta
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate

print("‚úÖ Imports r√©alis√©s avec succ√®s")

# ================================
# üìÅ CONFIGURATION DES CHEMINS
# ================================

# Configuration des chemins
BASE_DIR = os.path.abspath(r"C:\Users\kosmo\pycode\Iqvia_process")
CHEMIN_SOURCE = os.path.join(BASE_DIR, "ProcessEx")
CHEMIN_DEPOTS = os.path.join(BASE_DIR, "Depots")

print(f"üìÅ Dossier source: {CHEMIN_SOURCE}")
print(f"üìÅ Dossier d√©p√¥t: {CHEMIN_DEPOTS}")
print(f"‚úÖ Chemins configur√©s")

# ================================
# üìÑ LECTURE DU FICHIER PROMPT
# ================================

try:
    with open(
        os.path.join(BASE_DIR, "ProcessEx", "Prompt_depot_json_sharepoint.txt"),
        "r",
        encoding="utf-8",
    ) as file:
        prompt = file.read()
    print(f"‚úÖ Fichier prompt lu avec succ√®s, taille: {len(prompt)} caract√®res")
except FileNotFoundError:
    print("‚ùå Fichier Prompt_depot_json_sharepoint.txt non trouv√©")
    prompt = ""
except Exception as e:
    print(f"‚ùå Erreur lors de la lecture du fichier: {e}")
    prompt = ""

# ================================
# üß† INITIALISATION DU LLM
# ================================

# R√©cup√©ration de la cl√© API
api_key = os.getenv('OPENAI_API_KEY')
if not api_key:
   print("‚ö†Ô∏è ATTENTION: Cl√© API non trouv√©e dans les variables d'environnement")
   api_key = " 0yCT3BlbkFJ6nuNH0hRFwAy9HhFfHS_cUMhXQMX6_U0pycw_XiZUUtZ4V6Gc5xEwhMZOsYA6xKN4HruNnPRcA"  # √Ä remplacer par votre vraie cl√©

# Initialiser le LLM
api_key = os.getenv('OPENAI_API_KEY')
if not api_key:
    print("‚ö†Ô∏è ATTENTION: Utilisez une variable d'environnement  ")
    api_key = " eoK0yCT3BlbkFJ6nuNH0hRFwAy9HhFfHS_cUMhXQMX6_U0pycw_XiZUUtZ4V6Gc5xEwhMZOsYA6xKN4HruNnPRcA"

llm = ChatOpenAI(
    model="gpt-4o-mini",
    temperature=0,
    api_key=api_key
)

‚úÖ Imports r√©alis√©s avec succ√®s
üìÅ Dossier source: C:\Users\kosmo\pycode\Iqvia_process\ProcessEx
üìÅ Dossier d√©p√¥t: C:\Users\kosmo\pycode\Iqvia_process\Depots
‚úÖ Chemins configur√©s
‚úÖ Fichier prompt lu avec succ√®s, taille: 3008 caract√®res




#### Descriptif des fonctions par phases

##### PHASE EXTRACTION (Phases 1-2)

| Fonction | Description | Phase d√©taill√©e |
|----------|-------------|-----------------|
| `rechercher_fichiers_filtres()` | Recherche et filtre les fichiers par extension, date, taille | Phase 1 |
| `copier_fichiers()` | Copie les fichiers vers le dossier de travail | Phase 2 |

##### PHASE ANALYSE S√âMANTIQUE (Core + Phase 3)

| Fonction | Description | Phase d√©taill√©e |
|----------|-------------|-----------------|
| `analyser_titre_avec_llm_semantique()` | Analyse s√©mantique d'un titre avec GPT-4o-mini | Core |
| `analyser_et_classer_semantique()` | Classification automatique avec LLM | Phase 3 |

##### PHASE RAPPORT (Phases 4-7)

| Fonction | Description | Phase d√©taill√©e |
|----------|-------------|-----------------|
| `creer_dossiers_et_deplacer()` | Cr√©ation des dossiers et d√©placement des fichiers | Phase 4 |
| `consolider_resultats_globaux()` | Consolidation dans le dossier `results_global` | Phase 5 |
| `generer_rapport_final()` | G√©n√©ration des rapports JSON et TXT | Phase 6 |
| `deposer_vers_sharepoint()` | D√©p√¥t des fichiers vers SharePoint (optionnel) | Phase 7 |

---
 Fonction Cl√© : `analyser_titre_avec_llm_semantique()`
 
- **Input** : Titre de document (string)
- **Output** : Dictionnaire avec classification, clients d√©tect√©s, domaines m√©dicaux, justification

#### Flux global du processus
```
EXTRACTION ‚Üí ANALYSE S√âMANTIQUE ‚Üí RAPPORT
   ‚Üì              ‚Üì                 ‚Üì
Phase 1-2      Core + Phase 3    Phase 4-7
```



In [84]:
# D√©finition des filtres
DATE_LIMITE = datetime.now() - timedelta(days=365)  # Fichiers de moins d'un an
TAILLE_CLASSIFICATION = (
        2000 * 1024
)  # MODIFIEZ CETTE VALEUR pour changer la taille minimum


In [85]:
def rechercher_fichiers_filtres():
    """Phase 1: Recherche et filtre les fichiers par extension, date et taille"""
    print("üîç PHASE 1: Recherche et filtrage des fichiers...")
    print("-" * 50)

    if not os.path.exists(CHEMIN_SOURCE):
        print(f"‚ùå Erreur: {CHEMIN_SOURCE} n'existe pas")
        return []

    
    print(
        f"üìÖ Filtre date: fichiers modifi√©s apr√®s le {DATE_LIMITE.strftime('%d/%m/%Y')}"
    )
    print(f"üìè Filtre taille: minimum {TAILLE_CLASSIFICATION//1024} KB")
    print(f"üìÅ Seuls les fichiers > {TAILLE_CLASSIFICATION//1024} KB sont retenus")
    print()

    fichiers_trouves = []
    dossiers_stats = {}
    stats_filtrage = {
        "total_examines": 0,
        "rejetes_extension": 0,
        "rejetes_taille": 0,
        "rejetes_date": 0,
        "rejetes_acces": 0,
        "acceptes": 0,
    }

    for item in os.listdir(CHEMIN_SOURCE):
        item_path = os.path.join(CHEMIN_SOURCE, item)
        if os.path.isdir(item_path):
            print(f"üìÇ Analyse du dossier: {item}")
            count_dossier = 0

            for root, dirs, files in os.walk(item_path):
                for file in files:
                    file_path = os.path.join(root, file)
                    stats_filtrage["total_examines"] += 1

                    # V√©rification de l'extension
                    if not file.lower().endswith((".ppt", ".pptx", ".pdf")):
                        stats_filtrage["rejetes_extension"] += 1
                        continue

                    try:
                        # R√©cup√©ration des m√©tadonn√©es
                        taille = os.path.getsize(file_path)
                        date_mod = datetime.fromtimestamp(os.path.getmtime(file_path))

                        # Filtrage par taille - SEUL FILTRE DE TAILLE
                        if taille < TAILLE_CLASSIFICATION:
                            stats_filtrage["rejetes_taille"] += 1
                            continue

                        # Filtrage par date
                        if date_mod < DATE_LIMITE:
                            stats_filtrage["rejetes_date"] += 1
                            continue

                        # Fichier accept√©
                        fichier_info = {
                            "chemin": file_path,
                            "nom": file,
                            "taille": taille,
                            "date_modification": date_mod,
                            "taille_mb": round(taille / (1024 * 1024), 2),
                            "taille_kb": round(taille / 1024, 1),
                            "age_jours": (datetime.now() - date_mod).days,
                            "classification_semantique": True,  # Tous les fichiers retenus sont > TAILLE_CLASSIFICATION
                        }

                        fichiers_trouves.append(fichier_info)
                        count_dossier += 1
                        stats_filtrage["acceptes"] += 1

                    except (OSError, PermissionError) as e:
                        stats_filtrage["rejetes_acces"] += 1
                        print(
                            f"   ‚ö†Ô∏è Ignor√© (acc√®s refus√©): {os.path.basename(file_path)}"
                        )

            dossiers_stats[item] = count_dossier
            print(f"   ‚úÖ {count_dossier} fichier(s) retenu(s) apr√®s filtrage")

    # Affichage des statistiques d√©taill√©es
    print(f"\nüìä STATISTIQUES DE FILTRAGE:")
    print(f"   ‚Ä¢ Fichiers examin√©s: {stats_filtrage['total_examines']}")
    print(f"   ‚Ä¢ ‚ùå Rejet√©s - extension: {stats_filtrage['rejetes_extension']}")
    print(f"   ‚Ä¢ ‚ùå Rejet√©s - taille: {stats_filtrage['rejetes_taille']}")
    print(f"   ‚Ä¢ ‚ùå Rejet√©s - date: {stats_filtrage['rejetes_date']}")
    print(f"   ‚Ä¢ ‚ùå Rejet√©s - acc√®s: {stats_filtrage['rejetes_acces']}")
    print(f"   ‚Ä¢ ‚úÖ RETENUS: {stats_filtrage['acceptes']}")

    print(f"\nüìÅ R√âPARTITION PAR DOSSIER:")
    for dossier, count in dossiers_stats.items():
        print(f"   ‚Ä¢ {dossier}: {count} fichier(s)")

    return fichiers_trouves

In [None]:
fichiers_info = rechercher_fichiers_filtres()

### Fonction `copier_fichiers`

#### Description
Copie une liste de fichiers vers le dossier `Depots` avec affichage des informations de progression.

1. **Cr√©ation du dossier** : Cr√©e le dossier `CHEMIN_DEPOTS` s'il n'existe pas
2. **Copie des fichiers** : It√®re sur chaque fichier et le copie vers la destination
3. **Gestion d'erreurs** : Affiche les erreurs de copie sans interrompre le processus
4. **Statistiques** : Affiche le nombre de fichiers copi√©s et la taille totale



In [87]:
def copier_fichiers(fichiers_info):
    """Phase 2: Copie vers Depots avec informations enrichies"""
    print(f"\nüìã PHASE 2: Copie vers {CHEMIN_DEPOTS}...")
    print("-" * 50)

    # Cr√©er le dossier Depots
    os.makedirs(CHEMIN_DEPOTS, exist_ok=True)
    print(f"‚úÖ Dossier Depots pr√™t")

    copied = 0
    taille_totale = 0

    for fichier_info in fichiers_info:
        file_path = fichier_info["chemin"]
        file_name = fichier_info["nom"]
        destination = os.path.join(CHEMIN_DEPOTS, file_name)

        try:
            shutil.copy(file_path, destination)
            copied += 1
            taille_totale += fichier_info["taille"]
        except Exception as e:
            print(f"‚ùå Erreur copie {file_name}: {e}")

    print(f"‚úÖ {copied}/{len(fichiers_info)} fichiers copi√©s")
    print(f"üì¶ Taille totale copi√©e: {taille_totale/(1024*1024):.1f} MB")
    return copied

In [None]:
copied = copier_fichiers(fichiers_info)

### Fonction `analyser_titre_avec_llm_semantique`

#### Description
Analyse le titre d'un document avec un LLM pour extraire automatiquement les informations m√©tier (client, maladie, base de donn√©es, type de document).

 
#### Valeur de retour
Dictionnaire contenant :
- `contexte_principal` : "Data" ou "autre"
- `domaine_medical` : Domaine m√©dical d√©tect√© ou "null"
- `type_document` : Type de document (suivi, rapport, √©tude, etc.)
- `clients_detectes` : Nom du client principal ou "null"
- `bases_detectees` : Base de donn√©es d√©tect√©e ou "null"
- `contient_maladie` : Boolean
- `confiance` : "haute", "moyenne" ou "faible"
- `score_semantique` : Score de 0.1 √† 0.95
- `categorie_medicale` : Cat√©gorie pour le classement

#### Fonctionnement

1. **V√©rification LLM** : V√©rifie si le LLM est disponible
2. **Analyse s√©mantique** : Envoie un prompt d√©taill√© au LLM pour analyser le contexte
3. **Classification** : D√©termine la cat√©gorie selon la priorit√© :
   - `domaine_medical` si maladie d√©tect√©e
   - `base_donnees` si base d√©tect√©e  
   - `client` si client d√©tect√©
   - `autres` sinon
4. **Calcul du score** : √âvalue la qualit√© de l'analyse

 

In [None]:
import json
import os
import sys  # Ajout de la biblioth√®que sys
from datetime import datetime, timedelta

def analyser_titre_avec_llm_semantique(titre: str) -> dict:

        """Analyse s√©mantique avanc√©e avec LLM - prompt enrichi"""
        if not llm:
            print(f"‚ùå LLM non disponible, impossible d'analyser '{titre[:30]}...'")
            return {
                "contient_maladie": False,
                "maladies_detectees": [],
                "categorie_medicale": "autres",
                "contexte_principal": "autre",
                "clients_detectes": [],
                "bases_detectees": [],
                "confiance": "faible",
                "titre_normalise": titre,
                "score_semantique": 0.1,
            }

        try:
            analysis_prompt_template = ChatPromptTemplate.from_messages(
                [
                    (
                        "system",
                        """Tu es un expert en analyse s√©mantique m√©dicale et business pharmaceutique.
                Ton r√¥le est de comprendre le CONTEXTE et l'INTENTION derri√®re chaque titre, pas seulement chercher des mots-cl√©s.


                """,
                    ),
                    (
                        "human",
                        prompt,
                    ),
                ]
            )
            
            prompt_value = analysis_prompt_template.invoke({"titre": titre})
            response = llm.invoke(prompt_value.to_messages())
            content = response.content.strip()

            # Nettoyer le JSON
            if "```json" in content:
                content = content.split("```json")[1].split("```")[0]
            elif "```" in content:
                content = content.split("```")[1].split("```")[0]

            resultat = json.loads(content.strip())
            print(f"üîç DEBUG resultat: {resultat}")

            # Validation et enrichissement
            if "categorie_medicale" not in resultat:
                resultat["categorie_medicale"] = "autres"  # Fallback par d√©faut

            # NOUVELLE logique simplifi√©e pour 4 dossiers - ORDRE CORRIG√â
            if (
                resultat.get("domaine_medical")
                and resultat.get("domaine_medical") != "null"
            ):
                resultat["categorie_medicale"] = "domaine_medical"
            elif (
                resultat.get("bases_detectees")
                and resultat.get("bases_detectees") != "null"
            ):
                resultat["categorie_medicale"] = "base_donnees"
            elif resultat.get("clients_detectes") and resultat.get(
                "clients_detectes"
            ) not in ["null", "aucun"]:
                resultat["categorie_medicale"] = "client"
            else:
                resultat["categorie_medicale"] = "autres"

            # Calculer score s√©mantique si absent
            if "score_semantique" not in resultat or not isinstance(
                resultat["score_semantique"], (int, float)
            ):
                contexte = resultat.get("contexte_principal", "autre")
                domaine = resultat.get("domaine_medical", "aucun")

                score = 0.3  # Base
                if contexte != "autre":
                    score += 0.2
                if domaine != "aucun":
                    score += 0.2
                if len(resultat.get("maladies_detectees", [])) > 0:
                    score += 0.2
                if resultat.get("confiance") == "haute":
                    score += 0.1

                resultat["score_semantique"] = min(0.95, score)

            return resultat

        except Exception as e:
            print(f"‚ùå Erreur LLM s√©mantique pour '{titre[:30]}...': {e}")
            return {
                "contient_maladie": False,
                "maladies_detectees": [],
                "categorie_medicale": "autres",
                "contexte_principal": "autre",
                "clients_detectes": [],
                "bases_detectees": [],
                "confiance": "faible",
                "titre_normalise": titre,
                "score_semantique": 0.1,
            }

### Fonction `analyser_et_classer_semantique`

#### Description
Analyse et classe automatiquement les documents selon leur taille : analyse s√©mantique LLM pour les gros fichiers (> 2MB), classement automatique dans "AUTRES" pour les petits fichiers.

 

In [90]:
def analyser_et_classer_semantique():
    """Phase 3: Analyse s√©mantique et classification (sans filtrage redondant)"""
    print(f"\nüß† PHASE 3: Analyse s√©mantique et classification...")
    print("-" * 50)

    # Mode LLM ou fallback
    use_llm = llm is not None
    print(f"Mode: {'üî• LLM S√©mantique' if use_llm else 'üîß Mots-cl√©s enrichis'}")

    fichiers_a_analyser = [
        f
        for f in os.listdir(CHEMIN_DEPOTS)
        if f.lower().endswith((".ppt", ".pptx", ".pdf"))
    ]

    analyses = []
    medicaux = 0
    contextes_stats = {}

    print(f"üìä Fichiers √† analyser: {len(fichiers_a_analyser)}")
    print()

    for i, file_name in enumerate(fichiers_a_analyser, 1):
        titre = os.path.splitext(file_name)[0]

        # R√©cup√©rer la taille pour affichage (optionnel)
        try:
            file_path = os.path.join(CHEMIN_DEPOTS, file_name)
            taille = os.path.getsize(file_path)
            taille_mb = round(taille / (1024 * 1024), 2)
            taille_kb = round(taille / 1024, 1)
            taille_str = f"{taille_kb} KB" if taille_mb < 1 else f"{taille_mb} MB"
        except:
            taille_str = "Taille inconnue"
            taille_mb = 0

        print(f"[{i:2d}/{len(fichiers_a_analyser)}] {file_name[:40]}... ({taille_str})")

        # Classification s√©mantique directe (plus de filtrage)
        analyse = analyser_titre_avec_llm_semantique(titre)

        # Enrichir avec m√©tadonn√©es
        analyse["nom_fichier"] = file_name
        analyse["taille_mb"] = taille_mb

        # Compter et afficher r√©sultats
        if analyse.get("contient_maladie", False):
            medicaux += 1

        contexte = analyse.get("contexte_principal", "autre")
        contextes_stats[contexte] = contextes_stats.get(contexte, 0) + 1

        # Affichage du r√©sultat
        categorie = analyse.get("categorie_medicale", "aucune")
        print(f"üîç DEBUG !!!!!!!!!!!!!!!!!!!!! categorie: {categorie}")

        confiance = analyse.get("confiance", "inconnue")
        score = analyse.get("score_semantique", 0)

        if analyse.get("clients_detectes"):
            client_info = f" [Client: {', '.join(analyse['clients_detectes'])}]"
        elif analyse.get("bases_detectees"):
            client_info = f" [Base: {', '.join(analyse['bases_detectees'])}]"
        else:
            client_info = ""

        print(
            f"   üéØ {categorie.upper()} ({confiance}, score:{score:.2f}){client_info}"
        )

        if analyse.get("maladies_detectees"):
            print(f"   üè• Termes: {', '.join(analyse['maladies_detectees'])}")

        analyses.append(analyse)

    print(f"\nüìä R√âSULTATS DE CLASSIFICATION:")
    print(f"   ‚Ä¢ Fichiers analys√©s: {len(analyses)}")
    print(f"   ‚Ä¢ Fichiers m√©dicaux d√©tect√©s: {medicaux}")
    print(
        f"   ‚Ä¢ Score s√©mantique moyen: {sum(a.get('score_semantique', 0) for a in analyses) / len(analyses):.2f}"
    )

    print(f"\nüìà R√âPARTITION PAR CONTEXTE:")
    for contexte, count in sorted(contextes_stats.items()):
        pct = (count / len(analyses) * 100) if analyses else 0
        print(f"   ‚Ä¢ {contexte}: {count} fichiers ({pct:.1f}%)")

    return analyses

In [None]:
analyses = analyser_et_classer_semantique()

### Fonction `creer_dossiers_et_deplacer`

#### Description
Cr√©e les dossiers de classification et d√©place les fichiers analys√©s dans les bonnes cat√©gories selon leur analyse s√©mantique.



In [92]:
def creer_dossiers_et_deplacer(analyses):
    """Phase 4: Cr√©ation des dossiers de classification et d√©placement"""
    print(f"\nüìÅ PHASE 4: Cr√©ation dossiers et d√©placement...")
    print("-" * 50)

    # Mapping simplifi√© pour 4 dossiers
    mapping_dossiers = {
        "client": "CLIENTS",
        "base_donnees": "BASES_DONNEES",
        "domaine_medical": "MALADIES",  # ‚Üê MAINTENANT √áA MARCHE !
        "autres": "AUTRES",
    }

    # Cr√©er tous les dossiers n√©cessaires
    dossiers_crees = set()
    for categorie in mapping_dossiers.values():
        dossier_path = os.path.join(CHEMIN_DEPOTS, categorie)
        os.makedirs(dossier_path, exist_ok=True)
        dossiers_crees.add(categorie)

    print(f"‚úÖ {len(dossiers_crees)} dossiers de classification cr√©√©s")

    # D√©placer les fichiers
    stats_deplacement = {}
    erreurs_deplacement = []

    for analyse in analyses:
        file_name = analyse["nom_fichier"]
        categorie = analyse.get("categorie_medicale", "autres")
        dossier_cible = mapping_dossiers.get(categorie, "AUTRES")

        source_path = os.path.join(CHEMIN_DEPOTS, file_name)
        destination_path = os.path.join(CHEMIN_DEPOTS, dossier_cible, file_name)

        try:
            if os.path.exists(source_path):
                # G√©rer les doublons
                if os.path.exists(destination_path):
                    base, ext = os.path.splitext(file_name)
                    counter = 1
                    while os.path.exists(destination_path):
                        new_name = f"{base}_({counter}){ext}"
                        destination_path = os.path.join(
                            CHEMIN_DEPOTS, dossier_cible, new_name
                        )
                        counter += 1

                shutil.move(source_path, destination_path)
                stats_deplacement[dossier_cible] = (
                    stats_deplacement.get(dossier_cible, 0) + 1
                )

        except Exception as e:
            erreurs_deplacement.append(f"{file_name}: {str(e)}")
            print(f"‚ùå Erreur d√©placement {file_name}: {e}")

    print(f"\nüìä R√âSULTATS DE D√âPLACEMENT:")
    total_deplaces = sum(stats_deplacement.values())
    for dossier, count in sorted(stats_deplacement.items()):
        pct = (count / total_deplaces * 100) if total_deplaces > 0 else 0
        print(f"   ‚Ä¢ {dossier}: {count} fichiers ({pct:.1f}%)")

    if erreurs_deplacement:
        print(f"\n‚ùå ERREURS DE D√âPLACEMENT ({len(erreurs_deplacement)}):")
        for erreur in erreurs_deplacement[:5]:  # Limiter √† 5 erreurs
            print(f"   ‚Ä¢ {erreur}")
        if len(erreurs_deplacement) > 5:
            print(f"   ‚Ä¢ ... et {len(erreurs_deplacement) - 5} autres erreurs")

    return stats_deplacement

In [None]:
stats_deplacement = creer_dossiers_et_deplacer(analyses)

### Fonction `consolider_resultats_globaux`

#### Description
Copie tous les fichiers class√©s des diff√©rents dossiers vers un dossier unique `results_global` pour faciliter l'acc√®s et la consultation.



In [94]:
def consolider_resultats_globaux():
    """Phase 6: Consolidation de tous les fichiers class√©s dans un dossier global"""
    print(f"\nüìÅ PHASE 6: Consolidation dans results_global...")
    print("-" * 50)

    # Cr√©er le dossier results_global
    results_path = os.path.join(CHEMIN_DEPOTS, "results_global")
    os.makedirs(results_path, exist_ok=True)

    # Liste des dossiers √† consolider (tous sauf results_global)
    dossiers_a_consolider = [
        "CLIENTS",
        "BASES_DONNEES",
        "MALADIES",  # ‚Üê 3 dossiers seulement
    ]

    fichiers_copies = 0
    erreurs_copie = []

    for dossier in dossiers_a_consolider:
        dossier_path = os.path.join(CHEMIN_DEPOTS, dossier)

        if os.path.exists(dossier_path):
            print(f"üìÇ Consolidation de {dossier}...")

            for file_name in os.listdir(dossier_path):
                if file_name.lower().endswith((".ppt", ".pptx", ".pdf")):
                    source = os.path.join(dossier_path, file_name)
                    destination = os.path.join(results_path, file_name)

                    try:
                        # G√©rer les doublons avec pr√©fixe du dossier source
                        if os.path.exists(destination):
                            name, ext = os.path.splitext(file_name)
                            new_name = f"{dossier}_{name}{ext}"
                            destination = os.path.join(results_path, new_name)

                        shutil.copy2(
                            source, destination
                        )  # copy2 pr√©serve les m√©tadonn√©es
                        fichiers_copies += 1

                    except Exception as e:
                        erreurs_copie.append(f"{dossier}/{file_name}: {str(e)}")

    print(f"\n‚úÖ Consolidation termin√©e:")
    print(f"   ‚Ä¢ {fichiers_copies} fichiers copi√©s dans {results_path}")
    print(
        f"   ‚Ä¢ {len(erreurs_copie)} erreurs" if erreurs_copie else "   ‚Ä¢ Aucune erreur"
    )

    if erreurs_copie:
        print(f"\n‚ùå ERREURS DE COPIE:")
        for erreur in erreurs_copie[:3]:
            print(f"   ‚Ä¢ {erreur}")
        if len(erreurs_copie) > 3:
            print(f"   ‚Ä¢ ... et {len(erreurs_copie) - 3} autres erreurs")

    return fichiers_copies

In [None]:
fichiers_consolides = consolider_resultats_globaux()

### Fonction `generer_rapport_final`

#### Description
G√©n√®re un rapport d√©taill√© de l'ensemble du processus de classification sous deux formats : JSON (donn√©es structur√©es) et TXT (rapport lisible).



In [96]:
def generer_rapport_final(analyses, stats_deplacement):
    """Phase 5: G√©n√©ration du rapport final d√©taill√©"""
    print(f"\nüìã PHASE 5: G√©n√©ration du rapport final...")
    print("-" * 50)

    TAILLE_CLASSIFICATION_MB = 2700 / 1024  # Convertir 1000 KB en MB = 0.98 MB

    # Cr√©er le rapport JSON d√©taill√©
    rapport = {
        "metadata": {
            "date_execution": datetime.now().isoformat(),
            "version_script": "2.0",
            "mode_llm": llm is not None,
            "total_fichiers": len(analyses),
        },
        "statistiques_globales": {
            "fichiers_medicaux": sum(
                1 for a in analyses if a.get("contient_maladie", False)
            ),
            "fichiers_clients": sum(1 for a in analyses if a.get("clients_detectes")),
            "fichiers_bases_donnees": sum(
                1 for a in analyses if a.get("bases_detectees")
            ),
            "score_semantique_moyen": (
                round(
                    sum(a.get("score_semantique", 0) for a in analyses) / len(analyses),
                    3,
                )
                if analyses
                else 0
            ),
        },
        "repartition_dossiers": stats_deplacement,
        "analyses_detaillees": [
            a for a in analyses if a.get("taille_mb", 0) >= TAILLE_CLASSIFICATION_MB
        ],
    }

    # Sauvegarder le rapport JSON
    rapport_path = os.path.join(CHEMIN_DEPOTS, "rapport_classification.json")
    try:
        with open(rapport_path, "w", encoding="utf-8") as f:
            json.dump(rapport, f, indent=2, ensure_ascii=False, default=str)
        print(f"‚úÖ Rapport JSON sauvegard√©: {rapport_path}")
    except Exception as e:
        print(f"‚ùå Erreur sauvegarde rapport: {e}")

    # G√©n√©rer rapport texte lisible
    rapport_txt_path = os.path.join(CHEMIN_DEPOTS, "rapport_classification.txt")
    try:
        with open(rapport_txt_path, "w", encoding="utf-8") as f:
            f.write("=" * 80 + "\n")
            f.write("RAPPORT DE CLASSIFICATION M√âDICALE AUTOMATIQUE\n")
            f.write("=" * 80 + "\n\n")

            f.write(
                f"üìÖ Date d'ex√©cution: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}\n"
            )
            f.write(f"üîß Mode: {'LLM S√©mantique' if llm else 'Mots-cl√©s enrichis'}\n")
            f.write(f"üìÅ Dossier source: {CHEMIN_SOURCE}\n")
            f.write(f"üìÅ Dossier d√©p√¥t: {CHEMIN_DEPOTS}\n\n")

            f.write("üìä STATISTIQUES GLOBALES\n")
            f.write("-" * 40 + "\n")
            f.write(f"Total fichiers trait√©s: {len(analyses)}\n")
            f.write(
                f"Fichiers m√©dicaux: {rapport['statistiques_globales']['fichiers_medicaux']}\n"
            )
            f.write(
                f"Fichiers clients: {rapport['statistiques_globales']['fichiers_clients']}\n"
            )
            f.write(
                f"Fichiers bases donn√©es: {rapport['statistiques_globales']['fichiers_bases_donnees']}\n"
            )
            f.write(
                f"Score s√©mantique moyen: {rapport['statistiques_globales']['score_semantique_moyen']}\n\n"
            )

            f.write("üìÅ R√âPARTITION PAR DOSSIERS\n")
            f.write("-" * 40 + "\n")
            for dossier, count in sorted(stats_deplacement.items()):
                pct = (count / len(analyses) * 100) if analyses else 0
                f.write(f"{dossier}: {count} fichiers ({pct:.1f}%)\n")

            # Comptage du dossier results_global
            results_global_path = os.path.join(CHEMIN_DEPOTS, "results_global")
            if os.path.exists(results_global_path):
                fichiers_consolides = len(
                    [
                        f
                        for f in os.listdir(results_global_path)
                        if f.lower().endswith((".ppt", ".pptx", ".pdf"))
                    ]
                )
                f.write(f"\nüìÇ CONSOLIDATION GLOBALE\n")
                f.write("-" * 40 + "\n")
                f.write(f"RESULTS_GLOBAL: {fichiers_consolides} fichiers consolid√©s\n")

        print(f"‚úÖ Rapport texte sauvegard√©: {rapport_txt_path}")
    except Exception as e:
        print(f"‚ùå Erreur sauvegarde rapport texte: {e}")

    return rapport

In [None]:
rapport = generer_rapport_final(analyses, stats_deplacement)

In [None]:
########################################################################################################

In [None]:
#def deposer_vers_sharepoint():
    """Phase 7: D√©p√¥t du dossier results_global vers SharePoint"""
    print(f"\n‚òÅÔ∏è PHASE 7: D√©p√¥t vers SharePoint...")
    print("-" * 50)

    try:
        from office365.runtime.auth.authentication_context import AuthenticationContext
        from office365.sharepoint.client_context import ClientContext
        import requests

        # Configuration SharePoint (√† adapter selon vos param√®tres)
        SHAREPOINT_URL = "https://votreentreprise.sharepoint.com/sites/votre-site"
        SHAREPOINT_USERNAME = os.getenv("SHAREPOINT_USERNAME")
        SHAREPOINT_PASSWORD = os.getenv("SHAREPOINT_PASSWORD")
        SHAREPOINT_LIBRARY = (
            "Documents Partag√©s/Classification_Medicale"  # Dossier de destination
        )

        # V√©rifier les param√®tres
        if not all([SHAREPOINT_USERNAME, SHAREPOINT_PASSWORD]):
            print("‚ùå Erreur: Variables d'environnement SharePoint manquantes")
            print("   D√©finissez SHAREPOINT_USERNAME et SHAREPOINT_PASSWORD")
            return False

        # Chemin du dossier local √† uploader
        results_path = os.path.join(CHEMIN_DEPOTS, "results_global")
        if not os.path.exists(results_path):
            print(f"‚ùå Erreur: Dossier {results_path} n'existe pas")
            return False

        # Authentification SharePoint
        print("üîê Authentification SharePoint...")
        auth_context = AuthenticationContext(url=SHAREPOINT_URL)
        auth_context.acquire_token_for_user(
            username=SHAREPOINT_USERNAME, password=SHAREPOINT_PASSWORD
        )

        ctx = ClientContext(SHAREPOINT_URL, auth_context)
        web = ctx.web
        ctx.load(web)
        ctx.execute_query()

        print(f"‚úÖ Connect√© √† SharePoint: {web.properties['Title']}")

        # Cr√©er le dossier de destination si n√©cessaire
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        destination_folder = f"{SHAREPOINT_LIBRARY}/Classification_{timestamp}"

        # Upload des fichiers
        fichiers_uploades = 0
        erreurs_upload = []

        print(f"üìÇ Upload vers: {destination_folder}")

        for file_name in os.listdir(results_path):
            if file_name.lower().endswith((".ppt", ".pptx", ".pdf")):
                file_path = os.path.join(results_path, file_name)

                try:
                    with open(file_path, "rb") as file_content:
                        # Upload du fichier
                        target_folder = ctx.web.get_folder_by_server_relative_url(
                            destination_folder
                        )
                        target_folder.upload_file(file_name, file_content.read())
                        ctx.execute_query()

                        fichiers_uploades += 1
                        print(f"   ‚úÖ {file_name}")

                except Exception as e:
                    erreurs_upload.append(f"{file_name}: {str(e)}")
                    print(f"   ‚ùå {file_name}: {e}")

        print(f"\nüìä R√âSULTATS UPLOAD SHAREPOINT:")
        print(f"   ‚Ä¢ {fichiers_uploades} fichiers upload√©s")
        print(f"   ‚Ä¢ {len(erreurs_upload)} erreurs")
        print(f"   ‚Ä¢ Destination: {destination_folder}")

        if erreurs_upload:
            print(f"\n‚ùå ERREURS D'UPLOAD:")
            for erreur in erreurs_upload[:3]:
                print(f"   ‚Ä¢ {erreur}")
            if len(erreurs_upload) > 3:
                print(f"   ‚Ä¢ ... et {len(erreurs_upload) - 3} autres erreurs")

        return fichiers_uploades > 0

    except ImportError:
        print("‚ùå Erreur: Biblioth√®que Office365 manquante")
        print("   Installez avec: pip install Office365-REST-Python-Client")
        return False

    except Exception as e:
        print(f"‚ùå Erreur SharePoint: {e}")
        return False