In [None]:
import os
import pdfplumber
import re
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langgraph.graph import StateGraph, END
from typing import TypedDict, Optional

# Configuration
BASE_DIR = os.path.abspath(r"C:\Users\kosmo\pycode\MCP_Virginie")

# Initialiser le LLM
api_key = os.getenv('OPENAI_API_KEY')
if not api_key:
    print("‚ö†Ô∏è ATTENTION: Utilisez une variable d'environnement pour la cl√© API en production")
    api_key = "sk-proj-0xUZ6aBpi14QWLtzQC2nF0B2gQTojxukve0byW1qgx05yCT3BlbkFJ NH0hRFwAy9HhFfHS_cUMhXQMX6_U0pycw_XiZUUtZ4V6Gc5xEwhMZOsYA6xKN4HruNnPRcA"

llm = ChatOpenAI(
    model="gpt-4o-mini",
    temperature=0,
    api_key=api_key
)

# ===== STATE DEFINITION =====

class PDFAnalysisState(TypedDict):
    pdf_filename: str
    start_page: Optional[int]
    end_page: Optional[int]
    extracted_text: Optional[str]
    extracted_file_path: Optional[str]
    analysis_result: Optional[str]
    error: Optional[str]

# ===== EXTRACTION FUNCTIONS =====

def post_process_text(text):
    """Fonction pour nettoyer et reformater le texte extrait."""
    # Corriger "A\nrticle" en "Article"
    text = re.sub(r'A\s*\n\s*rticle\s+(\d+)', r'Article \1', text)
    
    # Corriger "E\nn cas" en "En cas"
    text = re.sub(r'E\s*\n\s*n cas', r'En cas', text)
    
    # Corriger les sauts de lignes intempestifs dans le texte courant
    text = re.sub(r'(\w)\s*\n\s*(\w)', lambda m: f"{m.group(1)} {m.group(2)}" if not (m.group(2).lower() == 'les' or m.group(1) == '-') else f"{m.group(1)}\n{m.group(2)}", text)
    
    return text

def format_articles(text):
    """Am√©liore le formatage des articles pour respecter la mise en page d√©sir√©e"""
    # Mettre "Article XX" sur une ligne s√©par√©e et ajouter un saut de ligne apr√®s
    text = re.sub(r'\b(Article\s+\d+)\s+', r'\n\1\n\n', text)
    
    # Assurer que "Direction de" commence toujours sur une nouvelle ligne
    text = re.sub(r'([^\n])(Direction de)', r'\1\n\n\2', text)
    
    # Assurer que chaque √©l√©ment commen√ßant par un tiret est sur une nouvelle ligne
    text = re.sub(r'([^\n])\s*(-\s+)', r'\1\n\2', text)
    
    # Assurer que "dans la limite de ses attributions et fonctions :" est sur sa propre ligne
    text = re.sub(r'(dans la limite de ses attributions et fonctions\s*:)', r'\n\1\n', text)
    
    # S'assurer que le texte apr√®s un tiret soit bien s√©par√© de la Direction qui suit
    text = re.sub(r'(aff√©rents\.)\s*(Direction)', r'\1\n\n\2', text)
    text = re.sub(r'(comptes\.)\s*(Direction)', r'\1\n\n\2', text)
    
    # S'assurer que "Bulletin officiel" est au d√©but d'une ligne
    text = re.sub(r'([^\n])(Bulletin officiel)', r'\1\n\2', text)
    
    # Nettoyer les lignes vides multiples (pas plus de 2 cons√©cutives)
    text = re.sub(r'\n{3,}', r'\n\n', text)
    
    return text

def extract_pdf_text(pdf_path: str, output_dir: str = "extracted_text", start_page: int = None, end_page: int = None):
    """Extract text from specified pages of a PDF file and save it to a single file."""
    if not os.path.exists(pdf_path):
        return None, f"Erreur: Fichier non trouv√©: {pdf_path}"
    
    # Cr√©er le r√©pertoire de sortie s'il n'existe pas
    os.makedirs(output_dir, exist_ok=True)
    
    # D√©terminer la plage de pages
    if not end_page:
        end_page = float('inf')
        
    if not start_page:
        start_page = 1
    
    try:
        with pdfplumber.open(pdf_path) as pdf:
            total_pages = len(pdf.pages)
            
            # Ajuster la plage de pages si n√©cessaire
            start_idx = max(0, start_page - 1)
            end_idx = min(total_pages, end_page)
            
            # Pr√©parer un seul fichier pour toutes les pages
            pdf_name = os.path.basename(pdf_path).replace(".pdf", "")
            output_filename = f"{pdf_name}_pages_{start_page}-{end_idx}.txt"
            output_path = os.path.join(output_dir, output_filename)
            
            # Extraire et √©crire le texte de toutes les pages dans un seul fichier
            extracted_text = ""
            with open(output_path, 'w', encoding='utf-8') as output_file:
                for i in range(start_idx, end_idx):
                    page = pdf.pages[i]
                    page_text = page.extract_text()
                    
                    if page_text:
                        # Post-traitement pour corriger les probl√®mes de formatage
                        page_text = post_process_text(page_text)
                        
                        # Am√©lioration du formatage des articles
                        page_text = format_articles(page_text)
                        
                        # √âcrire un s√©parateur de page clair
                        page_content = f"\n\n{'='*20} PAGE {i+1} {'='*20}\n\n{page_text}\n"
                        output_file.write(page_content)
                        extracted_text += page_content
            
            return output_path, extracted_text
            
    except Exception as e:
        return None, f"Erreur lors de l'extraction du texte: {str(e)}"

# ===== LANGGRAPH NODES =====

def extraction_node(state: PDFAnalysisState) -> PDFAnalysisState:
    """Premier n≈ìud : Extraction du PDF"""
    print("üîç Ex√©cution du n≈ìud d'extraction...")
    
    pdf_filename = state["pdf_filename"]
    start_page = state.get("start_page")
    end_page = state.get("end_page")
    
    # Construire le chemin complet du PDF
    pdf_paths_to_try = [
        pdf_filename,
        os.path.join(BASE_DIR, pdf_filename),
        os.path.join(os.path.dirname(os.path.abspath(__file__)), pdf_filename)
    ]
    
    pdf_path = None
    for path in pdf_paths_to_try:
        if os.path.exists(path):
            pdf_path = path
            break
    
    if not pdf_path:
        return {
            **state,
            "error": f"Fichier PDF non trouv√©: {pdf_filename}\nChemins test√©s: {pdf_paths_to_try}"
        }
    
    # Extraction
    output_dir = os.path.join(BASE_DIR, "textes_extraits")
    extracted_file_path, extracted_text = extract_pdf_text(pdf_path, output_dir, start_page, end_page)
    
    if not extracted_file_path:
        return {
            **state,
            "error": extracted_text  # extracted_text contient l'erreur dans ce cas
        }
    
    print(f"‚úÖ Extraction termin√©e. Fichier sauv√©: {extracted_file_path}")
    
    return {
        **state,
        "extracted_file_path": extracted_file_path,
        "extracted_text": extracted_text
    }

def analysis_node(state: PDFAnalysisState) -> PDFAnalysisState:
    """Deuxi√®me n≈ìud : Analyse du texte extrait"""
    print("üî¨ Ex√©cution du n≈ìud d'analyse...")
    
    if state.get("error"):
        return state
    
    extracted_text = state.get("extracted_text")
    if not extracted_text:
        return {
            **state,
            "error": "Aucun texte extrait √† analyser"
        }
    
    try:
        # Prompt d'analyse (version simplifi√©e du prompt original)
        prompt_text = f"""Vous √™tes un expert en analyse de texte juridique et administratif.
Votre sp√©cialit√© est d'identifier les noms de personnes et leurs r√¥les
dans des documents officiels, particuli√®rement les d√©l√©gations de pouvoir.

Analyse le texte et extrais les informations demand√©es, en suivant les √©tapes d√©taill√©es ci-dessous.

Chain of Thought pour l'analyse

Instructions g√©n√©rales :
Cette m√©thode d'analyse doit √™tre appliqu√©e sur l'ensemble du document administratif en proc√©dant article par article. Pour chaque article du document :
1. Isoler le texte de l'article concern√©
2. Appliquer la m√©thode d'analyse d√©crite dans les exemples ci-dessous
3. Rechercher syst√©matiquement les termes sp√©cifiques et les noms associ√©s
4. Si les termes recherch√©s n'existent pas dans l'article, indiquer "Non mentionn√©" pour la cat√©gorie correspondante
5. Compiler les r√©sultats en respectant le format suivant pour chaque article :

Article [Num√©ro]
[En cas d'absence ou d'emp√™chement de] : [Nom de la personne ou "Non mentionn√©"]
[D√©l√©gation est donn√©e √†] : [Nom de la personne ou "Non mentionn√©"]

Exemple 1:

1. Lecture du document :
   Je commence par lire attentivement l'extrait suivant pour en comprendre le contexte et la structure.

   "D√©l√©gation est donn√©e √† M. Thomas DUPONT, responsable de l'Unit√© budget et contr√¥le interne au sein de la

   Direction des achats et des finances, √† l'effet de signer, au nom de la directrice g√©n√©rale de Sant√© publique France,
   dans la limite de ses attributions et fonctions :

   - l'ensemble des bons de commande d'un montant hors taxe inf√©rieur √† 35 000 ‚Ç¨ ;
   - en cas d'absence ou d'emp√™chement de la directrice des achats et des finances,
   Mme Sophie MARTIN (√©pouse DURAND), l'ensemble des bons de commande ;
   - les certifications de service fait sans limitation de montant."

2. Recherche du terme "d√©l√©gation est donn√©e" :
   Je cherche si cette expression appara√Æt dans le texte et j'examine ce qui suit.

   Trouv√© : "D√©l√©gation est donn√©e √† M. Thomas DUPONT"

   J'identifie donc le nom qui suit cette expression : M. Thomas DUPONT

   Si cette expression n'√©tait pas pr√©sente, j'indiquerais "Non mentionn√©".

   Si cette expression est pr√©sente :

   j'identifie la fonction devant le nom de M. Thomas DUPONT : responsable de l'Unit√© budget et contr√¥le interne au sein de la Direction des achats et des finances

   la fonction est :  responsable de l'Unit√© budget et contr√¥le interne au sein de la Direction des achats et des finances

3. Recherche du terme "en cas d'absence ou d'emp√™chement" :
   Je cherche si cette expression appara√Æt dans le texte et j'examine le contexte.

   Trouv√© : "en cas d'absence ou d'emp√™chement de la directrice des achats et des finances, Mme Sophie MARTIN (√©pouse DURAND)"

   Dans ce contexte, je comprends que Mme Sophie MARTIN (√©pouse DURAND) est mentionn√©e comme la directrice des achats et des finances.

   Si cette expression n'√©tait pas pr√©sente, j'indiquerais "Non mentionn√©".

   Si cette expression est pr√©sente j'identife √©galement la fonction devant le nom de Mme Sophie MARTIN (√©pouse DURAND) : directrice des achats et des finances

   la fonction est : directrice des achats et des finances

4. Format de sortie :
   Je structure les informations collect√©es selon le format demand√©.

   [En cas d'absence ou d'emp√™chement de] : Mme Sophie MARTIN (√©pouse DURAND) , fonction : directrice des achats et des finances
   [D√©l√©gation est donn√©e √†] : M. Thomas DUPONT , fonction : responsable de l'Unit√© budget et contr√¥le interne au sein de la Direction des achats et des finances

Exemple 2:

1. Lecture du document :
   Je commence par lire attentivement l'extrait suivant pour en comprendre le contexte et la structure.

   "En cas d'absence ou d'emp√™chement de Mme Sophia DUBOIS, directrice de l'aide et diffusion aux publics, d√©l√©gation est donn√©e √† Mme Camille LAURENT, adjointe, dans la limite de ses attributions et fonctions :

   - les engagements financiers relatifs √† l'activit√© de la

   Direction de l'aide et diffusion aux publics d'un montant hors taxe inf√©rieur √† 25 000 ‚Ç¨ et les engagements contractuels aff√©rents ;
   - les lettres de mission envoy√©es √† des collaborateurs externes pour la relecture de rapports produits par Sant√© publique France avec la mention du montant d'indemnisation de la vacation ;
   - toute d√©cision relative aux op√©rations d'inventaire dans le cadre de l'arr√™t√© annuel des comptes."

2. Recherche du terme "En cas d'absence ou d'emp√™chement de" :
   Je cherche cette expression dans le texte et j'examine ce qui suit.

   Trouv√© : "En cas d'absence ou d'emp√™chement de Mme Sophia DUBOIS"

   J'identifie donc le nom qui suit cette expression : Mme Sophia DUBOIS

   Si cette expression n'√©tait pas pr√©sente, j'indiquerais "Non mentionn√©".

   Si cette expression est pr√©sente j'identife √©galement la fonction devant le nom de Mme Sophia DUBOIS : directrice de l'aide et diffusion aux publics

   la fonction est : directrice de l'aide et diffusion aux publics

3. Recherche du terme "d√©l√©gation est donn√©e √†" :
   Je cherche cette expression dans le texte et j'examine ce qui suit.

   Trouv√© : "d√©l√©gation est donn√©e √† Mme Camille LAURENT"

   J'identifie donc le nom qui suit cette expression : Mme Camille LAURENT

   Si cette expression n'√©tait pas pr√©sente, j'indiquerais "Non mentionn√©".

   Si cette expression est pr√©sente j'identife √©galement la fonction devant le nom de Mme Camille LAURENT : adjointe

   la fonction est : adjointe

4. Format de sortie :
   Je structure les informations collect√©es selon le format demand√©.

   [En cas d'absence ou d'emp√™chement de] : Mme Sophia DUBOIS fonction : directrice de l'aide et diffusion aux publics
   [D√©l√©gation est donn√©e √†] : Mme Camille LAURENT fonction : adjointe

Le r√©sultat final pour l'ensemble du document ressemblera √† ceci :

Article 22
[En cas d'absence ou d'emp√™chement de] : Mme Sophia DUBOIS fonction : directrice de l'aide et diffusion aux publics
[D√©l√©gation est donn√©e √†] : Mme Camille LAURENT fonction : adjointe

Article 8
[En cas d'absence ou d'emp√™chement de] : Mme Sophie MARTIN (√©pouse DURAND) fonction : directrice des achats et des finances
[D√©l√©gation est donn√©e √†] : M. Thomas DUPONT fonction : responsable de l'Unit√© budget et contr√¥le interne au sein de la Direction des achats et des finances

Article 15
[En cas d'absence ou d'emp√™chement de] : Non mentionn√©
[D√©l√©gation est donn√©e √†] : Non mentionn√©

Analysez le texte suivant :

 
{extracted_text}"""
        
        analysis_prompt_template = ChatPromptTemplate.from_messages([
            ("human", prompt_text)
        ])
        
        prompt_value = analysis_prompt_template.invoke({})
        response = llm.invoke(prompt_value.to_messages())
        
        print("‚úÖ Analyse termin√©e.")
        
        return {
            **state,
            "analysis_result": response.content
        }
        
    except Exception as e:
        return {
            **state,
            "error": f"Erreur lors de l'analyse: {str(e)}"
        }

# ===== LANGGRAPH WORKFLOW =====

def create_pdf_analysis_workflow():
    """Cr√©er le workflow LangGraph"""
    workflow = StateGraph(PDFAnalysisState)
    
    # Ajouter les n≈ìuds
    workflow.add_node("extraction", extraction_node)
    workflow.add_node("analysis", analysis_node)
    
    # D√©finir les transitions
    workflow.set_entry_point("extraction")
    workflow.add_edge("extraction", "analysis")
    workflow.add_edge("analysis", END)
    
    return workflow.compile()

# ===== FONCTION PRINCIPALE =====

def process_pdf(pdf_filename: str, start_page: int = None, end_page: int = None):
    """
    Traite un PDF avec le workflow LangGraph
    
    Args:
        pdf_filename (str): Nom du fichier PDF
        start_page (int): Premi√®re page √† extraire (optionnel)
        end_page (int): Derni√®re page √† extraire (optionnel)
    
    Returns:
        dict: R√©sultat final du workflow
    """
    # Cr√©er le workflow
    workflow = create_pdf_analysis_workflow()
    
    # √âtat initial
    initial_state = {
        "pdf_filename": pdf_filename,
        "start_page": start_page,
        "end_page": end_page,
        "extracted_text": None,
        "extracted_file_path": None,
        "analysis_result": None,
        "error": None
    }
    
    print("üöÄ D√©marrage du workflow LangGraph...")
    
    # Ex√©cuter le workflow
    final_state = workflow.invoke(initial_state)
    
    return final_state

# ===== TEST ET EX√âCUTION =====

if __name__ == "__main__":
    # Test du workflow
    print("üß™ Test du workflow LangGraph PDF...")
    
    # Exemple d'utilisation
    result = process_pdf("2025.5.sante.pdf", 117, 131)
    
    if result.get("error"):
        print(f"‚ùå Erreur : {result['error']}")
    else:
        print(f"""
=== R√âSULTATS DU WORKFLOW ===

üìÅ PDF trait√©: {result['pdf_filename']}
üìÑ Pages analys√©es: {result.get('start_page', 'd√©but')} √† {result.get('end_page', 'fin')}
üíæ Fichier extrait: {result.get('extracted_file_path', 'N/A')}

=== ANALYSE ===
{result.get('analysis_result', 'Aucun r√©sultat')}

‚úÖ Workflow termin√© avec succ√®s !
        """)

üß™ Test du workflow LangGraph PDF...
üöÄ D√©marrage du workflow LangGraph...
üîç Ex√©cution du n≈ìud d'extraction...


NameError: name '__file__' is not defined