In [3]:
from typing import Dict, List
import os
import base64
import json
from models import DocumentInfo
from langchain_openai import ChatOpenAI
import openai
from langchain_core.output_parsers import StrOutputParser

def init_client():
    """Initialise le client OpenAI directement sans passer par LangChain"""
    try:
        # Tenter de lire la clé API depuis une variable d'environnement
        api_key = os.environ.get("OPENAI_API_KEY")
        
        # Si la clé n'est pas définie, utiliser une valeur par défaut
        if not api_key:
            api_key = "votre-clé-api-ici"  # Remplacez par votre clé API
        
        # Initialiser le client OpenAI directement
        client = openai.OpenAI(api_key=api_key)
        return client
    except Exception as e:
        print(f"Erreur lors de l'initialisation du client OpenAI: {e}")
        raise

def encode_image_to_base64(image_path):
    """Encode une image en base64"""
    try:
        with open(image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode('utf-8')
    except Exception as e:
        print(f"Erreur lors de l'encodage de l'image {image_path}: {str(e)}")
        return None

def extraire_infos_documents(client, chemins_images: list) -> Dict[str, str]:
    """
    Extrait les informations des documents en utilisant directement l'API OpenAI
    pour éviter les problèmes d'encodage.
    """
    if not chemins_images:
        raise ValueError("Aucun chemin d'image fourni")

    resultats = {}
    
    # Template pour le prompt sans caractères problématiques
    template = """
    Tu es un assistant qui classe les documents administratifs. Pour cette image :
    - Indique s'il s'agit d'une 'CIN', d'un 'Passeport', ou d'un 'Justificatif de domicile'
    - Puis, extrait les informations cles visibles (nom, prenom, numero, adresse, etc.)
    
    Formate EXACTEMENT comme ceci :
    ## [TYPE DU DOCUMENT]
    
    - Champ : valeur
    - Autre champ : autre valeur
    """
    
    for chemin in chemins_images:
        try:
            # Vérifier l'existence de l'image
            if not os.path.exists(chemin):
                print(f"L'image n'existe pas: {chemin}")
                continue
                
            # Encoder l'image en base64
            base64_image = encode_image_to_base64(chemin)
            if not base64_image:
                print(f"Échec de l'encodage de l'image: {chemin}")
                continue
            
            # Utiliser directement l'API OpenAI avec des arguments simples
            try:
                response = client.chat.completions.create(
                    model="gpt-4o",
                    messages=[
                        {
                            "role": "user", 
                            "content": [
                                {"type": "text", "text": template},
                                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
                            ]
                        }
                    ],
                    max_tokens=1000
                )
                
                # Extraire le texte de la réponse
                texte_extrait = response.choices[0].message.content
                
                # Stocker le résultat
                resultats[chemin] = texte_extrait
                print(f"Extraction terminee pour: {chemin}")
                
            except Exception as api_error:
                print(f"Erreur API pour {chemin}: {str(api_error)}")
                resultats[chemin] = f"## ERREUR\n\n- Erreur : {str(api_error)}"
                
        except Exception as e:
            print(f"Erreur generale pour {chemin}: {str(e)}")
            resultats[chemin] = f"## ERREUR\n\n- Erreur : {str(e)}"
    
    return resultats

def parser_informations(texte_document: str) -> DocumentInfo:
    """
    Parse le texte formaté en DocumentInfo
    Version simplifiée pour éviter les problèmes d'encodage
    """
    try:
        lignes = texte_document.strip().split('\n')
        info_doc = DocumentInfo(type_document="Inconnu")
        
        # Identifier le type de document
        for ligne in lignes:
            if ligne.startswith('##'):
                type_doc = ligne.replace('##', '').strip()
                info_doc.type_document = type_doc
                break
        
        # Extraire les champs et valeurs
        for ligne in lignes:
            if ligne.startswith('-'):
                try:
                    # Supprimer le tiret et diviser par le premier ":"
                    parties = ligne[1:].strip().split(':', 1)
                    if len(parties) == 2:
                        champ = parties[0].strip().lower()
                        valeur = parties[1].strip()
                        
                        # Mapper les champs aux attributs de DocumentInfo
                        if "nom" == champ:
                            info_doc.nom = valeur
                        elif "prenom" in champ or "prénom" in champ:
                            info_doc.prenom = valeur
                        elif "naissance" in champ:
                            info_doc.date_naissance = valeur
                        elif "numero" in champ or "numéro" in champ:
                            info_doc.numero_document = valeur
                        elif "adresse" in champ:
                            info_doc.adresse = valeur
                        elif "emission" in champ or "émission" in champ:
                            info_doc.date_emission = valeur
                        elif "validite" in champ or "validité" in champ or "expiration" in champ:
                            info_doc.date_expiration = valeur
                        else:
                            # Stocker les autres champs dans autres_infos
                            info_doc.autres_infos[champ] = valeur
                except Exception as ligne_error:
                    print(f"Erreur ligne: {str(ligne_error)}")
                    # Continuer avec la ligne suivante
        
        return info_doc
    except Exception as e:
        print(f"Erreur parsing: {str(e)}")
        return DocumentInfo(
            type_document="ERREUR",
            autres_infos={"erreur": str(e)}
        )

# Solution de secours pour les cas où l'API ne fonctionne pas
def analyser_nom_fichier(chemin_fichier: str) -> DocumentInfo:
    """
    Extrait des informations de base à partir du nom de fichier
    comme solution de secours
    """
    nom_fichier = os.path.basename(chemin_fichier).lower()
    info_doc = DocumentInfo(type_document="INCONNU")
    
    if "identite" in nom_fichier or "piece" in nom_fichier:
        info_doc.type_document = "CARTE D'IDENTITE"
    elif "domicile" in nom_fichier or "justificatif" in nom_fichier:
        info_doc.type_document = "JUSTIFICATIF DE DOMICILE"
    elif "bancaire" in nom_fichier or "releve" in nom_fichier:
        info_doc.type_document = "RELEVE BANCAIRE"
    elif "salaire" in nom_fichier or "bulletin" in nom_fichier:
        info_doc.type_document = "BULLETIN DE SALAIRE"
    elif "recapitulatif" in nom_fichier:
        info_doc.type_document = "RECAPITULATIF"
    
    # Essai d'extraction basique d'identifiant
    import re
    nom_match = re.search(r'_([A-Za-z]+)_', nom_fichier)
    if nom_match:
        info_doc.nom = nom_match.group(1).upper()
    
    return info_doc

if __name__ == "__main__":
    dossier_path = "C:/Users/HP/Desktop/Octroi-Credit/demandes_clients/decouvert/alirich_Ali_DECOUVERT"
    resultat = traiter_dossier_documents(dossier_path)

Traitement du dossier: C:/Users/HP/Desktop/Octroi-Credit/demandes_clients/decouvert/alirich_Ali_DECOUVERT
Test Poppler: pdftoppm version 24.08.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC

=== DÉBUT CHARGEMENT DOCUMENTS ===
Chargement des documents depuis: C:/Users/HP/Desktop/Octroi-Credit/demandes_clients/decouvert/alirich_Ali_DECOUVERT
Fichier PDF trouvé: C:/Users/HP/Desktop/Octroi-Credit/demandes_clients/decouvert/alirich_Ali_DECOUVERT/bulletin_salaire_1.pdf
Fichier PDF trouvé: C:/Users/HP/Desktop/Octroi-Credit/demandes_clients/decouvert/alirich_Ali_DECOUVERT/DECOUVERT-250519-FA1C_recapitulatif.pdf
Fichier PDF trouvé: C:/Users/HP/Desktop/Octroi-Credit/demandes_clients/decouvert/alirich_Ali_DECOUVERT/justificatif_domicile.pdf
Fichier PDF trouvé: C:/Users/HP/Desktop/Octroi-Credit/demandes_clients/decouvert/alirich_Ali_DECOUVERT/piece_identite.pdf
Fichier PDF trouvé: C:/Users/HP/Desktop/Octroi-Credit/demandes_c

In [2]:

traiter_dossier_documents(images_paths)

NameError: name 'images_paths' is not defined