In [22]:
from typing import Dict, List
import os
import base64
import io
import sys
from models import DocumentInfo
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

# Vérifier si nous sommes dans un environnement Jupyter
# et appliquer une solution d'encodage adaptée
try:
    # Tenter de configurer l'encodage uniquement en dehors de Jupyter
    if not hasattr(sys.stdout, 'buffer') or not sys.stdout.__class__.__name__ == 'OutStream':
        sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8', errors='backslashreplace')
        sys.stderr = io.TextIOWrapper(sys.stderr.buffer, encoding='utf-8', errors='backslashreplace')
except Exception:
    print("Exécution dans Jupyter, configuration d'encodage standard ignorée")

def safe_text_handling(text):
    """Assure que le texte est correctement encodé en UTF-8"""
    if text is None:
        return ""
    if isinstance(text, bytes):
        return text.decode('utf-8', errors='backslashreplace')
    if isinstance(text, str):
        return text
    return str(text)

def init_client():
    """Initialise le client LLM avec sa clé API"""
    try:
        # Tenter de lire la clé API depuis une variable d'environnement
        api_key = os.environ.get("OPENAI_API_KEY")
        
        # Si la clé n'est pas définie, utiliser une valeur par défaut (à changer!)
        if not api_key:
            api_key = "votre-clé-api-ici"  # Remplacez par votre clé API
            
        return ChatOpenAI(
            model="gpt-4o",  # Utiliser un modèle vision pour les images
            api_key=api_key,
            max_tokens=1000
        )
    except Exception as e:
        print(f"Erreur lors de l'initialisation du client LLM: {e}")
        raise

def encode_image_to_base64(image_path):
    """Encode une image en base64 pour l'API"""
    try:
        with open(image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode('utf-8')
    except Exception as e:
        print(f"Erreur lors de l'encodage de l'image {image_path}: {str(e)}")
        return None

def extraire_infos_documents(client, chemins_images: list) -> Dict[str, str]:
    """
    Extrait les informations des documents via LangChain et StrOutputParser.
    Retourne un dictionnaire avec le chemin de l'image comme clé et le texte formaté comme valeur.
    """
    if not chemins_images:
        raise ValueError("Aucun chemin d'image fourni")

    resultats = {}
    
    # Définir un template de prompt - assurons-nous qu'il est en UTF-8
    template = """
    Tu es un assistant qui classe les documents administratifs. Pour cette image :
    - Indique s'il s'agit d'une 'CIN', d'un 'Passeport', ou d'un 'Justificatif de domicile'
    - Puis, extrait les informations clés visibles (nom, prénom, numéro, adresse, etc.)
    
    Formate EXACTEMENT comme ceci, en respectant les sauts de ligne :
    ## [TYPE DU DOCUMENT]
    
    - Champ : valeur
    - Autre champ : autre valeur
    ...
    
    Assure-toi de mettre un tiret au début de chaque ligne d'information et une ligne vide après le titre.
    """
    
    # Créer un StrOutputParser
    output_parser = StrOutputParser()
    
    for chemin in chemins_images:
        try:
            # Vérifier l'existence de l'image
            if not os.path.exists(chemin):
                print(f"⚠️ L'image n'existe pas: {chemin}")
                continue
                
            # Encoder l'image en base64
            base64_image = encode_image_to_base64(chemin)
            if not base64_image:
                print(f"⚠️ Échec de l'encodage de l'image: {chemin}")
                continue
            
            # Créer un message avec l'image
            message = HumanMessage(
                content=[
                    {"type": "text", "text": template},
                    {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
                ]
            )
            
            # Utiliser LangChain avec StrOutputParser
            # Cette approche fonctionne mieux avec des messages structurés spécifiques incluant des images
            reponse_llm = client.invoke([message])
            
            # Utiliser StrOutputParser pour extraire le texte de la réponse
            texte_extrait = output_parser.invoke(reponse_llm)
            
            # Assurer que le texte est en UTF-8
            texte_extrait = safe_text_handling(texte_extrait)
            
            # Stocker le résultat
            resultats[chemin] = texte_extrait
            print(f"Extraction terminée pour: {chemin}")
            
        except UnicodeEncodeError as ue:
            print(f"Erreur d'encodage lors de l'extraction pour {chemin}: {str(ue)}")
            resultats[chemin] = f"## ERREUR\n\n- Erreur : Problème d'encodage de caractères"
        except Exception as e:
            print(f"Erreur lors de l'extraction pour {chemin}: {str(e)}")
            resultats[chemin] = f"## ERREUR\n\n- Erreur : {str(e)}"
    
    return resultats

# Version alternative utilisant le système de chaînes LangChain complet
def extraire_infos_documents_langchain(client, chemins_images: list) -> Dict[str, str]:
    """
    Version alternative utilisant pleinement LCEL (LangChain Expression Language)
    pour les documents qui ne sont pas des images.
    À utiliser pour les textes déjà extraits.
    """
    if not chemins_images:
        raise ValueError("Aucun chemin d'image fourni")

    resultats = {}
    
    # Créer un template de prompt pour l'analyse de texte (non image)
    prompt = ChatPromptTemplate.from_template("""
    Tu es un assistant qui classe les documents administratifs. 
    Analyse ce texte extrait d'un document par OCR:
    
    {texte_document}
    
    Identifie s'il s'agit d'une 'CIN', d'un 'Passeport', ou d'un 'Justificatif de domicile'.
    Puis, extrait les informations clés visibles (nom, prénom, numéro, adresse, etc.)
    
    Formate EXACTEMENT comme ceci:
    ## [TYPE DU DOCUMENT]
    
    - Champ : valeur
    - Autre champ : valeur
    """)
    
    # Créer la chaîne
    chain = prompt | client | StrOutputParser()
    
    # Cette fonction pourrait être utilisée pour des documents textuels
    # où vous avez déjà extrait le texte avec un OCR classique
    # Dans ce cas particulier, ce n'est pas directement applicable pour les images
    
    return resultats

def parser_informations(texte_document: str) -> DocumentInfo:
    """
    Parse le texte formaté en DocumentInfo
    Format attendu:
    ## [TYPE DU DOCUMENT]
    
    - Champ : valeur
    """
    try:
        # Assurer que le texte est bien en UTF-8
        texte_document = safe_text_handling(texte_document)
        
        lignes = texte_document.strip().split('\n')
        info_doc = DocumentInfo(type_document="Inconnu")
        
        # Identifier le type de document
        for ligne in lignes:
            if ligne.startswith('##'):
                type_doc = ligne.replace('##', '').strip()
                info_doc.type_document = type_doc
                break
        
        # Extraire les champs et valeurs
        for ligne in lignes:
            if ligne.startswith('-'):
                try:
                    # Supprimer le tiret et diviser par le premier ":"
                    parties = ligne[1:].strip().split(':', 1)
                    if len(parties) == 2:
                        champ = parties[0].strip().lower()
                        valeur = parties[1].strip()
                        
                        # Assurer que le champ et la valeur sont en UTF-8
                        champ = safe_text_handling(champ)
                        valeur = safe_text_handling(valeur)
                        
                        # Mapper les champs aux attributs de DocumentInfo
                        if "nom" == champ:
                            info_doc.nom = valeur
                        elif "prénom" in champ or "prenom" == champ:
                            info_doc.prenom = valeur
                        elif "date de naissance" in champ or "naissance" in champ:
                            info_doc.date_naissance = valeur
                        elif "numéro" in champ or "numero" in champ:
                            info_doc.numero_document = valeur
                        elif "adresse" in champ:
                            info_doc.adresse = valeur
                        elif "émission" in champ or "emission" in champ:
                            info_doc.date_emission = valeur
                        elif "expiration" in champ or "validité" in champ or "validite" in champ:
                            info_doc.date_expiration = valeur
                        else:
                            # Stocker les autres champs dans autres_infos
                            info_doc.autres_infos[champ] = valeur
                except Exception as ligne_error:
                    print(f"Erreur lors du traitement de la ligne '{ligne}': {str(ligne_error)}")
                    # Continuer avec la ligne suivante sans interrompre le processus
        
        return info_doc
    except UnicodeEncodeError as ue:
        print(f"Erreur d'encodage lors du parsing: {str(ue)}")
        return DocumentInfo(
            type_document="ERREUR",
            autres_infos={"erreur": "Problème d'encodage de caractères"}
        )
    except Exception as e:
        print(f"Erreur lors du parsing des informations: {str(e)}")
        return DocumentInfo(
            type_document="ERREUR",
            autres_infos={"erreur": str(e)}
        )

AttributeError: 'OutStream' object has no attribute 'buffer'

In [21]:
client=init_client()
extraire_infos_documents(client, ["C:/Users/HP/Pictures/identity/CNI1.jpeg"])

Extraction terminée pour: C:/Users/HP/Pictures/identity/CNI1.jpeg


{'C:/Users/HP/Pictures/identity/CNI1.jpeg': '## CIN\n\n- Nom : OUATTARA\n- Prénom : ISMAEL\n- Né le : 15.07.2000\n- Nationalité : IVOIRIENNE\n- Valable du : 15.04.2022\n- Au : 15.04.2025\n- Numéro : BE81011Y'}