# Mistral OCR avec Annotations

Ce notebook utilise l'API Mistral OCR pour extraire le texte et les images des documents PDF avec des annotations structur√©es.

## Fonctionnalit√©s :
- Extraction du texte avec conservation de la structure
- Extraction et annotation des images, graphiques, tableaux
- Export des images extraites dans un dossier
- G√©n√©ration d'un fichier Markdown propre

In [None]:
import os
import base64
import json
from pathlib import Path
from dotenv import load_dotenv
from mistralai import Mistral
from mistralai.models import OCRResponse
from pydantic import BaseModel, Field
from enum import Enum
from IPython.display import Markdown, display

# Charger les variables d'environnement
load_dotenv()

# Initialiser le client Mistral
api_key = os.getenv("MISTRAL_API_KEY")
client = Mistral(api_key=api_key)

print("‚úÖ Client Mistral initialis√© avec succ√®s")

## D√©finition des mod√®les Pydantic pour les Annotations

Nous d√©finissons les sch√©mas pour :
- **BBox Annotation** : Type d'image (graphique, tableau, texte, image) et description
- **Document Annotation** : Langue, r√©sum√©, auteurs

In [None]:
# D√©finition des types d'images pour BBox Annotation
class ImageType(str, Enum):
    GRAPH = "graph"
    CHART = "chart"
    TABLE = "table"
    SCHEMA = "schema"
    DIAGRAM = "diagram"
    FIGURE = "figure"
    IMAGE = "image"
    TEXT = "text"
    SIGNATURE = "signature"
    LOGO = "logo"

# Mod√®le pour l'annotation des BBox (images extraites)
class ImageAnnotation(BaseModel):
    image_type: ImageType = Field(..., description="Le type de l'image d√©tect√©e (graph, chart, table, schema, diagram, figure, image, text, signature, logo)")
    title: str = Field(..., description="Titre ou l√©gende de l'image si disponible")
    short_description: str = Field(..., description="Description courte de l'image en fran√ßais")
    detailed_description: str = Field(..., description="Description d√©taill√©e du contenu de l'image en fran√ßais")
    data_extracted: str = Field(default="", description="Donn√©es extraites si c'est un tableau ou graphique (format texte)")

# Mod√®le pour l'annotation du document complet
class DocumentAnnotation(BaseModel):
    language: str = Field(..., description="Langue du document en format ISO 639-1 (ex: 'fr', 'en')")
    title: str = Field(..., description="Titre principal du document")
    document_type: str = Field(..., description="Type de document (rapport, proc√®s-verbal, contrat, etc.)")
    summary: str = Field(..., description="R√©sum√© complet du document en fran√ßais")
    key_points: list[str] = Field(..., description="Points cl√©s du document")
    authors: list[str] = Field(default=[], description="Liste des auteurs ou signataires du document")
    date: str = Field(default="", description="Date du document si mentionn√©e")
    organizations: list[str] = Field(default=[], description="Organisations ou entit√©s mentionn√©es")

print("‚úÖ Mod√®les d'annotation d√©finis")

## Fonctions utilitaires

Fonctions pour :
- Encoder les fichiers PDF/images en base64
- Traiter la r√©ponse OCR
- Sauvegarder les images extraites
- G√©n√©rer le Markdown final

In [None]:
def encode_file_to_base64(file_path: str) -> str:
    """
    Encode un fichier (PDF ou image) en base64.
    
    Args:
        file_path: Chemin vers le fichier
        
    Returns:
        Cha√Æne base64 encod√©e
    """
    try:
        with open(file_path, "rb") as file:
            return base64.b64encode(file.read()).decode('utf-8')
    except FileNotFoundError:
        print(f"‚ùå Erreur: Le fichier {file_path} n'a pas √©t√© trouv√©.")
        return None
    except Exception as e:
        print(f"‚ùå Erreur: {e}")
        return None


def get_mime_type(file_path: str) -> str:
    """
    D√©termine le type MIME en fonction de l'extension du fichier.
    """
    ext = Path(file_path).suffix.lower()
    mime_types = {
        '.pdf': 'application/pdf',
        '.png': 'image/png',
        '.jpg': 'image/jpeg',
        '.jpeg': 'image/jpeg',
        '.gif': 'image/gif',
        '.webp': 'image/webp',
        '.avif': 'image/avif',
        '.bmp': 'image/bmp',
        '.tiff': 'image/tiff',
    }
    return mime_types.get(ext, 'application/octet-stream')


def save_base64_image(base64_string: str, output_path: str) -> bool:
    """
    Sauvegarde une image base64 vers un fichier.
    
    Args:
        base64_string: Image encod√©e en base64 (peut inclure le pr√©fixe data:...)
        output_path: Chemin de sortie pour l'image
        
    Returns:
        True si succ√®s, False sinon
    """
    try:
        # Retirer le pr√©fixe data:image/...;base64, si pr√©sent
        if base64_string.startswith('data:'):
            base64_string = base64_string.split(',', 1)[1]
        
        image_data = base64.b64decode(base64_string)
        
        with open(output_path, 'wb') as f:
            f.write(image_data)
        return True
    except Exception as e:
        print(f"‚ùå Erreur lors de la sauvegarde de l'image: {e}")
        return False


def create_output_directory(base_name: str) -> Path:
    """
    Cr√©e le dossier de sortie pour les r√©sultats OCR.
    
    Args:
        base_name: Nom de base du document
        
    Returns:
        Chemin du dossier cr√©√©
    """
    output_dir = Path("output") / base_name
    images_dir = output_dir / "images"
    
    output_dir.mkdir(parents=True, exist_ok=True)
    images_dir.mkdir(parents=True, exist_ok=True)
    
    return output_dir


print("‚úÖ Fonctions utilitaires d√©finies")

In [None]:
import yaml

def parse_document_annotation(annotation_str: str) -> dict:
    """
    Parse l'annotation du document (JSON string) en dictionnaire.
    """
    if not annotation_str:
        return {}
    try:
        return json.loads(annotation_str)
    except:
        return {"raw": annotation_str}


def parse_image_annotation(annotation_str: str) -> dict:
    """
    Parse l'annotation d'image (JSON string) en dictionnaire.
    """
    if not annotation_str:
        return {}
    try:
        return json.loads(annotation_str)
    except:
        return {"description": annotation_str}


def generate_frontmatter(
    source_file: str,
    document_annotation: str,
    images_info: list[dict],
    total_pages: int
) -> str:
    """
    G√©n√®re le frontmatter YAML pour Astro.
    
    Args:
        source_file: Nom du fichier source
        document_annotation: Annotation du document (JSON string)
        images_info: Liste des infos sur les images
        total_pages: Nombre total de pages
        
    Returns:
        Frontmatter YAML format√©
    """
    # Parser l'annotation du document
    doc_data = parse_document_annotation(document_annotation)
    
    # Construire le frontmatter
    frontmatter = {
        "source_file": source_file,
        "total_pages": total_pages,
        "total_images": len(images_info),
    }
    
    # Ajouter les donn√©es du document si disponibles
    if doc_data:
        if "title" in doc_data:
            frontmatter["title"] = doc_data.get("title", "")
        if "language" in doc_data:
            frontmatter["language"] = doc_data.get("language", "")
        if "document_type" in doc_data:
            frontmatter["document_type"] = doc_data.get("document_type", "")
        if "summary" in doc_data:
            frontmatter["summary"] = doc_data.get("summary", "")
        if "key_points" in doc_data:
            frontmatter["key_points"] = doc_data.get("key_points", [])
        if "authors" in doc_data:
            frontmatter["authors"] = doc_data.get("authors", [])
        if "date" in doc_data:
            frontmatter["date"] = doc_data.get("date", "")
        if "organizations" in doc_data:
            frontmatter["organizations"] = doc_data.get("organizations", [])
    
    # Ajouter les annotations des images
    if images_info:
        images_data = []
        for img in images_info:
            img_entry = {
                "id": img.get("id", ""),
                "filename": img.get("filename", ""),
                "page": img.get("page", 0),
            }
            
            # Parser et ajouter l'annotation de l'image
            if "annotation" in img and img["annotation"]:
                img_annotation = parse_image_annotation(img["annotation"])
                if img_annotation:
                    img_entry["image_type"] = img_annotation.get("image_type", "")
                    img_entry["title"] = img_annotation.get("title", "")
                    img_entry["description"] = img_annotation.get("short_description", "") or img_annotation.get("description", "")
                    img_entry["detailed_description"] = img_annotation.get("detailed_description", "")
                    if "data_extracted" in img_annotation and img_annotation["data_extracted"]:
                        img_entry["data_extracted"] = img_annotation.get("data_extracted", "")
            
            images_data.append(img_entry)
        
        frontmatter["images"] = images_data
    
    # G√©n√©rer le YAML
    yaml_content = yaml.dump(frontmatter, allow_unicode=True, default_flow_style=False, sort_keys=False)
    
    return f"---\n{yaml_content}---\n"


def process_ocr_response(
    ocr_response: OCRResponse, 
    output_dir: Path,
    include_annotations: bool = True,
    source_filename: str = ""
) -> tuple[str, list[dict]]:
    """
    Traite la r√©ponse OCR et g√©n√®re le markdown avec frontmatter Astro.
    
    Args:
        ocr_response: R√©ponse de l'API OCR
        output_dir: Dossier de sortie
        include_annotations: Inclure les annotations dans le markdown
        source_filename: Nom du fichier source
        
    Returns:
        Tuple (markdown_content, images_info)
    """
    images_dir = output_dir / "images"
    markdowns = []
    images_info = []
    
    # D'abord, collecter toutes les images pour le frontmatter
    for page_idx, page in enumerate(ocr_response.pages):
        for img_idx, img in enumerate(page.images):
            img_id = img.id
            
            if hasattr(img, 'image_base64') and img.image_base64:
                base64_str = img.image_base64
                
                # D√©terminer le format
                if base64_str.startswith('data:image/png'):
                    ext = '.png'
                elif base64_str.startswith('data:image/jpeg') or base64_str.startswith('data:image/jpg'):
                    ext = '.jpg'
                else:
                    ext = '.png'
                
                img_filename = f"page{page_idx + 1}_img{img_idx + 1}{ext}"
                img_path = images_dir / img_filename
                
                if save_base64_image(base64_str, str(img_path)):
                    print(f"  ‚úÖ Image sauvegard√©e: {img_filename}")
                    
                    img_info = {
                        "id": img_id,
                        "filename": img_filename,
                        "page": page_idx + 1,
                        "position": {
                            "top_left_x": getattr(img, 'top_left_x', None),
                            "top_left_y": getattr(img, 'top_left_y', None),
                            "bottom_right_x": getattr(img, 'bottom_right_x', None),
                            "bottom_right_y": getattr(img, 'bottom_right_y', None),
                        }
                    }
                    
                    if hasattr(img, 'image_annotation') and img.image_annotation:
                        img_info["annotation"] = img.image_annotation
                    
                    images_info.append(img_info)
    
    # G√©n√©rer le frontmatter YAML pour Astro
    document_annotation = getattr(ocr_response, 'document_annotation', None)
    frontmatter = generate_frontmatter(
        source_file=source_filename,
        document_annotation=document_annotation,
        images_info=images_info,
        total_pages=len(ocr_response.pages)
    )
    markdowns.append(frontmatter)
    
    # Traiter chaque page pour le contenu markdown
    for page_idx, page in enumerate(ocr_response.pages):
        image_data = {}
        
        # Pr√©parer les donn√©es des images pour cette page
        for img_info in images_info:
            if img_info["page"] == page_idx + 1:
                img_id = img_info["id"]
                relative_path = f"images/{img_info['filename']}"
                
                # Cr√©er l'alt text √† partir de l'annotation
                alt_text = img_id
                if "annotation" in img_info and img_info["annotation"]:
                    img_annotation = parse_image_annotation(img_info["annotation"])
                    if img_annotation:
                        # Construire un alt text descriptif
                        parts = []
                        if img_annotation.get("image_type"):
                            parts.append(f"[{img_annotation['image_type']}]")
                        if img_annotation.get("title"):
                            parts.append(img_annotation["title"])
                        elif img_annotation.get("short_description"):
                            parts.append(img_annotation["short_description"])
                        elif img_annotation.get("description"):
                            parts.append(img_annotation["description"])
                        
                        if parts:
                            alt_text = " - ".join(parts)
                
                image_data[img_id] = {
                    "path": relative_path,
                    "alt": alt_text
                }
        
        # Remplacer les r√©f√©rences d'images dans le markdown
        page_markdown = page.markdown
        for img_id, data in image_data.items():
            old_ref = f"![{img_id}]({img_id})"
            # Utiliser l'annotation comme alt text
            new_ref = f"![{data['alt']}]({data['path']})"
            page_markdown = page_markdown.replace(old_ref, new_ref)
        
        markdowns.append(page_markdown)
    
    return "\n\n".join(markdowns), images_info


print("‚úÖ Fonction de traitement OCR avec frontmatter Astro d√©finie")

## Fonction principale d'OCR avec Annotations

Cette fonction traite un document PDF ou une image et extrait :
- Le texte avec structure pr√©serv√©e
- Les images/sch√©mas/tableaux avec leurs annotations
- Les m√©tadonn√©es du document

In [None]:
from mistralai.extra import response_format_from_pydantic_model

def run_ocr_with_annotations(
    file_path: str,
    use_bbox_annotation: bool = True,
    use_document_annotation: bool = True,
    max_pages: int = 8
) -> dict:
    """
    Ex√©cute l'OCR avec annotations sur un document.
    G√©n√®re un markdown avec frontmatter YAML compatible Astro.
    
    Args:
        file_path: Chemin vers le fichier PDF ou image
        use_bbox_annotation: Activer l'annotation des images/graphiques
        use_document_annotation: Activer l'annotation du document entier
        max_pages: Nombre maximum de pages pour document_annotation (limite API: 8)
        
    Returns:
        Dictionnaire avec les r√©sultats
    """
    file_path = Path(file_path)
    base_name = file_path.stem
    
    print(f"üîÑ Traitement du fichier: {file_path.name}")
    print("-" * 50)
    
    # Encoder le fichier en base64
    base64_content = encode_file_to_base64(str(file_path))
    if not base64_content:
        return None
    
    print("‚úÖ Fichier encod√© en base64")
    
    # D√©terminer le type de document
    mime_type = get_mime_type(str(file_path))
    is_pdf = mime_type == 'application/pdf'
    
    # Pr√©parer la configuration du document
    if is_pdf:
        document_config = {
            "type": "document_url",
            "document_url": f"data:{mime_type};base64,{base64_content}"
        }
    else:
        document_config = {
            "type": "image_url",
            "image_url": f"data:{mime_type};base64,{base64_content}"
        }
    
    print(f"üìÑ Type de document: {mime_type}")
    
    # Pr√©parer les param√®tres de l'appel OCR
    ocr_params = {
        "model": "mistral-ocr-latest",
        "document": document_config,
        "include_image_base64": True
    }
    
    # Ajouter les formats d'annotation si demand√©s
    if use_bbox_annotation:
        ocr_params["bbox_annotation_format"] = response_format_from_pydantic_model(ImageAnnotation)
        print("‚úÖ Annotation BBox activ√©e")
    
    if use_document_annotation:
        ocr_params["document_annotation_format"] = response_format_from_pydantic_model(DocumentAnnotation)
        ocr_params["pages"] = list(range(max_pages))  # Limite de 8 pages pour document_annotation
        print(f"‚úÖ Annotation Document activ√©e (max {max_pages} pages)")
    
    print("\nüîÑ Appel de l'API Mistral OCR...")
    
    # Appel √† l'API OCR
    try:
        ocr_response = client.ocr.process(**ocr_params)
        print("‚úÖ OCR termin√© avec succ√®s!")
    except Exception as e:
        print(f"‚ùå Erreur lors de l'OCR: {e}")
        return None
    
    # Cr√©er le dossier de sortie
    output_dir = create_output_directory(base_name)
    print(f"\nüìÅ Dossier de sortie cr√©√©: {output_dir}")
    
    # Traiter la r√©ponse et g√©n√©rer le markdown avec frontmatter Astro
    print("\nüîÑ Traitement des r√©sultats...")
    markdown_content, images_info = process_ocr_response(
        ocr_response, 
        output_dir,
        include_annotations=(use_bbox_annotation or use_document_annotation),
        source_filename=file_path.name
    )
    
    # Sauvegarder le fichier markdown
    markdown_path = output_dir / f"{base_name}.md"
    with open(markdown_path, 'w', encoding='utf-8') as f:
        f.write(markdown_content)
    print(f"‚úÖ Markdown avec frontmatter Astro sauvegard√©: {markdown_path}")
    
    # Sauvegarder les m√©tadonn√©es JSON (backup)
    metadata = {
        "source_file": str(file_path),
        "total_pages": len(ocr_response.pages),
        "total_images": len(images_info),
        "document_annotation": ocr_response.document_annotation if hasattr(ocr_response, 'document_annotation') else None,
        "images": images_info
    }
    
    metadata_path = output_dir / f"{base_name}_metadata.json"
    with open(metadata_path, 'w', encoding='utf-8') as f:
        json.dump(metadata, f, indent=2, ensure_ascii=False)
    print(f"‚úÖ M√©tadonn√©es sauvegard√©es: {metadata_path}")
    
    print("\n" + "=" * 50)
    print(f"üìä R√©sum√©:")
    print(f"   - Pages trait√©es: {len(ocr_response.pages)}")
    print(f"   - Images extraites: {len(images_info)}")
    print(f"   - Dossier de sortie: {output_dir}")
    print("=" * 50)
    
    return {
        "output_dir": output_dir,
        "markdown_path": markdown_path,
        "metadata_path": metadata_path,
        "ocr_response": ocr_response,
        "markdown_content": markdown_content,
        "images_info": images_info,
        "metadata": metadata
    }


print("‚úÖ Fonction principale d'OCR d√©finie")

## Traitement d'un document PDF

Exemple avec un des fichiers PDF du dossier `ressources/`

In [None]:
# Lister les fichiers disponibles dans le dossier ressources
ressources_dir = Path("ressources")
pdf_files = list(ressources_dir.glob("*.pdf"))

print("üìÇ Fichiers PDF disponibles dans 'ressources/':")
for i, pdf in enumerate(pdf_files, 1):
    print(f"   {i}. {pdf.name}")

In [None]:
# S√©lectionner le fichier √† traiter (vous pouvez changer l'index ou le nom du fichier)
selected_pdf = pdf_files[0] if pdf_files else None

if selected_pdf:
    print(f"üìÑ Fichier s√©lectionn√©: {selected_pdf.name}")
    
    # Ex√©cuter l'OCR avec annotations
    result = run_ocr_with_annotations(
        file_path=str(selected_pdf),
        use_bbox_annotation=True,
        use_document_annotation=True,
        max_pages=8
    )
else:
    print("‚ùå Aucun fichier PDF trouv√© dans le dossier ressources/")

## Affichage du r√©sultat

Visualisation du markdown g√©n√©r√© et des informations extraites

In [None]:
# Afficher le markdown g√©n√©r√© (si un r√©sultat existe)
if result:
    print("üìÑ Aper√ßu du Markdown g√©n√©r√©:")
    print("=" * 50)
    display(Markdown(result["markdown_content"][:5000] + "\n\n...[Tronqu√© pour l'affichage]" if len(result["markdown_content"]) > 5000 else result["markdown_content"]))

In [None]:
# Afficher les informations sur les images extraites
if result and result["images_info"]:
    print("üñºÔ∏è Images extraites:")
    print("=" * 50)
    for img in result["images_info"]:
        print(f"\nüì∑ {img['filename']} (Page {img['page']})")
        if "annotation" in img and img["annotation"]:
            print(f"   Annotation: {img['annotation'][:200]}..." if len(str(img['annotation'])) > 200 else f"   Annotation: {img['annotation']}")
else:
    print("‚ÑπÔ∏è Aucune image extraite du document")

## Traitement de tous les PDFs du dossier ressources

Fonction pour traiter tous les documents en lot

In [None]:
import time

def process_all_documents(
    input_dir: str = "ressources",
    file_pattern: str = "*.pdf",
    use_bbox_annotation: bool = True,
    use_document_annotation: bool = True,
    sleep_seconds: float = 2.0
) -> list[dict]:
    """
    Traite tous les documents d'un dossier avec pause entre chaque appel API.
    G√©n√®re des fichiers markdown avec frontmatter Astro.
    
    Args:
        input_dir: Dossier contenant les documents
        file_pattern: Pattern glob pour filtrer les fichiers
        use_bbox_annotation: Activer l'annotation des images
        use_document_annotation: Activer l'annotation du document
        sleep_seconds: Temps d'attente entre chaque document (pour free tier)
        
    Returns:
        Liste des r√©sultats pour chaque document
    """
    input_path = Path(input_dir)
    files = list(input_path.glob(file_pattern))
    
    print(f"üìÇ {len(files)} fichiers trouv√©s dans '{input_dir}' avec le pattern '{file_pattern}'")
    print(f"‚è±Ô∏è Pause de {sleep_seconds}s entre chaque document (free tier)")
    print("=" * 60)
    
    results = []
    
    for i, file_path in enumerate(files, 1):
        print(f"\n[{i}/{len(files)}] Traitement de: {file_path.name}")
        print("-" * 60)
        
        try:
            result = run_ocr_with_annotations(
                file_path=str(file_path),
                use_bbox_annotation=use_bbox_annotation,
                use_document_annotation=use_document_annotation
            )
            
            if result:
                results.append({
                    "file": file_path.name,
                    "status": "success",
                    "output_dir": str(result["output_dir"]),
                    "images_count": len(result["images_info"])
                })
            else:
                results.append({
                    "file": file_path.name,
                    "status": "failed",
                    "error": "OCR failed"
                })
        except Exception as e:
            results.append({
                "file": file_path.name,
                "status": "error",
                "error": str(e)
            })
            print(f"‚ùå Erreur: {e}")
        
        # Pause entre chaque document pour respecter les limites du free tier
        if i < len(files):
            print(f"\n‚è≥ Pause de {sleep_seconds}s avant le prochain document...")
            time.sleep(sleep_seconds)
    
    # R√©sum√© final
    print("\n" + "=" * 60)
    print("üìä R√âSUM√â DU TRAITEMENT EN LOT")
    print("=" * 60)
    
    success_count = sum(1 for r in results if r["status"] == "success")
    failed_count = len(results) - success_count
    
    print(f"‚úÖ R√©ussis: {success_count}/{len(results)}")
    print(f"‚ùå √âchecs: {failed_count}/{len(results)}")
    
    if success_count > 0:
        print(f"\nüìÅ Les fichiers ont √©t√© sauvegard√©s dans le dossier 'output/'")
        print("   Chaque sous-dossier contient:")
        print("   - Un fichier .md avec frontmatter YAML (compatible Astro)")
        print("   - Un fichier _metadata.json avec les donn√©es brutes")
        print("   - Un dossier images/ avec les images extraites")
    
    return results


print("‚úÖ Fonction de traitement en lot d√©finie (avec pause pour free tier)")

In [None]:
# Traiter TOUS les fichiers PDF du dossier ressources
# Avec pause de 2 secondes entre chaque document pour le free tier

batch_results = process_all_documents(
    input_dir="ressources",
    file_pattern="*.pdf",
    use_bbox_annotation=True,
    use_document_annotation=True,
    sleep_seconds=2.0  # Pause de 2 secondes pour free tier
)

## Traitement d'une image unique

Exemple pour traiter une seule image (PNG, JPEG, etc.)

In [None]:
def run_ocr_on_image(
    image_path: str,
    use_bbox_annotation: bool = True
) -> dict:
    """
    Ex√©cute l'OCR sur une image unique.
    
    Args:
        image_path: Chemin vers l'image
        use_bbox_annotation: Activer l'annotation
        
    Returns:
        Dictionnaire avec les r√©sultats
    """
    image_path = Path(image_path)
    base_name = image_path.stem
    
    print(f"üñºÔ∏è Traitement de l'image: {image_path.name}")
    print("-" * 50)
    
    # Encoder l'image en base64
    base64_content = encode_file_to_base64(str(image_path))
    if not base64_content:
        return None
    
    print("‚úÖ Image encod√©e en base64")
    
    # D√©terminer le type MIME
    mime_type = get_mime_type(str(image_path))
    
    # Pr√©parer l'appel OCR
    ocr_params = {
        "model": "mistral-ocr-latest",
        "document": {
            "type": "image_url",
            "image_url": f"data:{mime_type};base64,{base64_content}"
        },
        "include_image_base64": True
    }
    
    if use_bbox_annotation:
        ocr_params["bbox_annotation_format"] = response_format_from_pydantic_model(ImageAnnotation)
    
    print("üîÑ Appel de l'API Mistral OCR...")
    
    try:
        ocr_response = client.ocr.process(**ocr_params)
        print("‚úÖ OCR termin√©!")
    except Exception as e:
        print(f"‚ùå Erreur: {e}")
        return None
    
    # Cr√©er le dossier de sortie
    output_dir = create_output_directory(base_name)
    
    # Traiter la r√©ponse
    markdown_content, images_info = process_ocr_response(
        ocr_response, 
        output_dir,
        include_annotations=use_bbox_annotation
    )
    
    # Sauvegarder
    markdown_path = output_dir / f"{base_name}.md"
    with open(markdown_path, 'w', encoding='utf-8') as f:
        f.write(markdown_content)
    
    print(f"‚úÖ R√©sultat sauvegard√© dans: {output_dir}")
    
    return {
        "output_dir": output_dir,
        "markdown_path": markdown_path,
        "markdown_content": markdown_content,
        "images_info": images_info
    }


print("‚úÖ Fonction OCR pour images d√©finie")

In [None]:
# Exemple d'utilisation pour une image
# image_result = run_ocr_on_image("chemin/vers/image.png")

## Structure de sortie pour Astro

Apr√®s le traitement, vous obtenez un dossier avec la structure suivante :

```
output/
‚îî‚îÄ‚îÄ nom_du_document/
    ‚îú‚îÄ‚îÄ nom_du_document.md          # Fichier Markdown avec frontmatter YAML
    ‚îú‚îÄ‚îÄ nom_du_document_metadata.json  # M√©tadonn√©es JSON (backup)
    ‚îî‚îÄ‚îÄ images/
        ‚îú‚îÄ‚îÄ page1_img1.png          # Images extraites
        ‚îú‚îÄ‚îÄ page1_img2.png
        ‚îî‚îÄ‚îÄ ...
```

### Format du frontmatter YAML (compatible Astro)

```yaml
---
source_file: document.pdf
total_pages: 5
total_images: 3
title: "Titre du document"
language: fr
document_type: "proc√®s-verbal"
summary: "R√©sum√© du document..."
key_points:
  - Point cl√© 1
  - Point cl√© 2
authors:
  - Auteur 1
date: "1995-09-29"
organizations:
  - Organisation 1
images:
  - id: img_001
    filename: page1_img1.png
    page: 1
    image_type: table
    title: "Titre de l'image"
    description: "Description courte"
    detailed_description: "Description d√©taill√©e"
---
```

### Format des images dans le markdown

Les images utilisent l'annotation comme texte alternatif :
```markdown
![{image_type} - {description}](images/page1_img1.png)
```

## Mode Multi-Pages : Un Markdown par page

Ce mode g√©n√®re un fichier markdown s√©par√© pour chaque page du document.
Structure de sortie dans `output_2/` :

```
output_2/
‚îî‚îÄ‚îÄ nom_du_document/
    ‚îú‚îÄ‚îÄ page_1.md
    ‚îú‚îÄ‚îÄ page_2.md
    ‚îú‚îÄ‚îÄ ...
    ‚îî‚îÄ‚îÄ images/
        ‚îú‚îÄ‚îÄ page1_img1.png
        ‚îî‚îÄ‚îÄ ...
```

In [None]:
def generate_page_frontmatter(
    source_file: str,
    page_number: int,
    total_pages: int,
    document_annotation: str,
    page_images_info: list[dict]
) -> str:
    """
    G√©n√®re le frontmatter YAML pour une page individuelle (Astro).
    
    Args:
        source_file: Nom du fichier source
        page_number: Num√©ro de la page (1-indexed)
        total_pages: Nombre total de pages
        document_annotation: Annotation du document complet
        page_images_info: Liste des images de cette page
        
    Returns:
        Frontmatter YAML format√©
    """
    doc_data = parse_document_annotation(document_annotation)
    
    frontmatter = {
        "source_file": source_file,
        "page_number": page_number,
        "total_pages": total_pages,
        "total_images": len(page_images_info),
    }
    
    # Ajouter les donn√©es du document si disponibles
    if doc_data:
        if "title" in doc_data:
            frontmatter["document_title"] = doc_data.get("title", "")
        if "language" in doc_data:
            frontmatter["language"] = doc_data.get("language", "")
        if "document_type" in doc_data:
            frontmatter["document_type"] = doc_data.get("document_type", "")
        # Le r√©sum√© n'est inclus que sur la premi√®re page
        if page_number == 1:
            if "summary" in doc_data:
                frontmatter["summary"] = doc_data.get("summary", "")
            if "key_points" in doc_data:
                frontmatter["key_points"] = doc_data.get("key_points", [])
            if "authors" in doc_data:
                frontmatter["authors"] = doc_data.get("authors", [])
            if "date" in doc_data:
                frontmatter["date"] = doc_data.get("date", "")
            if "organizations" in doc_data:
                frontmatter["organizations"] = doc_data.get("organizations", [])
    
    # Ajouter les annotations des images de cette page
    if page_images_info:
        images_data = []
        for img in page_images_info:
            img_entry = {
                "id": img.get("id", ""),
                "filename": img.get("filename", ""),
            }
            
            if "annotation" in img and img["annotation"]:
                img_annotation = parse_image_annotation(img["annotation"])
                if img_annotation:
                    img_entry["image_type"] = img_annotation.get("image_type", "")
                    img_entry["title"] = img_annotation.get("title", "")
                    img_entry["description"] = img_annotation.get("short_description", "") or img_annotation.get("description", "")
                    img_entry["detailed_description"] = img_annotation.get("detailed_description", "")
                    if "data_extracted" in img_annotation and img_annotation["data_extracted"]:
                        img_entry["data_extracted"] = img_annotation.get("data_extracted", "")
            
            images_data.append(img_entry)
        
        frontmatter["images"] = images_data
    
    yaml_content = yaml.dump(frontmatter, allow_unicode=True, default_flow_style=False, sort_keys=False)
    return f"---\n{yaml_content}---\n"


def create_output_directory_v2(base_name: str) -> Path:
    """
    Cr√©e le dossier de sortie pour les r√©sultats OCR multi-pages.
    
    Args:
        base_name: Nom de base du document
        
    Returns:
        Chemin du dossier cr√©√©
    """
    output_dir = Path("output_2") / base_name
    images_dir = output_dir / "images"
    
    output_dir.mkdir(parents=True, exist_ok=True)
    images_dir.mkdir(parents=True, exist_ok=True)
    
    return output_dir


def process_ocr_response_per_page(
    ocr_response: OCRResponse, 
    output_dir: Path,
    source_filename: str = ""
) -> tuple[list[Path], list[dict]]:
    """
    Traite la r√©ponse OCR et g√©n√®re un markdown par page avec frontmatter Astro.
    
    Args:
        ocr_response: R√©ponse de l'API OCR
        output_dir: Dossier de sortie
        source_filename: Nom du fichier source
        
    Returns:
        Tuple (liste des chemins markdown, images_info)
    """
    images_dir = output_dir / "images"
    markdown_paths = []
    all_images_info = []
    
    document_annotation = getattr(ocr_response, 'document_annotation', None)
    total_pages = len(ocr_response.pages)
    
    # D'abord, collecter et sauvegarder toutes les images
    for page_idx, page in enumerate(ocr_response.pages):
        for img_idx, img in enumerate(page.images):
            img_id = img.id
            
            if hasattr(img, 'image_base64') and img.image_base64:
                base64_str = img.image_base64
                
                if base64_str.startswith('data:image/png'):
                    ext = '.png'
                elif base64_str.startswith('data:image/jpeg') or base64_str.startswith('data:image/jpg'):
                    ext = '.jpg'
                else:
                    ext = '.png'
                
                img_filename = f"page{page_idx + 1}_img{img_idx + 1}{ext}"
                img_path = images_dir / img_filename
                
                if save_base64_image(base64_str, str(img_path)):
                    print(f"  ‚úÖ Image sauvegard√©e: {img_filename}")
                    
                    img_info = {
                        "id": img_id,
                        "filename": img_filename,
                        "page": page_idx + 1,
                        "position": {
                            "top_left_x": getattr(img, 'top_left_x', None),
                            "top_left_y": getattr(img, 'top_left_y', None),
                            "bottom_right_x": getattr(img, 'bottom_right_x', None),
                            "bottom_right_y": getattr(img, 'bottom_right_y', None),
                        }
                    }
                    
                    if hasattr(img, 'image_annotation') and img.image_annotation:
                        img_info["annotation"] = img.image_annotation
                    
                    all_images_info.append(img_info)
    
    # G√©n√©rer un fichier markdown par page
    for page_idx, page in enumerate(ocr_response.pages):
        page_number = page_idx + 1
        
        # Filtrer les images de cette page
        page_images = [img for img in all_images_info if img["page"] == page_number]
        
        # G√©n√©rer le frontmatter pour cette page
        frontmatter = generate_page_frontmatter(
            source_file=source_filename,
            page_number=page_number,
            total_pages=total_pages,
            document_annotation=document_annotation,
            page_images_info=page_images
        )
        
        # Pr√©parer les donn√©es des images pour le remplacement
        image_data = {}
        for img_info in page_images:
            img_id = img_info["id"]
            relative_path = f"images/{img_info['filename']}"
            
            alt_text = img_id
            if "annotation" in img_info and img_info["annotation"]:
                img_annotation = parse_image_annotation(img_info["annotation"])
                if img_annotation:
                    parts = []
                    if img_annotation.get("image_type"):
                        parts.append(f"[{img_annotation['image_type']}]")
                    if img_annotation.get("title"):
                        parts.append(img_annotation["title"])
                    elif img_annotation.get("short_description"):
                        parts.append(img_annotation["short_description"])
                    elif img_annotation.get("description"):
                        parts.append(img_annotation["description"])
                    
                    if parts:
                        alt_text = " - ".join(parts)
            
            image_data[img_id] = {
                "path": relative_path,
                "alt": alt_text
            }
        
        # Remplacer les r√©f√©rences d'images dans le markdown
        page_markdown = page.markdown
        for img_id, data in image_data.items():
            old_ref = f"![{img_id}]({img_id})"
            new_ref = f"![{data['alt']}]({data['path']})"
            page_markdown = page_markdown.replace(old_ref, new_ref)
        
        # Combiner frontmatter et contenu
        full_content = frontmatter + "\n" + page_markdown
        
        # Sauvegarder le fichier markdown de la page
        page_filename = f"page_{page_number}.md"
        page_path = output_dir / page_filename
        
        with open(page_path, 'w', encoding='utf-8') as f:
            f.write(full_content)
        
        markdown_paths.append(page_path)
        print(f"  ‚úÖ Page {page_number}/{total_pages} sauvegard√©e: {page_filename}")
    
    return markdown_paths, all_images_info


print("‚úÖ Fonctions pour le mode multi-pages d√©finies")

In [None]:
def run_ocr_with_annotations_per_page(
    file_path: str,
    use_bbox_annotation: bool = True,
    use_document_annotation: bool = True,
    max_pages: int = 8
) -> dict:
    """
    Ex√©cute l'OCR avec annotations et g√©n√®re un markdown par page.
    Sortie dans output_2/
    
    Args:
        file_path: Chemin vers le fichier PDF ou image
        use_bbox_annotation: Activer l'annotation des images/graphiques
        use_document_annotation: Activer l'annotation du document entier
        max_pages: Nombre maximum de pages pour document_annotation (limite API: 8)
        
    Returns:
        Dictionnaire avec les r√©sultats
    """
    file_path = Path(file_path)
    base_name = file_path.stem
    
    print(f"üîÑ Traitement du fichier (mode multi-pages): {file_path.name}")
    print("-" * 50)
    
    # Encoder le fichier en base64
    base64_content = encode_file_to_base64(str(file_path))
    if not base64_content:
        return None
    
    print("‚úÖ Fichier encod√© en base64")
    
    # D√©terminer le type de document
    mime_type = get_mime_type(str(file_path))
    is_pdf = mime_type == 'application/pdf'
    
    # Pr√©parer la configuration du document
    if is_pdf:
        document_config = {
            "type": "document_url",
            "document_url": f"data:{mime_type};base64,{base64_content}"
        }
    else:
        document_config = {
            "type": "image_url",
            "image_url": f"data:{mime_type};base64,{base64_content}"
        }
    
    print(f"üìÑ Type de document: {mime_type}")
    
    # Pr√©parer les param√®tres de l'appel OCR
    ocr_params = {
        "model": "mistral-ocr-latest",
        "document": document_config,
        "include_image_base64": True
    }
    
    # Ajouter les formats d'annotation si demand√©s
    if use_bbox_annotation:
        ocr_params["bbox_annotation_format"] = response_format_from_pydantic_model(ImageAnnotation)
        print("‚úÖ Annotation BBox activ√©e")
    
    if use_document_annotation:
        ocr_params["document_annotation_format"] = response_format_from_pydantic_model(DocumentAnnotation)
        ocr_params["pages"] = list(range(max_pages))
        print(f"‚úÖ Annotation Document activ√©e (max {max_pages} pages)")
    
    print("\nüîÑ Appel de l'API Mistral OCR...")
    
    # Appel √† l'API OCR
    try:
        ocr_response = client.ocr.process(**ocr_params)
        print("‚úÖ OCR termin√© avec succ√®s!")
    except Exception as e:
        print(f"‚ùå Erreur lors de l'OCR: {e}")
        return None
    
    # Cr√©er le dossier de sortie (output_2)
    output_dir = create_output_directory_v2(base_name)
    print(f"\nüìÅ Dossier de sortie cr√©√©: {output_dir}")
    
    # Traiter la r√©ponse et g√©n√©rer un markdown par page
    print("\nüîÑ G√©n√©ration des fichiers markdown par page...")
    markdown_paths, images_info = process_ocr_response_per_page(
        ocr_response, 
        output_dir,
        source_filename=file_path.name
    )
    
    # Sauvegarder les m√©tadonn√©es JSON globales
    metadata = {
        "source_file": str(file_path),
        "total_pages": len(ocr_response.pages),
        "total_images": len(images_info),
        "document_annotation": ocr_response.document_annotation if hasattr(ocr_response, 'document_annotation') else None,
        "markdown_files": [str(p.name) for p in markdown_paths],
        "images": images_info
    }
    
    metadata_path = output_dir / f"{base_name}_metadata.json"
    with open(metadata_path, 'w', encoding='utf-8') as f:
        json.dump(metadata, f, indent=2, ensure_ascii=False)
    print(f"‚úÖ M√©tadonn√©es sauvegard√©es: {metadata_path}")
    
    print("\n" + "=" * 50)
    print(f"üìä R√©sum√©:")
    print(f"   - Pages trait√©es: {len(ocr_response.pages)}")
    print(f"   - Fichiers markdown cr√©√©s: {len(markdown_paths)}")
    print(f"   - Images extraites: {len(images_info)}")
    print(f"   - Dossier de sortie: {output_dir}")
    print("=" * 50)
    
    return {
        "output_dir": output_dir,
        "markdown_paths": markdown_paths,
        "metadata_path": metadata_path,
        "ocr_response": ocr_response,
        "images_info": images_info,
        "metadata": metadata
    }


print("‚úÖ Fonction OCR multi-pages d√©finie")

In [None]:
def process_all_documents_per_page(
    input_dir: str = "ressources",
    file_pattern: str = "*.pdf",
    use_bbox_annotation: bool = True,
    use_document_annotation: bool = True,
    sleep_seconds: float = 2.0
) -> list[dict]:
    """
    Traite tous les documents et g√©n√®re un markdown par page.
    Sortie dans output_2/
    
    Args:
        input_dir: Dossier contenant les documents
        file_pattern: Pattern glob pour filtrer les fichiers
        use_bbox_annotation: Activer l'annotation des images
        use_document_annotation: Activer l'annotation du document
        sleep_seconds: Temps d'attente entre chaque document (pour free tier)
        
    Returns:
        Liste des r√©sultats pour chaque document
    """
    input_path = Path(input_dir)
    files = list(input_path.glob(file_pattern))
    
    print(f"üìÇ {len(files)} fichiers trouv√©s dans '{input_dir}' avec le pattern '{file_pattern}'")
    print(f"‚è±Ô∏è Pause de {sleep_seconds}s entre chaque document (free tier)")
    print(f"üìÅ Mode multi-pages: un markdown par page dans output_2/")
    print("=" * 60)
    
    results = []
    
    for i, file_path in enumerate(files, 1):
        print(f"\n[{i}/{len(files)}] Traitement de: {file_path.name}")
        print("-" * 60)
        
        try:
            result = run_ocr_with_annotations_per_page(
                file_path=str(file_path),
                use_bbox_annotation=use_bbox_annotation,
                use_document_annotation=use_document_annotation
            )
            
            if result:
                results.append({
                    "file": file_path.name,
                    "status": "success",
                    "output_dir": str(result["output_dir"]),
                    "pages_count": len(result["markdown_paths"]),
                    "images_count": len(result["images_info"])
                })
            else:
                results.append({
                    "file": file_path.name,
                    "status": "failed",
                    "error": "OCR failed"
                })
        except Exception as e:
            results.append({
                "file": file_path.name,
                "status": "error",
                "error": str(e)
            })
            print(f"‚ùå Erreur: {e}")
        
        # Pause entre chaque document pour respecter les limites du free tier
        if i < len(files):
            print(f"\n‚è≥ Pause de {sleep_seconds}s avant le prochain document...")
            time.sleep(sleep_seconds)
    
    # R√©sum√© final
    print("\n" + "=" * 60)
    print("üìä R√âSUM√â DU TRAITEMENT EN LOT (MODE MULTI-PAGES)")
    print("=" * 60)
    
    success_count = sum(1 for r in results if r["status"] == "success")
    failed_count = len(results) - success_count
    total_pages = sum(r.get("pages_count", 0) for r in results if r["status"] == "success")
    
    print(f"‚úÖ R√©ussis: {success_count}/{len(results)}")
    print(f"‚ùå √âchecs: {failed_count}/{len(results)}")
    print(f"üìÑ Total pages g√©n√©r√©es: {total_pages}")
    
    if success_count > 0:
        print(f"\nüìÅ Les fichiers ont √©t√© sauvegard√©s dans 'output_2/'")
        print("   Chaque sous-dossier contient:")
        print("   - Un fichier page_X.md par page avec frontmatter YAML")
        print("   - Un fichier _metadata.json avec les donn√©es globales")
        print("   - Un dossier images/ avec les images extraites")
    
    return results


print("‚úÖ Fonction de traitement en lot multi-pages d√©finie")

## Ex√©cution : Traitement de tous les PDFs (mode multi-pages)

Lance le traitement de tous les fichiers PDF du dossier `ressources/` avec :
- Un markdown par page
- Pause de 2 secondes entre chaque document (free tier)
- Sortie dans `output_2/`

In [None]:
# Traiter TOUS les fichiers PDF du dossier ressources (MODE MULTI-PAGES)
# Chaque page aura son propre fichier markdown
# Pause de 2 secondes entre chaque document pour le free tier

batch_results_per_page = process_all_documents_per_page(
    input_dir="ressources",
    file_pattern="*.pdf",
    use_bbox_annotation=True,
    use_document_annotation=True,
    sleep_seconds=2.0  # Pause de 2 secondes pour free tier
)

In [None]:
# Afficher la structure du dossier de sortie
if result:
    output_dir = result["output_dir"]
    print(f"üìÅ Structure du dossier de sortie: {output_dir}")
    print("-" * 50)
    
    for item in output_dir.rglob("*"):
        if item.is_file():
            relative = item.relative_to(output_dir)
            size = item.stat().st_size
            print(f"   üìÑ {relative} ({size:,} bytes)")