<a href="https://colab.research.google.com/github/RadouaneElarfaoui/mistral-ocr-converter/blob/master/mistral_ocr_solution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MistralOCR-Converter

Cette application permet de convertir des documents PDF en texte structur√© √† l'aide de l'API OCR de Mistral AI.

## Fonctionnalit√©s
- Extraction de texte et d'images √† partir de documents PDF
- Conversion dans diff√©rents formats :
  - **Markdown** : Format texte avec images int√©gr√©es en base64
  - **HTML** : Document HTML pour visualisation dans un navigateur
  - **ZIP** : Fichier ZIP contenant le markdown sans base64 et les images dans un dossier s√©par√©
- Interface utilisateur conviviale propuls√©e par Gradio

## Installation des d√©pendances

Commen√ßons par installer les biblioth√®ques n√©cessaires :

In [1]:
!pip install mistralai>=1.7.0 gradio>=3.50.0 regex

## Importation des biblioth√®ques

In [2]:
# --- Importation des biblioth√®ques n√©cessaires ---
import os
import time
import tempfile
import traceback
import re
import shutil
import zipfile
import base64
from pathlib import Path
from typing import Tuple, List, Dict, Optional, Union
import io

# Importation de Gradio pour l'interface utilisateur
import gradio as gr

# Importation des composants Mistral AI (version 1.7.0+)
from mistralai import Mistral

print("‚úÖ Biblioth√®ques import√©es avec succ√®s")

‚úÖ Biblioth√®ques import√©es avec succ√®s


## Configuration de l'API Mistral

Vous devez obtenir une cl√© API sur [https://console.mistral.ai/api-keys](https://console.mistral.ai/api-keys)

In [5]:
# --- Configuration et initialisation ---
# Entrez votre cl√© API Mistral ici
API_KEY = "" # Remplacez par votre propre cl√© API

# Ou utilisez ce formulaire pour la saisir de mani√®re s√©curis√©e
if not API_KEY:
    from google.colab import userdata
    try:
        API_KEY = userdata.get('MISTRAL_API_KEY')
        print("‚úÖ Cl√© API r√©cup√©r√©e depuis les secrets Colab")
    except Exception as e:
        print(f"‚ö†Ô∏è Impossible de r√©cup√©rer la cl√© depuis les secrets: {e}")

# Si toujours pas de cl√©, demander √† l'utilisateur
if not API_KEY:
    import getpass
    API_KEY = getpass.getpass("Entrez votre cl√© API Mistral: ")

# Initialisation du client Mistral
try:
    client = Mistral(api_key=API_KEY)
    print("‚úÖ Client Mistral initialis√© avec succ√®s")
except Exception as e:
    print(f"‚ùå Erreur lors de l'initialisation du client Mistral: {e}")
    raise

‚úÖ Cl√© API r√©cup√©r√©e depuis les secrets Colab
‚úÖ Client Mistral initialis√© avec succ√®s


## Fonctions de traitement des images et du texte

In [6]:
def replace_images_in_markdown(markdown_str: str, images_dict: dict) -> str:
    """
    Remplace les r√©f√©rences d'images par leur contenu base64 dans le markdown.

    Args:
        markdown_str: Texte markdown contenant des r√©f√©rences d'images
        images_dict: Dictionnaire associant ID d'image √† leur contenu base64

    Returns:
        Le texte markdown avec les images int√©gr√©es en base64
    """
    if not markdown_str or not images_dict:
        return markdown_str

    for img_name, base64_str in images_dict.items():
        # V√©rifier que la cha√Æne base64 contient le pr√©fixe n√©cessaire
        if not base64_str.startswith('data:image'):
            # D√©tecter automatiquement le format d'image
            if base64_str.startswith('/9j/'): # JPEG
                mime_type = 'image/jpeg'
            elif base64_str.startswith('iVBOR'): # PNG
                mime_type = 'image/png'
            elif base64_str.startswith('R0lGO'): # GIF
                mime_type = 'image/gif'
            else:
                mime_type = 'image/png' # Format par d√©faut

            base64_str = f"data:{mime_type};base64,{base64_str}"

        # Remplacer les r√©f√©rences d'image par leur contenu base64
        markdown_str = markdown_str.replace(
            f"![{img_name}]({img_name})", f"![{img_name}]({base64_str})"
        )

    return markdown_str

def get_combined_markdown(ocr_response, embed_images=True) -> str:
    """
    Combine les pages OCR en un seul document markdown.

    Args:
        ocr_response: R√©ponse OCR de l'API Mistral
        embed_images: Si True, int√®gre les images en base64, sinon les laisse en r√©f√©rences simples

    Returns:
        Document markdown combin√©
    """
    markdowns = []

    # V√©rifier si la r√©ponse OCR est valide
    if not ocr_response or not hasattr(ocr_response, 'pages') or not ocr_response.pages:
        return "Erreur: La r√©ponse OCR semble vide ou invalide."

    # Traiter chaque page
    for page_num, page in enumerate(ocr_response.pages, 1):
        image_data = {}

        # Extraction des images
        if hasattr(page, 'images') and page.images:
            for img in page.images:
                if hasattr(img, 'id') and hasattr(img, 'image_base64'):
                    # Utiliser le m√™me format d'ID d'image que dans extract_images_from_ocr_response
                    img_name = f"page{page_num}_{img.id}"
                    image_data[img_name] = img.image_base64

                    # Modifier le markdown pour utiliser ce format d'ID
                    if hasattr(page, 'markdown'):
                        page.markdown = page.markdown.replace(
                            f"![{img.id}]({img.id})",
                            f"![{img_name}]({img_name})"
                        )

        # Extraction du markdown
        page_markdown = getattr(page, 'markdown', '')

        # Traitement des images selon le mode choisi
        if embed_images:
            processed_page = replace_images_in_markdown(page_markdown, image_data)
        else:
            # Laisser les r√©f√©rences d'images telles quelles pour traitement ult√©rieur
            processed_page = page_markdown

        # Ajouter un en-t√™te de page pour une meilleure organisation
        processed_markdown = f"## Page {page_num}\n\n{processed_page}"
        markdowns.append(processed_markdown)

    return "\n\n" + "\n\n".join(markdowns)

def extract_images_from_ocr_response(ocr_response) -> Dict[str, str]:
    """
    Extrait toutes les images de la r√©ponse OCR.

    Args:
        ocr_response: R√©ponse OCR de l'API Mistral

    Returns:
        Dictionnaire {nom_image: contenu_base64}
    """
    images_dict = {}

    if not ocr_response or not hasattr(ocr_response, 'pages'):
        return images_dict

    for page_num, page in enumerate(ocr_response.pages, 1):
        if hasattr(page, 'images') and page.images:
            for img in page.images:
                if hasattr(img, 'id') and hasattr(img, 'image_base64'):
                    # Nommer les images par page et index pour √©viter les doublons
                    img_name = f"page{page_num}_{img.id}"
                    images_dict[img_name] = img.image_base64

    return images_dict

## Fonctions pour la cr√©ation de fichiers ZIP et HTML

In [7]:
def create_zip_with_images(markdown_content: str, images_dict: Dict[str, str], output_path: str) -> str:
    """
    Cr√©e un fichier ZIP contenant le fichier markdown et les images dans un dossier s√©par√©.
    Le markdown g√©n√©r√© ne contient PAS les images en base64, mais des r√©f√©rences aux fichiers images.

    Args:
        markdown_content: Contenu markdown √† inclure
        images_dict: Dictionnaire des images {nom_image: contenu_base64}
        output_path: Chemin de sortie pour le ZIP sans extension

    Returns:
        Chemin du fichier ZIP cr√©√©
    """
    # Ajouter l'extension ZIP si n√©cessaire
    if not output_path.lower().endswith('.zip'):
        output_path += '.zip'

    # Cr√©er un dossier temporaire pour pr√©parer le contenu du ZIP
    temp_dir = tempfile.mkdtemp()

    try:
        # Cr√©er le dossier images
        images_dir = os.path.join(temp_dir, "images")
        os.makedirs(images_dir, exist_ok=True)

        # Pr√©paration du markdown propre
        clean_markdown = markdown_content

        # Dictionnaire pour associer les IDs d'images aux noms de fichiers
        img_filename_map = {}

        # Extraire et sauvegarder toutes les images
        for img_name, base64_str in images_dict.items():
            # D√©terminer le format de l'image
            if base64_str.startswith('data:'):
                mime_type, b64data = base64_str.split(',', 1)
                ext = mime_type.split('/')[1].split(';')[0]
            else:
                # D√©tecter automatiquement le format d'image
                if base64_str.startswith('/9j/'): # JPEG
                    ext = 'jpg'
                    b64data = base64_str
                elif base64_str.startswith('iVBOR'): # PNG
                    ext = 'png'
                    b64data = base64_str
                elif base64_str.startswith('R0lGO'): # GIF
                    ext = 'gif'
                    b64data = base64_str
                else:
                    ext = 'png'  # Format par d√©faut
                    b64data = base64_str

            # G√©n√©rer un nom de fichier
            img_filename = f"{img_name}.{ext}"
            img_filename_map[img_name] = img_filename

            # On garde aussi une r√©f√©rence avec juste l'ID sans le pr√©fixe "page{num}_"
            # pour capturer tous les cas possibles
            if img_name.startswith("page") and "_" in img_name:
                original_id = img_name.split("_", 1)[1]
                img_filename_map[original_id] = img_filename

            # √âcrire l'image
            with open(os.path.join(images_dir, img_filename), 'wb') as f:
                f.write(base64.b64decode(b64data))

        # Rechercher tous les motifs d'images dans le markdown en utilisant une expression r√©guli√®re g√©n√©rale
        # pour trouver toutes les syntaxes de type ![quelquechose](reference)
        img_pattern = r'!\[(.*?)\]\((.*?)\)'

        # Fonction de callback pour remplacer les r√©f√©rences
        def replace_img_refs(match):
            alt_text = match.group(1)
            img_ref = match.group(2)

            # Si la r√©f√©rence est dans notre dictionnaire, utilisez-la
            if img_ref in img_filename_map:
                return f'![{alt_text}](images/{img_filename_map[img_ref]})'

            # Si c'est une r√©f√©rence base64, rechercher par texte alternatif
            if img_ref.startswith('data:image') and alt_text in img_filename_map:
                return f'![{alt_text}](images/{img_filename_map[alt_text]})'

            # Si on ne trouve toujours pas, garder telle quelle
            return match.group(0)

        # Appliquer le remplacement
        clean_markdown = re.sub(img_pattern, replace_img_refs, clean_markdown)

        # √âcrire le fichier markdown propre
        with open(os.path.join(temp_dir, "document.md"), 'w', encoding='utf-8') as f:
            f.write(clean_markdown)

        # Cr√©er le fichier ZIP
        with zipfile.ZipFile(output_path, 'w') as zipf:
            # Ajouter le fichier markdown
            zipf.write(os.path.join(temp_dir, "document.md"), "document.md")

            # Ajouter les images
            for root, _, files in os.walk(images_dir):
                for file in files:
                    file_path = os.path.join(root, file)
                    arcname = os.path.join("images", file)
                    zipf.write(file_path, arcname)

        return output_path

    finally:
        # Nettoyer le dossier temporaire
        shutil.rmtree(temp_dir)

def create_html_file(markdown_content: str, output_path: str) -> str:
    """
    Convertit le contenu markdown en HTML simple pour √™tre visualis√© dans un navigateur.

    Args:
        markdown_content: Contenu markdown √† convertir
        output_path: Chemin de sortie pour le HTML sans extension

    Returns:
        Chemin du fichier HTML cr√©√©
    """
    # Ajouter l'extension HTML si n√©cessaire
    if not output_path.lower().endswith('.html'):
        output_path += '.html'

    # Conversion manuelle simple de markdown en HTML basique
    # Note: Ceci est une impl√©mentation simple qui pourrait √™tre am√©lior√©e
    html_content = markdown_content

    # Convertir les titres
    html_content = re.sub(r'## (.*?)$', r'<h2>\1</h2>', html_content, flags=re.MULTILINE)
    html_content = re.sub(r'# (.*?)$', r'<h1>\1</h1>', html_content, flags=re.MULTILINE)

    # Convertir les paragraphes (lignes sans titres)
    html_content = re.sub(r'^(?!<h[1-6]>)(.*?)$', r'<p>\1</p>', html_content, flags=re.MULTILINE)

    # Convertir les sauts de ligne multiples en un seul
    html_content = re.sub(r'<\/p>\s*<p><\/p>\s*<p>', r'</p><p>', html_content)

    # Nettoyage des paragraphes vides
    html_content = re.sub(r'<p><\/p>', r'', html_content)

    # Ajouter la structure HTML de base
    html_output = f"""<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>R√©sultat OCR</title>
    <style>
        body {{ font-family: Arial, sans-serif; margin: 20px; line-height: 1.6; }}
        h1 {{ color: #333; margin-top: 24px; }}
        h2 {{ color: #444; border-bottom: 1px solid #ddd; padding-bottom: 5px; margin-top: 20px; }}
        img {{ max-width: 100%; height: auto; border: 1px solid #ddd; margin: 10px 0; }}
        p {{ margin-bottom: 16px; }}
    </style>
</head>
<body>
    <h1>R√©sultat de l'OCR</h1>
    {html_content}
</body>
</html>
"""

    # √âcrire le fichier HTML
    with open(output_path, 'w', encoding='utf-8') as f:
        f.write(html_output)

    return output_path

## Fonction principale de traitement OCR

In [8]:
def process_pdf_with_ocr(uploaded_file_obj, model_name="mistral-ocr-latest", output_format="markdown", show_progress=True):
    """
    Traite un fichier PDF avec OCR Mistral et retourne le contenu selon le format demand√©.

    Args:
        uploaded_file_obj: Objet fichier t√©l√©charg√© via Gradio
        model_name: Nom du mod√®le OCR √† utiliser
        output_format: Format de sortie ("markdown", "html", "zip")
        show_progress: Afficher les messages de progression dans la console

    Returns:
        Tuple contenant (contenu_markdown, chemin_fichier, messages_log)
    """
    log_messages = []
    uploaded_file_mistral = None
    temp_files = []

    def log(message):
        """Fonction d'aide pour enregistrer les messages de progression"""
        if show_progress:
            print(message)
        log_messages.append(message)

    # V√©rifier si un fichier a √©t√© t√©l√©charg√©
    if uploaded_file_obj is None:
        log("‚ùå Erreur: Veuillez t√©l√©charger un fichier PDF.")
        return "Veuillez t√©l√©charger un fichier PDF.", None, "\n".join(log_messages)

    try:
        # R√©cup√©rer le chemin du fichier temporaire cr√©√© par Gradio
        input_pdf_path = Path(uploaded_file_obj.name)
        log(f"üìÑ Traitement du fichier: {input_pdf_path.name}")

        # 1. T√©l√©charger le fichier PDF vers Mistral
        log("üîÑ T√©l√©chargement du fichier vers Mistral...")
        start_upload = time.time()

        uploaded_file_mistral = client.files.upload(
            file={
                "file_name": input_pdf_path.name,
                "content": input_pdf_path.read_bytes(),
            },
            purpose="ocr",
        )

        upload_time = time.time() - start_upload
        log(f"‚úÖ Fichier t√©l√©charg√© avec l'ID: {uploaded_file_mistral.id} en {upload_time:.2f} secondes")

        # 2. Obtenir l'URL sign√©e (validit√© courte)
        log("üîÑ Obtention de l'URL sign√©e...")
        signed_url = client.files.get_signed_url(file_id=uploaded_file_mistral.id, expiry=60)
        log("‚úÖ URL sign√©e obtenue")

        # 3. Traitement OCR - Utilisation de l'API OCR de Mistral selon la documentation officielle
        log(f"üîÑ D√©marrage du traitement OCR avec le mod√®le {model_name}...")
        start_time = time.time()

        pdf_response = client.ocr.process(
            model=model_name,
            document={
                "type": "document_url",
                "document_url": signed_url.url,
            },
            include_image_base64=True
        )

        processing_time = time.time() - start_time
        log(f"‚úÖ Traitement OCR termin√© en {processing_time:.2f} secondes")

        # 4. G√©n√©ration du markdown combin√©
        log("üîÑ G√©n√©ration du markdown...")
        if output_format == "zip":
            # Pour le ZIP, on g√©n√®re un markdown sans int√©grer les images en base64
            final_markdown_content = get_combined_markdown(pdf_response, embed_images=False)
            log("‚úÖ G√©n√©ration du markdown sans images base64 termin√©e")
        else:
            # Pour les autres formats, on int√®gre les images en base64
            final_markdown_content = get_combined_markdown(pdf_response, embed_images=True)
            log("‚úÖ G√©n√©ration du markdown avec images base64 termin√©e")

        # 5. Extraction des images si n√©cessaire
        images_dict = {}
        if output_format in ["html", "zip"]:
            log("üîÑ Extraction des images...")
            images_dict = extract_images_from_ocr_response(pdf_response)
            log(f"‚úÖ {len(images_dict)} images extraites")

        # 6. Pr√©paration des fichiers selon le format demand√©
        log(f"üîÑ Pr√©paration du fichier au format {output_format}...")
        temp_dir = tempfile.gettempdir()
        base_filename = input_pdf_path.stem

        if output_format == "markdown":
            # Format Markdown standard
            output_filename = f"{base_filename}_ocr_result.md"
            output_path = os.path.join(temp_dir, output_filename)

            with open(output_path, 'w', encoding='utf-8') as f:
                f.write(final_markdown_content)

            temp_files.append(output_path)
            log(f"‚úÖ Fichier Markdown enregistr√©: {output_path}")

        elif output_format == "html":
            # Conversion en HTML
            output_filename = f"{base_filename}_ocr_result.html"
            output_path = os.path.join(temp_dir, output_filename)

            # Cr√©er le HTML
            create_html_file(final_markdown_content, output_path)

            temp_files.append(output_path)
            log(f"‚úÖ Fichier HTML enregistr√©: {output_path}")

        elif output_format == "zip":
            # Cr√©ation d'un ZIP avec les images s√©par√©es
            output_filename = f"{base_filename}_ocr_result.zip"
            output_path = os.path.join(temp_dir, output_filename)

            # Cr√©er le ZIP avec markdown sans base64
            create_zip_with_images(final_markdown_content, images_dict, output_path)

            temp_files.append(output_path)
            log(f"‚úÖ Fichier ZIP enregistr√©: {output_path}")

        else:
            # Format par d√©faut (markdown)
            output_filename = f"{base_filename}_ocr_result.md"
            output_path = os.path.join(temp_dir, output_filename)

            with open(output_path, 'w', encoding='utf-8') as f:
                f.write(final_markdown_content)

            temp_files.append(output_path)
            log(f"‚úÖ Fichier Markdown enregistr√©: {output_path}")

        # Retourner le contenu markdown, le chemin du fichier et les logs
        return final_markdown_content, output_path, "\n".join(log_messages)

    except Exception as e:
        error_message = f"‚ùå Une erreur est survenue: {e}"
        log(error_message)
        log(traceback.format_exc())
        return f"### Erreur\n{error_message}\n\nVeuillez v√©rifier votre connexion et votre cl√© API.", None, "\n".join(log_messages)

    finally:
        # Nettoyage facultatif: supprimer le fichier t√©l√©charg√© du stockage Mistral
        try:
            if uploaded_file_mistral:
                log(f"üîÑ Suppression du fichier {uploaded_file_mistral.id} du stockage Mistral...")
                client.files.delete(file_id=uploaded_file_mistral.id)
                log("‚úÖ Fichier supprim√© du stockage Mistral")
        except Exception as delete_e:
            log(f"‚ö†Ô∏è Impossible de supprimer le fichier {uploaded_file_mistral.id}: {delete_e}")

## Interface utilisateur Gradio

In [9]:
def create_interface():
    """Cr√©e et lance l'interface utilisateur Gradio"""

    # Style CSS personnalis√© pour une meilleure apparence
    custom_css = """
    .success-text { color: green; font-weight: bold; }
    .error-text { color: red; font-weight: bold; }
    .info-text { color: blue; }
    """

    # Cr√©ation de l'interface
    with gr.Blocks(css=custom_css, theme=gr.themes.Soft(primary_hue="blue")) as iface:
        gr.Markdown("# üìù Interface OCR Mistral PDF")
        gr.Markdown("""
        Cette application utilise l'API Mistral OCR pour extraire du texte et des images √† partir de fichiers PDF.
        T√©l√©chargez un PDF pour obtenir son contenu au format Markdown avec images int√©gr√©es.
        """)

        with gr.Row():
            with gr.Column(scale=1):
                pdf_input = gr.File(label="T√©l√©charger un PDF", file_types=['.pdf'])
                model_dropdown = gr.Dropdown(
                    choices=["mistral-ocr-latest"],
                    value="mistral-ocr-latest",
                    label="Mod√®le OCR"
                )
                format_dropdown = gr.Dropdown(
                    choices=["markdown", "html", "zip"],
                    value="markdown",
                    label="Format de sortie"
                )
                process_button = gr.Button("üöÄ Lancer le traitement OCR", variant="primary")

            with gr.Column(scale=2):
                log_output = gr.Textbox(label="Journal de traitement", lines=10)

        with gr.Tabs():
            with gr.TabItem("R√©sultat"):
                markdown_output = gr.Markdown(label="R√©sultat OCR (Markdown avec images)")

            with gr.TabItem("T√©l√©chargement"):
                file_output = gr.File(label="T√©l√©charger le r√©sultat")

            with gr.TabItem("√Ä propos"):
                gr.Markdown("""
                ## √Ä propos de cette application

                Cette interface utilise l'API Mistral OCR pour effectuer la reconnaissance optique de caract√®res (OCR) sur des documents PDF.

                ### Fonctionnalit√©s
                - Extraction de texte et d'images √† partir de PDF
                - G√©n√©ration de fichier Markdown avec images int√©gr√©es
                - Exportation en diff√©rents formats (Markdown, HTML, ZIP avec images s√©par√©es)
                - Visualisation directe du r√©sultat

                ### Formats de sortie disponibles
                - **Markdown** : Format texte avec images int√©gr√©es en base64
                - **HTML** : Document HTML pour visualisation dans un navigateur
                - **ZIP** : Fichier ZIP contenant le markdown sans base64 et les images dans un dossier s√©par√©

                ### Remarques
                - Une cl√© API Mistral valide est n√©cessaire pour utiliser ce service
                - Les documents volumineux peuvent prendre plus de temps √† traiter
                - Limite de taille : 50 Mo maximum et 1000 pages maximum par document

                Version: 1.0.1 (Colab)
                """)

        # Connexion du bouton de traitement √† la fonction OCR
        process_button.click(
            fn=process_pdf_with_ocr,
            inputs=[pdf_input, model_dropdown, format_dropdown],
            outputs=[markdown_output, file_output, log_output]
        )

    # Lancement de l'interface
    iface.launch(debug=True, share=True)
    return iface

## Lancement de l'application

Ex√©cutez la cellule ci-dessous pour d√©marrer l'interface utilisateur :

In [None]:
print("üöÄ D√©marrage de l'interface OCR Mistral...")
app = create_interface()

üöÄ D√©marrage de l'interface OCR Mistral...
Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
* Running on public URL: https://faa6586235f7a33f44.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


## Exemple d'utilisation direct (sans interface)

Si vous pr√©f√©rez utiliser le code directement sans l'interface Gradio, voici un exemple :

In [None]:
# Exemple d'utilisation directe sans Gradio
# D√©commentez et modifiez selon vos besoins

'''
from google.colab import files
import io

# 1. T√©l√©charger un fichier PDF
print("Veuillez t√©l√©charger un fichier PDF")
uploaded = files.upload()

# 2. Traiter le premier fichier t√©l√©charg√©
if uploaded:
    file_name = next(iter(uploaded.keys()))
    file_content = uploaded[file_name]

    # Cr√©er un fichier temporaire pour simuler le fichier t√©l√©charg√©
    class TempFile:
        def __init__(self, name, content):
            self.name = name
            self._content = content

        def read_bytes(self):
            return self._content

    temp_file = TempFile(file_name, file_content)

    # 3. Traiter avec OCR (format au choix : "markdown", "html", "zip")
    markdown_content, output_file, logs = process_pdf_with_ocr(
        temp_file,
        model_name="mistral-ocr-latest",
        output_format="markdown"
    )

    # 4. Afficher les logs
    print(logs)

    # 5. T√©l√©charger le r√©sultat si disponible
    if output_file:
        files.download(output_file)
'''

## Conclusion

L'application MistralOCR-Converter vous permet de convertir facilement des documents PDF en texte structur√© avec pr√©servation des images.

**Note importante** : Assurez-vous de disposer d'une cl√© API Mistral valide pour utiliser cette application.