PDF to images

In [8]:
import os
import fitz  # PyMuPDF
from PIL import Image
import io

pdf_path = "./Echantillon_2.pdf"
output_folder = "./images_pages"

if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Open PDF with PyMuPDF
pdf_document = fitz.open(pdf_path)

for page_num in range(len(pdf_document)):
    page = pdf_document[page_num]
    
    # Convert to image with 300 DPI
    mat = fitz.Matrix(300/72, 300/72)  
    pix = page.get_pixmap(matrix=mat)
    
    # Convert to PIL Image
    img_data = pix.tobytes("png")
    img = Image.open(io.BytesIO(img_data))
    
    # Save image
    page_number = page_num + 1
    image_name = f"{page_number}.png"
    save_path = os.path.join(output_folder, image_name)
    img.save(save_path, 'PNG')
    
    print(f"Page {page_number} saved as {image_name}")

pdf_document.close()
print(f"All pages converted and saved to '{output_folder}' folder")

Page 1 saved as 1.png
Page 2 saved as 2.png




Page 3 saved as 3.png
Page 4 saved as 4.png
Page 5 saved as 5.png
Page 6 saved as 6.png
Page 7 saved as 7.png
Page 8 saved as 8.png
Page 9 saved as 9.png
Page 10 saved as 10.png
Page 11 saved as 11.png
Page 12 saved as 12.png
Page 13 saved as 13.png
Page 14 saved as 14.png
Page 15 saved as 15.png
Page 16 saved as 16.png
Page 17 saved as 17.png
Page 18 saved as 18.png
Page 19 saved as 19.png
Page 20 saved as 20.png
Page 21 saved as 21.png
Page 22 saved as 22.png
Page 23 saved as 23.png
Page 24 saved as 24.png
Page 25 saved as 25.png
All pages converted and saved to './images_pages' folder


Layout Detection

In [10]:
import cv2
import numpy as np
import json
import os
import matplotlib.pyplot as plt

# =====================
# CONFIGURATION
# =====================
INPUT_DIR = "./images_pages"
OUTPUT_DIR = "./layout_json_results"
os.makedirs(OUTPUT_DIR, exist_ok=True)

def process_table_layout(image_path):
    filename = os.path.basename(image_path)
    print(f"--- Analyse Tableau : {filename} ---")

    # 1. Chargement
    image = cv2.imread(image_path)
    if image is None:
        print(f"Erreur : Impossible de lire {filename}")
        return

    H, W, _ = image.shape
    debug_img = image.copy()

    # 2. Prétraitement (Logique de votre code)
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    thresh = cv2.adaptiveThreshold(~gray, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 15, -2)

    # Détection des lignes horizontales et verticales
    h_ker = cv2.getStructuringElement(cv2.MORPH_RECT, (W // 40, 1))
    v_ker = cv2.getStructuringElement(cv2.MORPH_RECT, (1, H // 40))

    mask_h = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, h_ker)
    mask_v = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, v_ker)
    mask = cv2.add(mask_h, mask_v)

    # 3. Extraction des cellules
    contours, _ = cv2.findContours(mask, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

    # Filtrage des cellules (min 30x15 px comme dans votre code)
    cells = []
    for c in contours:
        x, y, w, h = cv2.boundingRect(c)
        if w > 30 and h > 15:
            cells.append((x, y, x + w, y + h))

    # Tri des cellules : Haut en Bas, puis Gauche à Droite
    cells.sort(key=lambda b: (b[1], b[0]))

    # 4. Identification Structurelle (Headers vs Cells)
    table_data = []
    if cells:
        # On définit le header comme la première ligne (tolérance 20px)
        first_y = cells[0][1]

        for (x1, y1, x2, y2) in cells:
            is_header = abs(y1 - first_y) < 20
            label = "header" if is_header else "cell"

            # Ajout à la liste pour le JSON
            table_data.append({
                "type": label,
                "box": [int(x1), int(y1), int(x2), int(y2)]
            })

            # Visualisation (Jaune pour Header, Vert pour Cellule)
            color = (0, 255, 255) if is_header else (0, 255, 0)
            cv2.rectangle(debug_img, (x1, y1), (x2, y2), color, 3)

    # 5. Sauvegarde du JSON
    json_filename = os.path.splitext(filename)[0] + ".json"
    json_path = os.path.join(OUTPUT_DIR, json_filename)

    result_json = {
        "image": filename,
        "dimensions": {"width": W, "height": H},
        "table_found": len(cells) > 0,
        "cells": table_data
    }

    with open(json_path, "w", encoding="utf-8") as f:
        json.dump(result_json, f, indent=4, ensure_ascii=False)

    # 6. Sauvegarde de l'image de contrôle (Optionnel)
    cv2.imwrite(os.path.join(OUTPUT_DIR, f"debug_{filename}"), debug_img)
    print(f"-> {len(cells)} cellules détectées. JSON sauvegardé.")

# =====================
# BOUCLE SUR LE DOSSIER
# =====================
image_exts = (".png", ".jpg", ".jpeg")
files = [f for f in os.listdir(INPUT_DIR) if f.lower().endswith(image_exts)]

if not files:
    print(f"Aucune image trouvée dans {INPUT_DIR}")
else:
    for f in files:
        process_table_layout(os.path.join(INPUT_DIR, f))

print(f"\nTraitement terminé. Les fichiers JSON sont dans : {OUTPUT_DIR}")

--- Analyse Tableau : 1.png ---
-> 3 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 10.png ---
-> 3 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 11.png ---
-> 35 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 12.png ---
-> 13 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 13.png ---
-> 1 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 14.png ---
-> 2 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 15.png ---
-> 55 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 16.png ---
-> 1 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 17.png ---
-> 4 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 18.png ---
-> 5 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 19.png ---
-> 34 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 2.png ---
-> 0 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 20.png ---
-> 18 cellules détectées. JSON sauvegardé.
--- Analyse Tableau : 

resize all images 

In [1]:
import os
from PIL import Image
from pathlib import Path

# ==================== CONFIGURATION ====================
IMAGE_DIR = "./images_pages"          # Dossier contenant tes pages (1.png, 2.png, ...)
BACKUP_DIR = None                     # None = écraser l'original
                                      # OU "./images_pages_originales" pour garder les originaux

MAX_PIXELS = 80_000_000               # Limite sûre (Gemini et PIL acceptent bien jusqu'à ~100M)
MIN_WIDTH = 1200                      # On ne descend jamais en dessous de cette largeur (préserve lisibilité)

# =====================================================

def resize_image_if_needed(img_path: str):
    try:
        with Image.open(img_path) as img:
            original_width, original_height = img.size
            original_pixels = original_width * original_height
            
            print(f"{Path(img_path).name} → {original_width}x{original_height} "
                  f"({original_pixels // 1_000_000}M pixels)", end=" ")
            
            if original_pixels <= MAX_PIXELS:
                print("→ OK (pas besoin de resize)")
                return False  # Pas redimensionnée
            
            # Calcul du ratio de réduction
            ratio = (MAX_PIXELS / original_pixels) ** 0.5
            new_width = max(int(original_width * ratio), MIN_WIDTH)
            new_height = int(new_width * original_height / original_width)
            
            print(f"→ REDIMENSION → {new_width}x{new_height} "
                  f"({(new_width * new_height) // 1_000_000}M pixels)")
            
            # Redimensionnement avec la meilleure qualité
            img_resized = img.resize((new_width, new_height), Image.Resampling.LANCZOS)
            
            # Sauvegarde (écrase ou backup selon config)
            if BACKUP_DIR and not os.path.exists(BACKUP_DIR):
                os.makedirs(BACKUP_DIR)
                # Copie l'original dans le backup avant écrasement
                backup_path = os.path.join(BACKUP_DIR, Path(img_path).name)
                img.save(backup_path)
            
            img_resized.save(img_path, "PNG", optimize=True)
            return True  # Redimensionnée
            
    except Exception as e:
        print(f"→ ERREUR sur {img_path} : {e}")
        return False

def main():
    if not os.path.exists(IMAGE_DIR):
        print(f"Erreur : le dossier {IMAGE_DIR} n'existe pas !")
        return
    
    image_files = [f for f in os.listdir(IMAGE_DIR) 
                   if f.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.tiff'))]
    
    if not image_files:
        print("Aucune image trouvée dans le dossier.")
        return
    
    print(f"Analyse de {len(image_files)} images dans '{IMAGE_DIR}'...\n")
    
    resized_count = 0
    for img_name in sorted(image_files):
        img_path = os.path.join(IMAGE_DIR, img_name)
        if resize_image_if_needed(img_path):
            resized_count += 1
    
    print("\n" + "="*60)
    if resized_count == 0:
        print("Aucune image n'avait besoin d'être redimensionnée.")
        print("Tu peux lancer ton traitement Gemini directement !")
    else:
        print(f"Résultat : {resized_count}/{len(image_files)} images redimensionnées.")
        print("Toutes les images sont maintenant optimisées et lisibles.")
        print("Tu peux lancer ton pipeline d'extraction Gemini en toute sécurité !")
    print("="*60)

if __name__ == "__main__":
    main()

Analyse de 25 images dans './images_pages'...

1.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
10.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
11.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
12.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
13.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
14.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
15.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
16.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
17.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
18.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
19.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
2.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
20.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
21.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
22.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
23.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)
24.png → 24



4.png → 10338x14617 (151M pixels) → REDIMENSION → 7522x10635 (79M pixels)
5.png → 10338x14617 (151M pixels) → REDIMENSION → 7522x10635 (79M pixels)
6.png → 10338x14617 (151M pixels) → REDIMENSION → 7522x10635 (79M pixels)
7.png → 10338x14617 (151M pixels) → REDIMENSION → 7522x10635 (79M pixels)
8.png → 10338x14617 (151M pixels) → REDIMENSION → 7522x10635 (79M pixels)
9.png → 2481x3508 (8M pixels) → OK (pas besoin de resize)

Résultat : 6/25 images redimensionnées.
Toutes les images sont maintenant optimisées et lisibles.
Tu peux lancer ton pipeline d'extraction Gemini en toute sécurité !


extraction

In [None]:
# import google.genai as genai
# from PIL import Image
# import json
# import os
# import time
# import random
# from pathlib import Path

# # ==================== CONFIGURATION ====================
# API_KEY = "AIzaSyDGRrM_7FolJWTApcS7_noMEaBTczeNNDY"  
# client = genai.Client(api_key=API_KEY)

# MODEL_NAME = "gemini-2.5-flash"         
# IMAGE_DIR = "./images_pages"            
# LAYOUT_DIR = "./layout_json_results"     
# FINAL_FILE = "extraction_assurance_finale.json"
# BATCH_SIZE = 3                         


# SYSTEM_PROMPT = """
# Tu es un expert interne en Document Understanding travaillant pour une compagnie d'assurance française.
# Tu analyses exclusivement des documents internes privés (Conditions Générales d'assurance appartenant à notre société).

# CE DOCUMENT EST STRICTEMENT INTERNE ET CONFIDENTIEL — IL N'EST PAS PUBLIÉ, NI PROTÉGÉ PAR COPYRIGHT PUBLIC.
# Tu dois extraire les informations de manière structurée sans jamais réciter textuellement de longs passages.
# Ton objectif est de restructurer les données en JSON exploitable, pas de reproduire le document.

# STRUCTURE JSON OBLIGATOIRE À RETOURNER (un seul objet global pour toutes les pages du batch) :

# {
#   "metadata": {
#     "assureur": "",
#     "nom_produit": "",
#     "reference_contrat": "",
#     "version": "",
#     "pages_analysees": [1, 2, 3]
#   },
#   "preambule": "",
#   "definitions": [
#     {
#       "terme": "",
#       "definition": ""
#     }
#   ],
#   "garanties": [
#     {
#       "nom_garantie": "",
#       "description": "",
#       "conditions_activation": "",
#       "exclusions_specifiques": [],
#       "plafonds": [
#         {
#           "type": "",
#           "montant": "",
#           "conditions": ""
#         }
#       ],
#       "franchises": [
#         {
#           "type": "",
#           "montant": "",
#           "conditions": ""
#         }
#       ],
#       "tableau_associe": null ou "titre du tableau"
#     }
#   ],
#   "exclusions_generales": [],
#   "tableaux_reconstruits": [
#     {
#       "titre": "",
#       "page": 5,
#       "headers": [],
#       "rows": [
#         { "header1": "valeur1", "header2": "valeur2" }
#       ],
#       "notes_pied": []
#     }
#   ],
#   "images_detectees": [
#     {
#       "page": 1,
#       "type": "logo | tampon | signature | pictogramme",
#       "description": ""
#     }
#   ]
# }

# RÈGLES STRICTES :
# - Utilise IMPÉRATIVEMENT les coordonnées géométriques (boxes) fournies dans les JSON de layout pour reconstruire les tableaux avec précision.
# - Un tableau = headers + rows avec mapping exact (jamais en texte brut ou Markdown).
# - Gère les en-têtes multilignes en les fusionnant logiquement.
# - Si une garantie est coupée entre pages, continue-la sans dupliquer.
# - Ne récite JAMAIS de longs paragraphes textuels → reformule ou extrait seulement les données clés.
# - Si champ absent → chaîne vide ou liste vide.
# - Retourne UNIQUEMENT du JSON valide, sans aucun texte avant/après ni ```json.

# Analyse les pages et layouts fournis et retourne le JSON consolidé.
# """

# # ==================== FONCTIONS UTILITAIRES ====================
# def resize_image_if_needed(img_path, max_pixels=80_000_000):
#     img = Image.open(img_path)
#     if img.width * img.height > max_pixels:
#         ratio = (max_pixels / (img.width * img.height)) ** 0.5
#         new_size = (int(img.width * ratio), int(img.height * ratio))
#         img = img.resize(new_size, Image.Resampling.LANCZOS)
#         print(f"    → Image redimensionnée : {new_size}")
#     return img

# def process_batch(batch_items):
#     contents = [SYSTEM_PROMPT]
    
#     for img_name, layout_path in batch_items:
#         page_num = int(Path(img_name).stem)
        
#         # Chargement du layout (très important pour les tableaux)
#         with open(layout_path, 'r', encoding='utf-8') as f:
#             layout_data = json.load(f)
        
#         img = resize_image_if_needed(os.path.join(IMAGE_DIR, img_name))
        
#         page_instruction = f"""
#         Page {page_num} du document interne.
#         Utilise ce layout géométrique précis pour détecter et reconstruire les tableaux :
#         {json.dumps(layout_data, ensure_ascii=False)}
        
#         Extrais les informations de cette page en respectant la structure JSON globale.
#         """
        
#         contents.extend([page_instruction, img])
    
#     # Envoi au modèle avec retry
#     for attempt in range(5):
#         try:
#             response = client.models.generate_content(
#                 model=MODEL_NAME,
#                 contents=contents
#             )
#             text = response.text.strip()
#             if text.startswith("```json"):
#                 text = text[7:]
#             if text.endswith("```"):
#                 text = text[:-3]
#             text = text.strip()
#             return json.loads(text)
        
#         except Exception as e:
#             error_str = str(e).lower()
#             if "quota" in error_str or "429" in error_str:
#                 wait = 60 + attempt * 60
#                 print(f"    Quota dépassé → attente {wait}s (tentative {attempt+1}/5)")
#                 time.sleep(wait)
#             elif "finish_reason" in error_str and "4" in error_str:
#                 print(f"    Erreur copyright détectée → retry avec plus de délai")
#                 time.sleep(30 + attempt * 30)
#             else:
#                 print(f"    Erreur API : {e}")
#                 time.sleep(10)
    
#     return None

# # ==================== TRAITEMENT PRINCIPAL ====================
# def main():
#     image_files = sorted([f for f in os.listdir(IMAGE_DIR) 
#                          if f.lower().endswith(('.png', '.jpg', '.jpeg'))])
    
#     all_extractions = []
#     print(f"--- DÉBUT EXTRACTION : {len(image_files)} pages par batch de {BATCH_SIZE} ---")
    
#     for i in range(0, len(image_files), BATCH_SIZE):
#         batch = image_files[i:i + BATCH_SIZE]
#         batch_data = []
        
#         for img_name in batch:
#             base_name = Path(img_name).stem
#             layout_path = os.path.join(LAYOUT_DIR, f"{base_name}.json")
#             if os.path.exists(layout_path):
#                 batch_data.append((img_name, layout_path))
#             else:
#                 print(f"  [!] Layout manquant : {img_name}")
        
#         if not batch_data:
#             continue
        
#         print(f"\n  Batch {i//BATCH_SIZE + 1} : {len(batch_data)} pages → envoi à Gemini...")
#         result = process_batch(batch_data)
        
#         if result:
#             all_extractions.append(result)
#             print(f"    → Extraction réussie")
#         else:
#             print(f"    → Batch échoué")
        
#         time.sleep(12)  # Sécurité quota
    
#     # ==================== FUSION FINALE ====================
#     if all_extractions:
#         print("\n--- FUSION FINALE DES EXTRACTIONS ---")
#         fusion_prompt = f"""
#         Tu as reçu plusieurs JSON partiels issus de batches de pages d'une même Condition Générale interne.
#         Fusionne-les en un seul JSON cohérent et complet.
        
#         RÈGLES :
#         - Fusionne les métadonnées
#         - Continue les garanties coupées entre pages
#         - Cumule les tableaux sans doublon
#         - Supprime les doublons dans exclusions
#         - Garde toutes les définitions et images détectées
        
#         DONNÉES À FUSIONNER :
#         {json.dumps(all_extractions, ensure_ascii=False)}
        
#         Retourne uniquement le JSON final consolidé.
#         """
        
#         try:
#             final_response = client.models.generate_content(
#                 model=MODEL_NAME,
#                 contents=[fusion_prompt]
#             )
#             final_text = final_response.text.strip().replace("```json", "").replace("```", "").strip()
#             final_data = json.loads(final_text)
            
#             with open(FINAL_FILE, "w", encoding="utf-8") as f:
#                 json.dump(final_data, f, indent=4, ensure_ascii=False)
            
#             print(f"--- SUCCÈS TOTAL : {FINAL_FILE} généré avec succès ! ---")
        
#         except Exception as e:
#             print(f"Erreur fusion finale : {e}")
#             # Backup des résultats partiels
#             with open("backup_partiel.json", "w", encoding="utf-8") as f:
#                 json.dump(all_extractions, f, indent=4, ensure_ascii=False)
#     else:
#         print("Aucune extraction réussie.")

# if __name__ == "__main__":
#     main()

In [2]:
import google.genai as genai
from PIL import Image
import json
import os
import time
import random
from pathlib import Path
from typing import List, Optional

# ==================== CONFIGURATION MULTI API KEYS ====================
API_KEYS = [
    "AIzaSyBge5K0pdCBmjw-xJkS3oZYS1b9NrMp9DE",
    "AIzaSyABdg1rJTUE01cBRvxbdSo9bXCfn6p4Quw",
    "AIzaSyAWJmQMvsxZ7XFMspbY74FvqAYsgbsm_Q0",
    "AIzaSyBQlO6krBykuRQNLb22XqvRwXFu9kkEmHg",
    "AIzaSyBYAWrqPZJdN695fSFxdHBa8Zq8DFd43Nw",
    "AIzaSyBaw_sv8yDuKMW3VxbbZdFt7C67PIV-aLY",
]

# État global pour la rotation des clés
current_key_index = 0
clients: List[genai.Client] = []

# Initialisation des clients pour chaque clé
for key in API_KEYS:
    clients.append(genai.Client(api_key=key))

def get_current_client():
    return clients[current_key_index]

def switch_to_next_key():
    global current_key_index
    current_key_index = (current_key_index + 1) % len(API_KEYS)
    print(f"    → CHANGEMENT DE CLÉ API → Utilisation de la clé n°{current_key_index + 1}/{len(API_KEYS)}")

# Modèle stable (décembre 2025)
MODEL_NAME = "gemini-2.5-flash"

IMAGE_DIR = "./images_pages"
LAYOUT_DIR = "./layout_json_results"
FINAL_FILE = "extraction_assurance_finale.json"
BATCH_SIZE = 3

# ==================== PROMPT SYSTÈME OPTIMISÉ ====================
SYSTEM_PROMPT = """
Tu es un expert interne en Document Understanding travaillant pour une compagnie d'assurance française.
Tu analyses exclusivement des documents internes privés (Conditions Générales d'assurance appartenant à notre société).

CE DOCUMENT EST STRICTEMENT INTERNE ET CONFIDENTIEL — IL N'EST PAS PUBLIÉ, NI PROTÉGÉ PAR COPYRIGHT PUBLIC.
Tu dois extraire les informations de manière structurée sans jamais réciter textuellement de longs passages.
Ton objectif est de restructurer les données en JSON exploitable, pas de reproduire le document.

STRUCTURE JSON OBLIGATOIRE (un seul objet consolidé pour le batch) :

{
  "metadata": {
    "assureur": "",
    "nom_produit": "",
    "reference_contrat": "",
    "version": "",
    "pages_analysees": []
  },
  "preambule": "",
  "definitions": [{"terme": "", "definition": ""}],
  "garanties": [
    {
      "nom_garantie": "",
      "description": "",
      "conditions_activation": "",
      "exclusions_specifiques": [],
      "plafonds": [{"type": "", "montant": "", "conditions": ""}],
      "franchises": [{"type": "", "montant": "", "conditions": ""}],
      "tableau_associe": null
    }
  ],
  "exclusions_generales": [],
  "tableaux_reconstruits": [
    {
      "titre": "",
      "page": 0,
      "headers": [],
      "rows": [],
      "notes_pied": []
    }
  ],
  "images_detectees": [
    {"page": 0, "type": "logo | tampon | signature | pictogramme", "description": ""}
  ]
}

RÈGLES STRICTES :
- Utilise IMPÉRATIVEMENT les coordonnées (boxes) du layout JSON fourni pour reconstruire les tableaux avec précision.
- Un tableau = headers + rows avec mapping exact (jamais en texte brut).
- Gère les en-têtes multilignes en les fusionnant logiquement.
- Reformule les descriptions, extrait seulement les données clés.
- Si champ absent → "" ou [].
- Retourne UNIQUEMENT du JSON valide, sans texte supplémentaire ni ```json.

Analyse les pages et layouts fournis.
"""

# ==================== UTILITAIRES ====================
def resize_image_if_needed(img_path, max_pixels=80_000_000):
    img = Image.open(img_path)
    if img.width * img.height > max_pixels:
        ratio = (max_pixels / (img.width * img.height)) ** 0.5
        new_size = (int(img.width * ratio), int(img.height * ratio))
        img = img.resize(new_size, Image.Resampling.LANCZOS)
        print(f"    → Image redimensionnée : {new_size}")
    return img

def process_batch_with_key_rotation(batch_items):
    contents = [SYSTEM_PROMPT]
    
    for img_name, layout_path in batch_items:
        page_num = int(Path(img_name).stem)
        
        with open(layout_path, 'r', encoding='utf-8') as f:
            layout_data = json.load(f)
        
        img = resize_image_if_needed(os.path.join(IMAGE_DIR, img_name))
        
        page_instruction = f"""
        Page {page_num} — Document interne confidentiel.
        Layout géométrique complet (utilise les boxes pour reconstruire précisément les tableaux) :
        {json.dumps(layout_data, ensure_ascii=False)}
        
        Extrais les données de cette page en intégrant au JSON global.
        """
        
        contents.extend([page_instruction, img])
    
    max_attempts = len(API_KEYS) * 3  # 3 tentatives par clé
    for attempt in range(max_attempts):
        client = get_current_client()
        try:
            response = client.models.generate_content(
                model=MODEL_NAME,
                contents=contents
            )
            text = response.text.strip()
            text = text.replace("```json", "").replace("```", "").strip()
            return json.loads(text)
        
        except Exception as e:
            error_msg = str(e).lower()
            if "quota" in error_msg or "429" in error_msg or "rate limit" in error_msg:
                print(f"    → QUOTA DÉPASSÉ sur clé {current_key_index + 1} → switch vers clé suivante")
                switch_to_next_key()
                time.sleep(30 + attempt * 20)  # Backoff progressif
            elif "finish_reason" in error_msg and "4" in error_msg:
                print("    Blocage copyright détecté → retry après délai")
                time.sleep(40 + attempt * 20)
            else:
                print(f"    Erreur non-quota : {e} → retry dans 15s")
                time.sleep(15)
    
    print("    → Toutes les clés ont atteint le quota ou échoué.")
    return None

# ==================== MAIN ====================
def main():
    image_files = sorted([f for f in os.listdir(IMAGE_DIR)
                         if f.lower().endswith(('.png', '.jpg', '.jpeg'))])
    
    if not image_files:
        print("Aucune image trouvée dans le dossier.")
        return
    
    all_extractions = []
    print(f"--- DÉBUT TRAITEMENT : {len(image_files)} pages (batch de {BATCH_SIZE}) ---")
    print(f"Clés API disponibles : {len(API_KEYS)}\n")
    
    for i in range(0, len(image_files), BATCH_SIZE):
        batch = image_files[i:i + BATCH_SIZE]
        batch_data = []
        
        for img_name in batch:
            base_name = Path(img_name).stem
            layout_path = os.path.join(LAYOUT_DIR, f"{base_name}.json")
            if os.path.exists(layout_path):
                batch_data.append((img_name, layout_path))
            else:
                print(f"  [!] Layout manquant : {img_name}")
        
        if not batch_data:
            continue
        
        print(f"\n  Batch {i//BATCH_SIZE + 1} → {len(batch_data)} pages (clé actuelle n°{current_key_index + 1})")
        result = process_batch_with_key_rotation(batch_data)
        
        if result:
            all_extractions.append(result)
            print("    → Extraction réussie")
        else:
            print("    → Batch échoué définitivement")
        
        time.sleep(15)  # Pause entre batches
    
    # ==================== FUSION FINALE ====================
    if all_extractions:
        print("\n--- FUSION FINALE (dernière clé disponible) ---")
        fusion_prompt = f"""
        Fusionne tous ces JSON partiels en un seul document final cohérent.
        
        RÈGLES :
        - Métadonnées uniques
        - Continuer les garanties coupées
        - Cumuler les tableaux sans doublon
        - Supprimer doublons exclusions/définitions
        - Garder toutes les images détectées
        
        DONNÉES :
        {json.dumps(all_extractions, ensure_ascii=False)}
        
        Retourne uniquement le JSON final.
        """
        
        # On utilise la dernière clé fonctionnelle
        final_client = get_current_client()
        try:
            final_response = final_client.models.generate_content(
                model=MODEL_NAME,
                contents=[fusion_prompt]
            )
            final_text = final_response.text.strip().replace("```json", "").replace("```", "").strip()
            final_data = json.loads(final_text)
            
            with open(FINAL_FILE, "w", encoding="utf-8") as f:
                json.dump(final_data, f, indent=4, ensure_ascii=False)
            
            print(f"--- SUCCÈS TOTAL : {FINAL_FILE} généré avec succès ! ---")
        
        except Exception as e:
            print(f"Erreur fusion finale : {e}")
            with open("backup_partiel.json", "w", encoding="utf-8") as f:
                json.dump(all_extractions, f, indent=4, ensure_ascii=False)
    else:
        print("Aucune extraction réussie.")

if __name__ == "__main__":
    main()

--- DÉBUT TRAITEMENT : 25 pages (batch de 3) ---
Clés API disponibles : 6


  Batch 1 → 3 pages (clé actuelle n°1)
    → Extraction réussie

  Batch 2 → 3 pages (clé actuelle n°1)
    → Extraction réussie

  Batch 3 → 3 pages (clé actuelle n°1)
    → Extraction réussie

  Batch 4 → 3 pages (clé actuelle n°1)
    → Extraction réussie

  Batch 5 → 3 pages (clé actuelle n°1)
    → Extraction réussie

  Batch 6 → 3 pages (clé actuelle n°1)
    → Extraction réussie

  Batch 7 → 3 pages (clé actuelle n°1)
    → Extraction réussie

  Batch 8 → 3 pages (clé actuelle n°1)
    → Extraction réussie

  Batch 9 → 1 pages (clé actuelle n°1)
    → Extraction réussie

--- FUSION FINALE (dernière clé disponible) ---
--- SUCCÈS TOTAL : extraction_assurance_finale.json généré avec succès ! ---
