In [1]:
import os
import fitz  # PyMuPDF
from PIL import Image
import io
from utils.file_agent import FileAgent
import json
##from utils.image_description_agent import ImageDescriptionAgent

In [2]:
# Initialize FileAgent
file_agent = FileAgent()
# Initialize ImageDescriptionAgent
##description_agent = ImageDescriptionAgent()

# Créer le dossier images s'il n'existe pas
images_dir = os.path.join(file_agent.data_dir, 'images')
os.makedirs(images_dir, exist_ok=True)

In [3]:
def extract_images_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    image_count = 0
    image_metadata = []
    
    for page_num in range(len(doc)):
        page = doc[page_num]
        image_list = page.get_images()
        
        for img_index, img in enumerate(image_list):
            xref = img[0]
            base_image = doc.extract_image(xref)
            image_bytes = base_image["image"]
            
            # Convertir les bytes en image
            image = Image.open(io.BytesIO(image_bytes))
            
            # Sauvegarder l'image
            image_filename = f'image_{page_num + 1}_{img_index + 1}.png'
            image_path = os.path.join(images_dir, image_filename)
            image.save(image_path, 'PNG')
            image_count += 1
            print(f'Image sauvegardée: {image_filename}')
            
            # Extraire la description alternative de l'image
            #alt_description = description_agent.get_description(image_path)
            
            # Ajouter les métadonnées de l'image
            image_metadata.append({
                'filename': image_filename,
                'page_number': page_num + 1,
                #'alt_description': alt_description
            })
    
    # Sauvegarder les métadonnées dans un fichier JSON
    metadata_path = os.path.join(images_dir, 'image_metadata.json')
    with open(metadata_path, 'w', encoding='utf-8') as f:
        json.dump(image_metadata, f, ensure_ascii=False, indent=4)
    print(f'Métadonnées sauvegardées dans: {metadata_path}')
    
    return image_count

In [4]:
# Chercher le PDF dans le projet
def find_pdf_in_project():
    for root, dirs, files in os.walk(file_agent.base_dir):
        for file in files:
            if file.endswith('.pdf'):
                return os.path.join(root, file)
    return None

In [5]:
# Exécuter l'extraction
pdf_path = find_pdf_in_project()
if pdf_path:
    print(f'PDF trouvé: {pdf_path}')
    total_images = extract_images_from_pdf(pdf_path)
    print(f'\nExtraction terminée! {total_images} images extraites dans {images_dir}')
else:
    print('Aucun PDF trouvé dans le projet')

PDF trouvé: c:\Users\erpes\Desktop\script extract chapters\Defis Fantastiques 18 - La Planete Rebelle.pdf
Image sauvegardée: image_1_1.png
Image sauvegardée: image_3_1.png
Image sauvegardée: image_3_2.png
Image sauvegardée: image_7_1.png
Image sauvegardée: image_9_1.png
Image sauvegardée: image_13_1.png
Image sauvegardée: image_16_1.png
Image sauvegardée: image_22_1.png
Image sauvegardée: image_25_1.png
Image sauvegardée: image_29_1.png
Image sauvegardée: image_33_1.png
Image sauvegardée: image_37_1.png
Image sauvegardée: image_43_1.png
Image sauvegardée: image_44_1.png
Image sauvegardée: image_47_1.png
Image sauvegardée: image_50_1.png
Image sauvegardée: image_53_1.png
Image sauvegardée: image_58_1.png
Image sauvegardée: image_60_1.png
Image sauvegardée: image_64_1.png
Image sauvegardée: image_66_1.png
Image sauvegardée: image_73_1.png
Image sauvegardée: image_78_1.png
Image sauvegardée: image_79_1.png
Image sauvegardée: image_82_1.png
Image sauvegardée: image_83_1.png
Image sauvegard