In [7]:
import os
import fitz
import pytesseract
from PIL import Image
from pdf2image import convert_from_path
import pandas as pd

def extract_text_from_pdf(pdf_path):
    """
    Extrait le texte brut d'un fichier PDF, y compris via OCR pour les images.
    """
    text = ""
    doc = fitz.open(pdf_path)
    
    for page_num in range(len(doc)):
        page = doc[page_num]
        text += page.get_text("text") + "\n"
        
        # Si peu de texte trouvé, essayer OCR sur une image de la page
        if len(text.strip()) < 10:
            images = convert_from_path(pdf_path, first_page=page_num+1, last_page=page_num+1)
            for image in images:
                text += pytesseract.image_to_string(image) + "\n"
    
    return text

def extract_from_folder(folder_path, output_file):
    """
    Parcourt un dossier et extrait tout le texte des fichiers PDF dans un fichier unique.
    """
    all_text = ""
    for filename in os.listdir(folder_path):
        if filename.lower().endswith(".pdf"):
            pdf_path = os.path.join(folder_path, filename)
            print(f"Extraction du texte de : {filename}")
            all_text += extract_text_from_pdf(pdf_path) + "\n\n"
    
    with open(output_file, "w", encoding="utf-8") as f:
        f.write(all_text)
    
    print(f"Extraction terminée. Texte sauvegardé dans {output_file}")

# Utilisation
dossier_pdfs = "/Users/moussa-kalla/Datathon/Documents utiles"  # Remplace avec ton dossier contenant les PDF
fichier_sortie = "/Users/moussa-kalla/Datathon/texte_complet.txt"  # Nom du fichier de sortie
extract_from_folder(dossier_pdfs, fichier_sortie)


Extraction du texte de : AVIVA RX40 - MU.pdf
Extraction du texte de : AVIVA FX40 - Brochure FR.pdf
Extraction du texte de : Storm 4 - MM.pdf
Extraction du texte de : TDX - MU.pdf
Extraction du texte de : AVIVA RX40 - Brochure FR.pdf
Extraction du texte de : M5 Corpus - BC.pdf
Extraction du texte de : AVIVA RX40 - BC - AA2.pdf
Extraction du texte de : Sango - Brochure.pdf
Extraction du texte de : AVIVA FX40 - BC.pdf
Extraction du texte de : Sango - MU.pdf
Extraction du texte de : TDX - Brochure FR.pdf
Extraction du texte de : Storm 4 - Brochure FR.pdf
Extraction du texte de : LYNX - MM.pdf
Extraction du texte de : M3 Corpus - BC.pdf
Extraction du texte de : TDX - BC - AA2.pdf
Extraction du texte de : Storm 4 - BC - AA2.pdf
Extraction du texte de : AVIVA FX40 - Manuel d_utilisation.pdf
Extraction du texte de : catalogue-permobil-2025.pdf
Extraction du texte de : M3 Corpus - MU.pdf
Extraction du texte de : AVIVA RX40 ULM - Brochure.pdf
Extraction du texte de : M5 Corpus - MU.pdf
Extractio