In [None]:
! pip install tabula-py camelot-py opencv-python pandas

In [None]:
! pip install pytesseract pdf2image PyPDF2

In [None]:
import os
import tabula
import pandas as pd
import camelot

In [16]:
import os
import PyPDF2
import pandas as pd

def extract_pdf_text(pdf_path: str, output_dir: str = "extracted_text", start_page: int = None, end_page: int = None):
    """
    Extract text from specified pages of a PDF file and save it to a single file.
    
    Args:
        pdf_path: Path to the PDF file
        output_dir: Directory to save extracted text
        start_page: First page to extract (starting from 1)
        end_page: Last page to extract
    """
    if not os.path.exists(pdf_path):
        print(f"Erreur: Fichier non trouvé: {pdf_path}")
        return
    
    # Créer le répertoire de sortie s'il n'existe pas
    os.makedirs(output_dir, exist_ok=True)
    
    # Déterminer la plage de pages
    if start_page and end_page:
        page_info = f" (pages {start_page}-{end_page})"
    elif start_page:
        page_info = f" (à partir de la page {start_page})"
    else:
        page_info = " (toutes les pages)"
        start_page = 1
        
    if not end_page:
        end_page = float('inf')  # Sans limite
    
    print(f"Extraction du texte de {pdf_path}{page_info}...")
    
    try:
        # Ouvrir le PDF
        with open(pdf_path, 'rb') as file:
            reader = PyPDF2.PdfReader(file)
            total_pages = len(reader.pages)
            
            # Ajuster la plage de pages si nécessaire
            start_idx = max(0, start_page - 1)  # PDF pages commencent à 0 en Python
            end_idx = min(total_pages, end_page)
            
            print(f"Le PDF contient {total_pages} pages. Extraction des pages {start_idx+1} à {end_idx}.")
            
            # Préparer un seul fichier pour toutes les pages
            pdf_name = os.path.basename(pdf_path).replace(".pdf", "")
            output_filename = f"{pdf_name}_pages_{start_page}-{end_idx}.txt"
            output_path = os.path.join(output_dir, output_filename)
            
            # Extraire et écrire le texte de toutes les pages dans un seul fichier
            with open(output_path, 'w', encoding='utf-8') as output_file:
                for i in range(start_idx, end_idx):
                    page = reader.pages[i]
                    page_text = page.extract_text()
                    
                    # Écrire un séparateur de page clair
                    output_file.write(f"\n\n{'='*20} PAGE {i+1} {'='*20}\n\n")
                    output_file.write(page_text)
                    output_file.write("\n")
            
            print(f"Texte extrait et sauvegardé dans un seul fichier: {output_path}")
            
    except Exception as e:
        print(f"Erreur lors de l'extraction du texte: {str(e)}")
    
    print("\nExtraction terminée. Vérifiez le fichier", output_path)
    return output_path

# Fonction pour afficher un aperçu du texte extrait
def preview_extracted_text(file_path):
    """Affiche un aperçu du fichier texte extrait"""
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            
            print("\n" + "="*50)
            print(f"Fichier: {os.path.basename(file_path)}")
            print(f"Taille: {len(content)} caractères")
            print("-"*50)
            
            # Trouver les 2 premières pages pour l'aperçu
            parts = content.split("=" * 20 + " PAGE ")
            
            if len(parts) > 1:
                # Afficher un extrait de la première page
                first_page = parts[1].split("=" * 20, 1)[1] if len(parts[1].split("=" * 20, 1)) > 1 else parts[1]
                preview = first_page[:300] + "..." if len(first_page) > 300 else first_page
                print("Aperçu de la première page:")
                print(preview)
                
                # Afficher le nombre total de pages extraites
                print(f"\nNombre total de pages extraites: {len(parts)-1}")
            else:
                # Fallback si le format n'est pas comme attendu
                preview = content[:300] + "..." if len(content) > 300 else content
                print(preview)
    except Exception as e:
        print(f"Erreur lors de la lecture du fichier: {str(e)}")

# Pour traiter tous les fichiers dans la liste
pdf_paths = [
    r"C:\Users\kosmo\pycode\MCP_Rag_virg\2025.5.sante.pdf"
    # Ajoutez d'autres chemins si nécessaire
]

output_dir = "textes_extraits"

# Parcourir chaque PDF dans la liste
for i, pdf_path in enumerate(pdf_paths):
    print(f"\nTraitement du PDF {i+1}/{len(pdf_paths)}: {pdf_path}")
    
    # Extraire le texte - ici vous pouvez spécifier les pages (125 à 132 par exemple)
    output_file = extract_pdf_text(pdf_path, output_dir, start_page=128, end_page=131)
    
    # Afficher un aperçu
    preview_extracted_text(output_file)


Traitement du PDF 1/1: C:\Users\kosmo\pycode\MCP_Rag_virg\2025.5.sante.pdf
Extraction du texte de C:\Users\kosmo\pycode\MCP_Rag_virg\2025.5.sante.pdf (pages 128-131)...
Le PDF contient 146 pages. Extraction des pages 128 à 131.
Texte extrait et sauvegardé dans un seul fichier: textes_extraits\2025.5.sante_pages_128-131.txt

Extraction terminée. Vérifiez le fichier textes_extraits\2025.5.sante_pages_128-131.txt

Fichier: 2025.5.sante_pages_128-131.txt
Taille: 9229 caractères
--------------------------------------------------
Aperçu de la première page:


Ar
ticle 3 6 
En
 cas d’absence ou d’empêchement simultanés de M. François BECK, directeur de la prévention  
et de la promotion de la santé, et de M. Pierre ARWIDSON, adjoint au directeur de la prévention 
et de la promotion de la santé, délégation est donnée à Mme Claudine TANGUY, adjointe au di...

Nombre total de pages extraites: 4
