In [1]:
pip install pypdf




In [2]:
from pypdf import PdfReader
import re

def extract_text_with_oca(pdf_path):
    reader = PdfReader(pdf_path)
    all_pages_text = []
    
    for page in reader.pages:
        # Extraire le texte brut
        text = page.extract_text()
        
        # Nettoyer et normaliser le texte
        text = clean_text(text)
        
        # Analyser la structure de la page et réorganiser le texte
        structured_text = analyze_page_structure(text)
        
        all_pages_text.append(structured_text)
    
    return all_pages_text

def clean_text(text):
    """
    Nettoie et normalise le texte extrait
    """
    # Suppression des espaces et lignes blanches en trop
    text = re.sub(r'\s+', ' ', text)  
    text = re.sub(r'\n+', '\n', text)  

    # Suppression des caractères spéciaux et de ponctuation isolés (communs dans l'extraction de PDF)
    text = re.sub(r'[^\w\s.,;:!?()\[\]\'"-]', '', text)

    # Nettoyage des espaces autour des ponctuations
    text = re.sub(r'\s+([.,;:!?])', r'\1', text)  
    text = re.sub(r'([.,;:!?])\s+', r'\1 ', text)  

    # Normalisation des retours à la ligne pour créer des paragraphes cohérents
    text = re.sub(r'(\.\s+)', '.\n', text)  

    text = re.sub(r'\s{2,}', ' ', text)

    # Normalisation 
    text = text.lower()

    # Lemmatisation et suppression des mots vides avec spaCy
    doc = nlp(text)
    cleaned_tokens = []
    for token in doc:
        if token.lemma_ not in STOP_WORDS and not token.is_punct:
            cleaned_tokens.append(token.lemma_)

    cleaned_text = ' '.join(cleaned_tokens)

    return cleaned_text.strip()

def analyze_page_structure(text):
    """
    Analyse la structure de la page et réorganise le texte
    en tenant compte du format deux colonnes
    """
    # Identifier les marqueurs de colonnes (par exemple, grands espaces ou motifs répétitifs)
    column_markers = identify_column_markers(text)
    
    # Réorganiser le texte en fonction des colonnes identifiées
    structured_text = reorganize_columns(text, column_markers)
    
    return structured_text

def identify_column_markers(text):
    """
    Identifie les marqueurs qui séparent les colonnes
    """
    # Rechercher les grands espaces ou les motifs qui indiquent une séparation de colonne
    markers = []
    
    # Chercher les séquences d'espaces plus longues que la normale
    space_sequences = re.finditer(r'\s{4,}', text)
    for match in space_sequences:
        markers.append(match.start())
    
    return markers

def reorganize_columns(text, markers):
    """
    Réorganise le texte en fonction des marqueurs de colonnes identifiés
    """
    if not markers:
        return text
        
    # Diviser le texte en colonnes
    columns = []
    start = 0
    
    for marker in markers:
        columns.append(text[start:marker].strip())
        start = marker
    
    # Ajouter la dernière colonne
    columns.append(text[start:].strip())
    
    # Fusionner les colonnes dans l'ordre logique de lecture
    return '\n'.join(columns)

In [3]:
import os

def save_to_txt(content, file_path):
    """
    Sauvegarde le contenu dans un fichier texte avec gestion des types.
    """
    try:
        # Vérifie si le contenu est une liste et le convertit en chaîne
        if isinstance(content, list):
            content = "\n".join(content)  # Joint la liste en utilisant des sauts de ligne
        
        # Vérifie si le contenu est vide
        if not content.strip():  # Vérifie si le contenu est vide après suppression des espaces
            raise ValueError("Le contenu est vide et ne peut pas être sauvegardé.")

        # Sauvegarde dans un fichier
        with open(file_path, 'w', encoding='utf-8') as file:
            file.write(content)
        print(f"Le contenu a été sauvegardé avec succès dans : {file_path}")
    except Exception as e:
        print(f"Erreur lors de la sauvegarde : {e}")

In [4]:
def main():
    pdf_path = "loi_n-05.20.pdf"
    contenu = extract_text_with_oca(pdf_path)
    print(contenu)
    save_to_txt(contenu, "r.txt")


if __name__ == "__main__":
    main()    

['1294 BULLETIN OFFICIEL N 6906 – 16 hija 1441 (6-8-2020) TEXTES GENERAUX Dahir n 1-20-69 du 4 hija 1441 (25 juillet 2020) portant promulgation de la loi n 05-20 relative la cyberscurit LOUANGE A DIEU SEUL ! (Grand Sceau de Sa Majest Mohammed VI) Que l’on sache par les prsentes– puisse Dieu en lever et en fortifier la teneur! Que Notre Majest Chrifienne, Vu la Constitution, notamment ses articles 42 et 50, A DCID CE QUI SUIT : Est promulgue et sera publie au Bulletin officiel , la suite du prsent dahir, la loi n 05-20 relative la cyberscurit, telle qu’adopte par la Chambre des reprsentants et la Chambre des conseillers. Fait Ttouan, le 4 hija 1441 (25 juillet 2020). Pour contreseing : Le Chef du gouvernement, SAAD DINE EL OTMANI. * * * Loi n 05-20 relative la cyberscurit Chapitre premier Dispositions gnrales Article premier La prsente loi fixe: –les rgles et les dispositions de scurit applicables aux systmes d’information des administrations de l’Etat, des collectivits territoriales, d

In [30]:
import fitz  # PyMuPDF pour traiter les PDF

def detect_pdf_format(pdf_path):
    """
    Détecte si un PDF est en format simple ou double colonne.

    Args:
        pdf_path (str): Le chemin vers le fichier PDF.

    Returns:
        str: 'simple' pour une seule colonne ou 'double' pour deux colonnes.
    """
    try:
        # Ouvrir le PDF
        doc = fitz.open(pdf_path)
        page = doc.load_page(0)  # Analyse uniquement la première page

        # Extraction du texte avec la méthode des blocs
        blocs = page.get_text("dict")["blocks"]

        # Analyse des positions des blocs
        left_count = 0
        right_count = 0
        middle_x = page.rect.width / 2  # Trouve le milieu de la page

        for block in blocs:
            if "bbox" in block:  # Vérifie si le bloc contient des coordonnées
                x0, _, x1, _ = block["bbox"]  # Coordonnées du bloc

                # Compte les blocs à gauche et à droite
                if x1 <= middle_x:  # Tout le bloc est à gauche
                    left_count += 1
                elif x0 >= middle_x:  # Tout le bloc est à droite
                    right_count += 1

        doc.close()  # Ferme le document après l'analyse

        # Vérifie si les colonnes sont équilibrées
        if left_count > 0 and right_count > 0:
            return "double"  # Deux colonnes détectées
        else:
            return "simple"  # Une seule colonne détectée

    except Exception as e:
        return f"Erreur lors de la détection : {e}"


# Exemple d'utilisation
pdf_path = r"data\\Loi 20-05 modifiant et complétant la Loi 17-95 SA..pdf"
format_detected = detect_pdf_format(pdf_path)
print(f"Format détecté : {format_detected}")


Format détecté : double


In [31]:
# Exemple d'utilisation
pdf_path = r"Dahir des Obligations et Contrats DOC.pdf"
format_detected = detect_pdf_format(pdf_path)
print(f"Format détecté : {format_detected}")

Format détecté : simple


In [32]:
# Exemple d'utilisation
pdf_path = r"loi_n-05.20.pdf"
format_detected = detect_pdf_format(pdf_path)
print(f"Format détecté : {format_detected}")

Format détecté : double


In [None]:
import os
import re
import fitz  # PyMuPDF pour l'analyse des blocs

# Fonction 1 : Détection du format (simple ou double colonne)
def detect_pdf_format(pdf_path):
    """
    Détecte si un PDF est en format simple ou double colonne.
    """
    try:
        # Ouvrir le PDF
        doc = fitz.open(pdf_path)
        page = doc.load_page(0)  # Analyse uniquement la première page

        # Extraction des blocs
        blocs = page.get_text("dict")["blocks"]

        # Analyse des positions des blocs
        left_count = 0
        right_count = 0
        middle_x = page.rect.width / 2  

        for block in blocs:
            if "bbox" in block:  
                x0, _, x1, _ = block["bbox"]
                if x1 <= middle_x:
                    left_count += 1
                elif x0 >= middle_x:
                    right_count += 1

        doc.close()
        if left_count > 0 and right_count > 0:
            return "double"
        return "simple"

    except Exception as e:
        return f"Erreur lors de la détection : {e}"


# Fonction 2 : Réorganisation du texte pour un format double colonne
def analyze_page_structure(text):
    """
    Analyse et réorganise le texte en tenant compte des colonnes
    """
    # Identifier les marqueurs de colonnes
    column_markers = identify_column_markers(text)

    # Réorganiser le texte
    structured_text = reorganize_columns(text, column_markers)
    return structured_text


def identify_column_markers(text):
    """
    Identifie les marqueurs de colonnes
    """
    markers = []
    space_sequences = re.finditer(r'\s{4,}', text)  # Espaces longs comme séparateurs
    for match in space_sequences:
        markers.append(match.start())
    return markers


def reorganize_columns(text, markers):
    """
    Réorganise le texte en fonction des colonnes identifiées
    """
    if not markers:
        return text

    columns = []
    start = 0

    for marker in markers:
        columns.append(text[start:marker].strip())
        start = marker

    columns.append(text[start:].strip())
    return '\n'.join(columns)


# Fonction 3 : Sauvegarde dans un fichier texte
def save_to_txt(content, file_path):
    """
    Sauvegarde le contenu extrait dans un fichier texte.
    """
    try:
        if isinstance(content, list):
            content = "\n".join(content)

        if not content.strip():
            raise ValueError("Le contenu est vide et ne peut pas être sauvegardé.")

        with open(file_path, 'w', encoding='utf-8') as file:
            file.write(content)
        print(f"Le contenu a été sauvegardé dans : {file_path}")
    except Exception as e:
        print(f"Erreur lors de la sauvegarde : {e}")


# Fonction d'extraction simulée (remplacer par la tienne)
def extract_text_with_oca(pdf_path):
    """
    Simule l'extraction de texte. Remplacer par ta fonction réelle.
    """
    return [
        "Titre : Loi 20-05",
        "Chapitre 1 : Dispositions générales",
        "Article 1 : Objet de la loi"
    ]


# Programme principal
if __name__ == "__main__":
    # Entrée utilisateur pour le fichier
    pdf_path = input("Entrez le chemin du fichier PDF : ").strip()

    if not os.path.exists(pdf_path):
        print("Le fichier spécifié n'existe pas.")
    else:
        # Étape 1 : Détection du format
        format_detected = detect_pdf_format(pdf_path)
        print(f"Format détecté : {format_detected}")

        # Étape 2 : Extraction du texte
        contenu = extract_text_with_oca(pdf_path)
        if format_detected == "double":
            # Réorganiser le texte si format double colonne
            contenu = analyze_page_structure("\n".join(contenu))

        # Étape 3 : Sauvegarde dans un fichier texte
        save_to_txt(contenu, "resultat.txt")


In [47]:
import fitz
import unicodedata

def extract_with_encoding_handling(pdf_path, page_num):
    try:
        doc = fitz.open(pdf_path)
        page = doc[page_num]
        
        # Extraire le texte avec gestion d'encodage
        raw_text = page.get_text("text")
        
        # Normaliser les caractères
        normalized_text = unicodedata.normalize('utf-8', raw_text)
        
        # Nettoyer les caractères non-imprimables
        cleaned_text = ''.join(char for char in normalized_text 
                             if unicodedata.category(char)[0] != 'C')
        
        return cleaned_text
        
    except Exception as e:
        print(f"Erreur : {str(e)}")
        return None
    finally:
        if 'doc' in locals():
            doc.close()

In [52]:
pdf_path = r"data\\Loi 20-05 modifiant et complétant la Loi 17-95 SA..pdf"
cos = extract_with_encoding_handling(pdf_path,0)
save_to_txt(cos, "r.txt")


Le contenu a été sauvegardé avec succès dans : r.txt
