In [None]:
## Pour séparer un PDF en plusieurs PDF


import fitz  # PyMuPDF
import re
import os

# === PARAMÈTRES ===
pdf_path = "Centre_PDF_T2/centre_t2_tous.pdf"
output_dir = "articles_split_T2_centre"
os.makedirs(output_dir, exist_ok=True)

# === REGEX POUR DÉTECTER L'IDENTIFIANT DE FIN ===
pattern = re.compile(r'Document\s+([A-Za-z0-9]+)')

# === OUVERTURE DU PDF ===
doc = fitz.open(pdf_path)

# Liste pour stocker les fins d’articles
article_ends = []

#Repérer les pages qui marquent la fin d’un article ===
for page_number in range(len(doc)):
    text = doc[page_number].get_text()
    if pattern.search(text):
        article_ends.append(page_number)
        print(f"Fin d'article trouvée à la page {page_number + 1}")

# Définir les intervalles de chaque article 
start_page = 0
for i, end_page in enumerate(article_ends):
    # Chercher l'identifiant sur la page de fin
    text = doc[end_page].get_text()
    match = pattern.search(text)
    if match:
        article_id = match.group(1)
    else:
        article_id = f"article_{i+1:03d}"  # fallback

    output_path = os.path.join(output_dir, f"{article_id}.pdf")
    
    # Créer le nouveau PDF (de start_page à end_page inclus)
    new_doc = fitz.open()
    for page_num in range(start_page, end_page + 1):
        new_doc.insert_pdf(doc, from_page=page_num, to_page=page_num)
    new_doc.save(output_path)
    new_doc.close()
    print(f"✅ Sauvegardé : {output_path}")

    start_page = end_page + 1  # prochain article commence à la page suivante

doc.close()



Fin d'article trouvée à la page 2
Fin d'article trouvée à la page 3
Fin d'article trouvée à la page 4
Fin d'article trouvée à la page 5
Fin d'article trouvée à la page 6
Fin d'article trouvée à la page 7
Fin d'article trouvée à la page 9
Fin d'article trouvée à la page 12
Fin d'article trouvée à la page 14
Fin d'article trouvée à la page 17
Fin d'article trouvée à la page 19
Fin d'article trouvée à la page 21
Fin d'article trouvée à la page 23
Fin d'article trouvée à la page 26
Fin d'article trouvée à la page 29
Fin d'article trouvée à la page 32
Fin d'article trouvée à la page 34
Fin d'article trouvée à la page 38
Fin d'article trouvée à la page 41
Fin d'article trouvée à la page 44
Fin d'article trouvée à la page 46
Fin d'article trouvée à la page 47
Fin d'article trouvée à la page 48
Fin d'article trouvée à la page 49
Fin d'article trouvée à la page 50
Fin d'article trouvée à la page 52
Fin d'article trouvée à la page 53
Fin d'article trouvée à la page 54
Fin d'article trouvée à la 

In [12]:
import os
import re

# === PARAMÈTRES ===
repertoire = "articles_split_T2_centre"  # Répertoire contenant les fichiers PDF à renommer

# === REGEX FLEXIBLE : détecte l'année 2024 même si précédée de 000, 0000, etc.
pattern = re.compile(r'^([A-Z]{4,}).*?(2024)(0[67])(\d{2})')

# === FONCTION POUR ÉVITER LES DOUBLONS
def nom_unique(base_nom, extension=".pdf"):
    compteur = 1
    nom_complet = base_nom + extension
    while os.path.exists(os.path.join(repertoire, nom_complet)):
        nom_complet = f"{base_nom}({compteur}){extension}"
        compteur += 1
    return nom_complet

# === RENOMMAGE
for filename in os.listdir(repertoire):
    if filename.endswith(".pdf"):
        match = pattern.match(filename)
        if match:
            journal = match.group(1)
            annee = match.group(2)
            mois = match.group(3)
            jour = match.group(4)

            base_nom = f"{journal}_{jour}_{mois}_{annee}"
            nouveau_nom = nom_unique(base_nom)

            ancien_chemin = os.path.join(repertoire, filename)
            nouveau_chemin = os.path.join(repertoire, nouveau_nom)
            os.rename(ancien_chemin, nouveau_chemin)
            print(f"✅ {filename} → {nouveau_nom}")
        else:
            print(f"❌ Ignoré (pas reconnu) : {filename}")


✅ LACRX00020240701ek710000d.pdf → LACRX_01_07_2024.pdf
✅ LACRX00020240701ek710000w.pdf → LACRX_01_07_2024(1).pdf
✅ LACRX00020240701ek7100019.pdf → LACRX_01_07_2024(2).pdf
✅ LACRX00020240701ek710001b.pdf → LACRX_01_07_2024(3).pdf
✅ LACRX00020240701ek7200041.pdf → LACRX_01_07_2024(4).pdf
✅ LACRX00020240702ek720002u.pdf → LACRX_02_07_2024.pdf
✅ LACRX00020240702ek720002v.pdf → LACRX_02_07_2024(1).pdf
✅ LACRX00020240702ek720002w.pdf → LACRX_02_07_2024(2).pdf
✅ LACRX00020240702ek720002x.pdf → LACRX_02_07_2024(3).pdf
✅ LACRX00020240702ek720002y.pdf → LACRX_02_07_2024(4).pdf
✅ LACRX00020240702ek7200031.pdf → LACRX_02_07_2024(5).pdf
✅ LACRX00020240702ek7200035.pdf → LACRX_02_07_2024(6).pdf
✅ LACRX00020240702ek730006r.pdf → LACRX_02_07_2024(7).pdf
✅ LACRX00020240703ek730002t.pdf → LACRX_03_07_2024.pdf
✅ LACRX00020240703ek730002u.pdf → LACRX_03_07_2024(1).pdf
✅ LACRX00020240703ek730002v.pdf → LACRX_03_07_2024(2).pdf
✅ LACRX00020240703ek730002w.pdf → LACRX_03_07_2024(3).pdf
✅ LACRX00020240703ek730

In [None]:
import os
import re
import fitz  # PyMuPDF
import pandas as pd


repertoire = "articles_split_T2_centre"  # Répertoire contenant les fichiers PDF à traiter
output_csv = "articles_extraits_T2_centre.csv"


articles = []# Créer une liste pour stocker les articles

df = pd.DataFrame(columns=["nom_journal", "date", "contenu"])

# Parcours des fichiers PDF dans le répertoire
for filename in os.listdir(repertoire):
    if filename.endswith(".pdf"):
        # Regex pour extraire le JOURNAL (lettres majuscules) et la DATE (jour_mois_année)
        journal_name=''.join(re.findall(r'[A-Z]+', filename))
        split_name = filename.split("_")
        jour=split_name[1]
        mois=split_name[2]
        annee=split_name[3][:4]
        
        # extraction du texte
        pdf_path=os.path.join(repertoire, filename)
        doc = fitz.open(pdf_path)

        # === Extraire tout le texte (page par page) ===
        texte_complet = ""
        for page in doc:
            texte_complet += page.get_text()

        df.loc[len(df)] = [journal_name, jour + '/' + mois + '/' + annee, texte_complet]

        

# === Sauvegarde du DataFrame en CSV ===
df.to_csv(output_csv, index=False, encoding='utf-8')
print(f"✅ Données sauvegardées dans {output_csv}")


✅ Données sauvegardées dans articles_extraits_T2_centre.csv


"Page 34 of 48 © 2025 Factiva, Inc. Tous droits réservés.\nfrance\nLa gauche face au casse-tête d'une nouvelle alliance\nHadrien Valat\n651 mots\n10 juin 2024\nLes Echos\nECHOS\n03\n24227\nFrançais\nAll rights reserved - Les Echos 2024 Visitez le site web: lesechos.fr pour plus d´informations.\nL'annonce d'élections législatives par Emmanuel Macron replonge la gauche dans ses contradictions\ninternes. Si elle veut peser dans le nouvel hémicycle, elle va devoir dépasser des clivages qui n'ont jamais\nparu aussi béants qu'aujourd'hui.\nL'insoumis François Ruffin venait tout juste de lancer un cri du coeur, « arrêtons les conneries et soyons unis !\n» à l'aune des premiers résultats des élections européennes. Le maire socialiste de Rouen, Nicolas\nMayer-Rossignol, très critique de la Nupes, envoyait quelques minutes plus tôt son appel pour l'union à\ngauche de « tous les démocrates de combat ». « Chiche », a semblé leur dire Emmanuel Macron, en\ndécidant de dissoudre l'Assemblée nationale