# üìï MODULE 2.3 : Manipulation des PDF en Python

**Objectif :** Apprendre √† lire, extraire du texte et manipuler des fichiers PDF.

Contrairement aux fichiers `.txt`, un PDF est un fichier binaire complexe. Nous utiliserons la biblioth√®que **PyPDF2** pour d√©coder son contenu.

---

## üõ†Ô∏è √âTAPE 1 : Installation et Importation

Nous commen√ßons par installer la biblioth√®que n√©cessaire et l'importer dans notre projet.

In [None]:
# Installation de la biblioth√®que (si elle n'est pas d√©j√† pr√©sente)
!pip install PyPDF2

# Importation
import PyPDF2

## üì• √âTAPE 2 : Chargement du fichier PDF

Pour travailler, nous avons besoin d'un fichier PDF. Nous allons utiliser `US_Declaration.pdf` comme dans l'exemple du cours.

**Note technique :** Il faut ouvrir le fichier en mode `'rb'` (**R**ead **B**inary) car un PDF n'est pas du texte brut.

In [None]:
# Si vous √™tes sur Colab, t√©l√©chargeons d'abord un fichier exemple similaire
# (Si vous avez le fichier 'US_Declaration.pdf' en local, ignorez cette ligne de wget)
!wget -O US_Declaration.pdf https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf

# Ouverture du fichier en mode lecture binaire ('rb')
f = open('US_Declaration.pdf', 'rb')

# Cr√©ation de l'objet lecteur (PdfReader)
# Note : Dans les versions r√©centes, PdfFileReader est remplac√© par PdfReader
pdf_reader = PyPDF2.PdfReader(f)

## üìä √âTAPE 3 : Analyse des m√©tadonn√©es

Combien de pages contient ce document ? C'est la premi√®re chose √† v√©rifier.

In [None]:
# Affichage du nombre de pages
# Ancienne version : pdf_reader.numPages
# Nouvelle version : len(pdf_reader.pages)
nb_pages = len(pdf_reader.pages)
print(f"Le document contient {nb_pages} page(s).")

## üìù √âTAPE 4 : Extraction du texte

Nous allons maintenant extraire le contenu de la **premi√®re page** (Index 0).
PyPDF2 permet de transformer le contenu de la page en cha√Æne de caract√®res Python.

In [None]:
# S√©lection de la page 0 (la premi√®re)
page_one = pdf_reader.pages[0]

# Extraction du texte
page_one_text = page_one.extract_text()

# Affichage du r√©sultat
print("--- D√âBUT DU TEXTE ---")
print(page_one_text)
print("--- FIN DU TEXTE ---")

### üîé Analyse du contenu extrait
Comme vous le voyez, le texte extrait peut √™tre analys√© comme n'importe quelle cha√Æne Python.
Nous pouvons par exemple le d√©couper en mots (tokens) pour voir le d√©but.

In [None]:
# D√©coupage basique par espace
mots = page_one_text.split()
print(mots[:20]) # Affiche les 20 premiers mots

---

## ‚úçÔ∏è √âTAPE 5 : Cr√©ation d'un nouveau PDF

Nous ne pouvons pas modifier un PDF ouvert. Nous devons :
1. Cr√©er un nouvel objet √©crivain (`PdfWriter`).
2. Lui ajouter des pages (copi√©es depuis le lecteur).
3. Sauvegarder le r√©sultat dans un nouveau fichier (`new_file.pdf`).

In [None]:
# Cr√©ation de l'√©crivain
pdf_writer = PyPDF2.PdfWriter()

# Ajout de la premi√®re page r√©cup√©r√©e plus haut
pdf_writer.add_page(page_one)

# Ouverture du fichier de destination en mode √âCRITURE BINAIRE ('wb')
pdf_output = open("new_file.pdf", "wb")

# √âcriture effective
pdf_writer.write(pdf_output)

# Fermeture du fichier (tr√®s important !)
pdf_output.close()

print("Fichier 'new_file.pdf' cr√©√© avec succ√®s.")

---

## üöú √âTAPE 6 : Traitement de tout le document

Souvent, on veut extraire tout le texte d'un coup. Voici comment faire une boucle pour r√©cup√©rer le texte de toutes les pages.

In [None]:
f = open('US_Declaration.pdf', 'rb')
pdf_reader = PyPDF2.PdfReader(f)

pdf_text = []

# Boucle sur toutes les pages
for p in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[p]
    pdf_text.append(page.extract_text())

f.close()

# Affichage du nombre de pages extraites
print(f"Texte extrait de {len(pdf_text)} pages.")
# print(pdf_text) # D√©commentez pour tout voir

## üß± √âTAPE 7 : Fusion de Fichiers (Merger)

Enfin, voyons comment fusionner deux PDF (`F1.pdf` et `F2.pdf`) en un seul document.

In [None]:
from PyPDF2 import PdfMerger

# Cr√©ation de fichiers factices pour l'exemple (si vous ne les avez pas)
# (On r√©utilise new_file.pdf deux fois pour simuler deux fichiers)
filename1 = 'new_file.pdf'
filename2 = 'new_file.pdf'

# Cr√©ation du fusionneur
merger = PdfMerger()

# Ajout des fichiers dans l'ordre voulu
merger.append(filename1)
merger.append(filename2)

# Sauvegarde du r√©sultat fusionn√©
merger.write("merged_file.pdf")
merger.close()

print("Fusion termin√©e : 'merged_file.pdf'")