# üìï MODULE 2.3 : Manipulation des fichiers PDF avec Python

**Objectif :** Apprendre √† extraire du texte et manipuler des fichiers PDF.
Contrairement aux fichiers `.txt`, le PDF est un format binaire complexe. Nous avons besoin d'une biblioth√®que sp√©cialis√©e : **PyPDF2**.

---

## üõ†Ô∏è √âTAPE 0 : Pr√©paration de l'environnement

1. Installation de la librairie.
2. T√©l√©chargement d'un fichier PDF d'exemple (pour que le TP fonctionne tout de suite).

In [None]:
# 1. Installation de PyPDF2
!pip install PyPDF2

# 2. T√©l√©chargement d'un PDF d'exemple (La D√©claration d'Ind√©pendance)
# Nous utilisons 'wget' pour r√©cup√©rer le fichier depuis Internet
!wget -O cours_nlp.pdf https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf

print("Fichier 'cours_nlp.pdf' t√©l√©charg√© avec succ√®s !")

---

## üìñ √âTAPE 1 : Lecture d'un PDF

Pour lire un PDF, nous devons l'ouvrir en mode **Binaire** (`rb` = Read Binary).
Nous utilisons la classe `PdfReader` (Note : `PdfFileReader` est l'ancienne version obsol√®te).

In [None]:
import PyPDF2

# 1. Ouverture du fichier en mode lecture binaire ('rb')
f = open('cours_nlp.pdf', 'rb')

# 2. Cr√©ation de l'objet lecteur
reader = PyPDF2.PdfReader(f)

# 3. Affichage des m√©tadonn√©es
print(f"Nombre de pages : {len(reader.pages)}")

# On peut aussi voir les infos du document (Auteur, Cr√©ateur...)
print("Infos du document :", reader.metadata)

---

## üìù √âTAPE 2 : Extraction du Texte

Le PDF n'est pas du texte continu. C'est une collection de pages. Il faut extraire le texte **page par page**.

In [None]:
# R√©cup√©ration de la premi√®re page (Index 0)
page_une = reader.pages[0]

# Extraction du texte
texte_extrait = page_une.extract_text()

print("--- CONTENU DE LA PAGE 1 ---")
print(texte_extrait)
print("----------------------------")

### ‚ö†Ô∏è Note Importante sur l'extraction
Parfois, l'extraction est imparfaite (mots coll√©s, retours √† la ligne bizarres). C'est normal : le PDF est un format d'impression, pas de donn√©es. Si le texte est une image scann√©e, `PyPDF2` ne pourra rien lire (il faudra de l'OCR).

---

## ‚úçÔ∏è √âTAPE 3 : √âcriture (Cr√©ation d'un nouveau PDF)

Nous ne pouvons pas "modifier" un PDF directement. Nous devons :
1. Cr√©er un √©crivain (`PdfWriter`).
2. Copier des pages du lecteur vers l'√©crivain.
3. Sauvegarder le nouveau fichier.

In [None]:
# 1. Cr√©ation de l'objet √©crivain (vide pour l'instant)
writer = PyPDF2.PdfWriter()

# 2. Ajout de la page que nous avons lue pr√©c√©demment
writer.add_page(page_une)

# 3. √âcriture dans un nouveau fichier
# Mode 'wb' = Write Binary (√âcriture Binaire)
with open('mon_nouveau_doc.pdf', 'wb') as f_out:
    writer.write(f_out)

print("Nouveau PDF cr√©√© avec succ√®s : 'mon_nouveau_doc.pdf'")

---

## üß± √âTAPE 4 : Fusionner des PDFs (Merger)

Une t√¢che tr√®s courante est d'assembler plusieurs rapports en un seul.
Utilisons `PdfMerger`.

In [None]:
from PyPDF2 import PdfMerger

# Cr√©ation du fusionneur
fusionneur = PdfMerger()

# On ajoute le fichier original
fusionneur.append('cours_nlp.pdf')

# On ajoute le fichier qu'on vient de cr√©er (pour doubler les pages par exemple)
fusionneur.append('mon_nouveau_doc.pdf')

# Sauvegarde du r√©sultat
fusionneur.write("PDF_Fusionne_Final.pdf")
fusionneur.close()

print("Fusion termin√©e ! V√©rifiez vos fichiers.")

---

## üßπ Nettoyage (Fermeture du fichier)
N'oubliez jamais de fermer le fichier original que vous avez ouvert au d√©but.

In [None]:
f.close()