# üìï MODULE 2.3 : Manipulation Avanc√©e des PDF

**Objectif du TP :** Apprendre √† manipuler des publications acad√©miques r√©elles au format PDF.

Nous allons utiliser la biblioth√®que **PyPDF2** pour :
1.  Lire des articles scientifiques.
2.  Extraire leur texte brut pour l'analyser (NLP).
3.  Fusionner plusieurs articles en un seul fichier.

---

## üõ†Ô∏è √âTAPE 1 : Installation et T√©l√©chargement des Donn√©es

Nous commen√ßons par installer `PyPDF2` et t√©l√©charger vos deux articles de recherche.

In [None]:
# 1. Installation de la librairie
!pip install PyPDF2

# 2. T√©l√©chargement des articles (Cas r√©el)
# Article 1 : Engineering Education (i-jep)
!wget -O article1.pdf "https://online-journals.org/index.php/i-jep/article/download/40853/14311/140647"

# Article 2 : Educational Research (ERIC)
!wget -O article2.pdf "https://files.eric.ed.gov/fulltext/EJ1481879.pdf"

print("‚úÖ Les fichiers 'article1.pdf' et 'article2.pdf' sont pr√™ts !")

## üìñ √âTAPE 2 : Lecture et M√©tadonn√©es

Commen√ßons par analyser le premier article (`article1.pdf`).

**Note P√©dagogique :**
Un fichier PDF est un fichier **binaire**. Il faut toujours utiliser le mode `'rb'` (**R**ead **B**inary) dans la fonction `open()`.

In [None]:
import PyPDF2

# 1. Ouverture du fichier en mode binaire
f = open('article1.pdf', 'rb')

# 2. Cr√©ation du Lecteur (Reader)
# C'est l'objet qui va d√©coder le format PDF
pdf_reader = PyPDF2.PdfReader(f)

# 3. Combien de pages ?
# (Anciennement .numPages, maintenant len(pages))
nb_pages = len(pdf_reader.pages)

print(f"L'article 1 contient {nb_pages} pages.")
print(f"M√©tadonn√©es : {pdf_reader.metadata}")

## üìù √âTAPE 3 : Extraction du Texte (Page par Page)

Contrairement √† un fichier Word, un PDF n'est pas du texte continu. C'est une suite de pages graphiques.
Nous devons extraire le texte de chaque page individuellement.

In [None]:
# R√©cup√©rons la premi√®re page (Index 0)
page_une = pdf_reader.pages[0]

# Extraction du texte
texte_page_1 = page_une.extract_text()

print("--- D√âBUT DE L'ARTICLE ---")
print(texte_page_1[:1000]) # On affiche les 1000 premiers caract√®res
print("...")

### üß† Analyse NLP rapide
Maintenant que nous avons le texte dans une variable Python (`texte_page_1`), nous pouvons l'analyser comme n'importe quelle cha√Æne de caract√®res (compter les mots, chercher des entit√©s...).

In [None]:
# Exemple : D√©coupage en mots (Tokenization basique)
mots = texte_page_1.split()
print(f"La premi√®re page contient environ {len(mots)} mots.")
print(f"Les 10 premiers mots : {mots[:10]}")

## üîÑ √âTAPE 4 : Extraction Totale (Boucle)

Pour analyser tout l'article, nous devons boucler sur toutes les pages et concat√©ner le texte.

In [None]:
texte_complet = []

for i in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[i]
    texte_complet.append(page.extract_text())

# On ferme le fichier une fois fini
f.close()

print(f"Extraction termin√©e pour {len(texte_complet)} pages.")

## üß± √âTAPE 5 : Fusion de PDF (Merger)

Imaginez que vous voulez cr√©er un **Dossier de Recherche** unique contenant vos deux articles (`article1.pdf` et `article2.pdf`).
Nous utilisons `PdfMerger`.

In [None]:
from PyPDF2 import PdfMerger

# Cr√©ation du fusionneur
merger = PdfMerger()

# Liste des fichiers √† fusionner
pdfs_a_fusionner = ['article1.pdf', 'article2.pdf']

for pdf in pdfs_a_fusionner:
    print(f"Ajout de {pdf}...")
    # On ouvre chaque fichier et on l'ajoute √† la pile
    merger.append(open(pdf, 'rb'))

# √âcriture du r√©sultat final
with open("Dossier_Recherche_Complet.pdf", "wb") as fout:
    merger.write(fout)

print("‚úÖ Fusion termin√©e ! Le fichier 'Dossier_Recherche_Complet.pdf' est cr√©√©.")

## ‚úÇÔ∏è √âTAPE 6 : D√©coupage (Cr√©er un PDF extrait)

Parfois, vous voulez extraire **seulement la premi√®re page** (le r√©sum√©/abstract) d'un article pour l'envoyer √† un coll√®gue.

In [None]:
# 1. Lecture de l'article source
f_source = open('article1.pdf', 'rb')
reader = PyPDF2.PdfReader(f_source)

# 2. Cr√©ation d'un √©crivain vide
writer = PyPDF2.PdfWriter()

# 3. On prend seulement la page 0 (la premi√®re)
writer.add_page(reader.pages[0])

# 4. Sauvegarde dans un nouveau fichier
with open("Resume_Article1.pdf", "wb") as f_out:
    writer.write(f_out)

f_source.close()
print("‚úÖ Fichier 'Resume_Article1.pdf' cr√©√© (1 page).")