## Imports

In [1]:
"""
os = module permettant d'utiliser les fonctionnalités dépendantes du système d'exploitation comme la lecture ou l'écriture 
dans le système de fichiers.
"""
import os

import requests
"""
requests = une bibliothèque permettant à Python d'envoyer des requêtes HTTP et 
d'interagir avec des APIs ou des sites web en envoyant des demandes et 
en récupérant des réponses.
"""

from bs4 import BeautifulSoup
"""
BeautifulSoup = bibliothèque utilisée pour analyser des documents HTML et XML, particulièrement utile pour le web scraping.
"""

# Définir le chemin du répertoire
tp1_path = "../tac/tp1"

# Créer le dossier tp1 s'il n'existe pas encore
if not os.path.exists(tp1_path): 
    os.mkdir(tp1_path)

## Récupérer les fichiers .pdf listés sur le site

In [2]:
# En-tête HTTP pour la requête / émuler un navigateur
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'
}

# Initialiser une liste pour stocker les liens des fichiers .pdf
pdf_files = []

# URL à partir duquel télécharger les fichiers .pdf
root_url = "https://max.de.wilde.web.ulb.be/camille/"

# Envoyer la requête HTTP à l'URL
response = requests.get(root_url, headers=headers)

# Analyser la réponse avec BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Récupérer les liens vers les fichiers .pdf
for link in soup.find_all("a", href=True):
    href = link['href']
    if href.endswith(".pdf"):
        pdf_files.append(root_url + href)  # Construire l'URL complète et ajouter à la liste

In [3]:
# Afficher le nombre de fichiers .pdf récupérés
print(f"{len(pdf_files)} fichiers PDF trouvés.")

51 fichiers PDF trouvés.


## Télécharger et enregistrer chaque fichier .pdf

In [4]:
for pdf_url in pdf_files:
    filename = pdf_url.split("/")[-1]  # Extraire le nom du fichier
    print(f"Téléchargement de {filename}...")

    # Envoyer la requête pour télécharger les fichiers .pdf
    response = requests.get(pdf_url)

   # Enregistrer les fichiers PDF sur disque
    with open(os.path.join(tp1_path, filename), 'wb') as f:
        f.write(response.content)
    print(f"{filename} a été enregistré avec succès.")

Téléchargement de KB_JB230_1892-08-07_01-0003.pdf...
KB_JB230_1892-08-07_01-0003.pdf a été enregistré avec succès.
Téléchargement de KB_JB427_1920-01-10_01-00004.pdf...
KB_JB427_1920-01-10_01-00004.pdf a été enregistré avec succès.
Téléchargement de KB_JB555_1836-02-08_01-00002.pdf...
KB_JB555_1836-02-08_01-00002.pdf a été enregistré avec succès.
Téléchargement de KB_JB638_1860-05-21_01-00002.pdf...
KB_JB638_1860-05-21_01-00002.pdf a été enregistré avec succès.
Téléchargement de KB_JB773_1918-11-30_01-00002.pdf...
KB_JB773_1918-11-30_01-00002.pdf a été enregistré avec succès.
Téléchargement de KB_JB838_1887-12-28_01-00003.pdf...
KB_JB838_1887-12-28_01-00003.pdf a été enregistré avec succès.
Téléchargement de KB_JB230_1903-10-16_01-0002.pdf...
KB_JB230_1903-10-16_01-0002.pdf a été enregistré avec succès.
Téléchargement de KB_JB427_1933-01-04_01-00003.pdf...
KB_JB427_1933-01-04_01-00003.pdf a été enregistré avec succès.
Téléchargement de KB_JB555_1899-01-19_01-00003.pdf...
KB_JB555_1899-

In [5]:
 print("Tous les fichiers ont été enregistré sur le disque avec succès.")

Tous les fichiers ont été enregistré sur le disque avec succès.
