# Scraping: récupération de la page d'accueil du journal Le Soir

Dans ce notebook, nous créons un robot qui va ouvrir la page d'accueil du site du journal [Le Soir](https://www.lesoir.be/) et récupérer le titre de tous les articles du jour et les stocker dans un fichier csv.

## Imports

In [1]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup


## Récupération de tous les articles de la page d'accueil



In [2]:
# URL de la page web contenant les fichiers PDF
url = "https://max.de.wilde.web.ulb.be/camille/"

# Envoyer une requête pour obtenir le contenu de la page
response = requests.get(url)

# Vérifier si la requête a été réussie
if response.status_code == 200:
    print("Page Web accessible")
else:
    print("Erreur lors de l'accès à la page", response.status_code)

# Analyser le contenu HTML de la page
soup = BeautifulSoup(response.content, 'html.parser')

# Trouver tous les liens (balises <a>) dans la page
links = soup.find_all('a')

# Créer un dossier pour enregistrer les fichiers PDF s'il n'existe pas déjà
folder_name = "pdfs"
if not os.path.exists(folder_name):
    os.makedirs(folder_name)

# Parcourir tous les liens et télécharger les fichiers PDF
for link in links:
    file_url = link.get('href')
    if file_url and file_url.endswith('.pdf'):
        # Construire l'URL complet du fichier PDF
        full_url = url + file_url
        file_name = os.path.join(folder_name, file_url.split('/')[-1])
        
        # Télécharger le fichier PDF
        print(f"Téléchargement de {file_name}...")
        pdf_response = requests.get(full_url)
        
        # Sauvegarder le fichier PDF localement
        with open(file_name, 'wb') as pdf_file:
            pdf_file.write(pdf_response.content)
        print(f"{file_name} téléchargé avec succès.")

print("Téléchargement terminé.")

Page Web accessible
Téléchargement de pdfs\KB_JB230_1892-08-07_01-0003.pdf...
pdfs\KB_JB230_1892-08-07_01-0003.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB427_1920-01-10_01-00004.pdf...
pdfs\KB_JB427_1920-01-10_01-00004.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB555_1836-02-08_01-00002.pdf...
pdfs\KB_JB555_1836-02-08_01-00002.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB638_1860-05-21_01-00002.pdf...
pdfs\KB_JB638_1860-05-21_01-00002.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB773_1918-11-30_01-00002.pdf...
pdfs\KB_JB773_1918-11-30_01-00002.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB838_1887-12-28_01-00003.pdf...
pdfs\KB_JB838_1887-12-28_01-00003.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB230_1903-10-16_01-0002.pdf...
pdfs\KB_JB230_1903-10-16_01-0002.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB427_1933-01-04_01-00003.pdf...
pdfs\KB_JB427_1933-01-04_01-00003.pdf téléchargé avec succès.
Téléchargement d