# Scraping: récupération de la page d'accueil du journal Le Soir

Dans ce notebook, nous créons un robot qui va ouvrir la page d'accueil du site du journal [Le Soir](https://www.lesoir.be/) et récupérer le titre de tous les articles du jour et les stocker dans un fichier csv.

## Imports

In [29]:
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin


## Téléchargement des fichiers pdf camille



In [27]:
# URL de la page contenant les liens des fichiers PDF
base_url = "https://max.de.wilde.web.ulb.be/camille/"

# Dossier de destination pour les fichiers PDF
output_folder = "pdfs"

# Créer un répertoire local pour stocker les fichiers PDF
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Obtenir la page web
response = requests.get(base_url)

# Vérifier si la requête a réussi
if response.status_code == 200:
    soup = BeautifulSoup(response.text, "html.parser")

    # Rechercher tous les liens (balises <a>) qui pointent vers des fichiers PDF
    pdf_links = [a['href'] for a in soup.find_all('a', href=True) if a['href'].endswith('.pdf')]

    # Télécharger chaque fichier PDF
    for pdf_link in pdf_links:
        # Construire l'URL complet
        pdf_url = urljoin(base_url, pdf_link)

        # Nom du fichier PDF
        pdf_filename = os.path.join(output_folder, pdf_link)

        # Télécharger et sauvegarder le fichier PDF
        print(f"Téléchargement de {pdf_filename}...")
        pdf_response = requests.get(pdf_url)

        if pdf_response.status_code == 200:
            with open(pdf_filename, 'wb') as pdf_file:
                pdf_file.write(pdf_response.content)
            print(f"Fichier {pdf_filename} téléchargé avec succès.")
        else:
            print(f"Erreur lors du téléchargement de {pdf_filename}.")
else:
    print(f"Erreur lors de l'accès à {base_url}.")

Téléchargement de pdfs\KB_JB230_1892-08-07_01-0003.pdf...
Fichier pdfs\KB_JB230_1892-08-07_01-0003.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB427_1920-01-10_01-00004.pdf...
Fichier pdfs\KB_JB427_1920-01-10_01-00004.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB555_1836-02-08_01-00002.pdf...
Fichier pdfs\KB_JB555_1836-02-08_01-00002.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB638_1860-05-21_01-00002.pdf...
Fichier pdfs\KB_JB638_1860-05-21_01-00002.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB773_1918-11-30_01-00002.pdf...
Fichier pdfs\KB_JB773_1918-11-30_01-00002.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB838_1887-12-28_01-00003.pdf...
Fichier pdfs\KB_JB838_1887-12-28_01-00003.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB230_1903-10-16_01-0002.pdf...
Fichier pdfs\KB_JB230_1903-10-16_01-0002.pdf téléchargé avec succès.
Téléchargement de pdfs\KB_JB427_1933-01-04_01-00003.pdf...
Fichier pdfs\KB_JB427_1933-01-04_01-00003.

## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp