# Scraping: récupération de la page d'accueil du journal Le Soir

Dans ce notebook, nous créons un robot qui va ouvrir la page d'accueil du site du journal [Le Soir](https://www.lesoir.be/) et récupérer le titre de tous les articles du jour et les stocker dans un fichier csv.

## Imports

In [1]:
#bibliothèques 
import re                    
import time                    #  faire  pause entr les téléchar
import requests                # pr envoyer des requêtes HTTP
from bs4 import BeautifulSoup  # pr analyser (parser) le code HTML
import pandas as pd        

## Récupération de tous les articles de la page d'accueil



In [2]:
# Définition des en-têtes (headers) pour simuler un vrai navigateur
# Cela permet d’éviter que le site refuse la connexion car il croit que c’est un robot
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/39.0.2171.95 Safari/537.36'
}

# Liste vide qui contiendra toutes les informations sur les fichiers PDF trouvés
pdfs = []

# URL principale du site à analyser
root_url = "https://max.de.wilde.web.ulb.be/camille/"

# Envoi d’une requête HTTP au site pour récupérer le contenu de la page
# verify=False permet d’ignorer les erreurs de certificat SSL je l'ai ajouter car j'ai rencontré un pb
# lors du premier téléchargement (non recommandé en production)
response = requests.get(root_url, headers=headers, verify=False)

# On crée un objet BeautifulSoup pour pouvoir parcourir le code HTML facilement
soup = BeautifulSoup(response.text, 'html.parser')

# Boucle sur tous les balises (<a>) (balise pour créer les lien hypertexte) trouvés dans la page
for link in soup.find_all("a", href=True):     # on garde uniquement les liens qui ont un attribut "href"
    if link['href'].endswith(".pdf"):          # si le lien se termine par ".pdf", c’est un fichier PDF
        url = root_url + link['href']         
        title = link.text.strip()             
        pdfs.append([url, title])              # ajout lien et le titre à la liste des PDF

# Affiche le nombre total de fichiers PDF trouvés sur la page
print("Nombre de fichiers trouvés :", len(pdfs))

# Boucle sur chaque PDF trouvé pour le télécharger
for pdf in pdfs:
    url = pdf[0]                              # l’URL du fichier PDF
    filename = url.split('/')[-1]             # on garde uniquement le nom du fichier à la fin de l’URL

    # Envoi de la requête pour télécharger le fichier PDF
    r = requests.get(url, verify=False)       # verify=False pour ignorer le certificat SSL
    with open(filename, 'wb') as f:           # ouverture d’un fichier en mode binaire pour l’écriture
        f.write(r.content)                    # on écrit le contenu téléchargé dans le fichier

    # pause d’une seconde entre téléchargement pour éviter d’envoyer trop de requêtes au serveur en même temps
    time.sleep(1)
print("fin telechargement")




Nombre de fichiers trouvés : 51




fin telechargement


In [4]:
# Affichage du nombre d'articles récupérés
len(pdfs)

51

In [5]:
# Affichage des 10 premières entrées
pdfs[:10]

[['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1892-08-07_01-0003.pdf',
  'KB_JB230_1892-08-07_01-0003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB427_1920-01-10_01-00004.pdf',
  'KB_JB427_1920-01-10_01-00004.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB555_1836-02-08_01-00002.pdf',
  'KB_JB555_1836-02-08_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB638_1860-05-21_01-00002.pdf',
  'KB_JB638_1860-05-21_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB773_1918-11-30_01-00002.pdf',
  'KB_JB773_1918-11-30_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB838_1887-12-28_01-00003.pdf',
  'KB_JB838_1887-12-28_01-00003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1903-10-16_01-0002.pdf',
  'KB_JB230_1903-10-16_01-0002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB427_1933-01-04_01-00003.pdf',
  'KB_JB427_1933-01-04_01-00003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB555_1899-01-19_01-00

## Création d'un dataframe avec les liens et les titres des articles


In [6]:
df = pd.DataFrame(pdfs, columns=['link', 'title'])
df

Unnamed: 0,link,title
0,https://max.de.wilde.web.ulb.be/camille/KB_JB2...,KB_JB230_1892-08-07_01-0003.pdf
1,https://max.de.wilde.web.ulb.be/camille/KB_JB4...,KB_JB427_1920-01-10_01-00004.pdf
2,https://max.de.wilde.web.ulb.be/camille/KB_JB5...,KB_JB555_1836-02-08_01-00002.pdf
3,https://max.de.wilde.web.ulb.be/camille/KB_JB6...,KB_JB638_1860-05-21_01-00002.pdf
4,https://max.de.wilde.web.ulb.be/camille/KB_JB7...,KB_JB773_1918-11-30_01-00002.pdf
5,https://max.de.wilde.web.ulb.be/camille/KB_JB8...,KB_JB838_1887-12-28_01-00003.pdf
6,https://max.de.wilde.web.ulb.be/camille/KB_JB2...,KB_JB230_1903-10-16_01-0002.pdf
7,https://max.de.wilde.web.ulb.be/camille/KB_JB4...,KB_JB427_1933-01-04_01-00003.pdf
8,https://max.de.wilde.web.ulb.be/camille/KB_JB5...,KB_JB555_1899-01-19_01-00003.pdf
9,https://max.de.wilde.web.ulb.be/camille/KB_JB6...,KB_JB638_1902-12-20_01-00002.pdf


In [9]:
# Sauvegarde du dataframe dans un fichier csv
df.to_csv(f"../data/rtbf_{time.strftime('%Y%m%d')}.csv", index=False)

OSError: Cannot save file into a non-existent directory: '..\data'

## Téléchargement d'un article et affichage du texte

In [8]:
# Récupération du premier lien du dataframe
article_url = df.iloc[0][0]

# Ouverture de la page
response = requests.get(article_url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')
# Parsing du contenu
title = soup.find("h1").get_text(separator=' ')

paragraphs = []
for paragraph in soup.find_all("p", attrs={"class": None}):
    paragraphs.append(paragraph.get_text(separator=' ').strip())

content = "\n".join(paragraphs)
print(title)
print("==================================")
print(content)

Formule 1
Après une course sprint remportée par  Max Verstappen , le Néerlandais s’est offert la pole et s’élancera devant tout le monde ce dimanche. Le quadruple champion du monde devance  Lando Norris  et  Charles Leclerc,  tandis que  George Russell  et  Lewis Hamilton  complètent le top 5.  Oscar Piastri  s’élancera sixième.
La Q1 est marquée par un crash d’ Isack Hadjar  en tout début de séance. Le Français s’élancera bon dernier, juste derrière  Alexander Albon, Gabriel Bortoleto, Esteban Ocon  et  Lance Stroll .
Pas de réelle surprise en Q2 avec les éliminations de  Nico Hülkenberg, Liam Lawson, Yuki Tsunoda  et des Alpine de  Pierre Gasly  et  Franco Colapinto.
La Q3 est particulière puisque le pilote Red Bull réalise un excellent premier relais. Mais suite à une erreur de son équipe, il sort trop tard et n’a pas le temps de réaliser un deuxième chrono. Une erreur sans conséquences puisque le natif de Hasselt signe bien la 47e pole de sa carrière.
Rendez-vous ce dimanche dès 20

### Nettoyage du texte à l'aide d'expressions régulières

In [None]:
# Suppression de tout ce qui se trouve entre parenthèses
clean_content = re.sub("\([^\)]+\)", " ", content)
# Suppression des espaces multiples
clean_content = re.sub("\s+", " ", clean_content)

print(content)
print("==================================")
print(clean_content)


### Création d'un fichier avec le contenu de l'article


In [None]:
with open("../data/rtbf_example.txt", "w") as writer:
    writer.write(f"{title}\n\n{clean_content}")

## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp