# Scraping: récupération de la page d'accueil du journal Le Soir

Dans ce notebook, nous créons un robot qui va ouvrir la page d'accueil du site du journal [Le Soir](https://www.lesoir.be/) et récupérer le titre de tous les articles du jour et les stocker dans un fichier csv.

## Imports

In [2]:
import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Récupération de tous les articles de la page d'accueil



In [4]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

articles = []

root_url = f"https://www.rtbf.be"
response = requests.get(root_url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all("a", {"class":"stretched-link outline-hidden"}):
    title = link.text.strip()
    url = root_url + link.get('href')
    articles.append([url, title])

In [5]:
# Affichage du nombre d'articles récupérés
len(articles)

80

In [6]:
# Affichage des 10 premières entrées
articles[:10]

[['https://www.rtbf.be/article/f1-etats-unis-verstappen-veut-terminer-en-beaute-a-austin-direct-video-a-20h30-11618627',
  'Direct vidéo - F1 États-Unis\xa0: Verstappen solide leader'],
 ['https://www.rtbf.be/article/braquage-au-louvre-le-musee-ferme-pour-la-journee-11618763',
  'Ce que l’on sait du cambriolage éclair au Louvre et du vol de bijoux napoléoniens à la valeur "inestimable"'],
 ['https://www.rtbf.be/article/absence-d-accord-pour-le-budget-federal-la-date-limite-naturelle-approche-selon-le-president-de-la-chambre-peter-de-roover-11618835',
  'Absence d\'accord pour le budget fédéral : la "date limite naturelle" approche, selon le président de la Chambre, Peter de Roover'],
 ['https://www.rtbf.be/article/saint-trond-anderlecht-le-sporting-veut-enchainer-bertaccini-de-retour-direct-audio-et-commente-18h30-11617902',
  'Anderlecht a mené deux fois mais doit se contenter d’un point à Saint-Trond'],
 ['https://www.rtbf.be/article/l-il-de-moscou-pas-de-deux-russo-americain-sur-le-

## Création d'un dataframe avec les liens et les titres des articles


In [7]:
df = pd.DataFrame(articles, columns=['link', 'title'])
df

Unnamed: 0,link,title
0,https://www.rtbf.be/article/f1-etats-unis-vers...,Direct vidéo - F1 États-Unis : Verstappen soli...
1,https://www.rtbf.be/article/braquage-au-louvre...,Ce que l’on sait du cambriolage éclair au Louv...
2,https://www.rtbf.be/article/absence-d-accord-p...,"Absence d'accord pour le budget fédéral : la ""..."
3,https://www.rtbf.be/article/saint-trond-anderl...,Anderlecht a mené deux fois mais doit se conte...
4,https://www.rtbf.be/article/l-il-de-moscou-pas...,L’œil de Moscou : pas de deux russo-américain ...
...,...,...
75,https://www.rtbf.behttps://auvio.rtbf.be/media...,Permis de conduire : dérives et système D
76,https://www.rtbf.behttps://auvio.rtbf.be/media...,Patagonia
77,https://www.rtbf.behttps://auvio.rtbf.be/media...,La grande famille des chiens
78,https://www.rtbf.behttps://auvio.rtbf.be/media...,La capsule de Jardins & loisirs


In [8]:
# Sauvegarde du dataframe dans un fichier csv
df.to_csv(f"../data/rtbf_{time.strftime('%Y%m%d')}.csv", index=False)

## Téléchargement d'un article et affichage du texte

In [9]:
# Récupération du premier lien du dataframe
article_url = df.iloc[0][0]

# Ouverture de la page
response = requests.get(article_url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')
# Parsing du contenu
title = soup.find("h1").get_text(separator=' ')

paragraphs = []
for paragraph in soup.find_all("p", attrs={"class": None}):
    paragraphs.append(paragraph.get_text(separator=' ').strip())

content = "\n".join(paragraphs)
print(title)
print("==================================")
print(content)

  article_url = df.iloc[0][0]


Formule 1
Suite et fin de ce week-end animé ce dimanche à Austin !
Un rendez-vous qui réussit à un certain  Max Verstappen  jusqu’ici. Auteur de la pole pour le sprint avant de s’offrir la victoire, le quadruple champion du monde a également décroché  la pole  samedi soir.
L’objectif est "simple" pour  Mad Max  : l’emporter pour continuer à mettre la pression sur les McLaren. Mais  Lando Norris , deuxième, tentera d’attaquer le Néerlandais dès le départ, alors qu’ Oscar Piastri  sera en mission remontée en s’élançant sixième.
Pour rappel, le natif de Hasselt compte 55 points de retard sur Piastri et 33 sur Norris.
Alors qui l’emportera à Austin ? Réponse ce dimanche sur les médias de la RTBF dès 20h30 pour Warm Up, avant de vivre le départ dans la foulée.
Mots clés de l'article
Copyright ©  2025  RTBF


### Nettoyage du texte à l'aide d'expressions régulières

In [10]:
# Suppression de tout ce qui se trouve entre parenthèses
clean_content = re.sub("\([^\)]+\)", " ", content)
# Suppression des espaces multiples
clean_content = re.sub("\s+", " ", clean_content)

print(content)
print("==================================")
print(clean_content)


Suite et fin de ce week-end animé ce dimanche à Austin !
Un rendez-vous qui réussit à un certain  Max Verstappen  jusqu’ici. Auteur de la pole pour le sprint avant de s’offrir la victoire, le quadruple champion du monde a également décroché  la pole  samedi soir.
L’objectif est "simple" pour  Mad Max  : l’emporter pour continuer à mettre la pression sur les McLaren. Mais  Lando Norris , deuxième, tentera d’attaquer le Néerlandais dès le départ, alors qu’ Oscar Piastri  sera en mission remontée en s’élançant sixième.
Pour rappel, le natif de Hasselt compte 55 points de retard sur Piastri et 33 sur Norris.
Alors qui l’emportera à Austin ? Réponse ce dimanche sur les médias de la RTBF dès 20h30 pour Warm Up, avant de vivre le départ dans la foulée.
Mots clés de l'article
Copyright ©  2025  RTBF
Suite et fin de ce week-end animé ce dimanche à Austin ! Un rendez-vous qui réussit à un certain Max Verstappen jusqu’ici. Auteur de la pole pour le sprint avant de s’offrir la victoire, le quadrup

### Création d'un fichier avec le contenu de l'article


In [11]:
with open("../data/rtbf_example.txt", "w") as writer:
    writer.write(f"{title}\n\n{clean_content}")

## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp