# Scraping: récupération de la page d'accueil du journal Le Soir

Dans ce notebook, nous créons un robot qui va ouvrir la page d'accueil du site du journal [Le Soir](https://www.lesoir.be/) et récupérer le titre de tous les articles du jour et les stocker dans un fichier csv.

## Imports

In [12]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Récupération de tous les articles de la page d'accueil



In [13]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

articles = []

root_url = f"https://www.lesoir.be"
response = requests.get(root_url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all("a", {"class":"r-article--link"}):
    title = link.text.strip()
    url = root_url + link.get('href')
    articles.append([url, title])

In [14]:
# Affichage du nombre d'articles récupérés
len(articles)

89

In [15]:
# Affichage des 10 premières entrées
articles[:10]

[['https://www.lesoir.be/504106/article/2023-03-29/guerre-en-ukraine-poutine-reconnait-limpact-des-sanctions-internationales-sur',
  'Guerre en Ukraine: Poutine reconnaît l’impact des sanctions internationales sur l’économie russe'],
 ['https://www.lesoir.be/504100/article/2023-03-29/comment-leurope-se-prepare-aux-attentats',
  'Décodage\nComment l’Europe se prépare aux attentats'],
 ['https://www.lesoir.be/504080/article/2023-03-29/proces-des-attentats-de-bruxelles-mohamed-abrini-remercie-une-victime-pour-son',
  'Procès des attentats de Bruxelles: Mohamed Abrini remercie une victime pour son témoignage'],
 ['https://www.lesoir.be/504147/article/2023-03-29/le-chambre-ira-recuperer-les-supplements-de-pension-verses-raymond-langendries',
  'Le Chambre ira récupérer les suppléments de pension versés à Raymond Langendries et Sigfried Bracke'],
 ['https://www.lesoir.be/504004/article/2023-03-29/comment-les-prix-de-limmobilier-neuf-ont-evolue-ces-dernieres-annees-cartes',
  'Comment les pri

## Création d'un dataframe avec les liens et les titres des articles


In [16]:
df = pd.DataFrame(articles, columns=['link', 'title'])
df

Unnamed: 0,link,title
0,https://www.lesoir.be/504106/article/2023-03-2...,Guerre en Ukraine: Poutine reconnaît l’impact ...
1,https://www.lesoir.be/504100/article/2023-03-2...,Décodage\nComment l’Europe se prépare aux atte...
2,https://www.lesoir.be/504080/article/2023-03-2...,Procès des attentats de Bruxelles: Mohamed Abr...
3,https://www.lesoir.be/504147/article/2023-03-2...,Le Chambre ira récupérer les suppléments de pe...
4,https://www.lesoir.be/504004/article/2023-03-2...,Comment les prix de l’immobilier neuf ont évol...
...,...,...
84,https://www.lesoir.be/503006/article/2023-03-2...,"Les groupes, espèce en voie d’extinction"
85,https://www.lesoir.be/502489/article/2023-03-2...,Les produits bio à la recherche d’un second so...
86,https://www.lesoir.be/502893/article/2023-03-2...,"Le poke bowl, la nouvelle coqueluche du fast-good"
87,https://www.lesoir.be/502647/article/2023-03-2...,Cancer: une découverte belge majeure explique ...


In [17]:
# Sauvegarde du dataframe dans un fichier csv
df.to_csv(f"../data/lesoir_{time.strftime('%Y%m%d')}.csv", index=False)

## Téléchargement d'un article et affichage du texte

In [18]:
# Récupération du premier lien du dataframe
article_url = df.iloc[0][0]

# Ouverture de la page
response = requests.get(article_url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Parsing du contenu
title = soup.find("h1").get_text(separator=' ')
chapo = soup.find("r-article--chapo").get_text(separator=' ')
content = soup.find("r-article--section").get_text(separator=' ')

print(title)
print("==================================")
print(chapo)
print("==================================")
print(content)

Guerre en Ukraine: Poutine reconnaît l’impact des sanctions internationales sur l’économie russe
Jusqu’à présent, le président russe Vladimir Poutine avait toujours vanté l’adaptation de la Russie face à cette nouvelle conjoncture.
  V ladimir Poutine a dit mercredi que les sanctions internationales visant Moscou pour son offensive en Ukraine « peuvent » avoir des conséquences « négatives » à « moyen terme » sur l’économie nationale, après avoir pourtant vanté ces derniers mois l’adaptation de la Russie face à cette nouvelle conjoncture.                function get_dtkCxSegments() { if ('cxSegments' in localStorage) { /* Récupération de cxSegments + initialisation de variables destinées à en limiter la longueur */ let cx = localStorage.getItem("cxSegments"), valueCx = cx.split(","), valueCxLimited = [], charLength = 0, limit = 2000; /* Limitation de la longueur de la chaine de caractère */ for (var i = 0; i < valueCx.length; i++) { charLength = charLength + valueCx[i].length; if (charL

### Nettoyage du texte à l'aide d'expressions régulières

In [19]:
# Suppression de tout ce qui se trouve entre parenthèses
clean_content = re.sub("\([^\)]+\)", " ", content)
# Suppression des espaces multiples
clean_content = re.sub("\s+", " ", clean_content)

print(content)
print("==================================")
print(clean_content)


  V ladimir Poutine a dit mercredi que les sanctions internationales visant Moscou pour son offensive en Ukraine « peuvent » avoir des conséquences « négatives » à « moyen terme » sur l’économie nationale, après avoir pourtant vanté ces derniers mois l’adaptation de la Russie face à cette nouvelle conjoncture.                function get_dtkCxSegments() { if ('cxSegments' in localStorage) { /* Récupération de cxSegments + initialisation de variables destinées à en limiter la longueur */ let cx = localStorage.getItem("cxSegments"), valueCx = cx.split(","), valueCxLimited = [], charLength = 0, limit = 2000; /* Limitation de la longueur de la chaine de caractère */ for (var i = 0; i < valueCx.length; i++) { charLength = charLength + valueCx[i].length; if (charLength <= limit) { valueCxLimited.push(valueCx[i]); } } return valueCxLimited; } else { return false; } } window.dtkCxSegments = window.dtkCxSegments || get_dtkCxSegments(); var dtkEmbed = document.currentScript.parentNode; var dtkIf

### Création d'un fichier avec le contenu de l'article


In [20]:
with open("../data/lesoir_example.txt", "w") as writer:
    writer.write(f"{title}\n\n{chapo}\n\n{clean_content}")

## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp