# Scraping: récupération de la page d'accueil du journal Le Soir

Dans ce notebook, nous créons un robot qui va ouvrir la page d'accueil du site du journal [Le Soir](https://www.lesoir.be/) et récupérer le titre de tous les articles du jour et les stocker dans un fichier csv.

## Imports

In [1]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Récupération de tous les articles de la page d'accueil



In [2]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

articles = []

root_url = f"https://www.lesoir.be"
response = requests.get(root_url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all("a", {"class":"r-article--link"}):
    title = link.text.strip()
    url = root_url + link.get('href')
    articles.append([url, title])

In [3]:
# Affichage du nombre d'articles récupérés
len(articles)

92

In [4]:
# Affichage des 10 premières entrées
articles[:10]

[['https://www.lesoir.be/483105/article/2022-12-14/france-maroc-randal-kolo-muani-fait-le-break-pour-les-bleus-quelques-petites',
  'Direct\nFrance – Maroc: Randal Kolo Muani fait le break pour les Bleus quelques petites secondes après sa montée au jeu (2-0, direct)'],
 ['https://www.lesoir.be/483031/article/2022-12-14/parlement-europeen-la-surete-de-letat-avait-infiltre-le-domicile-de-panzeri',
  'Enquête\nParlement européen: la Sûreté de l’Etat avait infiltré le domicile de Panzeri'],
 ['https://www.lesoir.be/483009/article/2022-12-14/budget-quatre-partis-dopposition-demandent-la-demission-de-de-croo-qui-denonce',
  'Budget: quatre partis d’opposition demandent la démission de De Croo, qui dénonce des jeux politiques'],
 ['https://www.lesoir.be/483093/article/2022-12-14/vers-une-forme-de-gratuite-de-lenseignement-en-premiere-et-deuxieme-primaires',
  'Vers une forme de gratuité de l’enseignement en première et deuxième primaires'],
 ['https://www.lesoir.be/483068/article/2022-12-14/m

## Création d'un dataframe avec les liens et les titres des articles


In [5]:
df = pd.DataFrame(articles, columns=['link', 'title'])
df

Unnamed: 0,link,title
0,https://www.lesoir.be/483105/article/2022-12-1...,Direct\nFrance – Maroc: Randal Kolo Muani fait...
1,https://www.lesoir.be/483031/article/2022-12-1...,Enquête\nParlement européen: la Sûreté de l’Et...
2,https://www.lesoir.be/483009/article/2022-12-1...,Budget: quatre partis d’opposition demandent l...
3,https://www.lesoir.be/483093/article/2022-12-1...,Vers une forme de gratuité de l’enseignement e...
4,https://www.lesoir.be/483068/article/2022-12-1...,Migration: la ministre Zuhal Demir crée la pol...
...,...,...
87,https://www.lesoir.be/482069/article/2022-12-0...,"Séduisants au premier abord, les flexi-jobs po..."
88,https://www.lesoir.be/481508/article/2022-12-0...,Carburants: l’espoir d’une stabilisation des prix
89,https://www.lesoir.be/481390/article/2022-12-0...,"Analyse\nSaunas, alcool ou force de caractère?..."
90,https://www.lesoir.be/480708/article/2022-12-0...,"Prime, bonus, chèque cadeau: qu’est-ce qui vou..."


In [6]:
# Sauvegarde du dataframe dans un fichier csv
df.to_csv(f"../data/lesoir_{time.strftime('%Y%m%d')}.csv", index=False)

## Téléchargement d'un article et affichage du texte

In [7]:
# Récupération du premier lien du dataframe
article_url = df.iloc[0][0]

# Ouverture de la page
response = requests.get(article_url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Parsing du contenu
title = soup.find("h1").get_text(separator=' ')
chapo = soup.find("r-article--chapo").get_text(separator=' ')
content = soup.find("r-article--section").get_text(separator=' ')

print(title)
print("==================================")
print(chapo)
print("==================================")
print(content)

France – Maroc: Randal Kolo Muani fait le break pour les Bleus quelques petites secondes après sa montée au jeu (2-0, direct)
La France affronte le Maroc ce mercredi soir avec une place en finale à la clé. Le vainqueur affrontera l’Argentine, ce dimanche 18 décembre à 16h

 C e mercredi soir, la France affronte le Maroc dans la deuxième demi-finale de cette Coupe du monde au Qatar. Favoris, les Bleus devront écarter des Marocains accrocheurs, afin d’aller cherche une deuxième finale d’affilée en Coupe du monde. 
 
 
 
   
 
   
        function get_dtkCxSegments() {
            if ('cxSegments' in localStorage) {
                // Récupération de cxSegments + initialisation de variables destinées à en limiter la longueur
                let cx = localStorage.getItem("cxSegments"),
                    valueCx = cx.split(","),
                    valueCxLimited = [],
                    charLength = 0,
                    limit = 2000;
                // Limitation de la longueur de la 

### Nettoyage du texte à l'aide d'expressions régulières

In [8]:
# Suppression de tout ce qui se trouve entre parenthèses
clean_content = re.sub("\([^\)]+\)", " ", content)
# Suppression des espaces multiples
clean_content = re.sub("\s+", " ", clean_content)

print(content)
print("==================================")
print(clean_content)



 C e mercredi soir, la France affronte le Maroc dans la deuxième demi-finale de cette Coupe du monde au Qatar. Favoris, les Bleus devront écarter des Marocains accrocheurs, afin d’aller cherche une deuxième finale d’affilée en Coupe du monde. 
 
 
 
   
 
   
        function get_dtkCxSegments() {
            if ('cxSegments' in localStorage) {
                // Récupération de cxSegments + initialisation de variables destinées à en limiter la longueur
                let cx = localStorage.getItem("cxSegments"),
                    valueCx = cx.split(","),
                    valueCxLimited = [],
                    charLength = 0,
                    limit = 2000;
                // Limitation de la longueur de la chaine de caractère
                for (var i = 0; i < valueCx.length; i++) {
                    charLength = charLength + valueCx[i].length;
                    if (charLength <= limit) {
                        valueCxLimited.push(valueCx[i]);
                    }
   

### Création d'un fichier avec le contenu de l'article


In [9]:
with open("../data/lesoir_example.txt", "w") as writer:
    writer.write(f"{title}\n\n{chapo}\n\n{clean_content}")

## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp