# Scraping: récupération des articles sur la COP27 sur le site web de la RTBF

Dans ce notebook, nous créons un robot qui va ouvrir la page d'accueil du site du journal [Le Soir](https://www.lesoir.be/) et récupérer le titre de tous les articles du jour et les stocker dans un fichier csv.

## Imports

In [78]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Récupération de tous les articles de la page d'accueil



In [80]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
root_url = "https://www.lalibre.be"
r = requests.get(root_url)
soup = BeautifulSoup(r.content, "html.parser")
articles = []
for link in soup.find_all("a", {"class":"r-article--link"}): 
    print(link)
    #if("dragons" in link):
    title = link.text.strip()
    print(title)
    url = root_url + link.get('href')
    articles.append([url, title])

In [81]:
# Affichage du nombre d'articles récupérés
len(articles)

0

In [77]:
# Affichage des 10 premières entrées
articles[:10]

[]

## Création d'un dataframe avec les liens et les titres des articles


In [62]:
df = pd.DataFrame(articles, columns=['link', 'title'])
df

Unnamed: 0,link,title
0,https://www.lesoir.be/504106/article/2023-03-2...,Guerre en Ukraine: Poutine reconnaît l’impact ...
1,https://www.lesoir.be/504147/article/2023-03-2...,Le Chambre ira récupérer les suppléments de pe...
2,https://www.lesoir.be/504100/article/2023-03-2...,Décodage\nComment l’Europe se prépare aux atte...
3,https://www.lesoir.be/504080/article/2023-03-2...,Procès des attentats de Bruxelles: Mohamed Abr...
4,https://www.lesoir.be/504004/article/2023-03-2...,Comment les prix de l’immobilier neuf ont évol...
...,...,...
84,https://www.lesoir.be/503006/article/2023-03-2...,"Les groupes, espèce en voie d’extinction"
85,https://www.lesoir.be/502489/article/2023-03-2...,Les produits bio à la recherche d’un second so...
86,https://www.lesoir.be/502893/article/2023-03-2...,"Le poke bowl, la nouvelle coqueluche du fast-good"
87,https://www.lesoir.be/502647/article/2023-03-2...,Cancer: une découverte belge majeure explique ...


In [63]:
# Sauvegarde du dataframe dans un fichier csv
df.to_csv(f"../data/lesoir_{time.strftime('%Y%m%d')}.csv", index=False)

## Téléchargement d'un article et affichage du texte

In [72]:
# Récupération du premier lien du dataframe
for i in range (10) :
    article_url = df.iloc[i][0]
    #print(article_url)
# Ouverture de la page
    response = requests.get(article_url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')

# Parsing du contenu
    title = soup.find("h1").get_text(separator=' ')
    chapo = soup.find("r-article--chapo").get_text(separator=' ')
    content = soup.find("r-article--section").get_text(separator=' ')

    print(title)
    print("==================================")
    print(chapo)
    print("==================================")
    print(content)

Guerre en Ukraine: Poutine reconnaît l’impact des sanctions internationales sur l’économie russe
Jusqu’à présent, le président russe Vladimir Poutine avait toujours vanté l’adaptation de la Russie face à cette nouvelle conjoncture.
  V ladimir Poutine a dit mercredi que les sanctions internationales visant Moscou pour son offensive en Ukraine « peuvent » avoir des conséquences « négatives » à « moyen terme » sur l’économie nationale, après avoir pourtant vanté ces derniers mois l’adaptation de la Russie face à cette nouvelle conjoncture.                function get_dtkCxSegments() { if ('cxSegments' in localStorage) { /* Récupération de cxSegments + initialisation de variables destinées à en limiter la longueur */ let cx = localStorage.getItem("cxSegments"), valueCx = cx.split(","), valueCxLimited = [], charLength = 0, limit = 2000; /* Limitation de la longueur de la chaine de caractère */ for (var i = 0; i < valueCx.length; i++) { charLength = charLength + valueCx[i].length; if (charL

### Nettoyage du texte à l'aide d'expressions régulières

In [None]:
# Suppression de tout ce qui se trouve entre parenthèses
clean_content = re.sub("\([^\)]+\)", " ", content)
# Suppression des espaces multiples
clean_content = re.sub("\s+", " ", clean_content)

print(content)
print("==================================")
print(clean_content)


  T out le monde retient son souffle, mais pour l’instant, les nouvelles restent bonnes sur le front des prix de l’énergie. Côté gaz, le prix du TTF néerlandais, qui donne le la sur le marché européen, est passé sous la barre des 40 euros par mégawattheure lundi passé, puis de nouveau mercredi. C’est le niveau le plus bas depuis août 2021 (et rappelons qu’à son apogée en août 2022, il dépassait 300 euros). Même tendance pour l’électricité, dont les prix sont indiqués par l’EPEX SPOT Belgium. « La baisse s’est faite de manière progressive depuis la fin de l’année. Depuis janvier, c’est vraiment redescendu à des niveaux d’avant l’invasion russe pour le gaz, avec une baisse qui se stabilise. Il reste une volatilité actuellement, mais elle n’est pas aussi importante qu’avant », commente Antoine Dumont, le manager du site  comparateur-energie.be . 

 T out le monde retient son souffle, mais pour l’instant, les nouvelles restent bonnes sur le front des prix de l’énergie. Côté gaz, le prix du

### Création d'un fichier avec le contenu de l'article


In [None]:
with open("../data/lesoir_example.txt", "w") as writer:
    writer.write(f"{title}\n\n{chapo}\n\n{clean_content}")

## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp