# Scraping et API: 

Dans ce notebook, nous allons nous familiariser avec le web scraping et les API. 
Web Scraping : nous créons un robot qui va ouvrir la page https://max.de.wilde.web.ulb.be/camille/ et récupérer automatiquement les 51 fichiers PDF qui s'y trouvent.
API : nous identifions une API utile pour enrichir le contenu des articles de Camille, nous créons un script pour l'interroger.

## Imports

In [1]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Récupération des tous les liens des fichiers pdf



In [13]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

articles = []

root_url = f"https://max.de.wilde.web.ulb.be/camille/"
response = requests.get(root_url, headers=headers, verify=False)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all("a", href=True):
    title = link.text.strip()
    url = root_url + link.get('href')
    articles.append([url, title])



In [14]:
# Affichage du nombre d'articles récupérés
len(articles)

51

In [15]:
# Affichage des 10 premières entrées
articles[:10]

[['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1892-08-07_01-0003.pdf',
  'KB_JB230_1892-08-07_01-0003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB427_1920-01-10_01-00004.pdf',
  'KB_JB427_1920-01-10_01-00004.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB555_1836-02-08_01-00002.pdf',
  'KB_JB555_1836-02-08_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB638_1860-05-21_01-00002.pdf',
  'KB_JB638_1860-05-21_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB773_1918-11-30_01-00002.pdf',
  'KB_JB773_1918-11-30_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB838_1887-12-28_01-00003.pdf',
  'KB_JB838_1887-12-28_01-00003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1903-10-16_01-0002.pdf',
  'KB_JB230_1903-10-16_01-0002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB427_1933-01-04_01-00003.pdf',
  'KB_JB427_1933-01-04_01-00003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB555_1899-01-19_01-00

## Création d'un dataframe avec les liens et les titres des articles


In [11]:
df = pd.DataFrame(articles, columns=['link', 'title'])
df

Unnamed: 0,link,title


## Téléchargement des 51 fichiers

In [None]:
# Récupération du premier lien du dataframe
article_url = df.iloc[0][0]

# Ouverture de la page
response = requests.get(article_url, headers=headers, verify=False)
soup = BeautifulSoup(response.content, 'html.parser')
# Parsing du contenu
title = soup.find("h1").get_text(separator=' ')

paragraphs = []
for paragraph in soup.find_all("p", attrs={"class": None}):
    paragraphs.append(paragraph.get_text(separator=' ').strip())

content = "\n".join(paragraphs)
print(title)
print("==================================")
print(content)

Europe
" Suspension immédiate et complète de la réforme des retraites ", " renoncement au 49.3 " pour permettre le vote de mesures de justice fiscale et de pouvoir d'achat, " assouplissement de la trajectoire financière ": le PS a réitéré ses demandes en bureau national, juste avant la déclaration de politique générale du Premier ministre devant l'Assemblée nationale, prévue à15h00.
Alors que les socialistes doivent donc décider dans la foulée de la déclaration de politique générale de Sébastien Lecornu s'ils censurent ou non le gouvernement, le chef de l'État les prévient donc qu'il exclut de nommer un nouveau Premier ministre si M. Lecornu est renversé et qu'il prononcera alors la dissolution de l'Assemblée.
Les désaccords sont estimables, mais ils ne sont acceptables que si des compromis sont possibles
Le président " a constaté que deux motions de censure (de LFI et RN) ont été déposées et que donc certains ne veulent pas débattre. Il a rappelé que les motions de censure qui ont été

## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp