# Scraping et API: 

Dans ce notebook, nous allons nous familiariser avec le web scraping et les API. 
Web Scraping : nous créons un robot qui va ouvrir la page https://max.de.wilde.web.ulb.be/camille/ et récupérer automatiquement les 51 fichiers PDF qui s'y trouvent.
API : nous identifions une API utile pour enrichir le contenu des articles de Camille, nous créons un script pour l'interroger.

## Imports

In [1]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Récupération des tous les liens des fichiers pdf



In [13]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

articles = []

root_url = f"https://max.de.wilde.web.ulb.be/camille/"
response = requests.get(root_url, headers=headers, verify=False)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all("a", href=True):
    title = link.text.strip()
    url = root_url + link.get('href')
    articles.append([url, title])



In [14]:
# Affichage du nombre d'articles récupérés
len(articles)

51

In [15]:
# Affichage des 10 premières entrées
articles[:10]

[['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1892-08-07_01-0003.pdf',
  'KB_JB230_1892-08-07_01-0003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB427_1920-01-10_01-00004.pdf',
  'KB_JB427_1920-01-10_01-00004.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB555_1836-02-08_01-00002.pdf',
  'KB_JB555_1836-02-08_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB638_1860-05-21_01-00002.pdf',
  'KB_JB638_1860-05-21_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB773_1918-11-30_01-00002.pdf',
  'KB_JB773_1918-11-30_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB838_1887-12-28_01-00003.pdf',
  'KB_JB838_1887-12-28_01-00003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1903-10-16_01-0002.pdf',
  'KB_JB230_1903-10-16_01-0002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB427_1933-01-04_01-00003.pdf',
  'KB_JB427_1933-01-04_01-00003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB555_1899-01-19_01-00

## Création d'un dataframe avec les liens et les titres des fichiers


In [16]:
df = pd.DataFrame(articles, columns=['link', 'title'])
df

Unnamed: 0,link,title
0,https://max.de.wilde.web.ulb.be/camille/KB_JB2...,KB_JB230_1892-08-07_01-0003.pdf
1,https://max.de.wilde.web.ulb.be/camille/KB_JB4...,KB_JB427_1920-01-10_01-00004.pdf
2,https://max.de.wilde.web.ulb.be/camille/KB_JB5...,KB_JB555_1836-02-08_01-00002.pdf
3,https://max.de.wilde.web.ulb.be/camille/KB_JB6...,KB_JB638_1860-05-21_01-00002.pdf
4,https://max.de.wilde.web.ulb.be/camille/KB_JB7...,KB_JB773_1918-11-30_01-00002.pdf
5,https://max.de.wilde.web.ulb.be/camille/KB_JB8...,KB_JB838_1887-12-28_01-00003.pdf
6,https://max.de.wilde.web.ulb.be/camille/KB_JB2...,KB_JB230_1903-10-16_01-0002.pdf
7,https://max.de.wilde.web.ulb.be/camille/KB_JB4...,KB_JB427_1933-01-04_01-00003.pdf
8,https://max.de.wilde.web.ulb.be/camille/KB_JB5...,KB_JB555_1899-01-19_01-00003.pdf
9,https://max.de.wilde.web.ulb.be/camille/KB_JB6...,KB_JB638_1902-12-20_01-00002.pdf


## Téléchargement des 51 fichiers

In [21]:
# Récupération du premier lien du dataframe
fichier_url = df.iloc[0][0]

# Ouverture de la page
response = requests.get(fichier_url, headers=headers, verify=False)
soup = BeautifulSoup(response.content, 'html.parser')

# Crée le dossier TAC/data s’il n’existe pas
os.makedirs("PDF")

# Boucle de téléchargement
for i, row in df.iterrows():
    fichier_url = row["link"]
    titre = row["title"] + ".pdf"

    response = requests.get(fichier_url, headers=headers, verify=False)

    # 3️⃣ Enregistre les fichiers dans TAC/data
    with open("PDF" + titre, "wb") as f:
        f.write(response.content)

    print(f"✅ {titre} téléchargé")

Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.


✅ KB_JB230_1892-08-07_01-0003.pdf.pdf téléchargé
✅ KB_JB427_1920-01-10_01-00004.pdf.pdf téléchargé




✅ KB_JB555_1836-02-08_01-00002.pdf.pdf téléchargé
✅ KB_JB638_1860-05-21_01-00002.pdf.pdf téléchargé




✅ KB_JB773_1918-11-30_01-00002.pdf.pdf téléchargé




✅ KB_JB838_1887-12-28_01-00003.pdf.pdf téléchargé
✅ KB_JB230_1903-10-16_01-0002.pdf.pdf téléchargé
✅ KB_JB427_1933-01-04_01-00003.pdf.pdf téléchargé




✅ KB_JB555_1899-01-19_01-00003.pdf.pdf téléchargé




✅ KB_JB638_1902-12-20_01-00002.pdf.pdf téléchargé
✅ KB_JB773_1933-10-07_01-00007.pdf.pdf téléchargé




✅ KB_JB838_1911-08-03_01-00006.pdf.pdf téléchargé




✅ KB_JB230_1913-07-05_01-0001.pdf.pdf téléchargé
✅ KB_JB427_1949-07-18_01-00008.pdf.pdf téléchargé




✅ KB_JB555_1940-03-01_01-00004.pdf.pdf téléchargé




✅ KB_JB638_1946-07-18_01-00003.pdf.pdf téléchargé
✅ KB_JB773_1950-07-22_01-00010.pdf.pdf téléchargé




✅ KB_JB838_1943-09-04_01-00002.pdf.pdf téléchargé




✅ KB_JB258_1884-09-03_01-0003.pdf.pdf téléchargé
✅ KB_JB449_1846-05-30_01-00002.pdf.pdf téléchargé
✅ KB_JB567_1857-02-02_01-00003.pdf.pdf téléchargé




✅ KB_JB685_1894-05-14_01-0003.pdf.pdf téléchargé
✅ KB_JB835_1911-04-24_01-00004.pdf.pdf téléchargé




✅ KB_JB92_1860-02-09_01-00003.pdf.pdf téléchargé
✅ KB_JB258_1894-12-09_01-0003.pdf.pdf téléchargé




✅ KB_JB449_1912-01-04_01-00003.pdf.pdf téléchargé
✅ KB_JB567_1892-01-03_01-00005.pdf.pdf téléchargé




✅ KB_JB685_1903-01-18_01-0002.pdf.pdf téléchargé
✅ KB_JB835_1930-04-08_01-00006.pdf.pdf téléchargé




✅ KB_JB92_1873-02-06_01-00002.pdf.pdf téléchargé




✅ KB_JB258_1906-01-09_01-0002.pdf.pdf téléchargé
✅ KB_JB449_1947-08-29_01-00003.pdf.pdf téléchargé




✅ KB_JB567_1924-08-30_01-00003.pdf.pdf téléchargé




✅ KB_JB685_1913-06-07_01-0006.pdf.pdf téléchargé
✅ KB_JB835_1949-09-18_01-00004.pdf.pdf téléchargé




✅ KB_JB92_1885-09-29_01-00002.pdf.pdf téléchargé
✅ KB_JB421_1899-05-15_01-00003.pdf.pdf téléchargé




✅ KB_JB494_1853-10-30_01-0002.pdf.pdf téléchargé
✅ KB_JB572_1850-03-15_01-00003.pdf.pdf téléchargé




✅ KB_JB729_1895-10-08_01-00003.pdf.pdf téléchargé
✅ KB_JB837_1886-12-28_01-00002.pdf.pdf téléchargé




✅ KB_JB421_1926-10-29_01-00002.pdf.pdf téléchargé
✅ KB_JB494_1922-09-28_01-0005.pdf.pdf téléchargé




✅ KB_JB572_1927-07-20_01-00005.pdf.pdf téléchargé
✅ KB_JB729_1927-11-15_01-00004.pdf.pdf téléchargé




✅ KB_JB837_1925-01-01_01-00003.pdf.pdf téléchargé
✅ KB_JB421_1950-04-15_01-00004.pdf.pdf téléchargé




✅ KB_JB494_1939-12-08_01-0004.pdf.pdf téléchargé




✅ KB_JB572_1950-06-07_01-00004.pdf.pdf téléchargé




✅ KB_JB729_1939-10-31_01-00006.pdf.pdf téléchargé
✅ KB_JB837_1950-12-01_01-00007.pdf.pdf téléchargé




## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp