# Scraping: Téléchargement automatique de 51 Fichier pdf sur :https://max.de.wilde.web.ulb.be/camille/

Dans ce notebook, nous créons un robot qui va récupérer 51 liens pdf sur (https://max.de.wilde.web.ulb.be/camille/) et les télécharger

## Imports

In [1]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Récupération de tous les Liens pdf



In [2]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

pdf_links = []

root_url = "https://max.de.wilde.web.ulb.be/camille/"
response = requests.get(root_url, verify=False)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all("a", href=True):
    href = link["href"]
    from urllib.parse import urljoin
    url = urljoin(root_url, link['href'])
    pdf_links.append(url)



In [3]:
# Affichage du nombre de liens PDF récupérés
len(pdf_links)

51

In [4]:
# Affichage des 10 premières entrées
pdf_links[:10]

['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1892-08-07_01-0003.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB427_1920-01-10_01-00004.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB555_1836-02-08_01-00002.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB638_1860-05-21_01-00002.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB773_1918-11-30_01-00002.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB838_1887-12-28_01-00003.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB230_1903-10-16_01-0002.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB427_1933-01-04_01-00003.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB555_1899-01-19_01-00003.pdf',
 'https://max.de.wilde.web.ulb.be/camille/KB_JB638_1902-12-20_01-00002.pdf']

## Création d'un dataframe avec les liens recupérés


In [5]:
df = pd.DataFrame(pdf_links, columns=['pdf_link'])
df

Unnamed: 0,pdf_link
0,https://max.de.wilde.web.ulb.be/camille/KB_JB2...
1,https://max.de.wilde.web.ulb.be/camille/KB_JB4...
2,https://max.de.wilde.web.ulb.be/camille/KB_JB5...
3,https://max.de.wilde.web.ulb.be/camille/KB_JB6...
4,https://max.de.wilde.web.ulb.be/camille/KB_JB7...
5,https://max.de.wilde.web.ulb.be/camille/KB_JB8...
6,https://max.de.wilde.web.ulb.be/camille/KB_JB2...
7,https://max.de.wilde.web.ulb.be/camille/KB_JB4...
8,https://max.de.wilde.web.ulb.be/camille/KB_JB5...
9,https://max.de.wilde.web.ulb.be/camille/KB_JB6...


In [6]:

# Sauvegarde du DataFrame contenant les liens PDF
output_csv = f"camille_links_{time.strftime('%Y%m%d')}.csv"
df.to_csv(output_csv, index=False)
print(f"✅ Fichier CSV sauvegardé sous : {output_csv}")


✅ Fichier CSV sauvegardé sous : camille_links_20251019.csv


## Téléchargement du premier pdf

In [10]:
# Téléchargement du premier fichier PDF pour test
pdf_url = df.iloc[0][0]  # premier lien PDF
pdf_name = pdf_url.split("/")[-1]  # nom du fichier à partir de l'URL

print(f"Téléchargement du fichier : {pdf_name}")

response = requests.get(pdf_url, verify=False)

# Vérifier que le téléchargement s'est bien passé
if response.status_code == 200:
    with open(pdf_name, "wb") as f:
        f.write(response.content)
    print(f"✅ Fichier {pdf_name} téléchargé avec succès.")
else:
    print(f"❌ Échec du téléchargement ({response.status_code}) pour {pdf_url}")


  pdf_url = df.iloc[0][0]  # premier lien PDF


Téléchargement du fichier : KB_JB230_1892-08-07_01-0003.pdf
✅ Fichier KB_JB230_1892-08-07_01-0003.pdf téléchargé avec succès.


## Téléchargement des 51 fichiers pdf

In [11]:
os.makedirs("pdf_camille", exist_ok=True)
for i, pdf_url in enumerate(df.iloc[:, 0]):  # prend la 1ʳᵉ colonne du DataFrame
    pdf_name = pdf_url.split("/")[-1]  # nom du fichier
    pdf_path = os.path.join("pdf_camille", pdf_name)

    print(f"[{i+1:02d}/51] Téléchargement du fichier : {pdf_name}")

    try:
        # Envoi de la requête HTTP
        response = requests.get(pdf_url, verify=False, timeout=20)

        if response.status_code == 200:
            with open(pdf_path, "wb") as f:
                f.write(response.content)
            print(f"✅ Fichier enregistré : {pdf_name}\n")
        else:
            print(f"Échec ({response.status_code}) pour {pdf_url}\n")

    except Exception as e:
        print(f" Erreur pour {pdf_url} : {e}\n")

    # Petite pause entre les téléchargements pour éviter la surcharge du serveur
    time.sleep(1)

print("Téléchargement terminé pour tous les fichiers disponibles !")

[01/51] Téléchargement du fichier : KB_JB230_1892-08-07_01-0003.pdf




✅ Fichier enregistré : KB_JB230_1892-08-07_01-0003.pdf

[02/51] Téléchargement du fichier : KB_JB427_1920-01-10_01-00004.pdf
✅ Fichier enregistré : KB_JB427_1920-01-10_01-00004.pdf





[03/51] Téléchargement du fichier : KB_JB555_1836-02-08_01-00002.pdf
✅ Fichier enregistré : KB_JB555_1836-02-08_01-00002.pdf





[04/51] Téléchargement du fichier : KB_JB638_1860-05-21_01-00002.pdf
✅ Fichier enregistré : KB_JB638_1860-05-21_01-00002.pdf





[05/51] Téléchargement du fichier : KB_JB773_1918-11-30_01-00002.pdf




✅ Fichier enregistré : KB_JB773_1918-11-30_01-00002.pdf

[06/51] Téléchargement du fichier : KB_JB838_1887-12-28_01-00003.pdf
✅ Fichier enregistré : KB_JB838_1887-12-28_01-00003.pdf





[07/51] Téléchargement du fichier : KB_JB230_1903-10-16_01-0002.pdf




✅ Fichier enregistré : KB_JB230_1903-10-16_01-0002.pdf

[08/51] Téléchargement du fichier : KB_JB427_1933-01-04_01-00003.pdf
✅ Fichier enregistré : KB_JB427_1933-01-04_01-00003.pdf





[09/51] Téléchargement du fichier : KB_JB555_1899-01-19_01-00003.pdf
✅ Fichier enregistré : KB_JB555_1899-01-19_01-00003.pdf





[10/51] Téléchargement du fichier : KB_JB638_1902-12-20_01-00002.pdf
✅ Fichier enregistré : KB_JB638_1902-12-20_01-00002.pdf





[11/51] Téléchargement du fichier : KB_JB773_1933-10-07_01-00007.pdf
✅ Fichier enregistré : KB_JB773_1933-10-07_01-00007.pdf





[12/51] Téléchargement du fichier : KB_JB838_1911-08-03_01-00006.pdf




✅ Fichier enregistré : KB_JB838_1911-08-03_01-00006.pdf

[13/51] Téléchargement du fichier : KB_JB230_1913-07-05_01-0001.pdf




✅ Fichier enregistré : KB_JB230_1913-07-05_01-0001.pdf

[14/51] Téléchargement du fichier : KB_JB427_1949-07-18_01-00008.pdf
✅ Fichier enregistré : KB_JB427_1949-07-18_01-00008.pdf





[15/51] Téléchargement du fichier : KB_JB555_1940-03-01_01-00004.pdf
✅ Fichier enregistré : KB_JB555_1940-03-01_01-00004.pdf





[16/51] Téléchargement du fichier : KB_JB638_1946-07-18_01-00003.pdf
✅ Fichier enregistré : KB_JB638_1946-07-18_01-00003.pdf





[17/51] Téléchargement du fichier : KB_JB773_1950-07-22_01-00010.pdf
✅ Fichier enregistré : KB_JB773_1950-07-22_01-00010.pdf





[18/51] Téléchargement du fichier : KB_JB838_1943-09-04_01-00002.pdf




✅ Fichier enregistré : KB_JB838_1943-09-04_01-00002.pdf

[19/51] Téléchargement du fichier : KB_JB258_1884-09-03_01-0003.pdf
✅ Fichier enregistré : KB_JB258_1884-09-03_01-0003.pdf





[20/51] Téléchargement du fichier : KB_JB449_1846-05-30_01-00002.pdf
✅ Fichier enregistré : KB_JB449_1846-05-30_01-00002.pdf





[21/51] Téléchargement du fichier : KB_JB567_1857-02-02_01-00003.pdf
✅ Fichier enregistré : KB_JB567_1857-02-02_01-00003.pdf





[22/51] Téléchargement du fichier : KB_JB685_1894-05-14_01-0003.pdf




✅ Fichier enregistré : KB_JB685_1894-05-14_01-0003.pdf

[23/51] Téléchargement du fichier : KB_JB835_1911-04-24_01-00004.pdf
✅ Fichier enregistré : KB_JB835_1911-04-24_01-00004.pdf





[24/51] Téléchargement du fichier : KB_JB92_1860-02-09_01-00003.pdf




✅ Fichier enregistré : KB_JB92_1860-02-09_01-00003.pdf

[25/51] Téléchargement du fichier : KB_JB258_1894-12-09_01-0003.pdf




✅ Fichier enregistré : KB_JB258_1894-12-09_01-0003.pdf

[26/51] Téléchargement du fichier : KB_JB449_1912-01-04_01-00003.pdf
✅ Fichier enregistré : KB_JB449_1912-01-04_01-00003.pdf





[27/51] Téléchargement du fichier : KB_JB567_1892-01-03_01-00005.pdf




✅ Fichier enregistré : KB_JB567_1892-01-03_01-00005.pdf

[28/51] Téléchargement du fichier : KB_JB685_1903-01-18_01-0002.pdf




✅ Fichier enregistré : KB_JB685_1903-01-18_01-0002.pdf

[29/51] Téléchargement du fichier : KB_JB835_1930-04-08_01-00006.pdf
✅ Fichier enregistré : KB_JB835_1930-04-08_01-00006.pdf





[30/51] Téléchargement du fichier : KB_JB92_1873-02-06_01-00002.pdf




✅ Fichier enregistré : KB_JB92_1873-02-06_01-00002.pdf

[31/51] Téléchargement du fichier : KB_JB258_1906-01-09_01-0002.pdf




✅ Fichier enregistré : KB_JB258_1906-01-09_01-0002.pdf

[32/51] Téléchargement du fichier : KB_JB449_1947-08-29_01-00003.pdf
✅ Fichier enregistré : KB_JB449_1947-08-29_01-00003.pdf





[33/51] Téléchargement du fichier : KB_JB567_1924-08-30_01-00003.pdf
✅ Fichier enregistré : KB_JB567_1924-08-30_01-00003.pdf





[34/51] Téléchargement du fichier : KB_JB685_1913-06-07_01-0006.pdf




✅ Fichier enregistré : KB_JB685_1913-06-07_01-0006.pdf

[35/51] Téléchargement du fichier : KB_JB835_1949-09-18_01-00004.pdf
✅ Fichier enregistré : KB_JB835_1949-09-18_01-00004.pdf





[36/51] Téléchargement du fichier : KB_JB92_1885-09-29_01-00002.pdf
✅ Fichier enregistré : KB_JB92_1885-09-29_01-00002.pdf





[37/51] Téléchargement du fichier : KB_JB421_1899-05-15_01-00003.pdf
✅ Fichier enregistré : KB_JB421_1899-05-15_01-00003.pdf





[38/51] Téléchargement du fichier : KB_JB494_1853-10-30_01-0002.pdf




✅ Fichier enregistré : KB_JB494_1853-10-30_01-0002.pdf

[39/51] Téléchargement du fichier : KB_JB572_1850-03-15_01-00003.pdf
✅ Fichier enregistré : KB_JB572_1850-03-15_01-00003.pdf





[40/51] Téléchargement du fichier : KB_JB729_1895-10-08_01-00003.pdf
✅ Fichier enregistré : KB_JB729_1895-10-08_01-00003.pdf





[41/51] Téléchargement du fichier : KB_JB837_1886-12-28_01-00002.pdf
✅ Fichier enregistré : KB_JB837_1886-12-28_01-00002.pdf





[42/51] Téléchargement du fichier : KB_JB421_1926-10-29_01-00002.pdf




✅ Fichier enregistré : KB_JB421_1926-10-29_01-00002.pdf

[43/51] Téléchargement du fichier : KB_JB494_1922-09-28_01-0005.pdf




✅ Fichier enregistré : KB_JB494_1922-09-28_01-0005.pdf

[44/51] Téléchargement du fichier : KB_JB572_1927-07-20_01-00005.pdf
✅ Fichier enregistré : KB_JB572_1927-07-20_01-00005.pdf





[45/51] Téléchargement du fichier : KB_JB729_1927-11-15_01-00004.pdf
✅ Fichier enregistré : KB_JB729_1927-11-15_01-00004.pdf





[46/51] Téléchargement du fichier : KB_JB837_1925-01-01_01-00003.pdf
✅ Fichier enregistré : KB_JB837_1925-01-01_01-00003.pdf





[47/51] Téléchargement du fichier : KB_JB421_1950-04-15_01-00004.pdf
✅ Fichier enregistré : KB_JB421_1950-04-15_01-00004.pdf





[48/51] Téléchargement du fichier : KB_JB494_1939-12-08_01-0004.pdf




✅ Fichier enregistré : KB_JB494_1939-12-08_01-0004.pdf

[49/51] Téléchargement du fichier : KB_JB572_1950-06-07_01-00004.pdf
✅ Fichier enregistré : KB_JB572_1950-06-07_01-00004.pdf





[50/51] Téléchargement du fichier : KB_JB729_1939-10-31_01-00006.pdf
✅ Fichier enregistré : KB_JB729_1939-10-31_01-00006.pdf





[51/51] Téléchargement du fichier : KB_JB837_1950-12-01_01-00007.pdf
✅ Fichier enregistré : KB_JB837_1950-12-01_01-00007.pdf





🎯 Téléchargement terminé pour tous les fichiers disponibles !


### Nettoyage du texte à l'aide d'expressions régulières

In [15]:
# Suppression de tout ce qui se trouve entre parenthèses
#clean_content = re.sub("\([^\)]+\)", " ", content)
# Suppression des espaces multiples
#clean_content = re.sub("\s+", " ", clean_content)

#print(content)
#print("==================================")
#print(clean_content)


### Création d'un fichier avec le contenu de l'article


In [17]:
#with open("../data/rtbf_example.txt", "w") as writer:
    #writer.write(f"{title}\n\n{clean_content}")

## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp