# Scraping: récupération des PDFs des bulletins AVB

## Imports

In [1]:
import os
import re # permet l'utilisation d'expression régulières (regex) 
import time
import requests

Pour la librairie re : https://docs.python.org/fr/3/library/re.html#module-re

Pour une note sur requests : https://fr.python-requests.org/en/latest/

Pour toutes les librairies standards : https://docs.python.org/fr/3/library/index.html

## Créer un répertoire pour stocker tous les fichiers PDF

In [2]:
pdf_path = '../data/bxl'
# Créer le dossier s'il n'existe pas
if not os.path.exists(pdf_path):
    os.mkdir(pdf_path)

## Récupérer les URLs des pdf de tous les bulletins communaux

https://archives.bruxelles.be/bulletins/date

In [3]:
root_url = "https://www.bruxelles.be/sites/default/files/"
resp = requests.get(root_url) # adressage 

print(f"Status: {resp.status_code}")
print(f"Encoding: {resp.encoding}")
print(f"Content-type: {resp.headers['content-type']}\n")

print(f"Text: {resp.text[:100]}") # imprimer le texte converti

html = resp.text 
print(f"Text length: {len(html)}") # nombre de caractères repris dans le texte

pattern = r".pdf"
urls = re.findall(pattern, html)
print(f"\n{len(urls)} PDF files found")

Status: 403
Encoding: utf-8
Content-type: text/html; charset=utf-8

Text: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-str
Text length: 5209

0 PDF files found


In [7]:
# Impression des 10 premières URLs
print(urls[:10])

['https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1847_Tome_I1_Part_1.pdf', 'https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1847_Tome_I1_Part_2.pdf', 'https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1847_Tome_I1_Part_3.pdf', 'https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1847_Tome_I1_Part_4.pdf', 'https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1847_Tome_I1_Part_5.pdf', 'https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1848_Tome_I1_Part_1.pdf', 'https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1848_Tome_I1_Part_2.pdf', 'https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1848_Tome_I1_Part_3.pdf', 'https://archief.brussel.be/Colossus/BulletinsCommunaux/Bulletins/Documents/Bxl_1849_Tome_I1_Part_1.pdf', 'https://archief.brussel.be/Colossus/Bulletin

## Télécharger tous les PDFs

In [8]:
start_offset = 0
end_offset = len(urls)

for url in urls[start_offset:]: # pas besoin de mettre la fin de l'offset
    filename = url.split("/")[-1] # définir que le nom du fichier équivaut à la dernière occurence de l'url splittée par les slachs
    if not os.path.exists(os.path.join(pdf_path, filename)):
        print(f"Downloading {filename}...") # pendant le téléchargement
        start_time = time.time() # pour le calcul du temps de téléchagrement 
        response = requests.get(url) # prendre l'url du fichier
        print(f"   done in {(time.time() - start_time):.1f} seconds") # imprimer le temps de téléchargement en soustrayant au temps actuel, le temps de début stocké plus haut
        output_file = open(os.path.join(pdf_path, filename), "wb") # ouvrir le fichier
        output_file.write(response.content) # écrire le contenu du fichier sur le disque
    else:
        print(f"{filename} already downloaded") # si le fichier existe déjà (condition vérifiée plus haut)
print("Done") # à la fin du parcours

Bxl_1847_Tome_I1_Part_1.pdf already downloaded
Bxl_1847_Tome_I1_Part_2.pdf already downloaded
Bxl_1847_Tome_I1_Part_3.pdf already downloaded
Bxl_1847_Tome_I1_Part_4.pdf already downloaded
Bxl_1847_Tome_I1_Part_5.pdf already downloaded
Bxl_1848_Tome_I1_Part_1.pdf already downloaded
Bxl_1848_Tome_I1_Part_2.pdf already downloaded
Bxl_1848_Tome_I1_Part_3.pdf already downloaded
Bxl_1849_Tome_I1_Part_1.pdf already downloaded
Bxl_1849_Tome_I1_Part_2.pdf already downloaded
Bxl_1849_Tome_I1_Part_3.pdf already downloaded
Bxl_1849_Tome_I1_Part_4.pdf already downloaded
Bxl_1849_Tome_I1_Part_5.pdf already downloaded
Bxl_1849_Tome_II1_Part_1.pdf already downloaded
Bxl_1849_Tome_II1_Part_2.pdf already downloaded
Bxl_1849_Tome_II1_Part_3.pdf already downloaded
Bxl_1849_Tome_II1_Part_4.pdf already downloaded
Bxl_1849_Tome_II1_Part_5.pdf already downloaded
Bxl_1849_Tome_II1_Part_6.pdf already downloaded
Bxl_1849_Tome_II1_Part_7.pdf already downloaded
Bxl_1850_Tome_I1_Part_1.pdf already downloaded
Bxl_18

## Vérifier que tous les PDFs ont été téléchargés


Si ce n'est pas le cas, vous pouvez relancer l'étape de téléchargement (elle ignorera les documents déjà téléchargés)

In [9]:
ok_count = 0 # initialisation 

for url in urls:
    filename = url.split("/")[-1] # reprendre les noms des fichiers contenus dans les urls
    downloads = os.listdir(pdf_path) # se diriger vers l'endroit de téléchargement 
    if filename not in downloads: 
        print(f"{filename} is missing!")
    else:
        ok_count += 1 # si ok, incrémenter la liste pour comparer le nombre de fichiers attendu
        
print(f"{ok_count} PDFs found out of {len(urls)}!")

2833 PDFs found out of 2833!


## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp