# Scraper plusieurs pages

In [11]:
import requests
import time
import os

# URL de base
base_url = "https://gallica.bnf.fr/iiif/ark:/12148/bpt6k15082862/f{page}/full/full/0/native.jpg"

# Répertoire de sauvegarde
output_folder = "./images/"

# Crée le répertoire si nécessaire
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Plage de pages
start_page = 324
end_page = 400

# Délais et retries
delay = 5
modif_delay = 3
max_retries = 3

# Headers
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}

# Télécharger les images
for page in range(start_page, end_page + 1):
    url = base_url.format(page=page)
    filename = f"{output_folder}image_f{page}.jpg"
    attempts = 0

    while attempts < max_retries:
        try:
            print(f"Tentative de téléchargement de la page {page}")
            response = requests.get(url, headers=headers)
            if response.status_code == 200:
                with open(filename, 'wb') as file:
                    file.write(response.content)
                print(f"Téléchargé : {filename}")
                break
            elif response.status_code == 429:  # Trop de requêtes
                attempts += 1
                print(f"Trop de requêtes, tentative {attempts} sur {max_retries}, réessaie dans {delay * modif_delay} secondes.")
                time.sleep(delay * modif_delay)
            else:
                print(f"Erreur {response.status_code} pour l'URL : {url}")
        except requests.exceptions.RequestException as e:
            print(f"Erreur réseau : {e}")
            
    time.sleep(delay)


Tentative de téléchargement de la page 324
Téléchargé : ./images/image_f324.jpg
Tentative de téléchargement de la page 325
Téléchargé : ./images/image_f325.jpg
Tentative de téléchargement de la page 326
Téléchargé : ./images/image_f326.jpg
Tentative de téléchargement de la page 327
Téléchargé : ./images/image_f327.jpg
Tentative de téléchargement de la page 328
Téléchargé : ./images/image_f328.jpg
Tentative de téléchargement de la page 329
Trop de requêtes, tentative 1 sur 3, réessaie dans 15 secondes.
Tentative de téléchargement de la page 329
Erreur réseau : ("Connection broken: InvalidChunkLength(got length b'', 0 bytes read)", InvalidChunkLength(got length b'', 0 bytes read))
Tentative de téléchargement de la page 329
Téléchargé : ./images/image_f329.jpg
Tentative de téléchargement de la page 330
Téléchargé : ./images/image_f330.jpg
Tentative de téléchargement de la page 331
Téléchargé : ./images/image_f331.jpg
Tentative de téléchargement de la page 332
Téléchargé : ./images/image_f

KeyboardInterrupt: 

# Scraper 1 page

In [13]:
import requests

# URL de base
base_url = "https://gallica.bnf.fr/iiif/ark:/12148/bpt6k15082862/f{page}/full/full/0/native.jpg"

# Répertoire de sauvegarde (changez le chemin selon vos besoins)
output_folder = "./images/"

# Plage de pages
lapage = 53
delay = 15

# Le header
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}


# Télécharger les images

def scraper(page):
    url = base_url.format(page=page)
    filename = f"{output_folder}image_f{page}.jpg"

    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            with open(filename, 'wb') as file:
                file.write(response.content)
            print(f"Téléchargé : {filename}")
        else:
            print(f"Erreur {response.status_code} pour l'URL : {url}")
            time.sleep(delay)
            response = requests.get(url, headers=headers)
    except Exception as e:
        print(f"Erreur lors du téléchargement de {url} : {e}")
    
    return

scraper(lapage)


Téléchargé : ./images/image_f53.jpg


# Vérification de la présence des images

In [34]:
import os

page = 1
page_max = 345

output_folder = "./images/"

page_perdue =[]

for page in range(1, page_max + 1):
    filename = f"{output_folder}image_f{page}.jpg"
    if not os.path.exists(filename):
        print(f"L'image {page} n'existe pas.")
        page_perdue.append(f"{page}")

print(f"Les pages {page_perdue} n'ont pas été téléchargées.")     
        
    

L'image 338 n'existe pas.
L'image 339 n'existe pas.
L'image 340 n'existe pas.
L'image 341 n'existe pas.
L'image 342 n'existe pas.
L'image 343 n'existe pas.
L'image 344 n'existe pas.
L'image 345 n'existe pas.
Les pages ['338', '339', '340', '341', '342', '343', '344', '345'] n'ont pas été téléchargées.
