# Code pour scraper les datasets sur Th√©r√®se Bonney et l'Exposition universelle de 1937 üì∑ üóÉÔ∏è

**Enjeux techniques** üë®‚Äçüíª
+ Automatiser la distinction entre les sources.
+ Automatiser le nommage des fichiers et leur recensement dans la colonne "FICHIER" du csv.
+ Obtenir des images de bonne qualit√©.
+ Pouvoir suivre les √©tapes du scrapping pour identifier les probl√®mes.


## /!\ Avertissement /!\ üî∫

Ce code utilise la biblioth√®que **Selenium** üåï pour scrapper le site des biblioth√®ques sp√©cialis√©es de la ville de Paris. Cette biblioth√®que a pour but d'√©muler le comportement d'un utilisateur sur une page web dynamique (en javascript). De ce fait elle a besoin d'un **path vers le driver de votre navigateur**. 

Il vous faut imp√©rativement avoir install√© **Chrome** (ou **Chromium** pour Linux) comme navigateur. Puis, il faut que vous t√©l√©chargiez le driver depuis le lien üîó ci-dessous, pour que le script de scrapping puisse fonctionner.

***Chrome driver :***

üîó https://googlechromelabs.github.io/chrome-for-testing/

*T√©l√©chargez le binary de "chromedriver" correspondant √† votre OS, et ex√©cutez l'installation.*


üñ≥ Sous linux t√©l√©chargez **Chromium** via le centre d'application ou en suivant ce lien :

üîó https://code.launchpad.net/~chromium-team/chromium-browser/+git/snap-from-source

## Environnement üåê

### Import des librairies üìñ

In [13]:
import os
import re
import time
import shutil
import zipfile
import tempfile
import requests
import pandas as pd
from random import randint
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions as EC

## Fonctions ü§ñ

### Fonction principale de t√©l√©chargement d'images üíæ

In [14]:
def download_image(input_csv, start_index=0): #On a besoin de start_index pour pouvoir remplacer cette valeur en cas d'interruption du scrapping
    """
    Cette fonction lit un fichier CSV contenant des URLs d'images et leurs notices associ√©es,
    puis t√©l√©charge chaque image selon sa source (Gallica, Biblioth√®ques, etc.) en appelant
    la fonction de t√©l√©chargement appropri√©e.

    Args:
        input_csv (str): Chemin vers le fichier CSV contenant les URLs √† traiter.
        start_index (int) : Index de d√©part utilis√© pour lancer le t√©l√©chargement.
        

    Returns:
        bool: False uniquement en cas d'erreur lors de la lecture du fichier CSV.
              Sinon, la fonction ne retourne rien (None).
    """
    # D√©finition dynamique du chemin vers le folder d'output 

    output_folder = os.path.join(os.path.dirname(input_csv), 'sortie') # Le dossier de sortie se trouvera au m√™me endroit que le csv qui contient les URLs.
    os.makedirs(output_folder, exist_ok=True) #S'il n'existe pas, il est cr√©√©.

    try:
        df = pd.read_csv(input_csv, sep=",", encoding="utf-8") # Ouverture du csv avec pandas comme DataFrame ‚ö†Ô∏è Utilisez le bon s√©parateur ‚ö†Ô∏è
        print("Fichier CSV charg√© avec succ√®s.")
        if "FICHIER" not in df.columns: # Cr√©ation de la colonne fichier qui viendra contenir les filepaths des images t√©l√©charg√©es.
            df["FICHIER"] = ""
        for index, row in df.iterrows(): # On lui dit d'it√©rer sur chaque ligne.
            if index < start_index: # L'index d√©marre par d√©faut √† z√©ro, mais si la variable start_index est sup√©rieure √† 0 on ignore les lignes entre 0 et start_index.
                continue 
            try: # On v√©rifie quelle fonction on va appeler pour le t√©l√©chargement en fonction du site d'origine de l'image.
                url = row['URL']
                output_path = os.path.join(output_folder, f"image_{index:02d}.jpg") # On nomme les fichiers d'images en suivant l'index du csv.
                if url.startswith("https://gallica"): # On d√©tecte l'URL de Gallica.
                    success = download_gallica(url, index, output_folder) # Et on appelle la fonction correspondante.
                    if success:
                        df.at[index, "FICHIER"] = output_path # Si le t√©l√©chargement r√©ussi on ajoute √† la ligne correspondante le filepath de l'image dans la colonne "FICHIER"
                        df.to_csv(input_csv, index=False, encoding="utf-8") # On sauvegarde les modifications.
                elif url.startswith('https://bibliotheques'): # Autrement on d√©tecte que l'image provient du site des biblioth√®ques sp√©cialis√©es de Paris. 
                    success = download_bib(url, index, output_folder, output_path) # On appelle la fonction idoine.
                    if success:
                        df.at[index, "FICHIER"] = output_path # Pareil on ajoute le filepath √† la colonne "FICHIER"
                        df.to_csv(input_csv, index=False, encoding="utf-8") # On sauverharde les modifications.
                else:
                    print(f"Source non reconnue pour l'URL au n¬∞ d'index {index}") # Si une URL d'un autre site est pr√©sente dans notre CSV, ce message d'erreur nous permettra de savoir √† quelle index du csv se trouve l'URL.
            except Exception as e:
                print(f"Erreur ligne {index}: {e}")
                continue
    except Exception as e:
        print(f"Erreur lors de la lecture du CSV : {e}") # Si le CSV ne s'est pas lu correctement, par exemple parce si le s√©parateur n'est pas le bon, ou l'encodage diff√©rent.   
        return False


### Fonction sp√©cifique pour Gallica üêì

In [15]:
def download_gallica(url, index, output_folder):
    """
    T√©l√©charge une image depuis Gallica
    
    Args:
        url (str): URL originale de Gallica
        index (int): Num√©ro de ligne dans le CSV
        output_folder (str): Dossier de destination
        
    Returns:
        bool: True si succ√®s, False si √©chec
    """
    try:
        # 1. Transformer l'URL
        ark = url.split('ark:') # On isole dans la colonne URL la partie de l'url qui contient l'identifiant ark de l'image.
        if len(ark) <= 1: # On v√©rifie qu'on obtient pas une r√©sultat vide.
            print(f"URL invalide √† la ligne {index}") # Le cas √©ch√©ant on imprime une erreur avec le num√©ro d'index pour voir d'o√π vient le probl√®me.
            return False
        image_url = f"https://gallica.bnf.fr/iiif/ark:{ark[1]}/f1/full/max/0/default.jpg" # Sinon on forme l'URL IIIF de l'image pour l'ouvrir directement en plein √©cran et en bonne qualit√© pour le t√©l√©chargement.

        # 2. T√©l√©charger
        timeout = randint(4,9) # Afin d'√©viter un code 429 (Too many requests) de la part de Gallica on randomise le timeout entre les t√©l√©chargements.
        response = requests.get(image_url, stream=True, timeout=timeout) # On envoie la requ√™te pour acc√©der √† la ressource aupr√®s du site.
        if response.status_code != 200: # On s'assure qu'on obtient bien un code 200, signifiant que tout est ok.
            print(f'Probl√®me url {index}: status code {response.status_code}') # Sinon on print l'index de la ligne et le code d'erreur obtenu.
            return False

    
        # 3. Sauvegarder
        output_path = os.path.join(output_folder, f"image_{index:02d}.jpg") # On cr√©er le nommage r√©gulier des fichiers dans le chemin que nous avons d√©fini dynamiquement dans la fonction g√©n√©rale.
        with open(output_path, 'wb') as file: # On ouvre en mode √©criture binaire le fichier.
            for chunk in response.iter_content(1024): # On charge par chunks (morceaux) afin d'√©viter de devoir charger en m√©moire l'enti√®ret√© de l'image avant de la t√©l√©charger, ce qui peut √™tre lourd et long avec des images de bonne qualit√©.
                file.write(chunk) # On t√©l√©charge.
        
        print(f"Image de Gallica t√©l√©charg√©e avec succ√®s n¬∞ d'index {index} ") # Tout s'est bien pass√©, et on imprime le num√©ro d'index de la ligne pour suivre o√π nous en sommes.
        time.sleep(timeout) # On laisse un temps de pause entre deux t√©l√©chargements, toujours pour √©viter un code 429.
        return True

    except Exception as e:
        print(f"Erreur pour l'URL Gallica n¬∞ d'index {index}: {e}") # Quelque chose ne s'est pas bien pass√© on print le num√©ro d'index et l'erreur rencontr√©e.
        return False          


### Fonctions sp√©cifiques pour les biblioth√®ques sp√©cialis√©es de Paris üóº

#### Fonction pour g√©rer les cookies üç™

In [16]:
def dismiss_cookies(driver):
    """
    Cette fonction tente de fermer ou d'ignorer une fen√™tre de cookies en cliquant
    sur le corps de la page, ce qui peut suffire √† la faire dispara√Ætre sur certains sites.

    Args:
        driver (selenium.webdriver): Instance active du navigateur pilot√©e par Selenium.

    Returns:
        None
    """
    wait = WebDriverWait(driver, 5) # On attends 5 secondes que la page se charge.
    body = wait.until(EC.presence_of_element_located((By.TAG_NAME, "body"))) # D√®s que l'√©l√©ment "body" de la page HTML appara√Æt on arr√™te d'attendre.
    ActionChains(driver).move_to_element(body).click().perform() # On clique d√®s lors n'importe o√π sur le corps de la page pour faire dispara√Ætre les cookies.

#### Fonction pour d√©zipper, d√©placer et renommer les fichiers ü§ê

In [17]:
def process_zip_file(zip_path, index, output_folder, timeout=30):
    """
    Traite le fichier ZIP t√©l√©charg√©
    
    Args:
        zip_path (str): Chemin du fichier ZIP t√©l√©charg√©
        index (int): Index pour le nommage
        output_folder (str): Dossier de destination final
        timeout (int): Temps maximum d'attente en secondes
    
    Returns:
        bool: True si succ√®s, False si √©chec
    """
    try:
        start_time = time.time() # Sert √† commencer √† d√©compter le temps, on utilise un "timeout" plus loin, la fonction a donc besoin de savoir combien de temps s'est √©coul√© depuis qu'elle a d√©marr√©e.
        

        if not os.path.exists(zip_path): # V√©rification que le ZIP existe.
            print(f"ZIP non trouv√©: {zip_path}") # Sinon on dit o√π est-ce qu'on a pas trouv√© le ZIP.
            return False
            
        with tempfile.TemporaryDirectory() as temp_dir: # On cr√©e un dossier temporaire pour d√©zipper le dossier.
            with zipfile.ZipFile(zip_path, 'r') as zip_ref: # On acc√®de en lecture au dossier zip.
                zip_ref.extractall(temp_dir) # On extrait le dossier. 
            
            image_found = False
            for root, _, files in os.walk(temp_dir): # On parcours le dossier extrait pour y trouver l'image
                if time.time() - start_time > timeout: # On met une limite de temps √† ce traitement.
                    print(f"Timeout lors du traitement du ZIP n¬∞ d'index {index}") # Si aucun fichier n'est trouv√© apr√®s le temps imparti on imprime un message d'erreur avec l'index.
                    return False                    
                for file in files:
                    if file.lower().endswith(('.jpg', '.jpeg', '.png')): # On cherche les fichiers qui finissent par ...
                        # 4. D√©placer et renommer l'image
                        src = os.path.join(root, file) # On prend le fichier √† d√©placer dans le dossier temporaire, la variable src √©tant le chemin complet de ce dossier temporaire.
                        dst = os.path.join(output_folder, f"image_{index:02d}{os.path.splitext(file)[1]}") # Ici c'est le chemin de destination de l'image et la norme de nommage de l'image au moment du d√©placement.
                        shutil.move(src, dst) # On bouge et renomme le fichier depuis le dossier temporaire jusqu'au dossier de sortie final.

# üí¨ Ici on ne supprime pas directement le dossier zip des T√©l√©chargements, on le fait plus tard, dans la fonction downloab_bib.
                  
                        
                        if os.path.exists(dst): # On v√©rifie que l'image a bien √©t√© d√©plac√©e et existe
                            image_found = True
                            print(f"Image {index} extraite et d√©plac√©e avec succ√®s ‚úÖ") # Si c'est le cas on imprime un message de r√©ussite.
                            break # On casse la boucle "for file in files:" quand une image a √©t√© trouv√©e, d√©plac√©e et renomm√©e.
                        
                        # Le code reprend ici √† la boucle sup√©rieure "for root, _, files in os.walk(temp_dir):"
                
            if not image_found:
                print(f"Aucune image trouv√©e dans le ZIP n¬∞ d'index {index}")
                return False # Ici on met fin √† la boucle cit√©e pr√©c√©demment, soit parce que √ßa a √©chou√©.
                
            return True # Soit parce que √ßa a r√©ussi.
        
    except Exception as e:
        print(f"Erreur traitement ZIP n¬∞ d'index {index}: {e}") # Gestion d'erreur, en cas de probl√®me √† un quelconque moment de la fonction, d√©clenche ce message d'erreur avec l'index et le message produit.
        return False

#### Fonction pour d√©tecter le webdriver install√© sur la machine üöÄ

In [18]:
def find_webdriver(): # Afin d'assurer la portabilit√© du code nous devons prendre en compte les diff√©rentes types d'OS.

# On met en clair dans le code les chemins classiques, attendus, que la fonction download_bib pourra interroger afin de lancer Chromedriver.

# üëÅÔ∏è‚Äçüó®Ô∏è‚ö†Ô∏è Si vous installez Chromedriver √† un endroit personnalis√©, vous devrez mentionner son path ici pour que le scrapping puisse fonctionner.
    chrome_paths = [
        "/usr/local/bin/chromedriver",  # Linux/Mac
        "/usr/bin/chromedriver",        # Linux
        "C:\\Program Files\\Google\\Chrome\\Application\\chromedriver.exe",  # Windows
        "C:\\chromedriver.exe"          # Windows
    ]
    for path in chrome_paths:
        if os.path.exists(path): # On v√©rifie que Chromedriver existe bel et bien √† l'un de ces chemins.
            return path
    raise FileNotFoundError("Aucun chromedriver trouv√©. Installez chromedriver. V√©rifiez qu'il se situe bien aux endroits attendus dans la variable 'chrome_paths'") # Le cas √©ch√©ant nous invitons l'utilisateur √† r√©installer Chromedriver, en pr√©cisant cette fois son path ci-dessus.

#### Fonction pour g√©rer les pages contenant plusieurs images üñºÔ∏è

In [19]:
def handle_multi_img_case(driver, index):
    """
    Si plusieurs images sont pr√©sentes sur la page, clique sur la premi√®re,
    g√®re le basculement d'onglet, ferme l'onglet original, puis retourne True si succ√®s, False sinon.
    
    Args:
        driver (selenium.webdriver): Instance active du navigateur Selenium.
        index (int): Index de la ligne en cours (pour le suivi/log).

    Returns:
        bool: True si le switch et la fermeture de l'onglet original ont r√©ussi, False sinon.
    """
    try:
        container_xpath = "/html/body/div[1]/div/div[1]/div/div[1]/div/div/div[2]/div/div[1]/div/div/div/main/div/div/div/div/div/div[2]/div/div/div[1]/div/div/div[1]/div/div[2]"
        container = driver.find_element(By.XPATH, container_xpath) # Si la page a plusieurs images c'est toujours dans cette div
        img_elements = container.find_elements(By.TAG_NAME, "img") # Il y aura la pr√©sence de plusieurs img=class dans ce cas
        if len(img_elements) > 1: # Donc si img_elements est sup√©rieur √† 1
            img_elements[0].click() # On clique sur le premier
            print(f"Plusieurs images d√©tect√©es, premi√®re image cliqu√©e au n¬∞ d'index {index}")
            original_window = driver.current_window_handle # On d√©finit une variable original_window pour g√©rer la fermeture des fen√™tres plus tard, on lui dit que c'est celle qu'on manipule maintenant
            time.sleep(1) # On attend.
            WebDriverWait(driver, 10).until(lambda d: len(d.window_handles) > 1) # Ici on attends jusqu'a ce qu'il y ait plus d'un onglet.
            time.sleep(1)
            # Trouver la nouvelle fen√™tre
            new_window = None # Pour l'instant on d√©finit que new_window est vide pour le peupler apr√®s.
            for window_handle in driver.window_handles:
                if window_handle != original_window: # Ici on d√©finit que si la page sur laquelle on est est diff√©rente de celle de case alors c'ets la nouvelle page
                    new_window = window_handle
                    break
            if new_window is None: # Ici c'est si √ßa n'a pas march√© on lui retourne un message d'erreur.
                print(f"Impossible de trouver la nouvelle fen√™tre au n¬∞ d'index {index}")
                return False
            driver.switch_to.window(new_window) #Ici on switch sur ce qu'on a d√©finit comme √©tant le nouvel onglet.
            time.sleep(1)
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.TAG_NAME, "body")) # Ici on attends jusqu'√† ce qu'on ait le body.
            )
            time.sleep(1)
            # Fermer l'onglet original
            driver.switch_to.window(original_window) # On bascule sur l'onglet de base.
            time.sleep(1)
            driver.close() # On le ferme.
            time.sleep(1)
            # Revenir sur le nouvel onglet
            driver.switch_to.window(new_window) # Enfin on reviens sur le nouvel onglet.
            time.sleep(1)
            print(f"Bascul√© sur la nouvelle fen√™tre et ferm√© l'onglet original pour l'image au n¬∞ d'index {index}")
            return True
        else:
            return False
    except Exception as e:
        print("Pas de gestion multi-image pour cette URL")
        return False

#### Fonction de crawling et de t√©l√©chargement ü¶Ä

In [20]:
def download_bib(url, index, output_folder, output_path): # Fonction qui automatise la navigation sur les pages web du site des biblioth√®que de Paris.
    """
    Fonction pour interagir avec les pages des biblioth√®ques sp√©cialis√©es de Paris

        Args:
        url (str): URL originale de Gallica
        index (int): Num√©ro de ligne dans le CSV
        output_folder (str): Dossier de destination
        output_path (str): nom du filepath des images t√©l√©charg√©es
    Returns:
        bool: True si succ√®s, False si √©chec
    """
    try:
        driver_path = find_webdriver() # On cherche l'instance chromedriver en fonction du path qui a √©t√© trouv√© dans la fonction pr√©c√©dente.
        user_data_dir = tempfile.mkdtemp() # On cr√©er un instance temporaire avec des informations de profil temporaires.

        options = webdriver.ChromeOptions() # On liste les options de lancement de Chrome via Selenium.
        options.add_argument("--no-sandbox") #D√©sactive le mode "sandbox" de Chrome, qui "conteneurise" les onglets et les pages pour √©viter les conflits de lancement notamment en serveur docker ou sur Linux.
        options.add_argument(f"--user-data-dir={user_data_dir}") # Sp√©cifie un dossier temporaire pour le profil utilisateur Chrome. Cela permet d‚Äôisoler la session de navigation de Selenium du profil Chrome habituel.
        options.add_argument("--headless=new") # N'affiche pas l'interface graphique, possibilit√© de commenter la ligne pour voir le scrapping se faire.
        options.add_argument("--disable-dev-shm-usage") # Emp√™che Chrome d‚Äôutiliser /dev/shm (m√©moire partag√©e). Sur certains syst√®mes (ex‚ÄØ: Docker), la m√©moire partag√©e est limit√©e et cela √©vite des plantages.
        options.add_argument("--disable-gpu") #D√©sactive l‚Äôacc√©l√©ration mat√©rielle GPU. Recommand√© en mode headless ou sur des serveurs sans GPU.
        options.add_argument("--remote-debugging-port=9222") # Ouvre le port 9222 pour le d√©bogage √† distance de Chrome. N√©cessaire pour certaines fonctionnalit√©s avanc√©es ou pour le support du mode headless.
        
# ‚ö†Ô∏è Par d√©faut on indique le chemin vers le dossier des T√©l√©chargements pour que Chrome sache o√π mettre les dossiers qu'on lui demande de t√©l√©charger.
# ‚ö†Ô∏è Possibilit√© de changer le chemin pour √©viter les conflits si d'autres dossiers .zip se trouvent dans vos T√©l√©chargements. Sinon ce n'est qu'un dossier int√©rm√©diaire, pas besoin d'un dossier d√©di√©, les .zip sont supprim√©s apr√®s chaque t√©l√©chargement.      
        
        # Pr√©f√©rences pour le t√©l√©chargement automatique des ZIP
        prefs = {
            "download.default_directory": os.path.expanduser("~/T√©l√©chargements"), # On indique au navigateur la destination que doivent prendre les fichiers t√©l√©charg√©s.
            "download.prompt_for_download": False, # Ne demande pas √† l'utilisateur, via un pop-up, o√π t√©l√©charger un fichier.
            "download.directory_upgrade": True, # Permet d'utiliser le nouveau dossier de t√©l√©chargement m√™me si un t√©l√©chargement est d√©j√† en cours.
            "safebrowsing.enabled": True # Active la protection contre les fichiers malveillants
        }
        options.add_experimental_option("prefs", prefs) # On applique le contenu de notre variable prefs √† la m√©thode qui r√©git les options de lancement Chrome.

        service = Service(driver_path) # On dit que 'service' est de la classe Service, qui lance ou coupe le navigateur et on lui donne comme argument le chemin vers le driver pour qu'il puisse s'ex√©cuter.
        driver = webdriver.Chrome(service=service, options=options) # On lance le driver via Selenium avec nos options pr√©c√©demment d√©finies.

        try:
            # 1. Charger la page
            print(f"Chargement de la page {index}...")
            driver.get(url) # On se connecte √† l'URL.
            time.sleep(5) # On attends 5 secondes.
            # V√©rifier que la page est bien charg√©e
            if "Erreur" in driver.title or "404" in driver.title:
                print(f"Probl√®me de chargement de la page au n¬∞ d'index {index} (titre: {driver.title})")# On fait de la gestion d'erreur o√π on affiche le titre de la page et l'index.
            else:
                print(f"Page charg√©e avec succ√®s au n¬∞ d'index {index} (titre: {driver.title})") # On manifeste la r√©ussite du chargement avec l'index et le titre correspondant.

            # 2. G√©rer les cookies
            try:
                dismiss_cookies(driver) # On fait appel √† notre fonction pour dissiper la fen√™tre des cookies qui appara√Æt.
            except Exception as e:
                print(f"Erreur cookies: {e}, on continue...")
                    
            # 3. Afficher l'image en grand dans une autre fen√™tre
            if handle_multi_img_case(driver, index):
            # Si la fonction a g√©r√© le cas multi-img, passer directement √† l'√©tape 5 (bouton t√©l√©chargement)
                pass  # Le code continue √† l'√©tape 5
            try:
                image = WebDriverWait(driver, 5).until(
                    EC.element_to_be_clickable((By.XPATH, "//*[@id='fullscreen']"))
                )
                image.click()
                print(f"Bouton fullscreen cliqu√© n¬∞ d'index {index}")
            except Exception:
                try:
                    image = WebDriverWait(driver, 5).until(
                        EC.element_to_be_clickable((By.XPATH, "/html/body/div[1]/div/div[1]/div/div[1]/div/div/div[2]/div/div[1]/div/div/div/main/div/div/div/div/div/div[1]/div[2]/div/div[1]/img"))
                    )
                    print(f"Image trouv√©e par XPATH principal (classique) n¬∞ d'index {index}")
                except Exception:
                    try:
                        image = WebDriverWait(driver, 5).until(
                            EC.element_to_be_clickable((By.XPATH, "/html/body/div[1]/div/div[1]/div/div[1]/div/div/div[2]/div/div[1]/div/div/div/main/div/div/div/div/div/div[1]/div[1]/div/div[1]/img"))
                        )
                        print(f"Image trouv√©e par XPATH alternatif (classique) n¬∞ d'index {index}")
                    except Exception:
                        try:
                            image = WebDriverWait(driver, 5).until(
                                EC.element_to_be_clickable((By.XPATH, "//img[@role='presentation']"))
                            )
                            print(f"Image trouv√©e par r√¥le 'presentation' (classique) au n¬∞ d'index {index}")
                        except Exception:
                            print(f"Impossible de trouver l'image au n¬∞ d'index {index} avec toutes les m√©thodes")
                            raise Exception("Image non trouv√©e")
                if image.tag_name == "img":
                    driver.execute_script("arguments[0].scrollIntoView({block: 'center'});", image)
                    time.sleep(0.5)  # Facultatif mais souvent utile
                    try:
                        image.click()
                    except Exception as e:
                        print(f"Click classique √©chou√©, tentative JS click... {e}")
                        driver.execute_script("arguments[0].click();", image)
                    print(f"Image cliqu√©e au n¬∞ d'index {index}")
                else:
                    print(f"√âl√©ment trouv√© mais ce n'est pas une image ligne {index}")
                    raise Exception("Pas un √©l√©ment image")
            except Exception as e:
                print(f"Impossible de trouver l'image au n¬∞ d'index {index}: {e}")
                raise

            # 4. Basculer sur la nouvelle fen√™tre
            try:
                WebDriverWait(driver, 10).until(lambda d: len(d.window_handles) > 1) # Ici il faut qu'on bascule sur une fen√™tre pop-up pour la suite du scrapping.
                # On attends donc 10 secondes le chargement puis on passe par une fonction lambda qui simplement nous permet de basculer √† l'autre fen√™tre s'il y a plus d'une fen√™tre en m√™me temps (donc si la deuxi√®me est apparue)
                # La session Chrome est stopp√©e apr√®s chaque t√©l√©chargement donc il n'y aura jamais plus de deux onglets sur la m√™me fen√™tre c'est pour cela qu'on peut passer par cette fonction lambda.
                original_window = driver.current_window_handle # On d√©finit cette variable pour dire que la page sur laquelle on √©tait, √©tait la page originale, celle qu'on va donc quitter.
                for window_handle in driver.window_handles:
                    if window_handle != original_window: # Si donc il y a une seconde fen√™tre diff√©rente de celle originale.
                        driver.switch_to.window(window_handle) # On utilise la m√©thode qui permet de passer d'une fen√™tre √† l'autre.
                        break
                print(f"Bascul√© sur la nouvelle fen√™tre pour l'image au n¬∞ d'index {index}")
                    
            except Exception as e:
                print(f"Impossible de basculer sur la nouvelle fen√™tre au n¬∞ d'index {index}: {e}")
                raise

            # 5. Appuyer sur le bouton "T√©l√©chargement"
            try:
                dl = WebDriverWait(driver, 10).until(
                    EC.element_to_be_clickable((By.XPATH, "//*[@id='hires']"))
                ) # M√™me logique que pour afficher l'image en grand, on attend que l'√©l√©ment du bouton de t√©l√©chargement soit charg√©.
                if dl.tag_name == "div": # On s'assure qu'il est de la bonne nature. 
                    dl.click() # On clique dessus.       
                    print(f"Bouton t√©l√©chargement trouv√© et cliqu√© au n¬∞ d'index {index}")
                else:
                    print(f"√âl√©ment trouv√© mais ce n'est pas un bouton de t√©l√©chargement {index}")
                    raise Exception("Pas un bouton de t√©l√©chargement") # Ce qu'on a trouv√© n'√©tait pas de la bonne nature.
                
            except Exception as e:
                print(f"Impossible de trouver le bouton de t√©l√©chargement au n¬∞ d'index {index}: {e}")
                raise

            # 6. Cocher la checkbox
            try:
                checkbox = WebDriverWait(driver, 10).until(
                    EC.element_to_be_clickable((By.XPATH, "//*[@id='checkConditions']"))
                ) # M√™me logique qu'avant, on doit attendre qu'un nouvel √©l√©ment dynamique apparaisse, cette fois-ci c'est une case √† cocher.
                if checkbox.get_attribute('type') == "checkbox": # On v√©rifie sa nature.
                    checkbox.click() # Si la nature est la bonne, on clique.       
                    print(f"Checkbox des conditions trouv√©e et coch√©e au n¬∞ d'index {index}")
                else:
                    print(f"√âl√©ment trouv√© mais ce n'est pas une checkbox {index}")
                    raise Exception("Pas une checkbox")
                
            except Exception as e:
                print(f"Impossible de trouver la checkbox au n¬∞ d'index {index}: {e}")
                raise
            
            # 7. Appuyer sur le bouton download
            try:
                dl_button = WebDriverWait(driver, 10).until(
                    EC.element_to_be_clickable((By.XPATH, "/html/body/div[4]/div[3]/div/button"))
                ) # M√™me logique, on attends que le bouton de download final apparaisse et on clique dessus.
                if dl_button.tag_name == "button": # On v√©rifie sa nature.
                    dl_button.click() # On clique.       
                    print(f"Bouton de t√©l√©chargement final trouv√© et cliqu√© au n¬∞ d'index {index}")
                else:
                    print(f"√âl√©ment trouv√© mais ce n'est pas le bouton pour t√©l√©charger {index}")
                    raise Exception("Pas un bouton de t√©l√©chargement")
                
            except Exception as e:
                print(f"Impossible de trouver le button pour t√©l√©charger l'image au n¬∞ d'index {index}: {e}")
                raise

            # 8. Attendre le t√©l√©chargement et traiter le ZIP
            try:
                # Attendre pour le t√©l√©chargement
                time.sleep(15)  
                
                # V√©rifier que le dossier T√©l√©chargements existe
                downloads_dir = os.path.expanduser("~/T√©l√©chargements")
                if not os.path.exists(downloads_dir):
                    raise Exception(f"Dossier T√©l√©chargements non trouv√©: {downloads_dir}")
                    
                # V√©rifier qu'il y a des fichiers dans le dossier
                files = os.listdir(downloads_dir)
                if not files:
                    raise Exception("Dossier T√©l√©chargements vide")
                    
                # Trouver le dernier fichier ZIP
                zip_files = [f for f in files if f.endswith('.zip')]
                if not zip_files:
                    raise Exception("Aucun fichier ZIP trouv√© dans T√©l√©chargements")
                    
                latest_zip = max([os.path.join(downloads_dir, f) for f in zip_files], 
                                key=os.path.getctime) # Cette ligne cr√©e une liste des chemins complets de tous les fichiers ZIP pr√©sents dans le dossier de t√©l√©chargement,
# puis s√©lectionne celui qui a la date de cr√©ation la plus r√©cente (le dernier ZIP t√©l√©charg√©).
# Cela permet de cibler automatiquement le fichier ZIP qui vient d'√™tre t√©l√©charg√© pour le traiter ensuite.
                
                print(f"Fichier ZIP trouv√©: {latest_zip}")
                
                # Traiter le ZIP
                if not process_zip_file(latest_zip, index, output_folder):
                    raise Exception("√âchec du traitement du ZIP")
                    
                # Suppression du ZIP trait√©
                os.remove(latest_zip)
                print(f"ZIP supprim√© avec succ√®s")
                            
            except Exception as e:
                print(f"Erreur traitement fichier t√©l√©charg√© au n¬∞ d'index {index}: {e}")
                raise

            return True # On retourne que tout s'est bien pass√©.
            
        finally:
            driver.quit() # On ferme le chromedriver.
            
    except Exception as e:
        print(f"Erreur configuration Selenium au n¬∞ d'index {index}: {e} ‚ùå")
        return False

### Fonction pour reprendre une session de scrapping interrompue ü§ï

In [21]:
def resume_scrapping(output_folder):
    """
    Cette fonction sert √† reprendre un t√©l√©chargement en cours de route s'il s'est arr√™t√© subitement.
    Elle retourne l'index de la derni√®re image t√©l√©charg√©e dans le dossier de sortie.
    Args:
        output_folder (str): Dossier de destination des images t√©l√©charg√©es.
    Returns:
        int: L'index le plus √©lev√© trouv√© dans les noms de fichiers, ou -1 si aucun fichier n'est trouv√©.
    """
    
    files = os.listdir(output_folder) # On liste tous les fichiers pr√©sents dans le dossier de sortie.
   
    max_index = -1  # Initialise la variable max_index √† -1, afin de s'assurer qu'on a pas encore d'image dans le dossier.

    for name in files:     # Parcourt chaque nom de fichier dans le dossier.
       
        match = re.match(r'image_(\d+)\.\w+', name)  # Cherche un nom de fichier qui correspond au format "image_<nombre>.<extension>".
        if match: # Si le nom correspond, extrait l'index num√©rique du nom de fichier.
            idx = int(match.group(1))   # Met √† jour max_index si l'index trouv√© est sup√©rieur √† l'actuel.
            if idx > max_index:
                max_index = idx
   
    return max_index  # Retourne l'index le plus √©lev√© trouv√© (ou -1 si aucun fichier ne correspond).

## Processing ‚öôÔ∏è

In [None]:
input_csv = "" # Chemin absolu vers le csv qui contient les adresses URL des images.

### Lancement du scrapping pour la premi√®re fois üéÇ

**S'il a d√©j√† √©t√© lanc√©, qu'il s'est stopp√© subitement ou que nous l'avons arr√™t√© sciemment, pour le reprendre l√† o√π il s'est arr√™t√©, d√©commentez la cellule suivante ü©π et reprenez le t√©l√©chargement en l'ex√©cutant.**

‚ö†Ô∏èüå™Ô∏è Ici si vous relancez un scrapping d√©j√† entam√© avec la cellule ci-dessous, il recommencera du d√©but et √©crasera les photos d√©j√† pr√©sentes. üå™Ô∏è‚ö†Ô∏è 

In [None]:
# Lancer le scrapping pour la premi√®re fois
download_image(input_csv)

### Relancer le scrapping en cas d'interruption üîÇ

ü©π
**D√©commentez ci-dessous et ex√©cutez la cellule pour reprendre un scrapping interrompu**

In [None]:
# # Reprendre un scrapping interrompu
# output_folder = os.path.join(os.path.dirname(input_csv), 'sortie') # On met le chemin de sortie, c'est-√†-dire dans le m√™me dossier que le csv.
# last_index = resume_scrapping(output_folder) # Via la fonction resume_scrapping, on r√©cup√®re le plus haut index trouv√© dans le dossier.
# download_image(input_csv, start_index=last_index+1) # On reprend le t√©l√©chargement en attribuant la valeur last_index √† la variable start_index, de notre fonction principale de t√©l√©chargement, qui est originellement 0 par d√©faut.