In [None]:
# Publications
import os
import time
import json
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Configuration des chemins
chrome_driver_path = r"....."
chrome_binary_path = r"....."
download_folder = r"....."
progress_file = "progress.json"

def save_progress(done_issues, done_articles):
    with open(progress_file, "w") as f: # Ouverture d'un fichier en mode √©criture avec les caract√©ristiques suivantes, √©crase son contenu si il existe
        json.dump({"done_issues": done_issues, "done_articles": done_articles}, f) # type - json ; avec deux cl√®s

def load_progress():
    if os.path.exists(progress_file): # Si progress file existe ; 
        with open(progress_file, "r") as f: # Ouvre progress file en mode lecture
            return json.load(f) # Charge le fichier en dictionnaire python
    return {"done_issues": [], "done_articles": []} # Retourne deux listes

def setup_driver():
    """Configure et lance WebDriver."""
    options = Options() # Cr√©ation d'un objet option dans lequel ont va mettre les options dites "classiques".
    options.add_argument("--headless") # Lance le navigateur sans interface graphique, pas besoin.
    options.add_argument("--disable-gpu") # D√©sactive l'acc√©leration GPU, pas besoin.
    options.add_argument("--disable-dev-shm-usage") # Force l'utilisation du disque.
    options.add_argument("--no-sandbox") # D√©sactive le sandboxing, pas besoin.
    options.binary_location = chrome_binary_path # D√©fini le chemin d'utilisation de chromium, pas envie de le d√©finir comme navigateur principal.
    # Cr√©ation d'un dictionnaire contenant les options exp√©rimentales
    prefs = {"download.default_directory": download_folder, # Sp√©cifie que le r√©pertoire pour le t√©l√©chargement est le r√©pertoire t√©l√©chargement pr√©alablement d√©fini
             "download.prompt_for_download": False, # D√©sactiver la boite de confirmation pour les t√©l√©chargements, c'est pas pratique en mode headless et j'ai pas envie de cliquer 10000 fois.
             "download.directory_upgrade": True, # Migre ancien r√©pertoire vers nouveau sans demander de comfirmation. 
             "safebrowsing.enabled": True} # Activer la fonction de navigation s√©curis√©e : √©l√©mentaire, my dear Watson. 
    options.add_experimental_option("prefs", prefs) # Utilise la fonction .add_experimental_option pour associer la cl√® "prefs' aux valeurs du dictionnaire prefs

    service = ChromeService(executable_path=chrome_driver_path) # Cr√©ation d'un objet service avec le chemin √©x√©cutable pr√©lablement d√©fini. 
    return webdriver.Chrome(service=service, options=options) # service = service ; options = options ; here we go.. 

def get_links(driver, url, xpath): # Fonction qui ouvre un URL par le driver et navigue sur la page pour r√©cup√©rer d'autres URL correspondant √† un XPATH donn√©.
    driver.get(url) # Ouvre un URL
    time.sleep(3.5)  # Temps d'attente en seconde, le temps que la page s'ouvre
    return [link.get_attribute("href") for link in driver.find_elements(By.XPATH, xpath)] # Compr√©hension de liste : r√©cup√©rer l'attribut href, pour chaque lien, dans le driver, trouver l'√©l√©ment XPATH sp√©cifi√©

def wait_for_download(timeout=45, min_size=10_000): # Fonction qui attend que le fichier soit t√©l√©charg√©.
    initial_files = set(os.listdir(download_folder)) # Liste les fichiers pr√©sents dans le r√©pertoire de t√©l√©chargements
    elapsed = 0 # Initialise un compteur de temps
    while elapsed < timeout: # Tant que le compteur de temps est inf√©rieur au timeout, soit 45 s.
        new_files = set(os.listdir(download_folder)) - initial_files # D√©fini objet "nouveaux fichiers" qui a ce qu'il y a dans le r√©p√©rtoire moins intial_files.
        for file in new_files: # Pour chaque fichier dans "nouveaux fichiers"
            file_path = os.path.join(download_folder, file) # Combine le nom de r√©pertoire et le nom de fichier pour cr√©er un chemin.
            if file.endswith(".pdf") and os.path.getsize(file_path) > min_size: # Si le fichier est un pdf et qu'il est sup√©rieur √† la taille minimum requise, 
                return file_path # Retourne le chemin
        time.sleep(1.4)  # Attendre 1,4 seconde avant de rev√©rifier les fichiers
        elapsed += 1.4 # + 1,4 s de temps √©coul√©
    return None # Fin de la fonction

def download_pdf(driver, article_url, done_articles):
    if article_url in done_articles:# : V√©rifie si il est d√©j√† list√© pour √©viter les doublons
        print(f"‚úîÔ∏è D√©j√† t√©l√©charg√© : {article_url}") # Si oui, log.
        return
    driver.get(article_url) # Si non, ouvre la page web de l'article
    time.sleep(3.5) # Attend 3,5 s. que la page soit bien ouverte.
    try:
        WebDriverWait(driver, 14).until( 
            EC.element_to_be_clickable((By.XPATH, "//div[@onclick='pdfDownloadAction()']")) # Utilise WDwait jusqu'√† ce qu'apparaisse un √©l√©ment cliquable d√©fini par le XPATH mentionn√© ; attend au maximul 14 seconde. 
        ).click() # puis clique sur l'√©l√©ment.
        pdf_path = wait_for_download() # Appel la fonction wait_for_download pour attendre que le fichier soit t√©l√©charg√©
        if pdf_path: # Au terme de la fonction "attendre le t√©l√©chargement", si un pdf_path a √©t√© cr√©√©, alors :
            print(f"üìÇ PDF t√©l√©charg√© : {pdf_path}") # log :
            done_articles.append(article_url) # Ajouter l'URL de l'article √† "articles faits":
            save_progress(done_issues, done_articles) # Utiliser la fonction "sauvegarder la progression" sur les valeurs d√©finies
    except Exception as e: # Si pas de pdf_path
        print(f"‚ö†Ô∏è Erreur t√©l√©chargement : {e}") # log

def main():
    os.makedirs(download_folder, exist_ok=True) # Cr√©er le fichier de t√©l√©chargement si il n'existe pas d√©j√†
    progress = load_progress() # Cr√©er un objet qui contient le r√©sultat de load_progress
    done_issues, done_articles = progress["done_issues"], progress["done_articles"] # Cr√©er deux objets qui sont des listes de ce qui a d√©j√† √©t√© fait
    
    max_retries, retry_count = 15, 0 # Il faut parfois relancer le prog, dont mettre en place un compteur.
    while retry_count < max_retries: # Tant que le programme a √©t√© relanc√© moins de 15 fois, on recommence
        try:
            driver = setup_driver() # Lancement du webdriver
            base_url = "....." # D√©finition de l'URL de base
            issue_links = get_links(driver, base_url, "//a[starts-with(@href, '.....')]") # R√©cup√©ration des liens des √©ditions par la fonction get_links
            # On cherche des balises html...
            for issue_url in issue_links: # Pour chaque url dans les liens des √©ditions on va directement apr√®s le continue
                if issue_url in done_issues: # Si une √©dition est dans les √©ditions trait√©es
                    print(f"‚úîÔ∏è √âdition d√©j√† trait√©e : {issue_url}") # log
                    continue
                article_links = get_links(driver, issue_url, "//a[starts-with(@href, '.....')]") # R√©cup√©ration des liens des article par la fonction get_links
            # On cherche des balises html...
                for article_url in article_links: # Pour chaque url dans les liens des articles 
                    download_pdf(driver, article_url, done_articles) # On appel la fonction download pdf
                done_issues.append(issue_url) #Quand une √©dition est finie, on la rajoute aux √©ditions r√©alis√©es.
                save_progress(done_issues, done_articles) # On sauvegarde les prog√®s.
            # Au revoir !
            driver.quit()
            print("üöÄ Script termin√© avec succ√®s !")
            break
            # Oh non !
        except Exception as e:
            print(f"‚ö†Ô∏è Crash d√©tect√© : {e}")
            retry_count += 1
            print(f"üîÅ Red√©marrage ({retry_count}/{max_retries})...")
            if retry_count == max_retries:
                print("‚ùå √âchec apr√®s plusieurs tentatives. Arr√™t.")

if __name__ == "__main__": # Au cas o√π. 
    main()