# Importation des bibliothèques nécessaires

In [None]:
# Module pour l'interaction avec le système de fichiers (gestion de fichiers, répertoires, etc.)
import os

# Module pour la gestion du temps et des temporisations (sleep, time tracking, etc.)
import time

# Bibliothèque permettant d'effectuer des requêtes HTTP (GET, POST, etc.)
import requests

# Bibliothèque Selenium pour automatiser les navigateurs (utile pour le scraping web ou les tests automatisés)
from selenium import webdriver

# Sous-module de Selenium pour identifier les éléments dans le DOM par leurs attributs (id, class, name, etc.)
from selenium.webdriver.common.by import By

# Sous-module Selenium pour gérer les attentes explicites (attendre qu'un élément soit présent, visible, etc.)
from selenium.webdriver.support.ui import WebDriverWait

# Sous-module Selenium définissant des conditions attendues (par exemple, présence d'un élément spécifique)
from selenium.webdriver.support import expected_conditions as EC

# Importation des exceptions Selenium pour gérer les erreurs fréquentes (éléments non trouvés, délais d'attente, etc.)
from selenium.common.exceptions import TimeoutException, NoSuchElementException

# Bibliothèque pour la création et la manipulation de fichiers Excel
from openpyxl import Workbook, load_workbook

# Bibliothèque BeautifulSoup pour analyser et extraire les données du contenu HTML
from bs4 import BeautifulSoup as bs

# Bibliothèque standard pour manipuler les URL et créer des chemins absolus
from urllib.parse import urljoin

# Bibliothèque pour interagir avec une base de données MongoDB
from pymongo import MongoClient


# Configuration de dossiers

Ce script configure une structure de répertoires pour organiser des fichiers par type (Excel, PDF et audio). 
Il est couramment utilisé dans des applications où une organisation claire des fichiers est nécessaire avant 
de procéder à leur manipulation ou leur traitement.

**Objectif** : Créer automatiquement les répertoires nécessaires, en s'assurant qu'ils existent avant d'effectuer 
des opérations de lecture ou d'écriture.

**Approche** :
1. Définir un dossier principal (`dossier_excel`) pour stocker les fichiers Excel.
2. Créer des sous-dossiers pour les types de fichiers connexes (`dossier_pdfs` et `dossier_audios`).
3. Utiliser `os.makedirs()` pour chaque répertoire afin de vérifier leur existence avant leur création.

**Avantages** :
- Évite les erreurs de chemin manquant lors de l'accès à des fichiers.
- Simplifie la gestion des fichiers en les organisant de manière hiérarchique et structurée.

**Prérequis** :
- Le module `os` doit être disponible (installé par défaut avec Python).
- Le dossier de base (`dossier_excel`) sera automatiquement créé s'il n'existe pas.

In [None]:
# Définition du dossier principal pour les fichiers Excel
dossier_excel = 'Fichiers_Excel'

# Création d'un sous-dossier "PDFs" à l'intérieur de "Fichiers_Excel"
dossier_pdfs = os.path.join(dossier_excel, 'PDFs')

# Création d'un sous-dossier "Audios" à l'intérieur de "Fichiers_Excel"
dossier_audios = os.path.join(dossier_excel, 'Audios')

# Création du répertoire principal "Fichiers_Excel" s'il n'existe pas encore
os.makedirs(dossier_excel, exist_ok=True)

# Création du sous-dossier "PDFs" s'il n'existe pas encore
os.makedirs(dossier_pdfs, exist_ok=True)

# Création du sous-dossier "Audios" s'il n'existe pas encore
os.makedirs(dossier_audios, exist_ok=True)

# Connexion à la base de données

Ce script établit une connexion à une base de données MongoDB. 
Il configure la connexion, choisit la base de données, puis sélectionne une collection spécifique où les opérations de lecture et d'écriture seront effectuées.

**Objectif** : Connecter le programme à une instance MongoDB pour pouvoir interagir avec les données de manière structurée.

**Contexte** : Utilisé dans des applications nécessitant une interaction fréquente avec une base de données MongoDB, 
par exemple pour stocker, modifier, ou récupérer des documents de manière efficace.

**Approche** :
1. Initialiser un client MongoDB en fournissant l'URI (Uniform Resource Identifier) de connexion.
2. Spécifier la base de données (`db`) sur laquelle le programme va opérer.
3. Choisir la collection (`collection`) où seront effectuées les opérations de stockage et de lecture.

**Avantages** :
- Centralise la gestion des données dans un système de base de données robuste.
- Permet un accès rapide et structuré aux informations via des requêtes MongoDB.

**Prérequis** :
- Le module `pymongo` doit être installé (`pip install pymongo`).
- Un compte MongoDB avec les droits d'accès à la base de données.
- L'URI de connexion doit être correctement formaté et sécurisé.


In [None]:
# Initialisation de la connexion à MongoDB à l'aide de l'URI fourni
client = MongoClient('mongodb+srv://serginemengue46:tu3uF7Ap0g2RQDou@cluster0.7xuvx.mongodb.net')  
# URI de connexion : contient les informations de l'utilisateur, le mot de passe, et l'hôte (cluster MongoDB).

# Sélection de la base de données MongoDB spécifique
db = client['nom_de_ta_base']  # Remplacer par le nom de la base de données que vous souhaitez utiliser.

# Sélection de la collection "Proreno" dans la base de données choisie
collection = db['Proreno']  # La collection Proreno est où les documents seront insérés et consultés.

# Options du navigateur pour Chrome

Ce script configure les options pour le navigateur Chrome avant de lancer une instance automatisée via Selenium. 
Ces options personnalisent le comportement du navigateur pour optimiser le processus d'automatisation et éviter les interruptions.

**Objectif** : Configurer le navigateur Chrome de manière à désactiver certaines fonctionnalités qui pourraient 
interférer avec l'automatisation (ex: notifications, pop-ups, etc.) et améliorer la stabilité et la vitesse de navigation.

**Contexte** : Utilisé dans les projets de scraping web ou de tests automatisés, où il est essentiel de réduire 
les interruptions du navigateur pour garantir une exécution fluide et fiable.

**Approche** :
1. Créer un objet `chrome_options` pour spécifier les configurations du navigateur.
2. Ajouter plusieurs arguments (`add_argument`) pour désactiver les notifications, les barres d'informations, et autres éléments perturbateurs.
3. Utiliser des options expérimentales pour masquer les signes d'automatisation et maximiser la fenêtre de manière dynamique.

**Avantages** :
- Évite les interruptions liées aux notifications, pop-ups et barres d'informations.
- Réduit les risques de détection d'automatisation par certains sites.
- Optimise la performance du navigateur (moins de ressources GPU utilisées).

**Prérequis** :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le driver Chrome (`chromedriver`) doit être installé et accessible dans le `PATH`.

In [None]:
# Créer un objet `ChromeOptions` pour définir des options personnalisées pour le navigateur Chrome
chrome_options = webdriver.ChromeOptions()  # Initialisation de l'objet contenant les configurations du navigateur.

# Désactiver les notifications du navigateur (par exemple, les demandes de permissions)
chrome_options.add_argument("--disable-notifications")  

# Désactiver le blocage des pop-ups pour s'assurer que les fenêtres contextuelles n'interfèrent pas avec les tests
chrome_options.add_argument("--disable-popup-blocking")  

# Désactiver l'utilisation du GPU pour minimiser la consommation de ressources
chrome_options.add_argument("--disable-gpu")  

# Nécessaire pour les environnements Linux (empêche certains problèmes liés au sandboxing)
chrome_options.add_argument("--no-sandbox")  

# Désactiver les barres d'informations qui indiquent que Chrome est géré par un logiciel automatisé
chrome_options.add_argument("--disable-infobars")  

# Désactiver toutes les extensions du navigateur pour éviter les interférences lors de l'automatisation
chrome_options.add_argument("--disable-extensions")  

# Désactiver des fonctionnalités spécifiques liées à la sécurité de l'isolation du site
chrome_options.add_argument("--disable-features=IsolateOrigins,site-per-process")  

# Démarrer le navigateur en mode maximisé pour avoir une meilleure visibilité de la page
chrome_options.add_argument("--start-maximized")  

# Masquer l'alerte "Chrome est contrôlé par un logiciel automatisé" en excluant certaines options
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])  

# Désactiver l'extension d'automatisation intégrée à Chrome pour empêcher les sites de détecter Selenium
chrome_options.add_experimental_option("useAutomationExtension", False)  

# Fonction pour générer un chemin unique pour les fichiers téléchargés

Cette fonction génère un chemin unique pour un fichier à télécharger dans un dossier spécifique. 
Elle vérifie si un fichier du même nom existe déjà dans le répertoire cible et, si c'est le cas, 
elle modifie le nom en y ajoutant un compteur pour éviter tout conflit.

**Objectif** : Garantir que chaque fichier téléchargé a un nom unique pour éviter l'écrasement des fichiers existants.

**Contexte** : Utile dans des applications de gestion de fichiers ou de téléchargement, où plusieurs fichiers 
peuvent avoir le même nom d'origine, ce qui nécessite de les différencier pour éviter les conflits.

**Approche** :
1. Vérifier si le nom de fichier d'origine (`original_filename`) existe déjà dans le dossier spécifié (`dossier`).
2. Si le fichier existe, extraire son nom de base (`base`) et son extension (`extension`).
3. Ajouter un compteur (`counter`) pour créer une version unique du nom de fichier (exemple: `nom_1.pdf`, `nom_2.pdf`).
4. Répéter jusqu'à obtenir un nom de fichier unique, puis retourner le chemin final.

**Avantages** :
- Évite l'écrasement accidentel de fichiers avec des noms identiques.
- Génère des noms de fichiers lisibles et structurés avec des suffixes numériques.

**Prérequis** :
- Le module `os` doit être disponible (installé par défaut avec Python).
- Le répertoire cible (`dossier`) doit exister pour éviter les erreurs lors de la création du chemin.

**Paramètres**:
- `dossier`: Chemin du dossier où le fichier sera enregistré.
- `original_filename`: Nom de fichier d'origine.

**Retourne**:
- `filename`: Chemin complet avec un nom unique pour le fichier.

In [None]:
def generer_chemin_fichier(dossier, original_filename):
    
    # Générer le chemin initial basé sur le nom de fichier d'origine
    filename = os.path.join(dossier, original_filename)  # Chemin complet du fichier avec le nom d'origine.

    # Vérifier si un fichier avec le même nom existe déjà
    if os.path.exists(filename):  
        # Séparer le nom de base et l'extension pour préparer une version modifiée du nom
        base, extension = os.path.splitext(original_filename)  # Ex: "rapport.pdf" devient base="rapport", extension=".pdf"

        # Initialiser un compteur pour générer des noms uniques
        counter = 1  

        # Boucle pour trouver un nom de fichier disponible en incrémentant le compteur
        while os.path.exists(os.path.join(dossier, f"{base}_{counter}{extension}")):
            counter += 1  # Incrémenter le compteur jusqu'à ce que le nom de fichier soit disponible

        # Générer un nouveau chemin de fichier unique en ajoutant le compteur au nom de base
        filename = os.path.join(dossier, f"{base}_{counter}{extension}")  

    # Retourner le chemin complet du fichier avec un nom unique
    return filename  


# Refus de cookies

Cette fonction est utilisée pour automatiser le refus des cookies lors de la navigation sur des sites web via Selenium. 
Elle localise le bouton de refus de cookies (souvent libellé "Tout refuser") et effectue un clic pour le désactiver.

**Objectif** : Assurer que les scripts d'automatisation ou de scraping ne sont pas perturbés par les fenêtres de consentement aux cookies.

**Contexte** : Utilisée lors de l'automatisation de la navigation sur des sites qui imposent des choix de consentement (cookies). 
Ces pop-ups peuvent bloquer l'accès à d'autres éléments de la page, ce qui rend nécessaire leur désactivation.

**Approche** :
1. Rechercher le bouton correspondant au refus des cookies par son `XPATH`.
2. Scroll automatique pour rendre le bouton visible dans la fenêtre du navigateur.
3. Attendre que le bouton soit cliquable et exécuter le clic.
4. Gérer les erreurs pour éviter les interruptions en cas de problème (exemple : élément introuvable).

**Avantages** :
- Permet de gagner du temps en évitant l'acceptation manuelle des cookies.
- Facilite le scraping sur des sites qui utilisent des pop-ups de consentement pour bloquer l'accès.

**Prérequis** :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `WebDriver` doit être correctement configuré et relié au navigateur choisi.
- Le bouton de refus de cookies doit être identifiable par le `XPATH` utilisé dans le code.

In [None]:
# Fonction pour refuser les cookies sur une page web
def click_refuse_cookies(driver):
    try:
        # Afficher un message dans la console pour indiquer le début de la recherche du bouton de refus des cookies
        print("Recherche du bouton 'Tout refuser' des cookies")

        # Utiliser WebDriverWait pour attendre la présence du bouton de refus de cookies sur la page.
        # Le bouton est identifié par son `XPATH` et son attribut aria-label spécifique.
        refuse_button = WebDriverWait(driver, 20).until(
            EC.presence_of_element_located(
                (By.XPATH, "//button[@aria-label=\"Refuser l'utilisation de cookies et d'autres données aux fins décrites\"]")
            )
        )

        # Exécuter un script JavaScript pour s'assurer que le bouton est visible à l'écran en scrollant vers lui
        driver.execute_script("arguments[0].scrollIntoView(true);", refuse_button)

        # Attendre que le bouton devienne cliquable avant d'exécuter le clic
        WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable(
                (By.XPATH, "//button[@aria-label=\"Refuser l'utilisation de cookies et d'autres données aux fins décrites\"]")
            )
        )

        # Cliquer sur le bouton pour refuser l'utilisation des cookies
        refuse_button.click()

        # Afficher un message indiquant que le clic a été effectué avec succès
        print("Bouton 'Tout refuser' des cookies cliqué")

    except Exception as e:
        # Si une erreur se produit (ex: bouton introuvable ou délai dépassé), afficher le message d'erreur
        print(f"Erreur lors du refus des cookies : {str(e)}")

# Téléchargement d'audios

Cette fonction télécharge une liste de fichiers audio à partir d'une série d'URLs, les enregistre localement dans un dossier spécifique,
et retourne les chemins d'accès aux fichiers téléchargés.

**Objectif** : Récupérer des fichiers audio depuis le web, les enregistrer de manière structurée dans un répertoire local 
et stocker leurs chemins pour une utilisation ultérieure.

**Contexte** : Utilisé dans les applications nécessitant de télécharger des ressources audio, comme des podcasts, des fichiers sonores, 
ou des narrations, afin de les organiser localement et de pouvoir y accéder facilement.

**Approche** :
1. Parcourir chaque URL de la liste `liens_audio`.
2. Effectuer une requête HTTP pour récupérer le fichier audio.
3. Générer un chemin unique dans le dossier local pour éviter les conflits de noms.
4. Enregistrer le contenu audio dans le fichier local.
5. Gérer les erreurs et continuer le téléchargement pour les fichiers suivants.

**Avantages** :
- Automatise le téléchargement de fichiers audio depuis différentes sources.
- Permet de gérer les erreurs et de continuer même si un fichier ne peut pas être téléchargé.

**Prérequis** :
- Le module `requests` doit être installé (`pip install requests`).
- La fonction `generer_chemin_fichier` doit être définie au préalable pour éviter les conflits de noms.
- Le dossier de destination (`dossier_audios`) doit être préalablement créé.

In [None]:
# Fonction pour télécharger des fichiers audio depuis une liste d'URLs
def telecharger_audio(liens_audio):
    chemins_audios = []  # Liste pour stocker les chemins des fichiers audio téléchargés

    # Parcourir chaque URL fournie dans la liste de liens audio
    for url in liens_audio:
        try:
            # Envoyer une requête HTTP pour télécharger le contenu du fichier audio
            response = requests.get(url)
            response.raise_for_status()  # Vérifier si la requête a réussi (code 200)

            # Générer un chemin unique pour le fichier audio dans le dossier spécifié pour éviter les conflits
            filename = generer_chemin_fichier(dossier_audios, url.split('/')[-1])  
            print(f"Téléchargement de l'audio depuis {url} et sauvegarde sous : {filename}")

            # Enregistrer le fichier audio localement en mode binaire ('wb')
            with open(filename, 'wb') as f:
                f.write(response.content)  # Écrire le contenu de la réponse dans le fichier local

            # Ajouter le chemin du fichier téléchargé à la liste des chemins
            chemins_audios.append(filename)  
            print(f"Audio téléchargé : {filename}")

        # Gérer les erreurs lors du téléchargement (ex: requête échouée ou problème de connexion)
        except Exception as e:
            print(f"Erreur lors du téléchargement de l'audio {url} : {e}")

    # Retourner la liste des chemins des fichiers audio téléchargés
    return chemins_audios

# Téléchargemnt de pdf

Cette fonction télécharge une liste de fichiers PDF à partir de différentes URLs, les enregistre localement dans un dossier spécifique 
et retourne les chemins d'accès aux fichiers téléchargés.

**Objectif** : Télécharger des fichiers PDF depuis des liens web, les organiser dans un répertoire local et conserver 
les chemins d'accès pour une utilisation ou un traitement ultérieur.

**Contexte** : Utilisée dans des applications nécessitant de récupérer et de stocker des documents PDF (par exemple, des rapports, des études, ou des fichiers de référence) 
pour un accès structuré.

**Approche** :
1. Parcourir chaque URL de la liste `liens_pdf`.
2. Effectuer une requête HTTP pour récupérer le contenu du fichier PDF.
3. Générer un chemin unique dans le dossier de destination pour éviter les conflits de noms.
4. Enregistrer le contenu PDF dans un fichier local.
5. Gérer les erreurs et continuer à télécharger les fichiers suivants en cas de problème.

**Avantages** :
- Automatise le téléchargement de plusieurs fichiers PDF en une seule exécution.
- Gère les erreurs de téléchargement de façon à ne pas interrompre tout le processus.

**Prérequis** :
- Le module `requests` doit être installé (`pip install requests`).
- La fonction `generer_chemin_fichier` doit être définie au préalable pour éviter les conflits de noms.
- Le dossier de destination (`dossier_pdfs`) doit exister ou être créé avant l'exécution.

In [None]:
# Fonction pour télécharger des fichiers PDF depuis une liste d'URLs
def telecharger_pdfs(liens_pdf):
    chemins_pdfs = []  # Liste pour stocker les chemins des fichiers PDF téléchargés

    # Parcourir chaque URL fournie dans la liste de liens PDF
    for url in liens_pdf:
        try:
            # Envoyer une requête HTTP pour télécharger le contenu du fichier PDF
            response = requests.get(url)
            response.raise_for_status()  # Vérifier si la requête a réussi (code 200)

            # Générer un chemin unique pour le fichier PDF dans le dossier spécifié pour éviter les conflits
            filename = generer_chemin_fichier(dossier_pdfs, url.split('/')[-1])  
            print(f"Téléchargement du PDF depuis {url} et sauvegarde sous : {filename}")

            # Enregistrer le fichier PDF localement en mode binaire ('wb')
            with open(filename, 'wb') as f:
                f.write(response.content)  # Écrire le contenu de la réponse dans le fichier local

            # Ajouter le chemin du fichier téléchargé à la liste des chemins
            chemins_pdfs.append(filename)  
            print(f"PDF téléchargé : {filename}")

        # Gérer les erreurs lors du téléchargement (ex: requête échouée ou problème de connexion)
        except Exception as e:
            print(f"Erreur lors du téléchargement du PDF {url} : {e}")

    # Retourner la liste des chemins des fichiers PDF téléchargés
    return chemins_pdfs

# Exportation des données dans la BDD

Cette fonction exporte des données structurées vers une collection MongoDB. Elle vérifie si un document pour un thème spécifique existe déjà. 
Si ce n'est pas le cas, elle crée un nouveau document avec ce thème. Ensuite, elle met à jour le document avec les données extraites, 
ainsi que les chemins des fichiers PDF et audio.

**Objectif** : Enregistrer ou mettre à jour des données thématiques dans une base MongoDB, 
tout en gérant les informations associées telles que les fichiers PDF et audios.

**Contexte** : Utilisée dans des applications qui collectent et analysent des données, 
et qui nécessitent un stockage structuré et accessible pour des traitements ultérieurs.

**Approche** :
1. Vérifier l'existence d'un document correspondant au thème dans la collection MongoDB.
2. Créer un document si le thème n'existe pas.
3. Insérer les nouvelles données extraites dans le document existant ou créé.
4. Ajouter les chemins des fichiers PDF et audio liés.
5. Gérer les erreurs d'insertion ou de mise à jour de la base de données.

**Avantages** :
- Automatise le stockage des données extraites dans une base de données.
- Gère la création de documents et la mise à jour sans duplication.
- Permet de lier facilement les chemins de fichiers associés (PDF et audio).

**Prérequis** :
- Le module `pymongo` doit être installé (`pip install pymongo`).
- Une connexion valide à une instance MongoDB.
- La collection MongoDB (`collection`) doit être préalablement définie.


In [None]:
# Fonction pour exporter les données dans MongoDB
def exporter_vers_mongodb(donnees, chemins_pdfs, chemins_audios, theme):
    try:
        # Rechercher si un document pour le thème spécifié existe déjà dans la collection
        document = collection.find_one({'theme': theme})
        
        if not document:
            # Si le document n'existe pas, créer un nouveau document pour le thème
            document = {
                'theme': theme,  # Nom du thème
                'data': [],  # Liste vide pour stocker les données extraites
                'pdf_paths': [],  # Liste vide pour stocker les chemins des fichiers PDF
                'audio_paths': []  # Liste vide pour stocker les chemins des fichiers audio
            }
            
            # Insérer le nouveau document dans la collection et récupérer son ID
            theme_doc_id = collection.insert_one(document).inserted_id
            print(f"Nouveau document créé pour le thème '{theme}' avec l'ID : {theme_doc_id}")
        else:
            # Si le document existe, récupérer l'ID du document
            theme_doc_id = document['_id']

        # Ajouter les nouvelles données extraites au document correspondant au thème
        for line in donnees:
            collection.update_one(
                {'_id': theme_doc_id},  # Identifier le document par son ID
                {'$push': {
                    'data': {  # Ajouter un nouvel enregistrement de données
                        'Titre': line[0],
                        'Description': line[1],
                        'Résumé': line[2],
                        'Nombre_de_téléchargements': line[3],
                        'Nombre_de_likes': line[4],
                        'Nombre_d_avis': line[5],
                        'Nombre_d_ecoutes': line[6],
                        'Nombre_de_vues': line[7],
                        'Nombre_de_pages': line[8],
                        'Type_de_chantier': line[9],
                        'Type_de_bâtiment': line[10],
                        'Lots_impliqués': line[11],
                        'Sujets_techniques_associés': line[12],
                        'Étape_de_chantier': line[13],
                        'Contributeur': line[14],
                        'Lien': line[15],
                        'Lien_video': line[16],
                        'Titre_video': line[17],
                        'Description_video': line[18],
                        'Propriétaire_video': line[19],
                        'Nombre_de_vues_video': line[20],
                        'Nombre_de_commentaires_video': line[21],
                        'Date_de_publication_video': line[22],
                        'Nombre_de_likes_video': line[23],
                        'audio_paths': chemins_audios,  # Chemins des fichiers audios téléchargés
                        'pdf_paths': chemins_pdfs  # Chemins des fichiers PDFs téléchargés
                    }
                }}
            )

        # Afficher un message indiquant la réussite de l'exportation des données
        print(f"Données pour le thème '{theme}' mises à jour avec succès dans MongoDB.")

    except Exception as e:
        # Si une erreur survient, afficher un message d'erreur avec les détails
        print(f"Erreur lors de l'exportation vers MongoDB : {str(e)}")

# Extraction des informations sur une page

Cette fonction extrait les informations d'une page web donnée en utilisant Selenium pour naviguer sur la page 
et BeautifulSoup pour analyser le contenu HTML. Les informations extraites incluent le titre, la description, le résumé, 
ainsi que d'autres détails pertinents tels que les statistiques (téléchargements, likes, avis, etc.), 
les types de bâtiments, les lots impliqués, les étapes de chantier et les contributeurs.

**Objectif** : Extraire toutes les informations pertinentes d'une page web et les organiser sous forme structurée 
pour un traitement ultérieur.

**Contexte** : Utilisée dans des applications de scraping de données pour obtenir des informations détaillées sur 
des pages spécifiques, notamment des rapports ou des fiches descriptives de projets.

**Approche** :
1. Naviguer sur la page spécifiée à l'aide de Selenium.
2. Extraire le contenu HTML de la page avec BeautifulSoup.
3. Rechercher les différents éléments en utilisant des sélecteurs CSS (`class`, `id`, etc.) et extraire le texte.
4. Organiser les informations dans un format structuré (liste de données).
5. Gérer les exceptions et afficher les erreurs en cas de problème.

**Avantages** :
- Capable d'extraire de multiples informations sur une page, y compris les liens vers des ressources multimédias (PDF, audio, vidéo).
- Gestion robuste des erreurs et possibilité de récupérer partiellement les données même en cas d'éléments manquants.

**Prérequis** :
- Le module `selenium` doit être installé et configuré (`pip install selenium`).
- Le module `beautifulsoup4` doit être installé (`pip install beautifulsoup4`).
- Le `WebDriver` de Selenium doit être compatible avec le navigateur utilisé.

In [None]:
# Fonction pour extraire les informations d'une page web
def recuperer_info_de_page(lien, navigateur):
    try:
        # Charger la page web avec Selenium
        navigateur.get(lien)
        time.sleep(5)  # Attendre que la page se charge complètement

        # Extraire le contenu HTML de la page chargée
        page_html = navigateur.page_source
        soup = bs(page_html, 'html.parser')  # Analyser le contenu HTML avec BeautifulSoup

        # Extraire le titre de la page
        titre = soup.find('h1', class_='title-1 relative z-10').get_text(strip=True) if soup.find('h1', class_='title-1 relative z-10') else 'N/A'

        # Extraire la description de la page (balise <h2>)
        description_element = soup.find('h2', class_='w-full lg:w-[90%] font-light')
        description = description_element.string.strip() if description_element else 'N/A'

        # Extraire le résumé de la page (balise <p>)
        resume_element = soup.find('p', class_='font-light leading-[1.8] whitespace-pre-line')
        resume = resume_element.string.strip() if resume_element else 'N/A'

        # Extraire les statistiques de téléchargements, likes, avis, etc.
        telechargements = 'N/A'
        div_telechargements = soup.find('div', class_='flex justify-between items-center lg:justify-start lg:gap-40')
        if div_telechargements:
            divs_internes = div_telechargements.find_all('div', class_='flex items-center gap-5')
            for div_interne in divs_internes:
                element_telechargements = div_interne.find('span', class_='text-14 font-semibold')
                sibling_texte = element_telechargements.find_next_sibling('span', class_='text-11')
                if sibling_texte and sibling_texte.text.strip() == 'téléchargements':
                    telechargements = element_telechargements.text.strip()
                    break

        # Extraire le nombre de likes
        likes = 'N/A'
        if div_telechargements:
            for div_interne in divs_internes:
                element_likes = div_interne.find('span', class_='text-14 font-semibold')
                sibling_texte = element_likes.find_next_sibling('span', class_='text-11')
                if sibling_texte and sibling_texte.text.strip() == "J'aime":
                    likes = element_likes.text.strip()
                    break

        # Extraire le nombre d'avis
        avis = 'N/A'
        lien_avis = soup.find('a', class_='flex items-center gap-5 no-underline group')
        if lien_avis:
            element_avis = lien_avis.find('span', class_='text-14 font-semibold')
            if element_avis:
                avis = element_avis.string.strip()

        # Extraire le nombre d'écoutes
        ecoutes = 'N/A'
        ecoutes_element = soup.find('span', class_='icon-sound text-white text-20 mr-[3px]')
        if ecoutes_element:
            ecoutes_span = ecoutes_element.find_next('span', class_='text-14 font-semibold')
            if ecoutes_span:
                text_sibling = ecoutes_span.find_next_sibling('span', class_='text-11')
                if text_sibling and text_sibling.text.strip() == 'écoutes':
                    ecoutes = ecoutes_span.text.strip()

        # Extraire le nombre de vues
        vues = 'N/A'
        vues_element = soup.find('span', class_='icon-play text-white text-20 mr-[3px]')
        if vues_element:
            vues_span = vues_element.find_next('span', class_='text-14 font-semibold')
            if vues_span:
                text_sibling = vues_span.find_next_sibling('span', class_='text-11')
                if text_sibling and text_sibling.text.strip() == 'vues':
                    vues = vues_span.text.strip()

        # Extraire le nombre de pages du document
        nombre_de_pages = 'N/A'
        div_nombre_de_pages = soup.find('div', class_='flex items-center gap-5')
        if div_nombre_de_pages:
            spans = div_nombre_de_pages.find_all('span', class_='text-14 font-semibold')
            for span in spans:
                sibling_texte = span.find_next_sibling('span', class_='text-11')
                if sibling_texte and sibling_texte.text.strip() == 'pages':
                    nombre_de_pages = span.text.strip()
                    break

        # Extraire les informations sur le type de chantier
        type_de_chantier = 'N/A'
        div_type_de_chantier = soup.find('div', class_='flex items-center gap-10 flex-wrap')
        if div_type_de_chantier:
            liens_chantier = div_type_de_chantier.find_all('a', class_='no-underline')
            type_de_chantier = ', '.join([lien.text.strip() for lien in liens_chantier]) if liens_chantier else 'N/A'

        # Extraire les informations sur le type de bâtiment
        type_de_batiment = 'N/A'
        divs_type_de_batiment = soup.find_all('div', class_='flex items-center gap-10 flex-wrap')
        if len(divs_type_de_batiment) > 1:
            liens_batiment = divs_type_de_batiment[1].find_all('a', class_='no-underline')
            type_de_batiment = ', '.join([lien.text.strip() for lien in liens_batiment]) if liens_batiment else 'N/A'

        # Extraire les informations sur les lots impliqués
        lots_impliques = 'N/A'
        if len(divs_type_de_batiment) > 2:
            liens_lots = divs_type_de_batiment[2].find_all('a', class_='no-underline')
            lots_impliques = ', '.join([lien.text.strip() for lien in liens_lots]) if liens_lots else 'N/A'

        # Extraire les sujets techniques associés
        sujets_techniques_associes = 'N/A'
        if len(divs_type_de_batiment) > 3:
            liens_sujets = divs_type_de_batiment[3].find_all('a', class_='no-underline')
            sujets_techniques_associes = ', '.join([lien.text.strip() for lien in liens_sujets]) if liens_sujets else 'N/A'

        # Extraire l'étape de chantier
        etape_de_chantier = 'N/A'
        ul_etape_de_chantier = soup.find('ul', class_='flex justify-start items-center gap-30 flex-wrap')
        if ul_etape_de_chantier:
            p_etapes = ul_etape_de_chantier.find_all('p')
            etape_de_chantier = ', '.join([p.text.strip() for p in p_etapes]) if p_etapes else 'N/A'

        # Extraire les informations sur les contributeurs
        contributeur = 'N/A'
        div_contributeur = soup.find('div', class_='flex flex-col gap-10 py-10')
        if div_contributeur:
            p_elements = div_contributeur.find_all('p')
            contributeur = '\n'.join([p.text.strip() for p in p_elements]) if p_elements else 'N/A'

        # Extraire les liens vers les fichiers PDF
        liens_pdf = []
        pdf_link = soup.find('a', id='downloadLink')
        if pdf_link and pdf_link['href'].lower().endswith('.pdf'):
            full_url = urljoin(lien, pdf_link['href'])
            liens_pdf.append(full_url)

        # Extraire les liens vers les fichiers audio
        liens_audio = []
        audio_elements = soup.find_all('audio', preload="metadata")
        for audio in audio_elements:
            if 'src' in audio.attrs:
                full_url = urljoin(lien, audio['src'])
                liens_audio.append(full_url)

        # Récupérer les informations vidéo (si disponibles)
        infos_video = []
        liens_video = []
        div_videos = soup.find('dialog', id='video-popin')
        if div_videos:
            iframe_elements = div_videos.find_all('iframe', src=True)
            for iframe in iframe_elements:
                src = iframe['src']
                full_url = urljoin(lien, src)
                if 'youtube-nocookie.com/embed/' in full_url:
                    video_id = full_url.split('youtube-nocookie.com/embed/')[1]
                    youtube_url = f'https://www.youtube.com/watch?v={video_id}'
                    liens_video.append(youtube_url)
                    infos_video.append(extraire_infos_youtube(navigateur, youtube_url))

        # Si aucune information vidéo n'est trouvée, initialiser avec des valeurs par défaut
        infos_video = infos_video[0] if infos_video else ['N/A'] * 7
        if not liens_video:
            liens_video = ["N/A"]

        # Afficher un message indiquant la réussite de l'extraction
        print(f"\nExtraction des informations pour le lien {lien} réussie.")

        # Organiser les informations extraites dans une liste
        info = [
            titre,
            description,
            resume,
            telechargements,
            likes,
            avis,
            ecoutes,
            vues,
            nombre_de_pages,
            type_de_chantier,
            type_de_batiment,
            lots_impliques,
            sujets_techniques_associes,
            etape_de_chantier,
            contributeur,
            lien, 
            ', '.join(liens_video),  # Liens vidéo
            infos_video[0],  # Titre vidéo
            infos_video[1],  # Description vidéo
            infos_video[2],  # Propriétaire vidéo
            infos_video[3],  # Vues vidéo
            infos_video[4],  # Nombre de commentaires vidéo
            infos_video[5],  # Date de publication
            infos_video[6],  # Nombre de likes vidéo
        ]

        # Retourner les informations extraites ainsi que les liens PDF et audio
        return info, liens_pdf, liens_audio, liens_video

    except Exception as e:
        # Afficher un message d'erreur en cas de problème
        print(f"Erreur lors de l'extraction des informations : {str(e)}")
        return None, [], [], []


# Extraction des informations sur youtube 

Cette fonction extrait les informations d'une vidéo YouTube en utilisant Selenium pour naviguer sur la page. 
Elle collecte des informations telles que le titre de la vidéo, la description, le propriétaire de la chaîne, 
le nombre de vues, la date de publication, le nombre de commentaires et de likes.

**Objectif** : Automatiser l'extraction des informations détaillées d'une vidéo YouTube pour les organiser et les exploiter ultérieurement.

**Contexte** : Utilisée pour récupérer les métadonnées des vidéos YouTube, par exemple pour analyser des chaînes, 
réaliser des études de contenu, ou structurer les informations d'une vidéo particulière.

**Approche** :
1. Charger la page de la vidéo YouTube à l'aide de Selenium.
2. Gérer l'affichage de la page (acceptation/refus des cookies, clic sur "Afficher plus").
3. Extraire les informations de la vidéo en identifiant les éléments spécifiques du DOM.
4. Structurer ces informations sous forme de liste pour une utilisation ou un stockage ultérieur.

**Avantages** :
- Automatise la récupération de toutes les informations pertinentes d'une vidéo YouTube.
- Gestion des exceptions pour continuer le traitement même en cas d'erreur sur certaines informations.

**Prérequis** :
- Le module `selenium` doit être installé (`pip install selenium`).
- Un WebDriver compatible (par exemple, `chromedriver`) doit être configuré pour le navigateur choisi.
- L'accès à la page YouTube doit être disponible sans restrictions (ex : pas de blocage régional).


In [None]:
# Fonction pour extraire les informations d'une vidéo YouTube
def extraire_infos_youtube(navigateur, lien_video):
    try:
        # Charger la page de la vidéo YouTube avec Selenium
        navigateur.get(lien_video)
        time.sleep(10)  # Attendre que la page soit complètement chargée

        # Gérer la fenêtre de consentement aux cookies (si présente)
        try:
            bouton_refuser_cookies = WebDriverWait(navigateur, 10).until(
                EC.element_to_be_clickable((By.XPATH, '/html/body/c-wiz/div/div/div/div[2]/div[1]/div[3]/div[1]/form[1]/div/div/button/span'))
            )
            bouton_refuser_cookies.click()
        except TimeoutException:
            pass  # Si le bouton de cookies n'apparaît pas, continuer l'exécution

        # Scroller vers le bas pour charger tous les éléments de la page
        navigateur.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)  # Attendre que les éléments soient bien chargés

        # Afficher la description complète de la vidéo (cliquer sur le bouton "Afficher plus" si présent)
        try:
            bouton_afficher_plus = WebDriverWait(navigateur, 10).until(
                EC.element_to_be_clickable((By.ID, 'expand'))
            )
            bouton_afficher_plus.click()
        except TimeoutException:
            pass  # Si le bouton n'est pas trouvé, continuer

        # Extraire le titre de la vidéo
        try:
            titre_video = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[1]/h1/yt-formatted-string'))
            ).text
        except:
            titre_video = "N/A"

        # Extraire la description de la vidéo
        try:
            description_video = WebDriverWait(navigateur, 10).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-text-inline-expander/yt-attributed-string'))
            ).text
        except:
            description_video = "N/A"

        # Extraire le nom du propriétaire de la chaîne
        try:
            proprietaire_video = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.style-scope.ytd-channel-name'))
            ).text
        except:
            proprietaire_video = "N/A"

        # Extraire le nombre de vues de la vidéo
        try:
            vues_video = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[1]'))
            ).text
        except:
            vues_video = "N/A"

        # Extraire la date de publication de la vidéo
        try:
            date_publication = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[3]'))
            ).text
        except:
            date_publication = "N/A"

        # Extraire le nombre de commentaires de la vidéo
        try:
            nombre_commentaires = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.count-text.style-scope.ytd-comments-header-renderer'))
            ).text
        except:
            nombre_commentaires = "N/A"

        # Extraire le nombre de likes de la vidéo
        try:
            nombre_likes = WebDriverWait(navigateur, 10).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]'))
            ).text
        except:
            nombre_likes = "N/A"

        # Organiser toutes les informations dans une liste
        infos_video = [
            titre_video,  # Titre de la vidéo
            description_video,  # Description de la vidéo
            proprietaire_video,  # Propriétaire de la chaîne
            vues_video,  # Nombre de vues de la vidéo
            nombre_commentaires,  # Nombre de commentaires de la vidéo
            date_publication,  # Date de publication de la vidéo
            nombre_likes  # Nombre de likes de la vidéo
        ]

        # Retourner les informations extraites
        return infos_video

    except Exception as e:
        # Afficher un message d'erreur si l'extraction échoue
        print(f"Erreur lors de l'extraction des informations de la vidéo YouTube : {str(e)}")
        return ['N/A'] * 7  # Retourner des valeurs par défaut en cas d'échec

# Extraction des informations sur toutes les pages

Cette fonction gère l'extraction, le téléchargement et l'exportation des données d'une liste de liens web. 
Elle commence par extraire les informations de chaque page web spécifiée, puis télécharge les fichiers PDF et audio associés. 
Enfin, elle exporte toutes les données collectées vers MongoDB sous le thème spécifié.

**Objectif** : Extraire les informations de chaque lien, télécharger les fichiers associés, et organiser 
les données pour un stockage structuré dans une base de données MongoDB.

**Contexte** : Utilisée pour automatiser le scraping de pages multiples, récupérer des fichiers multimédias 
associés, et centraliser le tout dans une base de données afin de faciliter la gestion et l'analyse ultérieure.

**Approche** :
1. Parcourir chaque lien et extraire les informations de la page.
2. Collecter les chemins des fichiers PDF et audio associés.
3. Télécharger les fichiers PDF et audio s'ils sont présents.
4. Exporter toutes les informations extraites et les chemins de fichiers vers MongoDB.

**Avantages** :
- Gère l'extraction, le téléchargement et le stockage dans MongoDB en une seule fonction.
- Automatise le processus de collecte de données, réduisant le temps et les efforts manuels.

**Prérequis** :
- Les fonctions `recuperer_info_de_page`, `telecharger_pdfs`, `telecharger_audio` et `exporter_vers_mongodb` doivent être définies.
- La collection MongoDB doit être prête à recevoir les données extraites.


In [None]:
# Fonction pour extraire les informations des pages après avoir récupéré les liens
def extraire_donnees_apres_liens(navigateur, tous_liens, theme):
    toutes_donnees = []  # Liste pour stocker toutes les données extraites des pages web
    tous_liens_pdf = []  # Liste pour collecter les liens des fichiers PDF
    tous_liens_audio = []  # Liste pour collecter les liens des fichiers audio

    # Parcourir chaque lien dans la liste des liens fournis
    for lien in tous_liens:
        # Extraire les informations de la page ainsi que les liens vers les fichiers PDF et audio
        info, liens_pdf, liens_audio, _ = recuperer_info_de_page(lien, navigateur)
        if info:
            toutes_donnees.append(info)  # Ajouter les informations extraites à la liste `toutes_donnees`
        tous_liens_pdf.extend(liens_pdf)  # Ajouter les liens PDF à la liste globale `tous_liens_pdf`
        tous_liens_audio.extend(liens_audio)  # Ajouter les liens audio à la liste globale `tous_liens_audio`

    # Télécharger les fichiers PDF si des liens ont été collectés
    chemins_pdfs = telecharger_pdfs(tous_liens_pdf) if tous_liens_pdf else []  # Récupérer les chemins des fichiers PDF téléchargés

    # Télécharger les fichiers audio si des liens ont été collectés
    chemins_audios = telecharger_audio(tous_liens_audio) if tous_liens_audio else []  # Récupérer les chemins des fichiers audio téléchargés

    # Exporter toutes les données extraites vers MongoDB si la liste `toutes_donnees` n'est pas vide
    if toutes_donnees:
        print(f"{len(toutes_donnees)} enregistrements prêts à être exportés dans MongoDB.")  # Afficher le nombre d'enregistrements à exporter
        exporter_vers_mongodb(toutes_donnees, chemins_pdfs, chemins_audios, theme)  # Exporter les données vers MongoDB sous le thème spécifié

# Récupréation de liens sur une page

Cette fonction récupère les liens des éléments présents sur une page web. Elle utilise Selenium pour naviguer sur la page 
et BeautifulSoup pour analyser le contenu HTML. Elle recherche spécifiquement les liens dans une section précise 
de la page, les convertit en URLs complètes, puis les retourne sous forme de liste.

**Objectif** : Extraire tous les liens pertinents d'une section d'une page web afin de les utiliser 
pour l'extraction d'informations ultérieure.

**Contexte** : Utilisée dans des applications de scraping pour récupérer des liens menant à d'autres pages de détails, 
par exemple pour extraire les informations de projets ou d'articles listés sur une page principale.

**Approche** :
1. Analyser le contenu HTML de la page chargée à l'aide de BeautifulSoup.
2. Identifier la section contenant les liens d'intérêt en utilisant un sélecteur CSS précis.
3. Extraire tous les éléments `<a>` contenant des liens (`href`) et construire les URLs complètes.
4. Retourner la liste des liens trouvés.

**Avantages** :
- Simplifie la récupération de tous les liens pertinents d'une page structurée.
- Gère les erreurs pour éviter l'interruption de l'extraction en cas de problème.

**Prérequis** :
- Le module `beautifulsoup4` doit être installé (`pip install beautifulsoup4`).
- Un navigateur automatisé (`navigateur`) doit être configuré avec Selenium.

In [None]:
# Fonction pour récupérer les liens d'une page web
def recuperer_liens_de_page(navigateur):
    try:
        # Extraire le contenu HTML de la page actuelle
        page_html = navigateur.page_source  
        soup = bs(page_html, 'html.parser')  # Analyser le contenu HTML avec BeautifulSoup

        # Sélectionner la section spécifique contenant les liens (en utilisant un sélecteur CSS)
        section = soup.select_one('div.grid.gap-20.grid-cols-2.sm\\:grid-cols-3.xl\\:gap-30')
        
        liens = []  # Initialiser une liste vide pour stocker les liens extraits

        # Si la section est trouvée, rechercher tous les éléments <a> contenant des liens
        if section:
            elements_liens = section.find_all('a', href=True)  # Trouver tous les éléments <a> avec l'attribut `href`
            for element in elements_liens:
                url = element['href']  # Extraire le lien de l'attribut `href`
                # Convertir l'URL relative en URL absolue en utilisant l'URL actuelle de la page
                full_url = urljoin(navigateur.current_url, url)
                liens.append(full_url)  # Ajouter l'URL complète à la liste `liens`

        # Retourner la liste complète des liens trouvés sur la page
        return liens

    except Exception as e:
        # Afficher un message d'erreur si un problème survient lors de la récupération des liens
        print(f"Erreur lors de la récupération des liens sur la page : {str(e)}")
        return []  # Retourner une liste vide en cas d'erreur

# Pagination et récupération de liens

Cette fonction gère la pagination d'un site web et récupère les liens de chaque page. Elle utilise Selenium pour naviguer 
à travers plusieurs pages et BeautifulSoup pour extraire les liens d'intérêt. La fonction continue à parcourir les pages 
tant qu'un bouton "Suivant" est disponible, puis compile tous les liens extraits dans une liste.

**Objectif** : Récupérer tous les liens disponibles sur plusieurs pages d'un site comportant un système de pagination.

**Contexte** : Utilisée pour automatiser le scraping de sites avec de multiples pages de résultats, 
par exemple pour des catalogues de produits, des listes de projets, ou des articles répartis sur plusieurs pages.

**Approche** :
1. Charger la première page et attendre que les éléments de la page soient visibles.
2. Extraire les liens de chaque page à l'aide de `recuperer_liens_de_page`.
3. Vérifier la présence du bouton "Suivant" et naviguer vers la page suivante.
4. Répéter jusqu'à atteindre la dernière page, puis retourner la liste complète des liens.

**Avantages** :
- Automatisation complète de la navigation sur des pages paginées.
- Extraction fiable de tous les liens, même sur des sites à chargement dynamique.
- Gère les erreurs pour éviter l'interruption prématurée de l'extraction.

**Prérequis** :
- Le module `selenium` doit être installé (`pip install selenium`).
- La fonction `recuperer_liens_de_page` doit être définie pour extraire les liens de chaque page.
- Un WebDriver Selenium compatible doit être configuré et accessible.

In [None]:

# Fonction pour gérer la pagination et récupérer les liens de toutes les pages
def extraire_tous_les_liens(navigateur):
    tous_liens = []  # Liste pour stocker tous les liens récupérés de chaque page
    page = 1  # Compteur de pages, initialisé à 1

    # Boucle pour parcourir toutes les pages jusqu'à atteindre la dernière
    while True:
        try:
            # Attendre que les éléments de la grille des résultats soient chargés sur la page
            WebDriverWait(navigateur, 40).until(
                EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.grid.gap-20.grid-cols-2.sm\\:grid-cols-3.xl\\:gap-30'))
            )
            print(f"Résultats de la page {page} visibles")  # Confirmer que la page est chargée

            # Extraire les liens de la page actuelle en utilisant la fonction `recuperer_liens_de_page`
            liens_page = recuperer_liens_de_page(navigateur)
            tous_liens.extend(liens_page)  # Ajouter les liens récupérés à la liste `tous_liens`
            print(f"Liens récupérés pour la page {page} : {liens_page}")  # Afficher les liens récupérés

            # Rechercher le bouton "Suivant" pour passer à la page suivante
            try:
                bouton_suivant = WebDriverWait(navigateur, 20).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, 'nav.flex.gap-10 a:last-child'))  # Sélectionner le dernier bouton de navigation
                )

                # Vérifier si le bouton "Suivant" est désactivé, indiquant la dernière page
                if "disabled" in bouton_suivant.get_attribute("class"):
                    print("Dernière page atteinte.")  # Afficher un message si la dernière page est atteinte
                    break  # Sortir de la boucle si aucune page suivante n'est disponible
                else:
                    # Récupérer le lien vers la page suivante et naviguer vers celle-ci
                    lien_suivant = bouton_suivant.get_attribute('href')
                    navigateur.get(lien_suivant)  # Charger la page suivante
                    page += 1  # Incrémenter le numéro de page
                    time.sleep(3)  # Attendre que la page soit chargée avant de continuer

            # Gérer les exceptions si le bouton "Suivant" est introuvable ou si un problème survient lors du clic
            except (TimeoutException, NoSuchElementException):
                print("Erreur : Impossible de trouver ou cliquer sur le bouton 'Suivant'.")
                break  # Sortir de la boucle si le bouton "Suivant" n'est pas disponible ou cliquable

        # Gérer l'exception si le chargement de la page prend trop de temps
        except TimeoutException:
            print(f"Temps d'attente dépassé pour la page {page}")  # Afficher un message d'erreur pour la page en question
            break  # Sortir de la boucle en cas de délai d'attente dépassé

    # Retourner la liste de tous les liens collectés
    return tous_liens

# Recherche par thème

Cette fonction effectue une recherche sur le site `https://www.proreno.fr/` pour un thème donné. 
Elle utilise Selenium pour naviguer sur la page, entrer le thème dans la barre de recherche, puis cliquer 
sur le bouton de recherche. Une fois la recherche effectuée, la fonction lance la récupération des liens associés 
et l'extraction des données pour le thème.

**Objectif** : Automatiser la recherche sur un site web pour différents thèmes et extraire les informations 
et les liens pertinents associés.

**Contexte** : Utilisée pour automatiser la recherche de thématiques spécifiques sur des sites web, récupérer 
toutes les pages de résultats, et extraire les données détaillées pour une analyse ultérieure.

**Approche** :
1. Accéder à la page d'accueil du site.
2. Entrer le thème spécifié dans la barre de recherche et cliquer sur le bouton de recherche.
3. Attendre que la page de résultats se charge.
4. Parcourir les résultats pour récupérer tous les liens et extraire les informations associées.

**Avantages** :
- Permet de traiter plusieurs thèmes en une seule exécution.
- Gère les erreurs potentielles lors de la recherche et de la navigation.
- Automatisation complète du processus de recherche, récupération de liens et extraction de données.

**Prérequis** :
- Le module `selenium` doit être installé (`pip install selenium`).
- Un WebDriver (comme `chromedriver`) doit être configuré et accessible.
- Les fonctions `extraire_tous_les_liens` et `extraire_donnees_apres_liens` doivent être définies au préalable.

In [None]:
# Fonction pour effectuer une recherche sur le site pour un thème donné
def effectuer_recherche(navigateur, theme):
    try:
        # Accéder à la page d'accueil du site Proreno
        navigateur.get("https://www.proreno.fr/")
        
        # Localiser la barre de recherche par son ID et attendre qu'elle soit visible
        barre_recherche = WebDriverWait(navigateur, 20).until(
            EC.visibility_of_element_located((By.ID, 'autocomplete-input'))
        )
        barre_recherche.clear()  # Vider le champ de recherche au cas où il contient déjà du texte
        time.sleep(1)  # Pause courte pour assurer la stabilité avant d'entrer le texte

        # Entrer le thème spécifié dans la barre de recherche
        barre_recherche.send_keys(theme)

        # Localiser le bouton de recherche par ses attributs CSS et attendre qu'il soit cliquable
        bouton_recherche = WebDriverWait(navigateur, 20).until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, 'button[data-v-89374d9f][class*=btn-rounded][class*=search-btn]'))
        )
        
        # Utiliser un script JavaScript pour cliquer sur le bouton de recherche
        navigateur.execute_script("arguments[0].click();", bouton_recherche)
        time.sleep(3)  # Pause courte pour laisser le temps à la page de résultats de se charger

    except Exception as e:
        # Gérer les exceptions et afficher un message d'erreur en cas de problème
        print(f"Erreur lors de la recherche pour le thème '{theme}' : {str(e)}")


# Initialiser le navigateur avec les options Chrome configurées
navigateur = webdriver.Chrome(options=chrome_options)

# Liste des thèmes à rechercher
themes = ["Métiers de l'encadrement", "Transition environnementale"]

# Boucle principale pour traiter chaque thème de la liste
try:
    for theme in themes:
        # Effectuer une recherche pour le thème actuel
        effectuer_recherche(navigateur, theme)
        
        # Étape 1 : Récupérer tous les liens pour toutes les pages de résultats de la recherche
        tous_liens = extraire_tous_les_liens(navigateur)
        print(f"Nombre total de liens récupérés pour le thème '{theme}' : {len(tous_liens)}")

        # Étape 2 : Extraire les données après avoir récupéré tous les liens collectés
        extraire_donnees_apres_liens(navigateur, tous_liens, theme)

# Fermer le navigateur et libérer les ressources après l'exécution
finally:
    navigateur.quit()  # Fermer le navigateur une fois toutes les recherches terminées
    print("Navigateur fermé.")  # Afficher un message indiquant la fermeture du navigateur
