# Importation des bibliothèques nécessaires

In [None]:
import os
# Module intégré pour interagir avec le système d'exploitation, notamment pour manipuler des chemins de fichiers, accéder à des variables d'environnement, etc.

import time
# Module intégré pour gérer le temps, offrant des fonctions comme time.sleep() pour ajouter des pauses.

import requests
# Bibliothèque pour envoyer des requêtes HTTP (GET, POST, etc.), souvent utilisée pour extraire des données de pages web ou des API.

from selenium import webdriver
# Module Selenium pour automatiser des navigateurs web, ici pour lancer et contrôler un navigateur (Chrome, Firefox, etc.) programmé.

from selenium.webdriver.common.by import By
# Fournit un moyen de localiser les éléments dans une page web (par ID, CSS_SELECTOR, XPATH, etc.) lors de l'automatisation.

from selenium.webdriver.support.ui import WebDriverWait
# Utilisé pour attendre la présence d'éléments sur la page avant d'interagir avec eux, en réglant un temps d’attente maximal.

from selenium.webdriver.support import expected_conditions as EC
# Module définissant les conditions à attendre dans une page, comme la visibilité d’un élément, utilisé avec WebDriverWait.

from selenium.common.exceptions import TimeoutException, NoSuchElementException
# Exceptions de Selenium : TimeoutException est levée lorsque l’attente dépasse le délai imparti, NoSuchElementException lorsque l'élément n'est pas trouvé.

from openpyxl import Workbook, load_workbook
# Bibliothèque pour manipuler des fichiers Excel (.xlsx). Workbook crée un fichier, load_workbook charge un fichier existant.

from bs4 import BeautifulSoup as bs
# Bibliothèque BeautifulSoup pour extraire les données HTML, ici importée sous l’alias 'bs' pour simplifier son appel.

from urllib.parse import urljoin
# Fonction pour combiner les URL relatives et absolues, souvent utilisée pour compléter les URL partielles extraites de pages web.


# Configuration des fichiers

Ce script configure la structure de dossiers nécessaires pour organiser les fichiers dans un projet. Il crée un dossier principal nommé Fichiers_Excel avec deux sous-dossiers : PDFs pour stocker les fichiers PDF et Audios pour les fichiers audio.

- **dossier_excel** : Nom du dossier principal Fichiers_Excel pour contenir tous les fichiers de projet.
- **dossier_pdfs** : Sous-dossier PDFs pour les fichiers PDF, créé à l'intérieur de Fichiers_Excel.
- **dossier_audios** : Sous-dossier Audios pour les fichiers audio, créé également à l'intérieur de Fichiers_Excel.

Prérequis :

Les dossiers sont créés uniquement s'ils n'existent pas déjà, grâce à l'argument exist_ok=True, ce qui évite de générer des erreurs si les dossiers sont déjà présents.

In [None]:
# Configuration des dossiers

dossier_excel = 'Fichiers_Excel'
# Définition du nom du dossier principal 'Fichiers_Excel' où seront stockés les différents fichiers.
os.makedirs(dossier_excel, exist_ok=True)
# Création du dossier principal 'Fichiers_Excel' s'il n'existe pas encore.
# L'argument 'exist_ok=True' permet d'éviter une erreur si le dossier est déjà présent.

dossier_pdfs = os.path.join(dossier_excel, 'PDFs')
# Création du chemin pour le sous-dossier 'PDFs' à l'intérieur de 'Fichiers_Excel'.
# Ce sous-dossier est destiné à contenir les fichiers PDF.
os.makedirs(dossier_pdfs, exist_ok=True)
# Création du sous-dossier 'PDFs' dans 'Fichiers_Excel' s'il n'existe pas déjà.

dossier_audios = os.path.join(dossier_excel, 'Audios')
# Création du chemin pour le sous-dossier 'Audios' dans 'Fichiers_Excel'.
# Ce sous-dossier est dédié au stockage des fichiers audio.
os.makedirs(dossier_audios, exist_ok=True)
# Création du sous-dossier 'Audios' dans 'Fichiers_Excel' s'il n'existe pas encore.


# Options du navigateur

Ce script configure les options du navigateur Chrome pour une automatisation sans interruption, en désactivant certaines fonctionnalités et en maximisant la fenêtre pour une meilleure visibilité.

- **chrome_options** : Objet permettant de définir diverses options de démarrage pour Chrome.
- **Désactivation des notifications et des pop-ups** : Empêche les interruptions lors de la navigation automatisée en désactivant les notifications et en autorisant les pop-ups nécessaires.
- **Désactivation des fonctionnalités non essentielles** : Réduit la charge sur le navigateur en désactivant l’utilisation du GPU et les extensions.
-**Maximisation et invisibilité de l'automatisation** : Lance le navigateur en plein écran et masque les messages ou éléments révélant l'automatisation pour une expérience plus fluide.

Prérequis :

Ces options sont particulièrement utiles pour des environnements de test ou des scripts de web scraping, où l'interaction humaine est absente et où une stabilité maximale est recherchée.

In [None]:
# Configuration des options du navigateur Chrome

chrome_options = webdriver.ChromeOptions()
# Initialisation de l'objet ChromeOptions pour configurer les paramètres du navigateur.

chrome_options.add_argument("--disable-notifications")
# Désactive les notifications du navigateur (pop-ups de notifications du site), pour éviter les interruptions lors de la navigation automatisée.

chrome_options.add_argument("--disable-popup-blocking")
# Désactive le blocage des pop-ups, ce qui peut être nécessaire si certains éléments déclenchent des pop-ups importants pour l'automatisation.

chrome_options.add_argument("--disable-gpu")
# Désactive l'utilisation du GPU, utile pour réduire la charge sur le processeur graphique dans certains environnements.

chrome_options.add_argument("--no-sandbox")
# Désactive le mode sandbox de Chrome, souvent requis pour éviter certains conflits d'autorisation dans des environnements serveurs.

chrome_options.add_argument("--disable-infobars")
# Supprime la barre d'information "Chrome est contrôlé par un logiciel de test automatisé" qui peut apparaître en haut de la fenêtre du navigateur.

chrome_options.add_argument("--disable-extensions")
# Désactive toutes les extensions de Chrome, ce qui peut accélérer le chargement et limiter les interférences potentielles avec les extensions installées.

chrome_options.add_argument("--disable-features=IsolateOrigins,site-per-process")
# Désactive certaines fonctionnalités d'isolation de sites qui peuvent empêcher l'automatisation de fonctionner correctement sur certains sites.

chrome_options.add_argument("--start-maximized")
# Démarre le navigateur en plein écran pour garantir que tous les éléments de la page sont visibles sans défilement.

chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
# Exclut le commutateur "enable-automation" pour masquer le message "Chrome est contrôlé par un logiciel de test automatisé".

chrome_options.add_experimental_option("useAutomationExtension", False)
# Désactive l'extension d'automatisation de Chrome pour limiter les détecteurs d'automatisation qui pourraient bloquer le script.


# Fonction pour générer un chemin unique pour les fichiers téléchargés

La fonction `generer_chemin_fichier` permet de générer un chemin de fichier unique dans un dossier donné en évitant les conflits de noms. Si un fichier avec le même nom existe déjà dans le dossier, elle ajoute un compteur numérique au nom de fichier pour le différencier.

Paramètres :

- **dossier**: Le chemin du dossier où le fichier doit être créé.
- **original_filename** : Le nom de fichier initial souhaité.

Retour : Renvoie un chemin de fichier unique dans le dossier spécifié.

Processus :

Vérifie si un fichier avec le nom donné existe déjà dans le dossier.
Si oui, ajoute un suffixe numérique pour différencier le fichier tout en conservant l'extension d'origine.

In [None]:
def generer_chemin_fichier(dossier, original_filename):
    # Génère un chemin de fichier unique dans le dossier spécifié en évitant les conflits de noms de fichiers.

    filename = os.path.join(dossier, original_filename)
    # Crée le chemin complet pour le fichier en combinant le dossier et le nom de fichier d'origine.

    if os.path.exists(filename):
        # Vérifie si le fichier existe déjà dans le dossier pour éviter d'écraser un fichier existant.

        base, extension = os.path.splitext(original_filename)
        # Sépare le nom de fichier de son extension pour pouvoir ajouter un compteur en cas de doublon.
        
        counter = 1
        # Initialise un compteur pour différencier les fichiers ayant le même nom de base.

        while os.path.exists(os.path.join(dossier, f"{base}_{counter}{extension}")):
            # Tant qu'un fichier avec le nom modifié existe déjà, incrémente le compteur pour générer un nom unique.

            counter += 1
            # Incrémente le compteur de 1 pour chaque itération afin d'essayer un nouveau nom unique.

        filename = os.path.join(dossier, f"{base}_{counter}{extension}")
        # Génère un nom de fichier final en ajoutant le compteur au nom de base, suivi de l'extension d'origine.

    return filename
    # Retourne le chemin du fichier, garanti unique dans le dossier spécifié.


# Fonction pour refuser les cookies

La fonction `click_refuse_cookies` utilise Selenium pour interagir avec une page web et cliquer sur un bouton permettant de refuser les cookies. Elle est conçue pour gérer les paramètres de cookies automatiquement sur des sites web.

Paramètres :

- `driver`: Instance du navigateur (Selenium WebDriver) utilisée pour contrôler la page web.

Processus :

- Attente de l'apparition du bouton "Tout refuser" (20 secondes maximum).
- Défilement pour rendre le bouton visible dans la fenêtre, puis nouvelle attente pour s'assurer qu'il est cliquable.
- Clique sur le bouton pour refuser l'utilisation des cookies.
- En cas d'échec, affiche un message d'erreur contenant la raison de l'exception.

Cas d'usage : Cette fonction est utile pour automatiser la gestion des cookies lors de l'extraction de données ou des tests automatisés sur des sites web, en refusant systématiquement les cookies pour éviter les pop-ups.

In [None]:
def click_refuse_cookies(driver):
    # Tente de localiser et de cliquer sur le bouton "Tout refuser" pour refuser les cookies sur un site web.

    try:
        print("Recherche du bouton 'Tout refuser' des cookies")
        # Message pour indiquer le début de la recherche du bouton de refus des cookies.

        refuse_button = WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.XPATH, "//button[@aria-label=\"Refuser l'utilisation de cookies et d'autres données aux fins décrites\"]"))
        )
        # Attente explicite de 20 secondes pour que le bouton "Refuser" apparaisse sur la page.
        # Utilisation d'un sélecteur XPath pour localiser le bouton basé sur son attribut aria-label.

        driver.execute_script("arguments[0].scrollIntoView(true);", refuse_button)
        # Scrolle jusqu'au bouton "Refuser" pour s'assurer qu'il est visible dans la fenêtre avant d'essayer de cliquer.

        WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, "//button[@aria-label=\"Refuser l'utilisation de cookies et d'autres données aux fins décrites\"]")))
        # Attente supplémentaire de 10 secondes pour s'assurer que le bouton est cliquable.

        refuse_button.click()
        # Clique sur le bouton "Refuser" pour désactiver les cookies.

        print("Bouton 'Tout refuser' des cookies cliqué")
        # Message de confirmation indiquant que le bouton a été cliqué avec succès.

    except Exception as e:
        print(f"Erreur lors du refus des cookies : {str(e)}")
        # Gestion des exceptions en cas d'erreur, avec affichage du message d'erreur pour faciliter le débogage.


# Fonction pour télécharger les fichiers audio

La fonction `telecharger_audio` télécharge des fichiers audio depuis une liste d'URLs et les enregistre localement dans un dossier désigné. Elle assure que chaque fichier a un nom unique pour éviter tout conflit et compte le nombre de téléchargements réussis.

Paramètres :

- `liens_audio` : Liste d'URLs (chaînes de caractères) pointant vers les fichiers audio à télécharger.

Retour : Renvoie un entier représentant le nombre de fichiers audio téléchargés avec succès.

Processus :

Pour chaque URL, la fonction :

- Télécharge le fichier en envoyant une requête GET.
- Vérifie que la requête est réussie (pas d'erreur HTTP).
- Génère un nom de fichier unique en utilisant generer_chemin_fichier.
- Enregistre le fichier dans le dossier dossier_audios.
- Incrémente un compteur pour chaque téléchargement réussi.
- Gère les exceptions en affichant un message d'erreur pour les URLs qui échouent.

In [None]:
def telecharger_audio(liens_audio):
    # Télécharge une liste de fichiers audio depuis les URLs fournies et les enregistre dans un dossier spécifié.

    count = 0  # Compteur pour les audios téléchargés avec succès

    for url in liens_audio:
        # Parcourt chaque URL dans la liste 'liens_audio'.

        try:
            response = requests.get(url)
            # Envoie une requête HTTP GET pour télécharger le contenu de l'URL.
            
            response.raise_for_status()
            # Vérifie que la requête a réussi (status code 200). 
            # Si une erreur survient (ex : 404, 500), une exception sera levée.

            filename = generer_chemin_fichier(dossier_audios, url.split('/')[-1])
            # Génère un chemin de fichier unique pour éviter d'écraser des fichiers existants.
            # Utilise le nom de fichier provenant de l'URL.

            print(f"Téléchargement de l'audio depuis {url} et sauvegarde sous : {filename}")
            # Affiche un message indiquant le début du téléchargement et le chemin de sauvegarde.

            with open(filename, 'wb') as f:
                f.write(response.content)
            # Ouvre le fichier en mode binaire et écrit le contenu téléchargé dans le fichier local.

            count += 1  # Incrémente le compteur pour chaque téléchargement réussi
            print(f"Audio téléchargé : {filename}")
            # Affiche un message de confirmation pour chaque fichier téléchargé.

        except Exception as e:
            print(f"Erreur lors du téléchargement de l'audio {url} : {e}")
            # En cas d'exception (connexion échouée, URL invalide, etc.), affiche un message d'erreur.

    print(f"{count} fichiers audio ont été téléchargés.")
    # Affiche le nombre total de fichiers téléchargés après la fin de la boucle.

    return count  # Retourne le nombre de fichiers audio téléchargés avec succès.


# Fonction pour télécharger les fichiers PDF

La fonction `telecharger_pdfs` télécharge des fichiers PDF depuis une liste d'URLs et les enregistre localement dans un dossier désigné. Elle garantit un nom de fichier unique pour chaque téléchargement et compte le nombre de téléchargements réussis.

Paramètres :

- `liens_pdf` : Liste d'URLs (chaînes de caractères) pointant vers les fichiers PDF à télécharger.

Retour :

Renvoie un entier représentant le nombre de fichiers PDF téléchargés avec succès.

Processus :

Pour chaque URL, la fonction :

- Télécharge le fichier en envoyant une requête GET.
- Vérifie que la requête est réussie (pas d'erreur HTTP).
- Génère un nom de fichier unique en utilisant generer_chemin_fichier.
- Enregistre le fichier dans le dossier dossier_pdfs.
- Incrémente un compteur pour chaque téléchargement réussi.
- Gère les exceptions en affichant un message d'erreur pour les URLs qui échouent.

In [None]:
def telecharger_pdfs(liens_pdf):
    # Télécharge une liste de fichiers PDF depuis les URLs fournies et les enregistre dans un dossier spécifié.

    count = 0  # Compteur pour les PDF téléchargés avec succès

    for url in liens_pdf:
        # Parcourt chaque URL dans la liste 'liens_pdf'.

        try:
            response = requests.get(url)
            # Envoie une requête HTTP GET pour télécharger le contenu de l'URL.
            
            response.raise_for_status()
            # Vérifie que la requête a réussi (status code 200).
            # Si une erreur survient (ex : 404, 500), une exception sera levée.

            filename = generer_chemin_fichier(dossier_pdfs, url.split('/')[-1])
            # Génère un chemin de fichier unique pour éviter d'écraser des fichiers existants.
            # Utilise le nom de fichier provenant de l'URL.

            print(f"Téléchargement du PDF depuis {url} et sauvegarde sous : {filename}")
            # Affiche un message indiquant le début du téléchargement et le chemin de sauvegarde.

            with open(filename, 'wb') as f:
                f.write(response.content)
            # Ouvre le fichier en mode binaire et écrit le contenu téléchargé dans le fichier local.

            count += 1  # Incrémente le compteur pour chaque téléchargement réussi
            print(f"PDF téléchargé : {filename}")
            # Affiche un message de confirmation pour chaque fichier téléchargé.

        except Exception as e:
            print(f"Erreur lors du téléchargement du PDF {url} : {e}")
            # En cas d'exception (connexion échouée, URL invalide, etc.), affiche un message d'erreur.

    print(f"{count} fichiers PDF ont été téléchargés.")
    # Affiche le nombre total de fichiers téléchargés après la fin de la boucle.

    return count  # Retourne le nombre de fichiers PDF téléchargés avec succès.


# Fonction pour exporter les données vers un fichier Excel sans écraser les anciennes données

La fonction `exporter_vers_excel` exporte une liste de données dans un fichier Excel nommé `data_proreno.xlsx`, situé dans un dossier spécifié. Elle crée le fichier avec des en-têtes si celui-ci n'existe pas encore ou ajoute simplement les données si le fichier est déjà présent.

Paramètres :

- `donnees`: Liste de listes, où chaque sous-liste représente une ligne de données à ajouter au fichier Excel.

Processus :

- Vérifie si le fichier Excel `data_proreno.xlsx` existe.
- Si oui, le charge et utilise la feuille active.
- Sinon, crée un nouveau fichier avec une feuille nommée "Informations complètes" et y ajoute une ligne d'en-têtes.
- Pour chaque ligne de donnees, ajoute les informations au fichier, en remplaçant les valeurs None par des chaînes vides.
- Sauvegarde le fichier une fois toutes les lignes ajoutées.

In [None]:
def exporter_vers_excel(donnees):
    # Exporte les données fournies dans un fichier Excel nommé 'data_proreno.xlsx' situé dans le dossier spécifié.

    try:
        # Chemin vers le fichier Excel
        excel_path = os.path.join(dossier_excel, 'data_proreno.xlsx')
        # Détermine le chemin complet du fichier Excel où les données seront exportées.

        # Si le fichier existe déjà, on le charge, sinon on en crée un nouveau
        if os.path.exists(excel_path):
            wb = load_workbook(excel_path)  # Charger le fichier existant
            ws = wb.active  # Sélectionner la feuille active
        else:
            wb = Workbook()  # Créer un nouveau fichier Excel
            ws = wb.active
            ws.title = 'Informations complètes'
            # Initialise une nouvelle feuille de calcul et définit son titre.

            # Définition des en-têtes (uniquement pour un nouveau fichier)
            en_tetes = [
                'Titre', 'Description', 'Résumé', 'Nombre de téléchargements', 
                "Nombre de likes", "Nombre d'avis", 'Nombre d’écoutes', 'Nombre de vues', 
                'Nombre de pages', 'Type de chantier', 'Type de bâtiment', 'Lots impliqués', 
                'Sujets techniques associés', 'Étape de chantier', 'Contributeur', 
                'Lien', 'Lien vidéo', 'Titre vidéo', 'Description vidéo', 
                'Propriétaire vidéo', 'Nombre de vues vidéo', 'Nombre de commentaires vidéo', 
                'Date de publication', 'Nombre de likes vidéo'
            ]
            ws.append(en_tetes)  # Ajouter les en-têtes si le fichier est nouveau
            # Ajoute une ligne d'en-têtes pour structurer les colonnes, seulement si le fichier est créé.

        # Ajouter chaque ligne de données au fichier Excel
        for info in donnees:
            print(f"Ajout des données suivantes à Excel : {info}")
            # Affiche chaque ligne de données ajoutée pour un suivi visuel.

            cleaned_info = [str(item) if item is not None else '' for item in info]
            # Remplace les valeurs 'None' par des chaînes vides pour éviter les erreurs de format.

            ws.append(cleaned_info)  # Ajouter la ligne au fichier Excel
            # Ajoute la ligne de données au fichier Excel.

        # Sauvegarder le fichier Excel
        wb.save(excel_path)
        # Sauvegarde le fichier Excel avec toutes les données ajoutées.

        print(f"Données exportées avec succès vers : {excel_path}")
        # Message de confirmation pour indiquer que l'exportation a réussi.

    except Exception as e:
        print(f"Une erreur est survenue lors de l'exportation vers Excel : {str(e)}")
        # Gère les exceptions en affichant un message d'erreur pour faciliter le débogage.


# Fonction pour extraire les informations d'une vidéo YouTube

La fonction `extraire_infos_youtube` utilise Selenium pour extraire des informations d'une vidéo YouTube, telles que le titre, la description, le nombre de vues, le propriétaire, la date de publication, le nombre de likes et le nombre de commentaires. Elle scrolle la page, clique sur "Afficher plus" pour charger toutes les informations, et gère les pop-ups de cookies.

Paramètres :

- **navigateur** : Instance du WebDriver Selenium, utilisée pour naviguer et interagir avec la page YouTube.
- **lien_video** : URL de la vidéo YouTube à analyser.

Retour :

Renvoie une liste avec les informations de la vidéo, ou ['N/A'] * 7 en cas d'échec.

Étapes de l'extraction :

- Charge la page et refuse les cookies (si le pop-up est présent).
- Scrolle la page pour afficher tous les éléments nécessaires.
- Clique sur "Afficher plus" pour révéler la description complète.
- Extrait les informations du titre, de la description, du propriétaire, du nombre de vues, de la date de publication, du nombre de likes, et du nombre de commentaires (ou indique "N/A" si les commentaires sont désactivés).

In [None]:
# Fonction pour extraire les informations d'une vidéo YouTube
def extraire_infos_youtube(navigateur, lien_video):
    # Extrait les informations d'une vidéo YouTube en chargeant la page et en récupérant le titre, 
    # la description, le nombre de vues, le propriétaire, la date de publication, le nombre de likes, 
    # et le nombre de commentaires (si disponibles).

    try:
        # Charger la page YouTube
        navigateur.get(lien_video)
        time.sleep(10)  # Pause pour laisser la page se charger complètement

        # Refuser les cookies si le pop-up est présent
        try:
            bouton_refuser_cookies = WebDriverWait(navigateur, 10).until(
                EC.element_to_be_clickable((By.XPATH, '/html/body/c-wiz/div/div/div/div[2]/div[1]/div[3]/div[1]/form[1]/div/div/button/span'))
            )
            bouton_refuser_cookies.click()
            print("Pop-up des cookies refusé")
        except TimeoutException:
            print("Pas de pop-up de cookies ou déjà refusé")

        # Scroller pour charger tous les éléments de la page
        navigateur.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)

        # Cliquer sur "Afficher plus" pour révéler la description complète
        try:
            bouton_afficher_plus = WebDriverWait(navigateur, 10).until(
                EC.element_to_be_clickable((By.ID, 'expand'))
            )
            bouton_afficher_plus.click()
            print("Bouton 'Afficher plus' cliqué")
        except TimeoutException:
            print("Le bouton 'Afficher plus' n'a pas été trouvé ou n'est pas cliquable.")

        # Extraction du titre de la vidéo
        try:
            titre_video = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[1]/h1/yt-formatted-string'))
            ).text
            print(f"Titre de la vidéo récupéré : {titre_video}")
        except Exception as e:
            titre_video = "N/A"
            print(f"Erreur lors de l'extraction du titre de la vidéo : {str(e)}")

        # Extraction de la description complète de la vidéo
        try:
            description_video = WebDriverWait(navigateur, 10).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-text-inline-expander/yt-attributed-string'))
            ).text
            print(f"Description de la vidéo récupérée : {description_video}")
        except Exception as e:
            description_video = "N/A"
            print(f"Erreur lors de l'extraction de la description de la vidéo : {str(e)}")

        # Extraction du propriétaire de la vidéo
        try:
            proprietaire_video = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.style-scope.ytd-channel-name'))
            ).text
            print(f"Propriétaire de la vidéo récupéré : {proprietaire_video}")
        except Exception as e:
            proprietaire_video = "N/A"
            print(f"Erreur lors de l'extraction du propriétaire de la vidéo : {str(e)}")

        # Extraction du nombre de vues
        try:
            vues_video = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[1]'))
            ).text
            print(f"Nombre de vues récupéré : {vues_video}")
        except Exception as e:
            vues_video = "N/A"
            print(f"Erreur lors de l'extraction du nombre de vues : {str(e)}")

        # Extraction de la date de publication
        try:
            date_publication = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[3]'))
            ).text
            print(f"Date de publication récupérée : {date_publication}")
        except Exception as e:
            date_publication = "N/A"
            print(f"Erreur lors de l'extraction de la date de publication : {str(e)}")

        # Extraction du nombre de commentaires
        try:
            commentaire_desactive_element = WebDriverWait(navigateur, 20).until(
                EC.presence_of_element_located((By.XPATH, "//yt-formatted-string[contains(text(), 'Les commentaires sont désactivés')]"))
            )
            if commentaire_desactive_element:
                nombre_commentaires = "N/A"
                print("Les commentaires sont désactivés sur cette vidéo.")
        except TimeoutException:
            try:
                nombre_commentaires = WebDriverWait(navigateur, 20).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.count-text.style-scope.ytd-comments-header-renderer'))
                ).text
                print(f"Nombre de commentaires récupéré : {nombre_commentaires}")
            except Exception as e:
                nombre_commentaires = "N/A"
                print(f"Erreur lors de l'extraction du nombre de commentaires : {str(e)}")

        # Extraction du nombre de likes
        try:
            nombre_likes = WebDriverWait(navigateur, 10).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]'))
            ).text
        except TimeoutException:
            nombre_likes = "N/A"
            print("Erreur lors de l'extraction du nombre de likes")

        # Compilation des informations extraites
        infos_video = [
            titre_video, description_video, proprietaire_video, vues_video, nombre_commentaires,
            date_publication, nombre_likes
        ]

        print(f"Informations de la vidéo YouTube extraites : {infos_video}")
        return infos_video

    except Exception as e:
        # En cas d'erreur, afficher l'erreur et renvoyer 'N/A' pour toutes les informations
        print(f"Erreur lors de l'extraction des informations de la vidéo YouTube : {str(e)}")
        return ['N/A'] * 7


# Fonction pour récupérer les informations d'une page à partir du lien

La fonction `recuperer_info_de_page` utilise un navigateur Selenium pour accéder à une page web et BeautifulSoup pour extraire des informations spécifiques telles que le titre, la description, les métriques, et les liens vers des fichiers PDF, audio et vidéo.

Paramètres :

- **lien** : URL de la page web à analyser.
- **navigateur** : Instance du navigateur Selenium (WebDriver) utilisée pour charger et interagir avec la page.

Retour :

Renvoie une liste d'informations extraites et trois listes de liens (PDF, audio, vidéo).

Processus :

- Charge la page via Selenium et extrait le contenu HTML.
- Utilise BeautifulSoup pour extraire des informations spécifiques (titre, description, métriques, etc.).
- Récupère les liens vers les fichiers PDF, audio et les vidéos YouTube intégrées.
- Gère les erreurs pour assurer la robustesse du code.

In [33]:

def recuperer_info_de_page(lien, navigateur):
    try:
        # Charger la page dans le navigateur
        navigateur.get(lien)
        time.sleep(5)  # Pause pour laisser la page charger

        # Extraire le HTML de la page
        page_html = navigateur.page_source
        soup = bs(page_html, 'html.parser')

        # Extraire les informations nécessaires
        titre = soup.find('h1', class_='title-1 relative z-10').get_text(strip=True) if soup.find('h1', class_='title-1 relative z-10') else 'N/A'
        description_element = soup.find('h2', class_='w-full lg:w-[90%] font-light')
        description = description_element.string.strip() if description_element else 'N/A'

        resume_element = soup.find('p', class_='font-light leading-[1.8] whitespace-pre-line')
        resume = resume_element.string.strip() if resume_element else 'N/A'

        # Vérifier que chaque champ contient une valeur pour éviter les désalignements
        telechargements = 'N/A'
        div_telechargements = soup.find('div', class_='flex justify-between items-center lg:justify-start lg:gap-40')
        if div_telechargements:
            divs_internes = div_telechargements.find_all('div', class_='flex items-center gap-5')
            for div_interne in divs_internes:
                element_telechargements = div_interne.find('span', class_='text-14 font-semibold')
                if element_telechargements:
                    sibling_texte = element_telechargements.find_next_sibling('span', class_='text-11')
                    if sibling_texte and sibling_texte.text.strip() == 'téléchargements':
                        telechargements = element_telechargements.text.strip()
                        break

        likes = 'N/A'
        if div_telechargements:
            for div_interne in divs_internes:
                element_likes = div_interne.find('span', class_='text-14 font-semibold')
                if element_likes:
                    sibling_texte = element_likes.find_next_sibling('span', class_='text-11')
                    if sibling_texte and sibling_texte.text.strip() == "J'aime":
                        likes = element_likes.text.strip()
                        break

        avis = 'N/A'
        lien_avis = soup.find('a', class_='flex items-center gap-5 no-underline group')
        if lien_avis:
            element_avis = lien_avis.find('span', class_='text-14 font-semibold')
            if element_avis:
                avis = element_avis.string.strip()

        ecoutes = 'N/A'
        ecoutes_element = soup.find('span', class_='icon-sound text-white text-20 mr-[3px]')
        if ecoutes_element:
            ecoutes_span = ecoutes_element.find_next('span', class_='text-14 font-semibold')
            if ecoutes_span:
                text_sibling = ecoutes_span.find_next_sibling('span', class_='text-11')
                if text_sibling and text_sibling.text.strip() == 'écoutes':
                    ecoutes = ecoutes_span.text.strip()

        vues = 'N/A'
        vues_element = soup.find('span', class_='icon-play text-white text-20 mr-[3px]')
        if vues_element:
            vues_span = vues_element.find_next('span', class_='text-14 font-semibold')
            if vues_span:
                text_sibling = vues_span.find_next_sibling('span', class_='text-11')
                if text_sibling and text_sibling.text.strip() == 'vues':
                    vues = vues_span.text.strip()

        nombre_de_pages = 'N/A'
        div_nombre_de_pages = soup.find('div', class_='flex items-center gap-5')
        if div_nombre_de_pages:
            spans = div_nombre_de_pages.find_all('span', class_='text-14 font-semibold')
            for span in spans:
                sibling_texte = span.find_next_sibling('span', class_='text-11')
                if sibling_texte and sibling_texte.text.strip() == 'pages':
                    nombre_de_pages = span.text.strip()
                    break

        type_de_chantier = 'N/A'
        div_type_de_chantier = soup.find('div', class_='flex items-center gap-10 flex-wrap')
        if div_type_de_chantier:
            liens_chantier = div_type_de_chantier.find_all('a', class_='no-underline')
            type_de_chantier = ', '.join([lien.text.strip() for lien in liens_chantier]) if liens_chantier else 'N/A'

        type_de_batiment = 'N/A'
        divs_type_de_batiment = soup.find_all('div', class_='flex items-center gap-10 flex-wrap')
        if len(divs_type_de_batiment) > 1:
            liens_batiment = divs_type_de_batiment[1].find_all('a', class_='no-underline')
            type_de_batiment = ', '.join([lien.text.strip() for lien in liens_batiment]) if liens_batiment else 'N/A'

        lots_impliques = 'N/A'
        if len(divs_type_de_batiment) > 2:
            liens_lots = divs_type_de_batiment[2].find_all('a', class_='no-underline')
            lots_impliques = ', '.join([lien.text.strip() for lien in liens_lots]) if liens_lots else 'N/A'

        sujets_techniques_associes = 'N/A'
        if len(divs_type_de_batiment) > 3:
            liens_sujets = divs_type_de_batiment[3].find_all('a', class_='no-underline')
            sujets_techniques_associes = ', '.join([lien.text.strip() for lien in liens_sujets]) if liens_sujets else 'N/A'

        etape_de_chantier = 'N/A'
        ul_etape_de_chantier = soup.find('ul', class_='flex justify-start items-center gap-30 flex-wrap')
        if ul_etape_de_chantier:
            p_etapes = ul_etape_de_chantier.find_all('p')
            etape_de_chantier = ', '.join([p.text.strip() for p in p_etapes]) if p_etapes else 'N/A'

        contributeur = 'N/A'
        div_contributeur = soup.find('div', class_='flex flex-col gap-10 py-10')
        if div_contributeur:
            p_elements = div_contributeur.find_all('p')
            contributeur = '\n'.join([p.text.strip() for p in p_elements]) if p_elements else 'N/A'

        # Liens PDF et audio
        liens_pdf = []
        pdf_link = soup.find('a', id='downloadLink')
        if pdf_link and pdf_link['href'].lower().endswith('.pdf'):
            full_url = urljoin(lien, pdf_link['href'])
            liens_pdf.append(full_url)

        liens_audio = []
        audio_elements = soup.find_all('audio', preload="metadata")
        for audio in audio_elements:
            if 'src' in audio.attrs:
                full_url = urljoin(lien, audio['src'])
                liens_audio.append(full_url)

        # Récupérer les informations vidéo (si disponibles)
        infos_video = []
        liens_video = []
        div_videos = soup.find('dialog', id='video-popin')
        if div_videos:
            iframe_elements = div_videos.find_all('iframe', src=True)
            for iframe in iframe_elements:
                src = iframe['src']
                full_url = urljoin(lien, src)
                if 'youtube-nocookie.com/embed/' in full_url:
                    video_id = full_url.split('youtube-nocookie.com/embed/')[1]
                    youtube_url = f'https://www.youtube.com/watch?v={video_id}'
                    liens_video.append(youtube_url)
                    # Extraire les infos de la vidéo YouTube
                    infos_video.append(extraire_infos_youtube(navigateur, youtube_url))
        
        # Si une vidéo est trouvée mais sans détails, la marquer comme "N/A"
        if not infos_video:
            infos_video = [["N/A"] * 7]  # Si aucune vidéo n'est trouvée, définir toutes les infos vidéo à "N/A"

        infos_video = infos_video[0] if infos_video else ['N/A'] * 7

        # Ajouter cette ligne pour traiter les liens vidéo
        if not liens_video:
            liens_video = ["N/A"]

        # Afficher toutes les informations extraites dans la console
        print(f"\nExtraction des informations pour le lien {lien}")

        # Retourner les informations, les liens PDF et les liens audio
        info = [
            titre,
            description,
            resume,
            telechargements,
            likes,
            avis,
            ecoutes,
            vues,
            nombre_de_pages,
            type_de_chantier,
            type_de_batiment,
            lots_impliques,
            sujets_techniques_associes,
            etape_de_chantier,
            contributeur,
            lien, 
            ', '.join(liens_video),  # Liens vidéo
            infos_video[0],  # Titre vidéo
            infos_video[1],  # Description vidéo
            infos_video[2],  # Propriétaire vidéo
            infos_video[3],  # Vues vidéo
            infos_video[4],  # Nombre de commentaires vidéo
            infos_video[5],  # Date de publication
            infos_video[6],  # Nombre de likes vidéo
        ]
        
        return info, liens_pdf, liens_audio, liens_video

    except Exception as e:
        print(f"Une erreur est survenue lors de l'extraction des informations : {str(e)}")
        return None, [], [], []

# Fonction pour récupérer les liens de la section spécifique pour chaque page

La fonction `recuperer_liens_de_page` extrait les liens de la section spécifique d'une page web en analysant le contenu HTML avec BeautifulSoup. Elle cible uniquement les liens présents dans une section de mise en page prédéfinie.

Paramètres :

- `recuperer_liens_de_page` : Instance du WebDriver Selenium utilisée pour accéder à la page et obtenir son contenu HTML.
Retour :

Renvoie une liste de liens complets (URL) extraits de la section spécifique de la page. Si une erreur survient, elle renvoie une liste vide.

Étapes de l'extraction :

- Récupère le code source HTML de la page et le parse avec BeautifulSoup.
- Cible une section spécifique définie par des classes CSS particulières (`div.grid.gap-20.grid-cols-2.sm\\:grid-cols-3.xl\\:gap-30)`).
- Extrait tous les liens (`<a href="...">`) de cette section et les transforme en URLs complètes avec `urljoin`.

In [None]:
# Fonction pour récupérer les liens de la section spécifique pour chaque page
def recuperer_liens_de_page(navigateur):
    # Extrait les liens de la section spécifique d'une page web, en utilisant Selenium et BeautifulSoup pour l'analyse.

    try:
        # Extraire le HTML de la page
        page_html = navigateur.page_source
        soup = bs(page_html, 'html.parser')
        # Utilise BeautifulSoup pour parser le contenu HTML de la page et faciliter l'extraction des données.

        # Récupérer uniquement les liens dans la section spécifique
        section = soup.select_one('div.grid.gap-20.grid-cols-2.sm\\:grid-cols-3.xl\\:gap-30')
        liens = []
        
        if section:
            # Récupérer tous les liens 'a' dans cette section spécifique
            elements_liens = section.find_all('a', href=True)
            for element in elements_liens:
                url = element['href']
                full_url = urljoin(navigateur.current_url, url)  # Construire l'URL complète
                liens.append(full_url)
                # Ajoute chaque URL complète à la liste des liens extraits.

        return liens  # Retourner uniquement les liens de cette page
    except Exception as e:
        print(f"Erreur lors de la récupération des liens sur la page : {str(e)}")
        return []
        # En cas d'erreur, retourne une liste vide pour éviter l'interruption du processus.


# Fonction pour gérer la pagination et récupérer les liens de toutes les pages

La fonction `extraire_tous_les_liens` gère la pagination d'une section de résultats pour extraire les liens présents sur chaque page. Elle utilise une boucle pour avancer d’une page à l’autre jusqu’à la dernière page disponible.

Paramètres :

- `navigateur` : Instance du WebDriver Selenium, utilisée pour naviguer et interagir avec la page.

Retour :

Renvoie une liste contenant tous les liens extraits de toutes les pages disponibles.

Processus de pagination :

- Charge chaque page et attend que la section de résultats soit visible.
- Utilise la fonction `recuperer_liens_de_page` pour extraire les liens de la page courante et les ajoute à la liste `tous_liens`.
- Tente de trouver le bouton "Suivant" pour passer à la page suivante :
- Si le bouton est désactivé (fin de la pagination), arrête la boucle.
- Sinon, navigue vers le lien de la page suivante et continue le processus.
- Arrête la boucle en cas de dépassement du temps d'attente ou si le bouton "Suivant" est introuvable.

In [None]:
# Fonction pour gérer la pagination et récupérer les liens de toutes les pages
def extraire_tous_les_liens(navigateur):
    # Parcourt toutes les pages d'une section paginée pour extraire les liens en utilisant une boucle
    # de pagination. 

    tous_liens = []  # Liste pour stocker tous les liens extraits
    page = 1  # Compteur de page pour le suivi

    while True:
        try:
            # Attendre que la section de résultats soit chargée avant de récupérer les liens
            WebDriverWait(navigateur, 40).until(
                EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.grid.gap-20.grid-cols-2.sm\\:grid-cols-3.xl\\:gap-30'))
            )
            print(f"Résultats de la page {page} visibles")

            # Extraire les liens de cette page spécifique
            liens_page = recuperer_liens_de_page(navigateur)
            tous_liens.extend(liens_page)  # Ajouter les liens de cette page à la liste totale
            print(f"Liens récupérés pour la page {page} : {liens_page}")

            # Passer à la page suivante si possible
            try:
                bouton_suivant = WebDriverWait(navigateur, 20).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, 'nav.flex.gap-10 a:last-child'))
                )
                if "disabled" in bouton_suivant.get_attribute("class"):
                    print("Dernière page atteinte.")
                    break  # Arrêter la boucle si le bouton 'Suivant' est désactivé (dernière page)
                else:
                    lien_suivant = bouton_suivant.get_attribute('href')
                    navigateur.get(lien_suivant)  # Charger la page suivante
                    page += 1  # Incrémenter le numéro de page
                    time.sleep(3)  # Attendre que la page se charge

            except (TimeoutException, NoSuchElementException):
                print("Erreur : Impossible de trouver ou cliquer sur le bouton 'Suivant'.")
                break  # Arrêter la boucle si le bouton 'Suivant' n'est pas trouvé

        except TimeoutException:
            print(f"Temps d'attente dépassé pour la page {page}")
            break  # Arrêter la boucle si le chargement de la page prend trop de temps

    return tous_liens  # Retourner tous les liens récupérés


# Fonction principale pour extraire les données après avoir récupéré tous les liens

La fonction `extraire_donnees_apres_liens` gère l’extraction complète des données et des fichiers associés (PDF, audio) pour une liste de liens. Elle procède en extrayant les informations et les fichiers à partir de chaque lien, puis en exportant les données vers Excel et en téléchargeant les fichiers collectés.

Paramètres :

- `navigateur` : Instance du WebDriver Selenium utilisée pour charger et interagir avec chaque page.
- `tous_liens` : Liste de liens URL à partir desquels les informations et les fichiers seront extraits.

Retour :

Aucun retour, mais la fonction génère des sorties comme un fichier Excel contenant les données extraites et des téléchargements de fichiers PDF et audio.

Processus :

Pour chaque lien de la liste `tous_liens` :

- Utilise `recuperer_info_de_page` pour extraire les informations de la page ainsi que les liens vers les fichiers PDF et audio.
- Ajoute les informations extraites à `toutes_donnees`, les liens PDF à `tous_liens_pdf`, et les liens audio à `tous_liens_audio`.
- Exporte les données extraites dans un fichier Excel si `toutes_donnees`contient des enregistrements.
- Télécharge tous les fichiers PDF et audio collectés si les listes correspondantes contiennent des liens.

In [None]:
# Fonction principale pour extraire les données après avoir récupéré tous les liens
def extraire_donnees_apres_liens(navigateur, tous_liens):
    # Parcourt chaque lien pour extraire les informations et les fichiers associés,
    # puis exporte les données vers Excel et télécharge les fichiers PDF et audio collectés.

    toutes_donnees = []  # Liste pour stocker les informations extraites de chaque lien
    tous_liens_pdf = []  # Liste pour collecter les liens PDF à télécharger
    tous_liens_audio = []  # Liste pour collecter les liens audio à télécharger

    for lien in tous_liens:
        # Récupérer les informations et les fichiers associés pour chaque lien
        info, liens_pdf, liens_audio, _ = recuperer_info_de_page(lien, navigateur)
        
        if info:
            toutes_donnees.append(info)  # Ajouter les informations extraites à la liste des données

        tous_liens_pdf.extend(liens_pdf)  # Ajouter les liens PDF extraits à la liste totale
        tous_liens_audio.extend(liens_audio)  # Ajouter les liens audio extraits à la liste totale

    # Exporter toutes les données extraites vers un fichier Excel
    if toutes_donnees:
        print(f"{len(toutes_donnees)} enregistrements prêts à être exportés.")
        exporter_vers_excel(toutes_donnees)  # Appel de la fonction pour exporter les données dans un fichier Excel

    # Télécharger les fichiers PDF collectés
    if tous_liens_pdf:
        nombre_pdfs = telecharger_pdfs(tous_liens_pdf)
        print(f"Nombre total de PDF téléchargés : {nombre_pdfs}")

    # Télécharger les fichiers audio collectés
    if tous_liens_audio:
        nombre_audios = telecharger_audio(tous_liens_audio)
        print(f"Nombre total d'audios téléchargés : {nombre_audios}")


# Fonction pour effectuer une recherche pour un thème donné

Ce code effectue une recherche pour plusieurs thèmes sur le site de Proreno, extrait les liens et données associés, puis exporte les résultats dans un fichier Excel. La structure de traitement garantit que chaque recherche est effectuée de manière séquentielle pour chaque thème, en enregistrant les données et en téléchargeant les fichiers associés.

- Fonction `effectuer_recherche` : Exécute une recherche sur le site en utilisant Selenium pour interagir avec la barre de recherche et le bouton de validation.

Paramètres :

- `navigateur` : Instance du WebDriver Selenium utilisée pour charger la page et interagir avec les éléments.
- `theme` : Thème de recherche, une chaîne de caractères saisie dans la barre de recherche.

Bloc principal :

- Initialise le navigateur avec les options spécifiées.
- Définit les thèmes à rechercher et le chemin pour stocker les données.
- Supprime le fichier Excel précédent pour éviter tout conflit de données.

Pour chaque thème de la liste `themes` :

Utilise `effectuer_recherche` pour chercher le thème sur le site.
Utilise `extraire_tous_les_liens` pour récupérer tous les liens de la section paginée de résultats.
Utilise `extraire_donnees_apres_liens` pour extraire et enregistrer les données en fonction des liens.
Ferme le navigateur après la fin du traitement pour chaque thème.

In [None]:
# Fonction pour effectuer une recherche pour un thème donné
def effectuer_recherche(navigateur, theme):
    # Charge la page d'accueil, localise la barre de recherche, et effectue une recherche pour le thème donné.

    try:
        navigateur.get("https://www.proreno.fr/")
        # Charger la page d'accueil de Proreno

        barre_recherche = WebDriverWait(navigateur, 20).until(
            EC.visibility_of_element_located((By.ID, 'autocomplete-input'))
        )
        # Localiser la barre de recherche et attendre qu'elle soit visible

        barre_recherche.clear()  # Effacer la barre de recherche avant de saisir le nouveau thème
        time.sleep(1)  # Pause pour une meilleure stabilité du script
        barre_recherche.send_keys(theme)  # Saisir le thème dans la barre de recherche

        bouton_recherche = WebDriverWait(navigateur, 20).until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, 'button[data-v-89374d9f][class*=btn-rounded][class*=search-btn]'))
        )
        # Localiser le bouton de recherche et attendre qu'il soit cliquable

        navigateur.execute_script("arguments[0].click();", bouton_recherche)
        # Utiliser JavaScript pour cliquer sur le bouton de recherche
        time.sleep(3)  # Attendre que la page des résultats se charge

    except Exception as e:
        print(f"Erreur lors de la recherche pour le thème '{theme}' : {str(e)}")
        # Afficher un message d'erreur en cas de problème lors de la recherche

# Initialiser le navigateur
navigateur = webdriver.Chrome(options=chrome_options)

# Liste des thèmes à rechercher
themes = ["Transition environnementale", "Métiers de l'encadrement"]

# Chemin vers le fichier Excel de données
excel_path = os.path.join(dossier_excel, 'data_proreno.xlsx')

# Supprimer l'ancien fichier Excel s'il existe avant de traiter le premier thème
if os.path.exists(excel_path):
   os.remove(excel_path)

# Boucle principale pour traiter les thèmes
try:
    for theme in themes:
        effectuer_recherche(navigateur, theme)
        # Effectuer la recherche pour le thème actuel

        # Étape 1: Récupérer tous les liens pour toutes les pages
        tous_liens = extraire_tous_les_liens(navigateur)
        print(f"Nombre total de liens récupérés pour le thème '{theme}' : {len(tous_liens)}")

        # Étape 2: Extraire les données après avoir récupéré tous les liens
        extraire_donnees_apres_liens(navigateur, tous_liens)

finally:
    navigateur.quit()
    print("Navigateur fermé.")
    # Fermer le navigateur après l'exécution de toutes les recherches et extractions de données
