# Importation des bibliothèques nécessaires

In [None]:
# Importation du module 'driver' de la bibliothèque lib2to3.pgen2 (lib2to3 est un module utilisé pour automatiser la conversion de code source Python 2 vers Python 3)
from lib2to3.pgen2 import driver

# Importation de la bibliothèque Selenium pour le contrôle automatisé des navigateurs web
from selenium import webdriver

# Importation du module 'By' de Selenium pour sélectionner les éléments du DOM par divers attributs (id, name, class, etc.)
from selenium.webdriver.common.by import By

# Importation de 'WebDriverWait' de Selenium pour spécifier le délai d'attente pour trouver un élément sur une page
from selenium.webdriver.support.ui import WebDriverWait

# Importation de 'expected_conditions' de Selenium pour définir des conditions sur les éléments (comme être cliquable, visible, etc.)
from selenium.webdriver.support import expected_conditions as EC

# Importation de l'exception TimeoutException de Selenium pour gérer les erreurs de dépassement de temps
from selenium.common.exceptions import TimeoutException

# Importation de la bibliothèque BeautifulSoup pour analyser (parser) le HTML et extraire des données du contenu web
from bs4 import BeautifulSoup as bs

# Importation de la bibliothèque requests pour envoyer des requêtes HTTP (GET, POST, etc.)
import requests

# Importation de la bibliothèque os pour interagir avec le système d'exploitation (création de dossiers, manipulation de fichiers, etc.)
import os

# Importation de la classe Workbook de la bibliothèque openpyxl pour créer et manipuler des fichiers Excel
from openpyxl import Workbook

# Importation de la bibliothèque time pour manipuler les fonctions temporelles (temporisation, mesure du temps, etc.)
import time



### Configuration et initialisation du navigateur :

Cette section de code configure et initialise un navigateur web automatisé (Chrome) en utilisant la bibliothèque **Selenium**. L'objectif est de gérer les notifications et les pop-ups indésirables qui peuvent perturber le bon déroulement d'un processus automatisé. Ce script inclut également l'initialisation d'une liste pour stocker les liens trouvés lors de la navigation sur les pages web.

- **Objectif** : Configurer un navigateur Chrome automatisé avec des préférences spécifiques pour désactiver les notifications et préparer un espace de stockage pour les liens collectés.
- **Contexte** : Utilisé pour l'automatisation de tâches de scraping ou de tests automatisés où l'interaction avec des pop-ups peut perturber le déroulement du script.

- **Approche** :
  1. Définir les options de Chrome, incluant la désactivation des notifications.
  2. Appliquer ces options au navigateur automatisé.
  3. Initialiser le navigateur avec ces configurations.
  4. Créer une liste pour stocker tous les liens extraits des pages web.

- **Avantages** :
  - Assure que les interruptions de notifications ne bloquent pas le script.
  - Facilite la gestion des informations extraites en utilisant une structure de liste.

#### Prérequis :
- La bibliothèque `selenium` doit être installée (`pip install selenium`).
- Le `webdriver` de Chrome doit être configuré (téléchargement du `chromedriver`).
- Le module `chromedriver` doit être accessible dans le PATH du système ou le chemin d'accès doit être spécifié.


In [None]:


# Options du navigateur pour gérer les pop-ups et désactiver les notifications indésirables.
options = webdriver.ChromeOptions()  # Créer un objet d'options pour le navigateur Chrome.

# Préférences définies pour désactiver les notifications (valeur 2 désactive les notifications de manière globale).
prefs = {"profile.default_content_setting_values.notifications": 2}

# Ajouter ces préférences spécifiques dans la configuration du navigateur via les options.
options.add_experimental_option("prefs", prefs)

# Initialisation du navigateur Chrome avec les options configurées.
driver = webdriver.Chrome(options=options)

# Création d'une liste vide pour stocker tous les liens collectés lors de la navigation sur les pages web.
links_list = []



### Création de dossiers :

Ce segment de code crée des dossiers spécifiques pour organiser les fichiers téléchargés et générés par le script, en utilisant la bibliothèque **os** pour interagir avec le système de fichiers. Les dossiers sont créés pour stocker les images, les fichiers PDF, ainsi que les fichiers Excel générés lors du traitement des données.

- **Objectif** : Créer et organiser des répertoires pour stocker les différentes catégories de fichiers, tels que les images, les PDF et les fichiers Excel.
- **Contexte** : Utilisé dans des scripts de scraping ou de génération de rapports pour centraliser les résultats de manière ordonnée dans des répertoires dédiés.
  
- **Approche** :
  1. Définir le nom des dossiers pour chaque type de fichier.
  2. Vérifier si les dossiers existent déjà, sinon les créer automatiquement.
  3. Créer des répertoires distincts pour séparer chaque type de fichier afin de faciliter leur organisation.

- **Avantages** :
  - Assure que les fichiers sont organisés de manière cohérente.
  - Prévient les erreurs en créant automatiquement les répertoires s'ils n'existent pas.
  
#### Prérequis :
- La bibliothèque `os` doit être disponible (standard en Python).
- Les chemins d'accès spécifiés doivent avoir les permissions de création de dossiers.


In [None]:


# Dossier où enregistrer les images téléchargées
download_folder = 'Images'  # Nom du dossier pour les fichiers image.
os.makedirs(download_folder, exist_ok=True)  # Crée le dossier 'Images' s'il n'existe pas déjà.

# Dossier où enregistrer les fichiers PDF téléchargés
pdf_folder = 'PDFs'  # Nom du dossier pour les fichiers PDF.
os.makedirs(pdf_folder, exist_ok=True)  # Crée le dossier 'PDFs' s'il n'existe pas déjà.

# Dossier où enregistrer le fichier Excel
excel_folder = 'Fichiers_Excel'  # Nom du dossier pour les fichiers Excel.
os.makedirs(excel_folder, exist_ok=True)  # Crée le dossier 'Fichiers_Excel' s'il n'existe pas déjà.



### Création du fichier excel :

Ce segment de code initialise un nouveau classeur Excel en utilisant la bibliothèque **openpyxl** et crée une feuille de calcul intitulée *'Informations générales'*. Un ensemble d'en-têtes de colonnes est défini pour structurer les informations qui seront enregistrées dans cette feuille de calcul. Ce type de configuration est particulièrement utile pour centraliser et organiser les données extraites ou générées par le script sous forme de tableau dans un fichier Excel.

- **Objectif** : Créer un fichier Excel avec une feuille de calcul nommée, et définir des en-têtes de colonnes pour structurer les données.
- **Contexte** : Utilisé dans des contextes où il est nécessaire de sauvegarder des informations textuelles ou chiffrées dans un format tabulaire pour une analyse ou un traitement ultérieur.
  
- **Approche** :
  1. Créer un nouveau classeur Excel.
  2. Définir la feuille de calcul principale avec un titre explicite.
  3. Ajouter des en-têtes de colonnes correspondant aux catégories de données qui seront insérées dans le tableau.

- **Avantages** :
  - Facilite la centralisation des informations dans un format Excel compatible avec la plupart des outils de traitement de données.
  - Simplifie l'accès, la visualisation et l'analyse des données structurées.
  
#### Prérequis :
- La bibliothèque `openpyxl` doit être installée (`pip install openpyxl`).
- Aucune configuration supplémentaire n'est nécessaire pour créer le fichier Excel localement.


In [None]:


# Créer un nouveau classeur Excel
wb = Workbook()  # Initialise un nouveau classeur Excel vide.

# Sélectionner la première feuille active et la nommer 'Informations générales'
ws_general = wb.active  # Accéder à la feuille par défaut (première feuille).
ws_general.title = 'Informations générales'  # Renommer la feuille avec un titre explicite.

# Définir les en-têtes de colonnes pour structurer les informations
headers = [
    'Titre', 'A retenir', 'Sommaire', 'Texte', 'Source', 'Catégorie', 
    'Thématique', 'Nb_consultation', 'Nb_evaluation_positive', 'Lien', 
    'Lien_video', 'Titre_video', 'Nom_chaine', 'Likes', 'Vues', 
    'Date_publication', 'Description', 'Nombre_de_commentaires'
]  # Liste des en-têtes pour organiser les colonnes de la feuille Excel.

# Ajouter la ligne d'en-têtes dans la feuille de calcul
ws_general.append(headers)  # Insère les en-têtes dans la première ligne de la feuille 'Informations générales'.



### Création de fichier unique :

Cette fonction `get_unique_filename` est conçue pour générer automatiquement un nom de fichier unique dans un répertoire donné si un fichier avec le même nom existe déjà. Cela permet d'éviter les conflits de noms lors de l'enregistrement de fichiers dans un dossier. La fonction prend en compte le nom de fichier souhaité et ajoute un suffixe numérique pour différencier les versions, garantissant ainsi que chaque fichier enregistré dans le répertoire a un nom unique.

- **Objectif** : Éviter l'écrasement des fichiers en créant automatiquement des noms uniques pour les nouveaux fichiers dans un répertoire spécifique.
- **Contexte** : Utilisé dans des scripts de téléchargement ou de manipulation de fichiers où plusieurs fichiers peuvent avoir le même nom (ex. : téléchargement d'images ou de documents similaires).
  
- **Approche** :
  1. Extraire le nom de base et l'extension du fichier.
  2. Initialiser un compteur pour générer un suffixe unique.
  3. Vérifier si le fichier avec le nom spécifié existe déjà dans le dossier.
  4. Si le fichier existe, incrémenter le compteur et générer un nouveau nom jusqu'à ce qu'un nom unique soit trouvé.
  5. Retourner le nom de fichier unique.

- **Avantages** :
  - Prévient l'écrasement accidentel de fichiers existants.
  - Permet de gérer automatiquement la duplication de fichiers sans intervention manuelle.
  
#### Prérequis :
- Le module `os` doit être importé pour vérifier l'existence de fichiers et manipuler les chemins d'accès (`os.path`).



In [None]:


# Fonction pour générer un nom de fichier unique si un fichier existe déjà
def get_unique_filename(folder, filename):
    # Séparer le nom de base et l'extension du fichier (par exemple, 'document' et '.pdf')
    base, extension = os.path.splitext(filename)  # Extraction de la base et de l'extension du fichier.

    # Initialiser un compteur pour gérer les conflits de noms
    counter = 1  # Compteur pour générer un suffixe unique (ex. : document_1.pdf).

    # Initialiser le nouveau nom de fichier avec le nom d'origine
    new_filename = filename  # Par défaut, utiliser le nom de fichier original.

    # Tant qu'un fichier avec ce nom existe déjà dans le dossier, générer un nouveau nom
    while os.path.exists(os.path.join(folder, new_filename)):
        # Générer un nouveau nom de fichier en ajoutant le compteur (ex. : document_1.pdf, document_2.pdf, etc.)
        new_filename = f"{base}_{counter}{extension}"  # Ajouter le suffixe basé sur le compteur.

        # Incrémenter le compteur pour le prochain essai
        counter += 1  # Incrémenter le compteur pour les nouvelles tentatives.

    # Retourner le nom de fichier unique
    return new_filename  # Renvoie le nom de fichier final qui n'existe pas dans le dossier.



### Téléchargement d'images :

La fonction `download_image` télécharge une image à partir d'une URL donnée, enregistre l'image localement avec un nom de fichier unique, et affiche un message de confirmation ou d'erreur en fonction du résultat. Cette fonction utilise la bibliothèque `requests` pour envoyer une requête HTTP et obtenir le contenu de l'image, puis enregistre le fichier dans le répertoire spécifié après avoir vérifié l'unicité de son nom.

- **Objectif** : Télécharger des images depuis des URLs tout en évitant les conflits de noms de fichiers dans le répertoire de destination.
- **Contexte** : Utilisé pour automatiser le téléchargement d'images depuis le web (scraping d'images, récupération de contenu multimédia, etc.), où plusieurs images peuvent avoir le même nom.
  
- **Approche** :
  1. Vérifier et générer un nom de fichier unique en utilisant la fonction `get_unique_filename`.
  2. Envoyer une requête HTTP à l'URL de l'image pour récupérer son contenu.
  3. Vérifier si la requête a réussi (code de statut HTTP 200).
  4. Enregistrer le contenu de l'image dans un fichier local en mode binaire.
  5. Afficher un message de succès ou d'échec selon le résultat de l'opération.

- **Avantages** :
  - Gère automatiquement les conflits de noms en créant des versions uniques.
  - Permet de traiter et de sauvegarder rapidement des images à partir de différentes sources.
  
#### Prérequis :
- Le module `requests` doit être installé (`pip install requests`).
- Le module `os` doit être importé pour gérer les chemins de fichiers.
- La fonction `get_unique_filename` doit être définie pour générer des noms uniques.



In [None]:


# Fonction pour télécharger une image à partir d'une URL donnée et l'enregistrer localement avec un nom de fichier unique.
def download_image(url, filename):
    try:
        # Vérifier l'unicité du nom de fichier et générer un nouveau nom si nécessaire
        filename = get_unique_filename(download_folder, filename)  # Utiliser un nom de fichier unique pour éviter les conflits.

        # Envoyer une requête HTTP pour récupérer le contenu de l'image
        response = requests.get(url)  # Récupérer l'image depuis l'URL spécifiée.

        # Vérifier si la requête a réussi (code 200 indique un succès)
        if response.status_code == 200:
            # Construire le chemin complet pour l'enregistrement de l'image
            full_path = os.path.join(download_folder, filename)  # Définir le chemin complet du fichier image.

            # Ouvrir un nouveau fichier en mode binaire pour écrire le contenu de l'image
            with open(full_path, 'wb') as f:
                f.write(response.content)  # Enregistrer le contenu de l'image dans le fichier.

            # Afficher un message de succès indiquant le chemin du fichier téléchargé
            print(f"Téléchargement réussi : {full_path}")  # Confirmation de téléchargement réussi.

        else:
            # Afficher un message d'erreur si la requête a échoué
            print(f"Échec du téléchargement : {filename}")  # Erreur si le statut de la requête n'est pas 200.

    except Exception as e:
        # Capturer et afficher toute exception rencontrée lors du téléchargement
        print(f"Erreur lors du téléchargement de l'image {filename} : {str(e)}")  # Afficher l'erreur en cas de problème.



### Téléchéchargement de pdf :

La fonction `download_pdf` télécharge un fichier PDF à partir d'une URL fournie, l'enregistre localement dans un répertoire dédié, et gère les conflits de noms en générant automatiquement un nom de fichier unique. La fonction utilise `requests` pour effectuer la requête HTTP et obtenir le contenu du PDF, puis enregistre le fichier localement en mode binaire. Elle inclut également une gestion des erreurs pour identifier les problèmes de téléchargement et informer l'utilisateur.

- **Objectif** : Télécharger des fichiers PDF depuis une URL et les enregistrer dans un dossier local tout en gérant les conflits de noms de fichiers.
- **Contexte** : Utilisé pour automatiser le téléchargement de documents PDF dans des scripts de scraping ou de collecte d'informations, lorsque plusieurs fichiers peuvent avoir des noms similaires.
  
- **Approche** :
  1. Vérifier et générer un nom de fichier unique en utilisant la fonction `get_unique_filename`.
  2. Envoyer une requête HTTP à l'URL spécifiée pour récupérer le contenu du PDF.
  3. Vérifier si la requête a réussi (code de statut HTTP 200).
  4. Enregistrer le contenu du PDF dans un fichier local en mode binaire.
  5. Afficher un message de succès ou d'échec selon le résultat de l'opération.

- **Avantages** :
  - Gère automatiquement les conflits de noms de fichiers pour éviter l'écrasement accidentel.
  - Prend en charge les erreurs de téléchargement et permet de diagnostiquer facilement les problèmes.
  
#### Prérequis :
- Le module `requests` doit être installé (`pip install requests`).
- Le module `os` doit être importé pour gérer les chemins de fichiers.
- La fonction `get_unique_filename` doit être définie pour générer des noms uniques.


In [None]:


# Fonction pour télécharger un fichier PDF depuis une URL et l'enregistrer localement avec un nom de fichier unique.
def download_pdf(url, filename):
    try:
        # Vérifier l'unicité du nom de fichier et générer un nouveau nom si nécessaire
        filename = get_unique_filename(pdf_folder, filename)  # Utiliser un nom de fichier unique pour éviter les conflits.

        # Envoyer une requête HTTP pour récupérer le contenu du PDF
        response = requests.get(url)  # Récupérer le fichier PDF depuis l'URL spécifiée.

        # Vérifier si la requête a réussi (code 200 indique un succès)
        if response.status_code == 200:
            # Construire le chemin complet pour l'enregistrement du PDF
            full_path = os.path.join(pdf_folder, filename)  # Définir le chemin complet du fichier PDF.

            # Ouvrir un nouveau fichier en mode binaire pour écrire le contenu du PDF
            with open(full_path, 'wb') as f:
                f.write(response.content)  # Enregistrer le contenu du PDF dans le fichier.

            # Afficher un message de succès indiquant le chemin du fichier téléchargé
            print(f"Téléchargement réussi : {full_path}")  # Confirmation de téléchargement réussi.

        else:
            # Afficher un message d'erreur si la requête a échoué
            print(f"Échec du téléchargement : {filename}")  # Erreur si le statut de la requête n'est pas 200.

    except Exception as e:
        # Capturer et afficher toute exception rencontrée lors du téléchargement
        print(f"Erreur lors du téléchargement du PDF {filename} : {str(e)}")  # Afficher l'erreur en cas de problème.



### Exportation des données dans un fichier excel :

La fonction `export_to_excel` prend une liste de données et l'exporte dans un fichier Excel préconfiguré. Elle parcourt chaque ligne de la liste fournie et l'ajoute à une feuille de calcul existante. Ensuite, la fonction sauvegarde le classeur dans un dossier dédié sous un nom de fichier spécifique. En cas d'erreur, un message est affiché pour indiquer le problème. Cette méthode est utile pour centraliser les informations collectées sous un format tabulaire, compatible avec les outils d'analyse et de visualisation de données.

- **Objectif** : Exporter les données collectées vers un fichier Excel tout en gérant les erreurs potentielles.
- **Contexte** : Utilisé lorsque l'on souhaite stocker et structurer des données sous un format Excel lisible pour des rapports ou des analyses.
  
- **Approche** :
  1. Parcourir les données ligne par ligne et les ajouter dans la feuille Excel `ws_general`.
  2. Spécifier le chemin complet du fichier Excel et le nommer `data_Tp_demain.xlsx`.
  3. Sauvegarder le fichier dans le répertoire désigné (`excel_folder`).
  4. Afficher un message de confirmation si l'exportation réussit, sinon afficher le message d'erreur.

- **Avantages** :
  - Simplifie l'exportation de grandes quantités de données sous un format Excel lisible.
  - Permet de centraliser les informations collectées pour une utilisation future.
  
#### Prérequis :
- Le module `openpyxl` doit être installé pour créer et manipuler des fichiers Excel.
- La variable globale `ws_general` doit faire référence à une feuille de calcul valide.
- Le dossier `excel_folder` doit exister pour y stocker le fichier Excel.


In [None]:


# Fonction pour exporter une liste de données vers un fichier Excel dans le dossier spécifié.
def export_to_excel(data):
    try:
        # Parcourir chaque ligne de la liste de données et l'ajouter dans la feuille Excel 'ws_general'
        for line in data:
            ws_general.append(line)  # Ajouter chaque ligne dans la feuille Excel.

        # Spécifier le chemin complet pour enregistrer le fichier Excel avec un nom spécifique
        excel_filename = os.path.join(excel_folder, 'data_Tp_demain.xlsx')  # Définir le chemin du fichier Excel.

        # Sauvegarder le classeur Excel dans le dossier 'Fichiers_Excel'
        wb.save(excel_filename)  # Enregistrer le fichier Excel avec toutes les modifications.

        # Afficher un message de confirmation lorsque l'exportation est réussie
        print(f"Données exportées avec succès vers : {excel_filename}")  # Confirmation d'exportation réussie.

    except Exception as e:
        # Capturer et afficher toute exception rencontrée lors de l'exportation
        print(f"Une erreur est survenue lors de l'exportation vers Excel : {str(e)}")  # Afficher l'erreur en cas de problème.



### Défilement du pop-up :

La fonction `scroll_in_video_popup` effectue un défilement vertical dans un pop-up vidéo à l'aide de la bibliothèque **Selenium**. Cette fonction est utile lorsqu'un contenu est chargé dynamiquement dans une boîte de dialogue (pop-up) et que l'accès à des éléments supplémentaires nécessite un défilement. Le script identifie le conteneur de ce pop-up en utilisant un sélecteur CSS spécifique, puis utilise du JavaScript pour simuler le défilement jusqu'en bas de cette boîte de dialogue.

- **Objectif** : Dérouler le contenu d'un pop-up vidéo pour accéder à des éléments qui ne sont visibles qu'après un défilement.
- **Contexte** : Utilisé dans des scénarios où l'on doit interagir avec des boîtes de dialogue vidéo dans des sites complexes comme YouTube, pour charger plus d'éléments ou d'informations (ex. : chargement des commentaires, détails supplémentaires, etc.).
  
- **Approche** :
  1. Attendre que l'élément du conteneur de pop-up soit présent dans le DOM.
  2. Utiliser un script JavaScript pour effectuer un défilement vers le bas de ce conteneur.
  3. Afficher un message de confirmation en cas de succès.
  4. Capturer et afficher toute exception rencontrée si le conteneur n'est pas trouvé ou si le défilement échoue.

- **Avantages** :
  - Permet de naviguer dans des éléments cachés de l'interface utilisateur sans intervention manuelle.
  - Automatiser l'accès à du contenu visible uniquement après un défilement dans une boîte de dialogue.

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `driver` Selenium doit être correctement initialisé avec une page contenant le pop-up cible.
- La bibliothèque `WebDriverWait` et les conditions `EC` doivent être importées pour gérer les délais d'attente d'apparition des éléments.


In [None]:

# Fonction pour effectuer un défilement (scroll) dans le pop-up d'une vidéo en utilisant Selenium.
def scroll_in_video_popup():
    try:
        # Attendre que le conteneur du pop-up soit présent dans le DOM (jusqu'à 10 secondes d'attente)
        popup_container = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "tp-yt-iron-overlay-backdrop"))  # Sélectionner le conteneur par son sélecteur CSS.
        )

        # Utiliser JavaScript pour défiler jusqu'en bas de ce conteneur
        driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight;", popup_container)  # Défilement jusqu'en bas de la boîte de dialogue.

        # Afficher un message de confirmation si le défilement s'est bien effectué
        print("Scroll dans le pop-up des vidéos effectué.")  # Confirmation de réussite.

    except Exception as e:
        # Capturer et afficher toute exception rencontrée lors du défilement
        print(f"Erreur lors du scroll dans le pop-up des vidéos : {str(e)}")  # Afficher l'erreur en cas de problème.



### Refus automatique des cookies :

La fonction `refuse_video_cookies` est conçue pour refuser automatiquement les cookies dans les pop-ups vidéo qui apparaissent sur certains sites, tels que YouTube. Elle utilise la fonction `scroll_in_video_popup` pour s'assurer que le bouton de refus des cookies est visible, puis elle interagit avec ce bouton en simulant un clic. Cela permet d'éviter toute interaction manuelle avec ces fenêtres intrusives et d'améliorer le flux de navigation automatisé.

- **Objectif** : Refuser automatiquement les cookies dans les pop-ups vidéo afin d'éviter les interruptions pendant le scraping ou la navigation automatisée.
- **Contexte** : Utilisé dans des scripts Selenium lorsqu'un site affiche une fenêtre de consentement aux cookies avant d'afficher le contenu principal de la vidéo.
  
- **Approche** :
  1. Utiliser la fonction `scroll_in_video_popup` pour défiler vers le bas du conteneur de la vidéo.
  2. Ajouter une pause de 2 secondes pour laisser le temps au bouton de refus de se charger.
  3. Identifier le bouton "Tout refuser" en utilisant un sélecteur XPath et vérifier s'il est cliquable.
  4. Effectuer un clic sur le bouton "Tout refuser" pour rejeter les cookies.
  5. Gérer les erreurs de type `TimeoutException` si le bouton n'est pas trouvé.
  6. Capturer et afficher toute autre exception rencontrée.

- **Avantages** :
  - Évite les interruptions de navigation causées par les pop-ups de consentement.
  - Automatisation robuste en utilisant des conditions d'attente pour s'assurer que le bouton est visible et cliquable.

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `driver` Selenium doit être correctement initialisé avec une page contenant le pop-up vidéo.
- Les fonctions `scroll_in_video_popup` et les bibliothèques de gestion d'attente (`WebDriverWait`, `EC`) doivent être importées.


In [None]:

# Fonction pour refuser automatiquement les cookies dans le pop-up d'une vidéo.
def refuse_video_cookies():
    try:
        # Effectuer un défilement dans le pop-up vidéo pour rendre le bouton de refus visible
        scroll_in_video_popup()  # Appeler la fonction de défilement pour s'assurer que le contenu est bien visible.

        # Ajouter une pause de 2 secondes pour s'assurer que tous les éléments sont chargés
        time.sleep(2)  # Pause pour laisser le temps au bouton de refus de s'afficher.

        # Attendre que le bouton "Tout refuser" soit cliquable (jusqu'à 5 secondes d'attente)
        refuse_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, "//button//span[text()='Tout refuser']"))  # Rechercher le bouton de refus par son XPath.
        )

        # Simuler un clic sur le bouton "Tout refuser" pour rejeter les cookies
        driver.execute_script("arguments[0].click();", refuse_button)  # Clic sur le bouton via un script JavaScript.

        # Afficher un message de confirmation lorsque le clic est réussi
        print("Cookies des vidéos refusés avec succès.")  # Confirmation de réussite.

    except TimeoutException:
        # Gérer le cas où le bouton n'est pas trouvé dans le temps imparti
        print("Aucun bouton de cookies trouvé dans la vidéo, passage à l'étape suivante.")  # Indiquer que le bouton de refus n'est pas présent.

    except Exception as e:
        # Capturer et afficher toute autre exception rencontrée lors de l'exécution
        print(f"Erreur lors du clic sur 'Tout refuser' dans les vidéos : {str(e)}")  # Afficher l'erreur en cas de problème.



### Afficher la description complète :

La fonction `click_show_more_button` simule un clic sur le bouton "Afficher plus" d'une vidéo YouTube pour étendre la description complète de celle-ci. Cette action est essentielle lorsque des informations supplémentaires (telles que des liens, des détails ou des descriptions complètes) sont masquées par défaut sous le bouton "Afficher plus". La fonction utilise Selenium pour rechercher le bouton à l'aide d'un sélecteur XPath, vérifie que le bouton est cliquable, puis effectue l'action de clic.

- **Objectif** : Cliquer sur le bouton "Afficher plus" afin de révéler la description complète sous une vidéo YouTube.
- **Contexte** : Utilisé dans des scripts de scraping où des informations textuelles sont cachées sous des sections repliées et nécessitent un clic pour être affichées.
  
- **Approche** :
  1. Attendre que le bouton "Afficher plus" soit présent et cliquable.
  2. Utiliser un sélecteur XPath spécifique pour identifier le bouton dans le DOM.
  3. Simuler un clic sur le bouton à l'aide d'un script JavaScript.
  4. Afficher un message de confirmation si le clic réussit.
  5. Gérer les erreurs de type `TimeoutException` si le bouton n'est pas trouvé.
  6. Capturer et afficher toute autre exception rencontrée.

- **Avantages** :
  - Permet d'accéder à des informations masquées qui ne sont pas visibles par défaut.
  - Améliore la robustesse du script en gérant les délais d'affichage des éléments dynamiques.

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `driver` Selenium doit être correctement initialisé avec une page YouTube contenant le bouton cible.
- Les bibliothèques de gestion d'attente (`WebDriverWait`, `EC`) doivent être importées.


In [None]:


# Fonction pour cliquer sur le bouton "Afficher plus" afin de révéler la description complète de la vidéo.
def click_show_more_button():
    try:
        # Attendre que le bouton "Afficher plus" soit cliquable (jusqu'à 15 secondes d'attente)
        show_more_button = WebDriverWait(driver, 15).until(
            EC.element_to_be_clickable((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-text-inline-expander/tp-yt-paper-button[1]'))  # Sélectionner le bouton "Afficher plus" par son XPath.
        )

        # Simuler un clic sur le bouton pour dérouler la description complète
        driver.execute_script("arguments[0].click();", show_more_button)  # Utiliser un script JavaScript pour cliquer sur le bouton.

        # Afficher un message de confirmation lorsque le clic est réussi
        print("Le bouton 'Afficher plus' a été cliqué pour révéler la description complète.")  # Confirmation de réussite.

    except TimeoutException:
        # Gérer le cas où le bouton n'est pas trouvé dans le temps imparti
        print("Aucun bouton 'Afficher plus' trouvé.")  # Indiquer que le bouton n'est pas présent.

    except Exception as e:
        # Capturer et afficher toute autre exception rencontrée lors de l'exécution
        print(f"Erreur lors du clic sur 'Afficher plus' : {str(e)}")  # Afficher l'erreur en cas de problème.



### Défilement de la page vers le bas :

La fonction `scroll_to_bottom` fait défiler la page vers le bas jusqu'à ce qu'elle atteigne la fin. Cette technique est utile sur des sites web où le contenu se charge dynamiquement au fur et à mesure du défilement (ex. : pages infinies, sites de médias sociaux, ou résultats de recherche). La fonction utilise Selenium pour simuler un défilement vertical et vérifie si de nouveaux contenus ont été chargés en comparant la hauteur actuelle de la page avant et après le défilement.

- **Objectif** : Effectuer un défilement complet jusqu'en bas d'une page pour charger tout le contenu dynamique.
- **Contexte** : Utilisé pour automatiser le chargement de contenu sur des sites où des éléments supplémentaires sont chargés à la fin de chaque défilement.
  
- **Approche** :
  1. Obtenir la hauteur actuelle de la page (`last_height`).
  2. Effectuer un défilement jusqu'en bas de la page.
  3. Ajouter une courte pause pour laisser le contenu se charger.
  4. Comparer la nouvelle hauteur de la page (`new_height`) avec l'ancienne.
  5. Répéter l'opération jusqu'à ce que la hauteur n'augmente plus (indiquant que la fin de la page est atteinte).
  6. Quitter la boucle lorsque la page ne se charge plus.

- **Avantages** :
  - Permet de charger tout le contenu dynamique sur des pages infinies.
  - Automatisation efficace pour les scénarios de scraping où il est nécessaire de parcourir tout le contenu.

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `driver` Selenium doit être correctement initialisé avec une page web dynamique.
- La bibliothèque `WebDriverWait` et les conditions `EC` doivent être importées pour gérer les délais de chargement.


In [None]:


# Fonction pour faire défiler la page jusqu'en bas pour charger tout le contenu dynamique.
def scroll_to_bottom():
    # Obtenir la hauteur actuelle de la page
    last_height = driver.execute_script("return document.documentElement.scrollHeight")  # Récupérer la hauteur de la page avant le défilement.

    while True:
        # Effectuer un défilement jusqu'en bas de la page
        driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")  # Faire défiler la page jusqu'à la nouvelle hauteur.

        # Attendre brièvement pour permettre le chargement du contenu
        WebDriverWait(driver, 2).until(
            EC.presence_of_element_located((By.TAG_NAME, 'body'))  # Attendre la présence de l'élément 'body' après le défilement.
        )

        # Obtenir la nouvelle hauteur de la page après le défilement
        new_height = driver.execute_script("return document.documentElement.scrollHeight")  # Récupérer la nouvelle hauteur de la page.

        # Si la nouvelle hauteur est égale à l'ancienne, cela signifie que la page est complètement chargée
        if new_height == last_height:
            break  # Sortir de la boucle si la hauteur n'augmente plus.

        # Mettre à jour la dernière hauteur connue pour la prochaine comparaison
        last_height = new_height  # Actualiser la dernière hauteur pour continuer le défilement.



### Récupération des informations de la vidéo :

La fonction `get_video_details` récupère les informations clés d'une vidéo YouTube telles que le titre, le nom de la chaîne, le nombre de vues, les likes, la date de publication, la description et le nombre de commentaires. Elle utilise Selenium pour automatiser la navigation sur la page de la vidéo, interagir avec les boutons de la page, et collecter les informations affichées. La fonction gère également les cookies, effectue un défilement vers le bas pour charger tout le contenu et gère les erreurs pour assurer la robustesse de l'extraction.

- **Objectif** : Extraire les détails principaux d'une vidéo YouTube pour les stocker ou les analyser.
- **Contexte** : Utilisé dans des scripts de scraping où les détails des vidéos doivent être collectés automatiquement à partir de YouTube.
  
- **Approche** :
  1. Charger l'URL de la vidéo spécifiée.
  2. Refuser les cookies si le pop-up apparaît.
  3. Cliquer sur "Afficher plus" pour révéler la description complète.
  4. Dérouler jusqu'en bas de la page pour charger tous les commentaires.
  5. Extraire les détails de la vidéo (titre, chaîne, likes, vues, date de publication, description, nombre de commentaires).
  6. Gérer les erreurs de chargement et renvoyer des valeurs par défaut si des informations sont manquantes.

- **Avantages** :
  - Automatisation complète de la collecte de détails pour une vidéo.
  - Prend en charge les changements dynamiques de l'interface utilisateur avec des attentes conditionnelles (`WebDriverWait`).

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `driver` Selenium doit être correctement initialisé avec une instance de navigateur.
- Les fonctions `refuse_video_cookies`, `click_show_more_button` et `scroll_to_bottom` doivent être définies pour gérer les interactions de base.


In [None]:


# Fonction pour extraire les informations principales d'une vidéo YouTube à partir de son URL.
def get_video_details(video_url):
    try:
        # Charger la page de la vidéo YouTube
        driver.get(video_url)  # Ouvrir la page de la vidéo YouTube avec l'URL fournie.
        time.sleep(5)  # Pause pour laisser le temps à la page de se charger.

        # Refuser les cookies si le pop-up est présent
        try:
            refuse_video_cookies()  # Appeler la fonction pour refuser les cookies.
        except Exception as e:
            print(f"Erreur lors du refus des cookies : {str(e)}")  # Gérer toute erreur liée au refus des cookies.

        # Cliquer sur le bouton "Afficher plus" pour révéler la description complète
        try:
            click_show_more_button()  # Appeler la fonction pour afficher la description complète de la vidéo.
        except TimeoutException:
            print("Le bouton 'Afficher plus' n'a pas été trouvé. Passer à la suite.")  # Gérer le cas où le bouton n'est pas visible.

        # Faire défiler jusqu'en bas pour charger tout le contenu (comme les commentaires)
        scroll_to_bottom()  # Effectuer un défilement complet de la page pour charger tous les éléments dynamiques.

        # Extraire le titre de la vidéo
        try:
            title = WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, "h1.style-scope.ytd-watch-metadata"))  # Rechercher le titre par son sélecteur CSS.
            ).text
        except TimeoutException:
            title = 'Titre non disponible'  # Définir le titre comme non disponible si l'élément n'est pas trouvé.

        # Extraire le nom de la chaîne
        try:
            channel_name = driver.find_element(By.CSS_SELECTOR, "a.yt-simple-endpoint.style-scope.yt-formatted-string").text  # Sélectionner le nom de la chaîne par son sélecteur CSS.
        except Exception:
            channel_name = 'Chaîne non disponible'  # Définir la chaîne comme non disponible si l'élément n'est pas trouvé.

        # Essayer d'extraire le nombre de likes
        try:
            likes = driver.find_element(By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]').text
        except Exception:
            likes = "Likes non disponibles"  # Si l'élément n'est pas trouvé, indiquer que les likes ne sont pas disponibles.

        # Extraire le nombre de vues
        try:
            views = driver.find_element(By.XPATH, "(//yt-formatted-string[@id='info']//span[@dir='auto'])[1]").text  # Rechercher le nombre de vues par XPath.
        except Exception:
            views = 'Vues non disponibles'  # Définir les vues comme non disponibles en cas d'erreur.

        # Extraire la date de publication de la vidéo
        try:
            publication_date = driver.find_element(By.XPATH, "(//yt-formatted-string[@id='info']//span[@dir='auto'])[3]").text  # Rechercher la date de publication par XPath.
        except Exception:
            publication_date = 'Date non disponible'  # Définir la date comme non disponible en cas d'erreur.

        # Extraire la description complète de la vidéo
        try:
            description = driver.find_element(By.CSS_SELECTOR, "span.yt-core-attributed-string.yt-core-attributed-string--white-space-pre-wrap").text  # Sélectionner la description par CSS.
        except Exception:
            description = 'Description non disponible'  # Définir la description comme non disponible en cas d'erreur.

        # Essayer d'extraire le nombre de commentaires
        try:
            commentaire_desactive_element = driver.find_element(By.XPATH, "//yt-formatted-string[contains(text(), 'Les commentaires sont désactivés')]")  # Vérifier si les commentaires sont désactivés.
            if commentaire_desactive_element:
                comment_count = "N/A"  # Indiquer que les commentaires ne sont pas disponibles.
                print("Les commentaires sont désactivés sur cette vidéo.")
        except Exception:
            # Si les commentaires ne sont pas désactivés, essayer d'extraire le nombre de commentaires
            try:
                comment_count = driver.find_element(By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-comments/ytd-item-section-renderer/div[1]/ytd-comments-header-renderer/div[1]/div[1]/h2/yt-formatted-string').text
            except Exception:
                comment_count = "N/A"  # Indiquer que les commentaires ne sont pas disponibles.
                print("Commentaires non disponibles")

        # Retourner toutes les informations collectées
        return title, channel_name, likes, views, publication_date, description, comment_count

    except Exception as e:
        # Gérer toute autre exception rencontrée et retourner des valeurs par défaut
        print(f"Erreur lors de la récupération des détails de la vidéo : {str(e)}")  # Afficher l'erreur si la collecte échoue.
        return 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A'  # Retourner des valeurs par défaut si une erreur survient.



### Extraction des liens de vidéos :

La fonction `get_video_links_from_iframe` extrait les liens de vidéos à partir d'un iframe YouTube en utilisant Selenium. Elle navigue vers l'URL de l'iframe fournie, attend que les éléments vidéo apparaissent, puis collecte tous les liens disponibles. Cette approche est particulièrement utile pour récupérer les liens de vidéos suggérées ou intégrées dans des iframes sur des pages web tierces.

- **Objectif** : Extraire les URLs de vidéos à partir d'un iframe YouTube et les retourner sous forme de liste.
- **Contexte** : Utilisé dans des scénarios de scraping où des vidéos YouTube sont intégrées dans des iframes et où il est nécessaire de récupérer les liens directs de ces vidéos.
  
- **Approche** :
  1. Charger l'URL de l'iframe spécifié.
  2. Attendre que les éléments vidéos (`ytp-impression-link`) soient visibles.
  3. Utiliser Selenium pour localiser tous les éléments correspondant et extraire leurs attributs `href`.
  4. Retourner la liste des liens récupérés.
  5. Gérer les erreurs potentielles et retourner une liste vide si la collecte échoue.

- **Avantages** :
  - Permet d'automatiser la collecte de liens dans des iframes YouTube.
  - Gère automatiquement les délais de chargement grâce à `WebDriverWait` pour s'assurer que les éléments sont bien présents.

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `driver` Selenium doit être initialisé avec un navigateur capable d'afficher les iframes.
- La bibliothèque de gestion d'attente (`WebDriverWait`) doit être importée pour gérer les délais.


In [None]:


# Fonction pour extraire les liens vidéo à partir d'un iframe YouTube
def get_video_links_from_iframe(iframe_src):
    # Naviguer vers l'URL de l'iframe fournie
    driver.get(iframe_src)  # Charger l'URL de l'iframe pour accéder au contenu vidéo.

    try:
        # Attendre que les éléments vidéo (liens) soient visibles sur la page (jusqu'à 10 secondes d'attente)
        WebDriverWait(driver, 10).until(
            EC.visibility_of_element_located((By.CLASS_NAME, 'ytp-impression-link'))  # Rechercher les éléments vidéo par leur classe CSS.
        )

        # Extraire tous les éléments correspondant à la classe 'ytp-impression-link'
        video_links = driver.find_elements(By.CLASS_NAME, 'ytp-impression-link')  # Récupérer tous les éléments correspondant aux vidéos.

        # Récupérer l'attribut 'href' (URL) de chaque lien vidéo trouvé
        hrefs = [link.get_attribute('href') for link in video_links]  # Extraire les URLs de chaque lien vidéo.

        # Retourner la liste des liens vidéo récupérés
        return hrefs  # Renvoie la liste des liens collectés.

    except Exception as e:
        # Gérer toute exception rencontrée et afficher un message d'erreur
        print(f"Erreur lors de la récupération des liens vidéo : {str(e)}")  # Afficher l'erreur si la récupération échoue.

        # Retourner une liste vide en cas d'erreur
        return []  # Renvoie une liste vide si une erreur survient.



### Extraction et organisation de toutes les informations :

La fonction `get_info` extrait diverses informations détaillées à partir d'une page web donnée. Elle utilise la bibliothèque `requests` pour obtenir le contenu HTML de la page et `BeautifulSoup` pour analyser et extraire des informations spécifiques telles que le titre, le texte, la source, la catégorie, les thématiques, le lien vidéo, les statistiques de la vidéo, et les ressources supplémentaires comme les images et les fichiers PDF. Elle prend également en charge l'extraction de détails de vidéos intégrées en interagissant avec un iframe YouTube, et elle télécharge les images et les fichiers PDF trouvés sur la page.

- **Objectif** : Extraire les informations textuelles, les images, les vidéos et les fichiers PDF d'une page web pour les structurer dans une liste.
- **Contexte** : Utilisé dans des scripts de collecte de données pour créer un résumé détaillé de la page cible avec un ensemble d'informations structurées.
  
- **Approche** :
  1. Récupérer le contenu HTML de la page à partir du lien fourni.
  2. Analyser le contenu pour extraire les éléments requis (titre, texte, source, etc.).
  3. Identifier et télécharger les images présentes dans la section `module-section-item`.
  4. Extraire les liens de vidéos depuis les iframes et récupérer leurs détails.
  5. Vérifier la présence de fichiers PDF et les télécharger si trouvés.
  6. Structurer toutes les informations dans une liste pour un traitement ultérieur.

- **Avantages** :
  - Automatisation complète de la collecte d'informations depuis une page web avec une extraction de détails vidéo et de ressources supplémentaires.
  - Gère les éléments dynamiques (iframe, vidéos, PDF) tout en conservant une structure cohérente des informations.

#### Prérequis :
- Les bibliothèques `requests` et `BeautifulSoup` doivent être installées (`pip install requests beautifulsoup4`).
- Les fonctions `get_video_links_from_iframe`, `get_video_details`, `download_image`, et `download_pdf` doivent être définies pour gérer les vidéos, images, et fichiers PDF.


In [None]:


# Fonction pour extraire diverses informations à partir d'un lien web
def get_info(link):
    try:
        # Récupérer le contenu de la page web
        page = requests.get(link)  # Envoyer une requête HTTP pour obtenir le contenu de la page.
        soup = bs(page.content, 'html.parser')  # Analyser le contenu HTML avec BeautifulSoup.

        # Extraire le titre de la page
        Titre = soup.find('h1', class_="pt-3 mb-3 mb-md-5 text-white text-center pb-md-5")  # Rechercher le titre par sa classe CSS.
        Titre = Titre.string.strip() if Titre else 'N/A'  # Récupérer le texte du titre ou 'N/A' si non trouvé.

        # Extraire le texte principal de la page
        Texte = soup.find('div', class_="module-section-item default-module-section-item")  # Rechercher la section de texte principal.
        Texte_text = Texte.text.strip() if Texte else 'N/A'  # Extraire le texte ou 'N/A' si non disponible.

        # Extraire la source du contenu
        source = soup.find('div', class_="module-credits pt-3 mt-4")  # Rechercher la source dans la section correspondante.
        source_text = source.get_text(strip=True) if source else 'N/A'  # Extraire le texte de la source.

        # Extraire la catégorie
        categorie_div = soup.find('div', class_="mc-category d-flex justify-content-center")  # Rechercher la catégorie de l'article.
        categorie = categorie_div.find('div', class_='mcc-tag').get_text(strip=True) if categorie_div else 'N/A'  # Extraire le texte de la catégorie.

        # Extraire les thématiques associées
        themes = soup.find('div', class_="tags-list")  # Rechercher la liste de thématiques.
        thematic_list = [span.get_text(strip=True) for span in themes.find_all('span')] if themes else 'N/A'  # Créer une liste de thématiques.

        # Extraire le lien de la vidéo depuis l'iframe
        iframe_div = soup.find('div', class_='ratio ratio-16x9 mb-4')  # Rechercher la section iframe contenant la vidéo.
        lien_video_src = iframe_div.find('iframe').get('src', 'N/A') if iframe_div else 'N/A'  # Récupérer l'URL de l'iframe.

        # Initialiser les valeurs par défaut pour les détails de la vidéo
        lien_video, video_title, channel_name, likes, views, publication_date, description, comment_count = 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A'

        # Si une vidéo est présente, extraire ses informations
        if lien_video_src != 'N/A':
            lien_video_list = get_video_links_from_iframe(lien_video_src)  # Extraire les liens vidéo depuis l'iframe.
            if lien_video_list:
                lien_video = lien_video_list[0]  # Prendre le premier lien vidéo.
                video_title, channel_name, likes, views, publication_date, description, comment_count = get_video_details(lien_video)  # Récupérer les détails de la vidéo.

        # Télécharger les images présentes dans la section `module-section-item`
        module_section_item = soup.find('div', class_="module-section-item default-module-section-item")  # Rechercher la section contenant les images.
        if module_section_item:
            images = module_section_item.find_all('img')  # Récupérer toutes les balises d'image.
            for index, img in enumerate(images):
                img_url = img.get('src')  # Extraire l'URL de chaque image.
                img_filename = f"{Titre[:50]}_{index + 1}.jpg"  # Générer un nom de fichier unique pour chaque image.
                download_image(img_url, img_filename)  # Télécharger l'image.

        # Extraire le nombre de consultations de l'article
        Nb_consultation = soup.find('span', id="mf-nb-views")  # Rechercher l'élément contenant le nombre de consultations.
        Nb_consultation = Nb_consultation.string if Nb_consultation else 'N/A'  # Récupérer le texte ou 'N/A'.

        # Extraire le nombre d'évaluations positives
        evaluation_span = soup.find('span', class_="ur-link")  # Rechercher l'élément contenant le nombre d'évaluations positives.
        Nb_evaluation_positive = int(evaluation_span.text) if evaluation_span else 0  # Convertir le texte en nombre.

        # Extraire les éléments à retenir et le sommaire
        divs = soup.find_all('div', class_="module-item-content")  # Rechercher toutes les sections de contenu.
        A_retenir = []
        Sommaire = []

        if divs:
            # Extraire les informations "À retenir"
            first_div = divs[0]
            p_elements = first_div.find_all('p')  # Rechercher toutes les balises <p>.
            if p_elements:
                A_retenir.extend([p.text.strip() for p in p_elements if p.text])  # Ajouter chaque texte à la liste.

            # Extraire le sommaire
            ul_element = first_div.find('ul')  # Rechercher une liste <ul>.
            if ul_element:
                li_elements = ul_element.find_all('li')  # Rechercher les éléments de liste <li>.
                A_retenir.extend([li.text.strip() for li in li_elements if li.text])  # Ajouter chaque élément à la liste.

        # Structurer les informations dans une liste pour export
        line = [
            Titre, ' '.join(A_retenir), ' '.join(Sommaire), Texte_text, source_text, categorie, ', '.join(thematic_list),
            Nb_consultation, Nb_evaluation_positive, link, lien_video, video_title, channel_name, likes, views, publication_date, description, comment_count
        ]

        return line  # Retourner la ligne structurée contenant toutes les informations.

    except Exception as e:
        # Gérer toute exception et afficher un message d'erreur
        print(f"Une erreur est survenue lors de l'extraction des informations : {str(e)}")
        return None  # Retourner None en cas d'erreur.



### Refus automatique de la newsletter :

La fonction `wait_for_newsletter_modal_to_close` attend que le pop-up de la newsletter (élément modal) disparaisse de la page. Elle utilise Selenium pour surveiller la présence d'un élément spécifique (`newsletter-modal`) et continue d'attendre jusqu'à ce que cet élément devienne invisible. Cette technique est souvent utilisée sur des pages web qui affichent des fenêtres contextuelles (modals) telles que des demandes d'abonnement à une newsletter, des promotions, ou des annonces qui bloquent l'accès au contenu principal.

- **Objectif** : Attendre que le pop-up de la newsletter disparaisse avant de continuer l'interaction avec le reste de la page.
- **Contexte** : Utilisé dans des scripts d'automatisation où un pop-up de type modal empêche l'accès aux éléments de la page tant qu'il n'est pas fermé.
  
- **Approche** :
  1. Utiliser `WebDriverWait` pour attendre jusqu'à 20 secondes que l'élément modal devienne invisible.
  2. Vérifier la présence de l'élément par son identifiant (`ID`) spécifié.
  3. Si l'élément devient invisible dans le délai imparti, afficher un message de confirmation.
  4. Si l'élément ne devient pas invisible dans le temps imparti, afficher un message d'erreur.

- **Avantages** :
  - Assure que les interactions suivantes ne commencent qu'une fois que le pop-up est complètement fermé.
  - Évite les erreurs d'éléments non cliquables ou invisibles causées par des modals superposés.

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `driver` Selenium doit être correctement initialisé avec une page contenant le pop-up cible.
- La bibliothèque de gestion d'attente (`WebDriverWait`) et les conditions (`EC`) doivent être importées pour gérer les délais.


In [None]:


# Fonction pour attendre la fermeture du pop-up de la newsletter (élément modal)
def wait_for_newsletter_modal_to_close():
    try:
        # Attendre jusqu'à 20 secondes que l'élément avec l'ID 'newsletter-modal' devienne invisible
        WebDriverWait(driver, 20).until(
            EC.invisibility_of_element_located((By.ID, 'newsletter-modal'))  # Vérifier que l'élément modal n'est plus visible.
        )

        # Afficher un message de confirmation si le modal est fermé
        print("Newsletter modal is closed.")  # Confirmation que le pop-up a été fermé.

    except TimeoutException:
        # Gérer le cas où le modal n'est pas fermé dans le temps imparti
        print("Newsletter modal did not close in time.")  # Afficher un message d'erreur si le délai est dépassé.



### Clic sur un élément :

La fonction `click_element_with_js` utilise JavaScript pour simuler un clic sur un élément Web spécifié dans un navigateur Selenium. Cette méthode est souvent utilisée lorsqu'un élément est visible mais ne peut pas être cliqué directement avec `element.click()` en raison de certaines restrictions du navigateur (par exemple, superposition d'éléments, transitions CSS, ou limitations d'élément interactif). En utilisant JavaScript, on contourne ces limitations en exécutant le clic au niveau du DOM (Document Object Model).

- **Objectif** : Simuler un clic sur un élément Web en utilisant JavaScript pour contourner les limitations de clic direct.
- **Contexte** : Utilisé lorsque le clic direct de Selenium (`element.click()`) ne fonctionne pas, notamment avec des éléments masqués partiellement ou recouverts par d'autres éléments.
  
- **Approche** :
  1. Passer l'élément cible en paramètre à la fonction.
  2. Utiliser `driver.execute_script` pour exécuter un clic JavaScript sur l'élément spécifié.
  3. L'appel de `arguments[0]` dans le script fait référence à l'élément transmis à la fonction.

- **Avantages** :
  - Contourne les problèmes de clic sur des éléments interactifs qui ne répondent pas au clic direct.
  - Permet de gérer les interactions complexes avec des éléments dynamiques ou recouverts.

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le `driver` Selenium doit être initialisé avec une page Web chargée.
- L'élément doit être localisé correctement avant d'être passé à la fonction.

In [None]:


# Fonction pour simuler un clic sur un élément Web à l'aide de JavaScript
def click_element_with_js(element):
    # Utiliser JavaScript pour exécuter un clic sur l'élément spécifié
    driver.execute_script("arguments[0].click();", element)  # Simuler un clic en passant l'élément à JavaScript.



### Automatisation de la collecte de données sur plusieurs thèmes

La fonction `scrape_all_pages` permet d'automatiser la collecte de données sur plusieurs thèmes définis, en naviguant sur le site `https://tpdemain.com/ressources-pedagogiques/`. La fonction effectue une recherche sur chaque thème, récupère les liens des pages de résultats et gère la pagination pour atteindre la dernière page. Ensuite, elle collecte les informations de chaque lien trouvé et exporte les données vers un fichier Excel. Le script gère les pop-ups de la newsletter, les interactions avec les éléments de recherche, et les erreurs liées à l'extraction.

- **Objectif** : Collecter des informations détaillées pour chaque thème spécifié en parcourant toutes les pages de résultats et en extrayant les détails de chaque ressource.
- **Contexte** : Utilisé pour automatiser le scraping de ressources pédagogiques par thème, gérer les interactions complexes (recherche, pagination), et exporter les résultats sous forme de tableau.
  
- **Approche** :
  1. Charger la page de ressources pédagogiques.
  2. Attendre la fermeture du pop-up de la newsletter (`wait_for_newsletter_modal_to_close`).
  3. Pour chaque thème :
     - Effectuer une recherche par thème.
     - Gérer la pagination pour parcourir tous les résultats.
     - Extraire les liens de chaque ressource sur toutes les pages.
     - Récupérer les informations détaillées de chaque lien.
     - Exporter les informations collectées dans un fichier Excel.
  4. Quitter le navigateur à la fin du processus.

- **Avantages** :
  - Automatisation complète de la recherche et de la collecte de données pour plusieurs thèmes.
  - Gestion robuste des pop-ups, des interactions et de la pagination.

#### Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Les fonctions `wait_for_newsletter_modal_to_close`, `click_element_with_js`, `get_info`, et `export_to_excel` doivent être définies.
- Le `driver` Selenium doit être initialisé correctement.


In [None]:


# Fonction pour automatiser la recherche et l'extraction des informations pour une liste de thèmes
def scrape_all_pages(themes):
    try:
        # Naviguer vers la page des ressources pédagogiques
        driver.get("https://tpdemain.com/ressources-pedagogiques/")
        
        # Attendre la fermeture du pop-up de la newsletter
        wait_for_newsletter_modal_to_close()

        # Parcourir chaque thème de la liste
        for theme in themes:
            try:
                # Recharger la page avant chaque nouvelle recherche
                driver.get("https://tpdemain.com/ressources-pedagogiques/")
                
                # Trouver et cliquer sur le bouton pour ouvrir le champ de recherche
                toggle_button = WebDriverWait(driver, 20).until(
                    EC.element_to_be_clickable((By.CLASS_NAME, 'search-input-toggler'))  # Attendre que le bouton de recherche soit cliquable.
                )
                click_element_with_js(toggle_button)  # Utiliser JS pour cliquer sur le bouton.
                print(f"Search input toggler clicked for theme: {theme}")
            except (TimeoutException, Exception) as e:
                print(f"Search input toggler not found for theme: {theme}. Exception: {e}")

            try:
                # Entrer le thème dans la barre de recherche
                search_bar = WebDriverWait(driver, 20).until(
                    EC.visibility_of_element_located((By.CSS_SELECTOR, 'form.app-search-form.form-group input.form-control'))  # Attendre la visibilité de la barre de recherche.
                )
                print(f"Search bar found for theme: {theme}")
                search_bar.clear()  # Effacer le contenu existant de la barre de recherche.
                search_bar.send_keys(theme)  # Entrer le thème dans la barre de recherche.
            except (TimeoutException, Exception) as e:
                print(f"Search bar not found for theme: {theme}. Exception: {e}")

            try:
                # Cliquer sur le bouton de recherche
                search_button = WebDriverWait(driver, 20).until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR, 'form.app-search-form.form-group button'))  # Attendre que le bouton de recherche soit cliquable.
                )
                click_element_with_js(search_button)  # Utiliser JS pour cliquer sur le bouton.
                print(f"Search button clicked for theme: {theme}")
            except (TimeoutException, Exception) as e:
                print(f"Search button not found for theme: {theme}. Exception: {e}")

            try:
                # Attendre que les résultats de recherche soient visibles
                WebDriverWait(driver, 30).until(
                    EC.visibility_of_element_located((By.CLASS_NAME, 'content-area'))  # Attendre que la zone de contenu des résultats soit visible.
                )
                print(f"Search results found for theme: {theme}")
            except (TimeoutException, Exception) as e:
                print(f"Search results not found for theme: {theme}. Exception: {e}")

            # Réinitialiser la liste des liens pour chaque thème
            links_list.clear()

            # Gestion de la pagination
            has_next_page = True
            while has_next_page:
                try:
                    # Extraire les liens des résultats actuels
                    content_area = driver.find_element(By.CLASS_NAME, 'content-area')  # Trouver la zone de contenu.
                    links = content_area.find_elements(By.TAG_NAME, 'a')  # Extraire tous les liens.

                    for link in links:
                        href = link.get_attribute('href')  # Récupérer l'attribut href de chaque lien.
                        if href and href not in links_list:  # Ajouter les liens non dupliqués à la liste.
                            links_list.append(href)

                    # Vérifier l'existence d'une page suivante
                    pagination_elements = driver.find_elements(By.CLASS_NAME, 'page-numbers')
                    current_page_element = driver.find_element(By.CLASS_NAME, 'current')

                    current_page = int(current_page_element.text)  # Récupérer le numéro de la page actuelle.
                    last_page = current_page

                    # Vérifier les autres éléments de pagination
                    for elem in pagination_elements:
                        try:
                            page_number = int(elem.text)
                            if page_number > last_page:
                                last_page = page_number
                        except ValueError:
                            continue

                    # Vérifier si la page actuelle est la dernière
                    if current_page >= last_page:
                        has_next_page = False
                    else:
                        # Aller à la page suivante
                        next_button = driver.find_elements(By.CLASS_NAME, 'next')
                        if next_button:
                            click_element_with_js(next_button[0])  # Cliquer sur le bouton "suivant".
                            WebDriverWait(driver, 30).until(
                                EC.visibility_of_element_located((By.CLASS_NAME, 'content-area'))  # Attendre le chargement de la nouvelle page.
                            )
                        else:
                            has_next_page = False  # Aucune page suivante trouvée.

                except Exception as e:
                    print(f"Erreur lors de la pagination pour le thème {theme}: {str(e)}")
                    has_next_page = False

            # Extraction des informations pour tous les liens collectés
            all_data = []
            for link in links_list:
                info = get_info(link)  # Extraire les informations pour chaque lien.
                if info:
                    all_data.append(info)

            # Exporter les données dans un fichier Excel
            export_to_excel(all_data)

            # Afficher les résultats collectés
            print("\nTous les liens extraits pour le thème :", theme)
            for link in links_list:
                print(link)

            # Afficher les liens vidéo extraits
            print("\nTous les liens vidéo extraits pour le thème :", theme)
            for data in all_data:
                lien_video = data[10]  # Vérifier si un lien vidéo est présent.
                if lien_video != 'N/A':
                    print(lien_video)

    finally:
        # Quitter le navigateur après la collecte des données
        driver.quit()

# Liste des thèmes à chercher
themes = [
    "construction bas carbone",
    "Transition environnementale"
]

# Lancer le scraping pour tous les thèmes
scrape_all_pages(themes)
