# Importation des bibliothèques nécessaires

In [None]:


# `requests` est une bibliothèque pour effectuer des requêtes HTTP (GET, POST, etc.)
import requests

# `BeautifulSoup` de la bibliothèque `bs4` permet de parser (analyser) le contenu HTML et XML.
from bs4 import BeautifulSoup as bs

# `os` fournit des fonctions pour interagir avec le système d'exploitation, comme la gestion des fichiers et des répertoires.
import os

# `time` est utilisé pour effectuer des opérations liées au temps, comme mettre des pauses dans le script.
import time

# `MongoClient` de la bibliothèque `pymongo` permet de se connecter et d'interagir avec une base de données MongoDB.
from pymongo import MongoClient

# `webdriver` de la bibliothèque `selenium` permet de contrôler un navigateur web pour l'automatisation.
from selenium import webdriver

# `By` fournit des moyens pour sélectionner des éléments HTML, comme `By.ID`, `By.XPATH`, etc.
from selenium.webdriver.common.by import By

# `WebDriverWait` permet de définir une attente explicite pour certaines conditions d'éléments (ex: présence d'un bouton).
from selenium.webdriver.support.ui import WebDriverWait

# `expected_conditions` permet de définir des conditions, comme la présence d'un élément ou qu'un élément soit cliquable.
from selenium.webdriver.support import expected_conditions as EC

# `TimeoutException` est une exception levée lorsque l'attente explicite dépasse le temps imparti.
from selenium.common.exceptions import TimeoutException


# Connexion à la base de données

Cette fonction établit une connexion à une base de données MongoDB distante et sélectionne une collection spécifique.
L'objectif est de configurer correctement l'accès à une base de données en utilisant l'URI MongoDB.

- **Objectif** : Se connecter à une base de données MongoDB distante et récupérer une collection pour y stocker ou récupérer des documents.
- **Contexte** : Utilisé dans des applications où les données doivent être stockées de manière persistante et consultables via MongoDB.
  
- **Approche** :
  1. Utiliser l'URI fourni pour se connecter au cluster MongoDB.
  2. Sélectionner la base de données spécifiée dans `client['nom_de_ta_base']`.
  3. Accéder à la collection souhaitée dans la base de données pour effectuer des opérations.
  4. Vérifier que la connexion est réussie en affichant le nom de la base de données et de la collection.
  
- **Avantages** :
  - Simplifie la connexion à MongoDB.
  - Permet de gérer et interagir avec des collections dans une base de données distante.
  - Affiche les informations de connexion dans la console pour un suivi rapide.

Prérequis :
- Le module `pymongo` doit être installé (`pip install pymongo`).
- Le nom de la base de données (`nom_de_ta_base`) doit être correct et existant dans MongoDB.

In [None]:

# Connexion à MongoDB à l'aide de l'URI fourni (remplace l'URI par celui correspondant à ton environnement).
# Pour éviter tout problème de sécurité, il est conseillé d'utiliser des variables d'environnement pour stocker l'URI.
client = MongoClient('mongodb+srv://serginemengue46:tu3uF7Ap0g2RQDou@cluster0.7xuvx.mongodb.net')

# Sélection de la base de données spécifique.
# Remplace `nom_de_ta_base` par le nom exact de la base de données à utiliser.
db = client['nom_de_ta_base']

# Sélection de la collection 'Dispositif-Rex' dans la base de données.
collection = db['Dispositif-Rex']

# Affichage des informations de connexion pour confirmation.
print("# Connexion à MongoDB établie avec succès !")  # Confirmation de la connexion établie
print(f"# Base de données sélectionnée : {db.name}")  # Affiche le nom de la base de données utilisée
print(f"# Collection sélectionnée : {collection.name}")  # Affiche le nom de la collection sélectionnée


# Création de dossier local

Cette section de code vérifie l'existence d'un dossier local nommé `PDFs` et le crée s'il n'existe pas déjà.
L'objectif est de garantir qu'un répertoire spécifique est disponible pour stocker les fichiers PDF téléchargés localement.

- **Objectif** : Créer un dossier local pour sauvegarder les fichiers PDF de manière organisée.
- **Contexte** : Utilisé dans des applications où les fichiers doivent être téléchargés, enregistrés localement, et traités de manière répétée.
  
- **Approche** :
  1. Définir le nom du dossier où les fichiers PDF seront enregistrés (`pdf_folder`).
  2. Vérifier si le dossier existe déjà à l'emplacement courant à l'aide de `os.path.exists()`.
  3. Si le dossier n'existe pas, le créer à l'aide de `os.makedirs()` pour s'assurer que tous les fichiers PDF puissent y être enregistrés.
  
- **Avantages** :
  - Évite les erreurs liées à un répertoire manquant lors de l'enregistrement des fichiers.
  - Assure que tous les fichiers PDF sont stockés au même endroit, facilitant la gestion et la récupération.

Prérequis :
- Le module `os` doit être importé (`import os`).


In [None]:


# Dossier pour enregistrer les fichiers PDF localement
pdf_folder = "PDFs"  # Définition du nom du dossier pour les fichiers PDF

# Vérifier si le dossier `PDFs` existe déjà
if not os.path.exists(pdf_folder):  # `os.path.exists` retourne True si le dossier existe, False sinon.
    # Créer le dossier s'il n'existe pas pour éviter les erreurs lors de l'enregistrement des fichiers.
    os.makedirs(pdf_folder)  # `os.makedirs` permet de créer le répertoire spécifié (et tous les dossiers parents si nécessaire).
    print(f"# Le dossier '{pdf_folder}' a été créé avec succès.")  # Confirmation de la création du dossier
else:
    print(f"# Le dossier '{pdf_folder}' existe déjà.")  # Confirmation si le dossier est déjà présent


# Refus de cookies

Cette fonction automatise le refus des cookies sur YouTube en utilisant Selenium.
L'objectif est de fermer la boîte de dialogue des cookies en cliquant sur le bouton "Tout refuser" pour permettre la navigation automatisée sur la plateforme.

- **Objectif** : Refuser automatiquement les cookies sur YouTube lors de l'utilisation d'un navigateur automatisé.
- **Contexte** : Utilisé lors du scraping ou de l'automatisation de tâches sur YouTube, où la boîte de dialogue des cookies empêche l'interaction avec d'autres éléments de la page.

- **Approche** :
  1. Mettre en pause l'exécution pendant 2 secondes pour permettre le chargement complet de la page.
  2. Attendre que le bouton "Tout refuser" soit cliquable à l'aide de `WebDriverWait`.
  3. Cliquer sur le bouton à l'aide de `driver.execute_script` pour simuler un clic JavaScript, évitant ainsi certains problèmes d'interaction.
  4. Attendre que le bouton soit bien cliqué et vérifier si la boîte de dialogue a disparu.
  5. Afficher un message de confirmation si le clic a réussi.
  6. Gérer les exceptions si le bouton n'est pas trouvé ou si un problème survient.

- **Avantages** :
  - Automatise le processus de refus des cookies pour ne pas bloquer le reste de la navigation.
  - Évite les interruptions lors de l'automatisation des tâches sur YouTube.
  - Affiche un message d'erreur si le processus échoue, facilitant le débogage.

Prérequis :
- Le module `time` doit être importé (`import time`).
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.

In [None]:


# Fonction pour refuser les cookies sur YouTube
def click_refuse_youtube_cookies(driver):
    try:
        # Pause de 2 secondes pour laisser la boîte de dialogue des cookies apparaître
        time.sleep(2)

        # Attendre que le bouton "Tout refuser" devienne cliquable
        refuse_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, "//button//span[text()='Tout refuser']"))
        )

        # Utiliser `execute_script` pour cliquer sur le bouton "Tout refuser"
        driver.execute_script("arguments[0].click();", refuse_button)

        # Attendre que le clic soit pris en compte et que l'élément soit à nouveau cliquable
        WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, '/html/body/ytd-app/ytd-consent-bump-v2-lightbox/tp-yt-paper-dialog/div[4]/div[2]/div[6]/div[1]/ytd-button-renderer[1]/yt-button-shape/button/yt-touch-feedback-shape/div/div[2]'))
        )

        # Cliquer sur le bouton "Tout refuser"
        refuse_button.click()

        # Afficher un message de confirmation si le clic a réussi
        print("Bouton 'Tout refuser' cliqué sur YouTube.")
    
    # Gérer les erreurs si le bouton n'est pas trouvé ou si une autre exception survient
    except Exception as e:
        print(f"Erreur lors du refus des cookies sur YouTube : {e}")


# Recherche par thème

Cette fonction effectue une recherche sur un site web en utilisant Selenium et en se basant sur un thème spécifié.
L'objectif est de localiser le champ de recherche, d'y entrer le thème souhaité, puis de lancer la recherche automatiquement.

- **Objectif** : Automatiser la recherche d'un thème spécifique sur un site web.
- **Contexte** : Utilisé dans des applications de scraping ou de navigation automatisée pour interagir avec un champ de recherche et obtenir les résultats correspondant au thème fourni.

- **Approche** :
  1. Utiliser `WebDriverWait` pour attendre la présence de l'élément correspondant au champ de recherche.
  2. Vider le champ de recherche avec `clear()` afin d'éviter les doublons ou les erreurs de saisie.
  3. Entrer le thème à rechercher à l'aide de `send_keys()`.
  4. Localiser et attendre que le bouton de recherche soit cliquable.
  5. Lancer la recherche en simulant un clic sur le bouton.
  6. Afficher un message de confirmation lorsque la recherche est effectuée avec succès.
  
- **Avantages** :
  - Automatise l'interaction avec le champ de recherche, permettant de gagner du temps.
  - Peut être utilisé pour rechercher rapidement plusieurs thèmes de manière séquentielle.
  - Gère les exceptions pour détecter les erreurs de saisie ou d'éléments non trouvés.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.

In [None]:


# Fonction pour effectuer une recherche sur le site en utilisant un thème spécifique
def search_by_theme(driver, theme):
    try:
        # Attendre que le champ de recherche avec le nom 'mot_cle' soit présent dans le DOM
        search_input = WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.NAME, "mot_cle"))
        )

        # Vider le champ de texte s'il contient déjà des informations
        search_input.clear()  # Efface le contenu du champ pour éviter les conflits de recherche

        # Entrer le thème à rechercher dans le champ de recherche
        search_input.send_keys(theme)  # Envoie le thème spécifié au champ de recherche

        # Attendre que le bouton de recherche soit cliquable
        search_button = WebDriverWait(driver, 20).until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, "input[title='Lancer la recherche'][type='submit']"))
        )

        # Cliquer sur le bouton pour lancer la recherche
        search_button.click()

        # Afficher un message de confirmation dans la console une fois la recherche lancée
        print(f"Recherche lancée pour le thème : {theme}")

    # Gérer les erreurs si le champ de recherche ou le bouton de recherche ne sont pas trouvés
    except Exception as e:
        print(f"Erreur lors de la recherche : {e}")  # Afficher le message d'erreur correspondant



# Vérification des résulats disponibles

Cette fonction vérifie s'il y a des résultats disponibles pour une recherche sur une page web.
Elle utilise Selenium pour faire défiler la page et vérifier l'existence d'un message indiquant qu'il n'y a pas de résultats,
ou bien pour déterminer si la liste des résultats est vide.

- **Objectif** : Détecter s'il n'y a pas de résultats correspondant aux critères de recherche sur une page.
- **Contexte** : Utilisé lors de la navigation automatisée ou du scraping pour identifier rapidement les pages sans résultats et gérer ces cas efficacement.

- **Approche** :
  1. Faire défiler la page vers le bas pour charger tout le contenu visible à l'aide de `driver.execute_script`.
  2. Mettre en pause l'exécution pendant 2 secondes pour laisser le temps à la page de se mettre à jour.
  3. Rechercher un élément contenant le texte "Nous n'avons pas de ressources disponibles avec ces critères".
  4. Si le texte est trouvé, afficher un message dans la console indiquant l'absence de résultats.
  5. Si le texte n'est pas trouvé, rechercher s'il y a des éléments correspondant aux résultats (`.views-row`).
  6. Si aucun résultat n'est trouvé après le défilement, retourner `True` (pas de résultats).
  7. Si des résultats sont présents, retourner `False`.
  
- **Avantages** :
  - Permet de détecter automatiquement l'absence de résultats, ce qui est utile pour ajuster le comportement de l'application.
  - Évite les tentatives d'extraction de données sur des pages vides, ce qui réduit les erreurs.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le module `time` doit être importé (`import time`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.


In [None]:


# Fonction pour vérifier s'il n'y a pas de résultats disponibles pour une recherche
def check_no_results(driver):
    # Texte indiquant qu'il n'y a pas de résultats disponibles pour les critères de recherche donnés
    no_results_text = "Nous n'avons pas de ressources disponibles avec ces critères"
    
    try:
        # Faire défiler la page vers le bas pour charger le contenu (scroll vers le bas)
        driver.execute_script("window.scrollBy(0, window.innerHeight);")

        # Pause de 2 secondes pour permettre à la page de se mettre à jour
        time.sleep(2)

        # Rechercher le conteneur affichant un message d'absence de résultats (élément CSS `div.views-empty`)
        header = driver.find_elements(By.CSS_SELECTOR, "div.views-empty")
        
        # Si le texte indiquant "pas de ressources disponibles" est trouvé dans le conteneur, il n'y a pas de résultats
        if header and no_results_text in header[0].text:
            print("Aucun résultat trouvé pour ce thème.")  # Confirmation affichée dans la console
            return True  # Retourner True pour indiquer l'absence de résultats

        # Rechercher des éléments correspondant à des résultats potentiels (`.views-row`)
        results = driver.find_elements(By.CSS_SELECTOR, ".views-row")
        
        # Si aucun résultat n'est trouvé après le scroll, afficher un message
        if not results:
            print("Aucun résultat trouvé après un scroll.")  # Confirmation affichée dans la console
            return True  # Retourner True car il n'y a pas de résultats visibles

        # Retourner False si des résultats sont trouvés
        return False

    # Gérer les erreurs si un élément n'est pas trouvé ou si une autre exception survient
    except Exception as e:
        print(f"Erreur lors de la vérification des résultats : {str(e)}")  # Afficher l'erreur dans la console
        return False  # Retourner False en cas d'exception



# Télécgargement de pdf

Cette fonction télécharge un fichier PDF à partir d'une URL donnée et l'enregistre localement sous un nom de fichier spécifique.
L'objectif est de récupérer un fichier PDF à partir d'un lien, de le télécharger et de le sauvegarder localement.

- **Objectif** : Télécharger un fichier PDF depuis une URL donnée et l'enregistrer localement sous un nom correspondant au titre spécifié.
- **Contexte** : Utilisé dans des applications où les fichiers PDF doivent être téléchargés automatiquement pour être archivés localement ou analysés par la suite.
  
- **Approche** :
  1. Vérifier si l'URL est correcte et commencer par `http://` ou `https://`. Si ce n'est pas le cas, ajouter le préfixe `https://`.
  2. Envoyer une requête HTTP GET à l'URL pour récupérer le contenu du PDF.
  3. Vérifier si la requête est réussie (code 200). Si oui, sauvegarder le fichier localement.
  4. Créer un chemin d'accès spécifique avec le dossier de destination et le nom de fichier.
  5. Écrire le contenu du PDF dans un fichier binaire à l'aide de `open()`.
  6. Afficher un message de confirmation lorsque le téléchargement est réussi et retourner le chemin du fichier.
  7. Gérer les exceptions liées aux requêtes HTTP pour éviter les plantages du script.

- **Avantages** :
  - Automatisation du téléchargement de fichiers PDF à partir d'URL externes.
  - Enregistrement systématique sous un nom de fichier unique pour faciliter la gestion et l'accès.
  - Gère les erreurs de connexion et les URL malformées pour éviter les interruptions.

Prérequis :
- Le module `requests` doit être installé et importé (`pip install requests`).
- Le module `os` doit être importé pour gérer les chemins de fichiers (`import os`).
- Un dossier cible (`pdf_folder`) doit être défini et exister pour que le fichier soit sauvegardé.


In [None]:


# Fonction pour télécharger et enregistrer un PDF à partir d'une URL donnée
def download_pdf(url, title):
    try:
        # Vérifier si l'URL commence par 'http://' ou 'https://'
        # Si ce n'est pas le cas, ajouter 'https://' au début
        if not (url.startswith('http://') or url.startswith('https://')):
            url = 'https://' + url.lstrip('/')  # Corriger l'URL malformée en ajoutant le préfixe approprié

        # Envoyer une requête HTTP GET à l'URL pour récupérer le contenu du PDF
        response = requests.get(url)

        # Vérifier si la requête est réussie (statut 200)
        response.raise_for_status()  # Lève une exception si la requête a échoué

        # Si la requête est réussie, enregistrer le PDF localement
        if response.status_code == 200:
            # Définir le chemin de sauvegarde du PDF avec le nom de fichier basé sur le titre
            pdf_path = os.path.join(pdf_folder, title + ".pdf")

            # Ouvrir le fichier en mode binaire (wb) pour y écrire le contenu du PDF
            with open(pdf_path, "wb") as pdf_file:
                pdf_file.write(response.content)  # Écrire le contenu du fichier

            # Afficher un message de succès et retourner le chemin d'accès
            print(f"PDF enregistré avec succès : {pdf_path}")
            return pdf_path  # Retourner le chemin du fichier PDF enregistré

        else:
            # Si le statut de la requête n'est pas 200, indiquer un échec
            print(f"Échec du téléchargement PDF : {title}")
            return None  # Retourner None en cas d'échec

    # Gérer les exceptions liées aux requêtes HTTP (problèmes de connexion, URL incorrecte, etc.)
    except requests.exceptions.RequestException as e:
        print(f"Erreur lors du téléchargement du PDF {title} : {str(e)}")  # Afficher l'erreur
        return None  # Retourner None en cas d'exception


# Export des données dans la BDD 

Cette fonction exporte un ensemble de documents sous forme de dictionnaires dans une collection MongoDB.
L'objectif est de parcourir une liste de documents et de les insérer un par un dans une collection spécifiée.

- **Objectif** : Exporter les données d'une liste de dictionnaires vers une collection MongoDB.
- **Contexte** : Utilisé lorsqu'on souhaite sauvegarder des données structurées dans une base de données pour une utilisation future ou une analyse.

- **Approche** :
  1. Parcourir chaque document de la liste `data`.
  2. Insérer chaque document dans la collection MongoDB spécifiée avec `insert_one()`.
  3. Afficher un message de succès une fois l'insertion terminée.
  4. Gérer les exceptions potentielles lors de l'insertion, telles que les erreurs de connexion ou les conflits de structure des documents.
  
- **Avantages** :
  - Automatise l'insertion de plusieurs documents à la fois dans MongoDB.
  - Permet de stocker les données de manière persistante pour une analyse ou une récupération ultérieure.
  - Gère les exceptions pour détecter rapidement les problèmes lors de l'exportation.

Prérequis :
- Le module `pymongo` doit être installé et importé (`pip install pymongo`).
- La connexion MongoDB et la collection (`collection`) doivent être préalablement définies dans le code.


In [None]:


# Fonction pour exporter une liste de documents vers une collection MongoDB
def export_to_mongo(data):
    try:
        # Parcourir chaque document de la liste `data`
        for document in data:
            # Insérer chaque document dans la collection MongoDB spécifiée
            collection.insert_one(document)  # `insert_one` ajoute le document dans la collection

        # Afficher un message de confirmation lorsque l'exportation est réussie
        print(f"Données exportées avec succès vers MongoDB")

    # Gérer les erreurs lors de l'exportation vers MongoDB
    except Exception as e:
        # Afficher le message d'erreur dans la console
        print(f"Une erreur est survenue lors de l'exportation vers MongoDB : {str(e)}")



# Récupération du nombre de commentaire 

Cette fonction récupère le nombre de commentaires d'une vidéo YouTube spécifiée par son URL.
Elle utilise Selenium pour automatiser la navigation et l'extraction du nombre de commentaires, en gérant le cas où les commentaires seraient désactivés.

- **Objectif** : Extraire le nombre de commentaires d'une vidéo YouTube en naviguant automatiquement sur la page de la vidéo.
- **Contexte** : Utilisé dans des applications d'analyse de contenu YouTube ou de scraping, où le nombre de commentaires est un indicateur d'engagement.

- **Approche** :
  1. Charger la page de la vidéo spécifiée par `video_url` en utilisant `driver.get`.
  2. Faire défiler la page vers le bas pour s'assurer que tous les éléments, y compris les commentaires, sont chargés.
  3. Attendre la présence de l'élément `body` pour vérifier que la page est complètement chargée.
  4. Rechercher un message indiquant que les commentaires sont désactivés.
  5. Si les commentaires sont désactivés, définir le nombre de commentaires à `"N/A"` et afficher un message correspondant.
  6. Si les commentaires ne sont pas désactivés, localiser l'élément contenant le nombre de commentaires et extraire son texte.
  7. Gérer les exceptions en cas d'erreur de chargement de la page ou d'élément introuvable.
  
- **Avantages** :
  - Automatise la récupération du nombre de commentaires pour plusieurs vidéos YouTube.
  - Gère les cas particuliers, comme les commentaires désactivés ou les erreurs de chargement de la page.
  - Affiche des messages d'erreur et de confirmation dans la console pour faciliter le suivi.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.

In [None]:




# Fonction pour récupérer le nombre de commentaires d'une vidéo YouTube
def get_nombre_commentaire(driver, video_url):
    try:
        # Charger la page de la vidéo YouTube spécifiée
        driver.get(video_url)  # Ouvre la vidéo via l'URL fournie

        # Faire défiler la page vers le bas pour s'assurer que les commentaires sont chargés
        driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")

        # Attendre que le contenu de la page soit chargé
        WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.TAG_NAME, "body"))  # Vérifier que le corps de la page est entièrement chargé
        )

        # Essayer de détecter si les commentaires sont désactivés
        try:
            # Attendre l'élément contenant le texte "Les commentaires sont désactivés"
            commentaire_desactive_element = WebDriverWait(driver, 20).until(
                EC.presence_of_element_located((By.XPATH, "//yt-formatted-string[contains(text(), 'Les commentaires sont désactivés')]"))
            )

            # Si l'élément est trouvé, les commentaires sont désactivés
            if commentaire_desactive_element:
                nombre_commentaires = "N/A"  # Marquer le nombre de commentaires comme non applicable (désactivés)
                print("Les commentaires sont désactivés sur cette vidéo.")  # Afficher un message de confirmation

        # Gérer le cas où le texte "Les commentaires sont désactivés" n'est pas trouvé
        except TimeoutException:
            # Si les commentaires ne sont pas désactivés, essayer d'extraire le nombre de commentaires
            try:
                # Extraire le texte indiquant le nombre de commentaires
                nombre_commentaires = WebDriverWait(driver, 20).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.count-text.style-scope.ytd-comments-header-renderer'))
                ).text  # Récupérer le texte du nombre de commentaires

            # Gérer les exceptions lors de l'extraction du nombre de commentaires
            except Exception as e:
                nombre_commentaires = "N/A"  # Marquer le nombre de commentaires comme non applicable en cas d'erreur
                print(f"Erreur lors de l'extraction du nombre de commentaires : {str(e)}")  # Afficher l'erreur

    # Gérer les exceptions lors du chargement de la page de la vidéo
    except Exception as e:
        nombre_commentaires = "N/A"  # Marquer le nombre de commentaires comme non applicable
        print(f"Erreur lors du chargement de la vidéo : {str(e)}")  # Afficher l'erreur dans la console

    # Retourner le nombre de commentaires (ou "N/A" si désactivés ou en cas d'erreur)
    return nombre_commentaires


# Récupération du titre de la vidéo

Cette fonction récupère le titre d'une vidéo YouTube spécifiée par son URL.
Elle utilise Selenium pour automatiser la navigation et l'extraction du titre de la vidéo.

- **Objectif** : Extraire le titre de la vidéo à partir d'une URL donnée.
- **Contexte** : Utilisé dans des applications de scraping, d'analyse de contenu ou de suivi des informations sur YouTube, où le titre de la vidéo est un élément clé.

- **Approche** :
  1. Charger la page de la vidéo YouTube à l'aide de `driver.get(video_url)`.
  2. Utiliser `WebDriverWait` pour attendre que l'élément contenant le titre de la vidéo soit présent.
  3. Une fois l'élément trouvé, extraire son texte à l'aide de `find_element` avec le sélecteur CSS correspondant.
  4. Si l'élément est trouvé, retourner le texte extrait (le titre de la vidéo).
  5. Si une exception survient (par exemple, élément introuvable ou problème de chargement), afficher un message d'erreur et retourner `"N/A"`.
  
- **Avantages** :
  - Automatisation rapide et fiable de la récupération du titre des vidéos YouTube.
  - Gère les exceptions pour détecter les erreurs d'élément introuvable ou les problèmes de chargement de la page.
  - Retourne un message par défaut ("N/A") en cas d'échec, évitant ainsi les interruptions du script.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.


In [None]:


# Fonction pour récupérer le titre d'une vidéo YouTube
def get_titre_video(driver, video_url):
    try:
        # Charger la page de la vidéo YouTube spécifiée
        driver.get(video_url)  # Navigue vers l'URL de la vidéo

        # Attendre que l'élément contenant le titre soit présent dans le DOM
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located(
                (By.CSS_SELECTOR, 'div.style-scope.ytd-watch-metadata yt-formatted-string.style-scope.ytd-watch-metadata')
            )
        )

        # Rechercher l'élément contenant le titre de la vidéo avec le sélecteur CSS correspondant
        titre_video_element = driver.find_element(
            By.CSS_SELECTOR, 'div.style-scope.ytd-watch-metadata yt-formatted-string.style-scope.ytd-watch-metadata'
        )

        # Si l'élément est trouvé, retourner le texte du titre, sinon retourner "N/A"
        return titre_video_element.text.strip() if titre_video_element else 'N/A'

    # Gérer les exceptions en cas de problème de chargement de la page ou d'élément introuvable
    except Exception as e:
        # Afficher l'erreur dans la console pour le suivi
        print(f"Erreur lors de la récupération du titre de la vidéo : {str(e)}")
        return 'N/A'  # Retourner "N/A" en cas d'erreur


# Récupération du nom de la chaîne 

Cette fonction récupère le nom du propriétaire (créateur) d'une vidéo YouTube spécifiée par son URL.
Elle utilise Selenium pour automatiser la navigation et l'extraction du nom de la chaîne associée à la vidéo.

- **Objectif** : Extraire le nom de la chaîne YouTube qui a publié la vidéo.
- **Contexte** : Utilisé dans des applications d'analyse de contenu, de scraping ou de veille concurrentielle sur YouTube, où le nom de la chaîne est un indicateur clé pour identifier le créateur.

- **Approche** :
  1. Charger la page de la vidéo à l'aide de `driver.get(video_url)`.
  2. Utiliser `WebDriverWait` pour attendre que l'élément contenant le nom de la chaîne soit chargé et visible.
  3. Une fois l'élément trouvé, localiser le nom de la chaîne à l'aide de `find_element` avec le sélecteur CSS approprié.
  4. Extraire et retourner le texte du nom de la chaîne s'il est trouvé, sinon retourner `"N/A"`.
  5. Gérer les exceptions en cas de problème de chargement de la page ou si l'élément est introuvable, et afficher un message d'erreur.

- **Avantages** :
  - Automatisation rapide et fiable de la récupération du nom de la chaîne pour plusieurs vidéos YouTube.
  - Gère les exceptions pour détecter les erreurs d'élément introuvable ou les problèmes de chargement de la page.
  - Retourne un message par défaut ("N/A") en cas d'échec, évitant ainsi les interruptions du script.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.

In [None]:


# Fonction pour récupérer le nom du propriétaire (chaîne YouTube) d'une vidéo
def get_video_owner(driver, video_url):
    try:
        # Charger la page de la vidéo YouTube spécifiée
        driver.get(video_url)  # Navigue vers l'URL de la vidéo YouTube

        # Attendre que l'élément contenant le nom de la chaîne soit présent dans le DOM
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located(
                (By.CSS_SELECTOR, 'div.style-scope ytd-channel-name a.yt-simple-endpoint.style-scope.yt-formatted-string')
            )
        )

        # Rechercher l'élément contenant le nom de la chaîne avec le sélecteur CSS correspondant
        owner_element = driver.find_element(
            By.CSS_SELECTOR, 'div.style-scope ytd-channel-name a.yt-simple-endpoint.style-scope.yt-formatted-string'
        )

        # Si l'élément est trouvé, retourner le texte du propriétaire (nom de la chaîne), sinon retourner "N/A"
        return owner_element.text.strip() if owner_element else 'N/A'

    # Gérer les exceptions en cas de problème de chargement de la page ou d'élément introuvable
    except Exception as e:
        # Afficher l'erreur dans la console pour le suivi
        print(f"Erreur lors de la récupération du propriétaire de la vidéo : {str(e)}")
        return 'N/A'  # Retourner "N/A" en cas d'erreur


# Récupération du nombre de vues

Cette fonction récupère le nombre de vues d'une vidéo YouTube spécifiée par son URL.
Elle utilise Selenium pour automatiser la navigation et extraire le nombre de vues affiché sur la page de la vidéo.

- **Objectif** : Extraire le nombre de vues d'une vidéo YouTube donnée.
- **Contexte** : Utilisé dans des applications de scraping ou d'analyse de contenu YouTube pour évaluer la popularité d'une vidéo.

- **Approche** :
  1. Charger la page de la vidéo en utilisant `driver.get(video_url)`.
  2. Utiliser `WebDriverWait` pour attendre que l'élément contenant le nombre de vues soit chargé et visible.
  3. Localiser l'élément contenant le nombre de vues avec le sélecteur CSS approprié.
  4. Extraire et retourner le texte indiquant le nombre de vues si l'élément est trouvé, sinon retourner `"N/A"`.
  5. Gérer les exceptions en cas de problème de chargement de la page ou si l'élément est introuvable, et afficher un message d'erreur.

- **Avantages** :
  - Automatisation rapide et fiable de la récupération du nombre de vues pour plusieurs vidéos YouTube.
  - Gère les exceptions pour détecter les erreurs d'élément introuvable ou les problèmes de chargement de la page.
  - Retourne un message par défaut ("N/A") en cas d'échec, évitant ainsi les interruptions du script.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.


In [None]:


# Fonction pour récupérer le nombre de vues d'une vidéo YouTube
def get_nombre_vues(driver, video_url):
    try:
        # Charger la page de la vidéo YouTube spécifiée
        driver.get(video_url)  # Ouvre la page de la vidéo via l'URL donnée

        # Attendre que l'élément contenant le nombre de vues soit présent dans le DOM
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located(
                (By.CSS_SELECTOR, 'yt-formatted-string.style-scope.ytd-watch-info-text span.style-scope.yt-formatted-string.bold')
            )
        )

        # Rechercher l'élément contenant le nombre de vues avec le sélecteur CSS correspondant
        vues_element = driver.find_element(
            By.CSS_SELECTOR, 'yt-formatted-string.style-scope.ytd-watch-info-text span.style-scope.yt-formatted-string.bold'
        )

        # Si l'élément est trouvé, retourner le texte du nombre de vues, sinon retourner "N/A"
        return vues_element.text.strip() if vues_element else 'N/A'

    # Gérer les exceptions en cas de problème de chargement de la page ou d'élément introuvable
    except Exception as e:
        # Afficher l'erreur dans la console pour le suivi
        print(f"Erreur lors de la récupération du nombre de vues : {str(e)}")
        return 'N/A'  # Retourner "N/A" en cas d'erreur


# Récupération du nombre de likes 

Cette fonction récupère le nombre de likes d'une vidéo YouTube spécifiée par son URL.
Elle utilise Selenium pour automatiser la navigation et extraire le nombre de likes affiché sur la page de la vidéo.

- **Objectif** : Extraire le nombre de likes d'une vidéo YouTube donnée.
- **Contexte** : Utilisé dans des applications d'analyse de contenu YouTube pour évaluer la popularité d'une vidéo à travers le nombre de likes.

- **Approche** :
  1. Charger la page de la vidéo en utilisant `driver.get(video_url)`.
  2. Utiliser `WebDriverWait` pour attendre que l'élément contenant le nombre de likes soit chargé et visible.
  3. Localiser l'élément correspondant avec le sélecteur XPath approprié.
  4. Extraire et retourner le texte indiquant le nombre de likes s'il est trouvé, sinon retourner `"N/A"`.
  5. Remplacer le texte `"J'aime"` par `0` pour les vidéos sans like affiché.
  6. Gérer les exceptions en cas de problème de chargement de la page ou si l'élément est introuvable, et afficher un message d'erreur.

- **Avantages** :
  - Automatisation rapide et fiable de la récupération du nombre de likes pour plusieurs vidéos YouTube.
  - Gère les exceptions pour détecter les erreurs d'élément introuvable ou les problèmes de chargement de la page.
  - Retourne un message par défaut ("N/A") en cas d'échec, évitant ainsi les interruptions du script.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.


In [None]:

# Fonction pour récupérer le nombre de likes d'une vidéo YouTube
def get_nombre_likes(driver, video_url):
    try:
        # Accéder à l'URL de la vidéo YouTube spécifiée
        driver.get(video_url)  # Ouvre la page de la vidéo via l'URL donnée

        # Attendre que l'élément contenant le nombre de likes soit présent dans le DOM
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located(
                (By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]')
            )
        )

        # Rechercher l'élément contenant le nombre de likes avec le sélecteur XPath correspondant
        likes_element = driver.find_element(
            By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]'
        )

        # Si l'élément est trouvé, récupérer le texte du nombre de likes, sinon retourner "N/A"
        likes_text = likes_element.text.strip() if likes_element else 'N/A'

        # Si le texte est "J'aime", cela signifie qu'il n'y a pas de likes affichés, donc retourner 0
        return 0 if likes_text == "J'aime" else likes_text

    # Gérer les exceptions en cas de problème de chargement de la page ou d'élément introuvable
    except Exception as e:
        # Afficher l'erreur dans la console pour le suivi
        print(f"Erreur lors de la récupération du nombre de likes : {str(e)}")
        return 'N/A'  # Retourner "N/A" en cas d'erreur


# Récupétaion de la description

Cette fonction récupère la description complète d'une vidéo YouTube spécifiée par son URL.
Elle utilise Selenium pour naviguer automatiquement sur la page, cliquer sur le bouton "Afficher plus" (si présent), et extraire la description en utilisant BeautifulSoup pour analyser le contenu HTML.

- **Objectif** : Extraire la description complète d'une vidéo YouTube.
- **Contexte** : Utilisé dans des applications d'analyse de contenu YouTube, où la description peut contenir des informations clés comme des liens, des mots-clés, ou des détails supplémentaires sur la vidéo.

- **Approche** :
  1. Charger la page de la vidéo en utilisant `driver.get(video_url)`.
  2. Utiliser `WebDriverWait` pour attendre que l'élément de description soit chargé et visible.
  3. Cliquer sur le bouton "Afficher plus" pour révéler la description complète (si présent).
  4. Extraire le contenu HTML de la description à l'aide de `get_attribute('innerHTML')`.
  5. Utiliser `BeautifulSoup` pour parser le HTML et récupérer tous les éléments de description (balises `<span>`).
  6. Rechercher les textes associés à chaque lien et les concaténer pour obtenir la description complète.
  7. Gérer les exceptions en cas de problème de chargement de la page ou si l'élément est introuvable, et afficher un message d'erreur.

- **Avantages** :
  - Automatise la récupération de la description complète, même si elle est partiellement cachée par défaut.
  - Gère les exceptions pour détecter les erreurs d'élément introuvable ou les problèmes de chargement de la page.
  - Retourne un message par défaut ("N/A") en cas d'échec, évitant ainsi les interruptions du script.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le module `bs4` (BeautifulSoup) doit être installé (`pip install beautifulsoup4`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.


In [None]:



# Fonction pour récupérer la description d'une vidéo YouTube
def get_description_video(driver, video_url):
    try:
        # Charger la page de la vidéo YouTube spécifiée
        driver.get(video_url)  # Ouvre la page de la vidéo via l'URL donnée

        # Attendre que l'élément contenant la description soit présent dans le DOM
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located(
                (By.CSS_SELECTOR, 'yt-attributed-string.style-scope.ytd-text-inline-expander span.yt-core-attributed-string.yt-core-attributed-string--white-space-pre-wrap')
            )
        )

        # Essayer de cliquer sur le bouton "Afficher plus" pour afficher la description complète
        try:
            # Attendre que le bouton "Afficher plus" soit cliquable et cliquer dessus
            afficher_plus_button = WebDriverWait(driver, 20).until(
                EC.element_to_be_clickable((By.XPATH, "/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-text-inline-expander/tp-yt-paper-button[1]"))
            )
            afficher_plus_button.click()  # Cliquer sur le bouton
            print("Le bouton 'Afficher plus' a été cliqué.")  # Confirmation du clic
            time.sleep(2)  # Pause de 2 secondes pour laisser le temps à la description de s'afficher

        # Gérer le cas où le bouton "Afficher plus" est introuvable ou non cliquable
        except Exception:
            print(f"Erreur lors du clic sur 'Afficher plus'")

        # Rechercher l'élément contenant la description complète
        description_video_element = driver.find_element(
            By.CSS_SELECTOR, 'yt-attributed-string.style-scope.ytd-text-inline-expander span.yt-core-attributed-string.yt-core-attributed-string--white-space-pre-wrap'
        )

        # Si l'élément est trouvé, extraire et parser le contenu HTML de la description
        if description_video_element:
            html_content = description_video_element.get_attribute('innerHTML')  # Récupérer le HTML de la description
            soup = bs(html_content, 'html.parser')  # Analyser le HTML avec BeautifulSoup

            # Extraire tous les éléments <span> de la description
            all_spans = soup.find_all('span')

            # Parcourir tous les <span> pour récupérer les textes des liens dans la description
            description_texts = []
            for span in all_spans:
                # Vérifier si le <span> contient un lien et extraire son texte
                if 'yt-core-attributed-string--link-inherit-color' in span.get('class', []):
                    description_texts.append(span.get_text().strip())  # Ajouter le texte du lien à la liste

            # Concaténer tous les textes de description récupérés
            description = ' '.join(description_texts)

            # Retourner la description finale si elle est trouvée, sinon retourner "N/A"
            return description if description else 'N/A'
        
        # Si l'élément de description n'est pas trouvé, retourner "N/A"
        else:
            return 'N/A'

    # Gérer les exceptions en cas de problème de chargement de la page ou d'élément introuvable
    except Exception as e:
        # Afficher l'erreur dans la console pour le suivi
        print(f"Erreur lors de la récupération de la description : {str(e)}")
        return 'N/A'  # Retourner "N/A" en cas d'erreur


# Récupération de la date de publication

Cette fonction récupère la date de publication d'une vidéo YouTube spécifiée par son URL.
Elle utilise Selenium pour naviguer automatiquement sur la page de la vidéo et extraire la date de publication affichée.

- **Objectif** : Extraire la date de publication d'une vidéo YouTube.
- **Contexte** : Utilisé dans des applications d'analyse de contenu YouTube ou de veille pour déterminer la date de mise en ligne de la vidéo.

- **Approche** :
  1. Charger la page de la vidéo en utilisant `driver.get(video_url)`.
  2. Utiliser `WebDriverWait` pour attendre que l'élément contenant la date de publication soit chargé et visible.
  3. Localiser l'élément correspondant avec le sélecteur XPath approprié.
  4. Extraire et retourner le texte indiquant la date de publication s'il est trouvé, sinon retourner `"N/A"`.
  5. Gérer les exceptions en cas de problème de chargement de la page ou si l'élément est introuvable, et afficher un message d'erreur.

- **Avantages** :
  - Automatisation rapide et fiable de la récupération de la date de publication pour plusieurs vidéos YouTube.
  - Gère les exceptions pour détecter les erreurs d'élément introuvable ou les problèmes de chargement de la page.
  - Retourne un message par défaut ("N/A") en cas d'échec, évitant ainsi les interruptions du script.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.

In [None]:


# Fonction pour récupérer la date de publication d'une vidéo YouTube
def get_date_publication(driver, video_url):
    try:
        # Charger la page de la vidéo YouTube spécifiée
        driver.get(video_url)  # Ouvre la page de la vidéo via l'URL donnée

        # Attendre que l'élément contenant la date de publication soit présent dans le DOM
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located(
                (By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[3]')
            )
        )

        # Rechercher l'élément contenant la date de publication avec le sélecteur XPath correspondant
        date_element = driver.find_element(
            By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[3]'
        )

        # Si l'élément est trouvé, retourner le texte de la date, sinon retourner "N/A"
        return date_element.text.strip() if date_element else 'N/A'

    # Gérer les exceptions en cas de problème de chargement de la page ou d'élément introuvable
    except Exception as e:
        # Afficher l'erreur dans la console pour le suivi
        print(f"Erreur lors de la récupération de la date de publication : {str(e)}")
        return 'N/A'  # Retourner "N/A" en cas d'erreur


# Extraction et organisation de toutes les données

Cette fonction extrait des informations structurées à partir d'une page web spécifiée par son URL.
Elle utilise BeautifulSoup pour analyser le contenu HTML et Selenium pour interagir avec les vidéos YouTube liées, afin de récupérer des détails comme le titre, la description, le type de document, le lieu, les thématiques et d'autres informations.

- **Objectif** : Récupérer des informations d'un document (texte, PDF ou vidéo) à partir de l'URL fournie.
- **Contexte** : Utilisé dans des applications de scraping pour extraire automatiquement des informations clés de pages web et des vidéos intégrées (par exemple, YouTube).

- **Approche** :
  1. Envoyer une requête GET à l'URL spécifiée pour récupérer le contenu HTML de la page.
  2. Utiliser BeautifulSoup pour extraire le titre, la description, le type de document, le lieu et d'autres informations à partir des balises correspondantes.
  3. Si le document est une vidéo, utiliser Selenium pour récupérer des informations supplémentaires (titre de la vidéo, propriétaire, nombre de vues, nombre de likes, etc.).
  4. Télécharger les fichiers PDF s'ils sont présents sur la page et enregistrer leurs chemins d'accès.
  5. Structurer toutes les informations extraites dans un dictionnaire et les retourner.
  6. Gérer les exceptions en cas de problème de chargement de la page ou si les éléments sont introuvables.

- **Avantages** :
  - Automatisation de l'extraction des informations structurées, ce qui réduit le temps de collecte manuelle.
  - Gestion des vidéos intégrées avec Selenium pour obtenir des informations détaillées (YouTube).
  - Téléchargement des fichiers PDF associés à la page pour un stockage local.

Prérequis :
- Le module `requests` doit être installé et importé (`pip install requests`).
- Le module `bs4` (BeautifulSoup) doit être installé (`pip install beautifulsoup4`).
- Le module `selenium` doit être installé (`pip install selenium`).
"""

In [None]:


# Fonction pour extraire les informations d'une page web et gérer les vidéos associées
def get_info(link, driver):
    try:
        # Envoyer une requête GET à l'URL pour récupérer le contenu de la page
        page = requests.get(link)
        soup = bs(page.content, 'html.parser')  # Analyser le HTML de la page

        # Récupérer le titre de la page
        Titre = soup.find('div', id="block-rexbp-page-title")
        Titre = Titre.find('span').string.strip() if Titre else 'N/A'

        # Récupérer la description de la page
        Description = soup.find('div', class_="field_texte")
        Description_text = []

        # Vérifier s'il y a plusieurs paragraphes dans la description et les extraire
        if Description:
            paragraphs = Description.find_all('p')
            if len(paragraphs) > 1:
                for p in paragraphs[:-1]:
                    Description_text.append(p.get_text().strip())  # Ajouter chaque paragraphe à la liste
            elif len(paragraphs) == 1:
                Description_text.append(paragraphs[0].get_text().strip())  # Si un seul paragraphe, l'ajouter
            else:
                Description_text = 'N/A'  # Pas de paragraphes trouvés
        else:
            Description_text = 'N/A'  # Pas de description trouvée

        # Convertir la liste des paragraphes en une chaîne de caractères
        Description_text = ' '.join(Description_text)

        # Récupérer le type de document
        Type_document = soup.find('div', class_="field_type_document")
        Type_document = Type_document.find('div', class_="name").string if Type_document else 'N/A'

        # Récupérer le lieu du document
        territory = soup.find(class_="field_territoire")
        Lieu = territory.text.strip() if territory else 'N/A'

        # Récupérer la source du document (dernier paragraphe)
        field_texte_div = soup.find('div', class_='field_texte')
        if field_texte_div:
            paragraphs = field_texte_div.find_all('p')
            if paragraphs:
                last_paragraph = paragraphs[-1]
                Source = last_paragraph.get_text().strip()
            else:
                Source = 'N/A'
        else:
            Source = 'N/A'

        # Récupérer la thématique associée au document
        thematique_div = soup.find('div', class_='field_thematique')
        Thematique = thematique_div.find('div', class_='name').string.strip() if thematique_div else 'N/A'

        # Initialiser les variables pour les informations de la vidéo
        Propriétaire_video = 'N/A'
        Titre_vidéo = 'N/A'
        Nb_commentaire_video = 'N/A'
        Nb_vues_video = 'N/A'
        Nb_likes_video = 'N/A'
        Description_video = 'N/A'
        Lien_video = 'N/A'
        Date_publication_video = 'N/A'

        # Si le type de document est une vidéo, extraire les informations vidéo avec Selenium
        if Type_document.lower() == 'vidéo':
            video_div = soup.find('div', class_='video-miniature')
            if video_div:
                video_url = video_div.get('data-url')  # Récupérer l'URL de la vidéo
                if video_url:
                    driver.get(video_url)
                    time.sleep(3)  # Pause pour permettre le chargement de la vidéo

                    # Refuser les cookies sur YouTube avant de continuer
                    click_refuse_youtube_cookies(driver)
                    
                    # Vérifier si la vidéo est disponible
                    if "cette vidéo n'est plus disponible" not in driver.page_source.lower():
                        Propriétaire_video = get_video_owner(driver, video_url)
                        Titre_vidéo = get_titre_video(driver, video_url)
                        Nb_commentaire_video = get_nombre_commentaire(driver, video_url)
                        Nb_vues_video = get_nombre_vues(driver, video_url)
                        Nb_likes_video = get_nombre_likes(driver, video_url)
                        Description_video = get_description_video(driver, video_url)
                        Date_publication_video = get_date_publication(driver, video_url)
                        Lien_video = video_url
                    else:
                        print("Cette vidéo n'est plus disponible.")

        # Récupérer les liens vers les fichiers PDF présents sur la page
        pdf_div = soup.find('div', class_='field_pdf')
        pdf_paths = []
        if pdf_div:
            pdf_links = pdf_div.find_all('a')
            for index, a_tag in enumerate(pdf_links):
                pdf_url = a_tag.get('href')
                pdf_path = download_pdf(pdf_url, f"{Titre}_pdf_{index + 1}")  # Télécharger et enregistrer le PDF
                if pdf_path:
                    pdf_paths.append(pdf_path)  # Ajouter le chemin du fichier PDF

        # Créer un dictionnaire contenant toutes les informations extraites
        document = {
            "Titre": Titre,
            "Thématique": Thematique,
            "Description": Description_text,
            "Type_document": Type_document,
            "Source": Source,
            "Lieu": Lieu,
            "Lien": link,
            "Propriétaire_video": Propriétaire_video,
            "Titre_vidéo": Titre_vidéo,
            "Nb_commentaire_video": Nb_commentaire_video,
            "Nb_vues_video": Nb_vues_video,
            "Nb_likes_video": Nb_likes_video,
            "Description_video": Description_video,
            "Lien_video": Lien_video,
            "Date_publication_video": Date_publication_video,
            "PDFs": pdf_paths  # Ajouter les chemins d'accès des fichiers PDF
        }

        # Retourner le dictionnaire des informations extraites
        return document

    # Gérer les erreurs lors de l'extraction des informations
    except Exception as e:
        print(f"Une erreur est survenue lors de l'extraction des informations : {str(e)}")
        return None



# Pagination et collecte de liens

Cette fonction parcourt les pages d'une liste de ressources sur un site web, en collectant les liens pertinents et en les stockant dans une liste.
Elle utilise Selenium pour automatiser la navigation entre les pages et BeautifulSoup pour analyser le contenu HTML.

- **Objectif** : Extraire les liens vers les ressources sur plusieurs pages d'un site.
- **Contexte** : Utilisé dans des applications de scraping pour parcourir une liste paginée de ressources et collecter les liens des offres d'emploi ou des ressources spécifiques.

- **Approche** :
  1. Charger chaque page et attendre que tous les articles soient chargés.
  2. Utiliser BeautifulSoup pour analyser le contenu HTML et extraire les liens des articles pertinents.
  3. Ajouter les liens des articles qui ne sont pas déjà présents dans `link_list`.
  4. Naviguer à la page suivante en cliquant sur le bouton "Suivant" si disponible.
  5. Répéter jusqu'à ce qu'il n'y ait plus de pages ou qu'une erreur survienne (comme l'absence du bouton "Suivant").
  6. Retourner la liste complète des liens collectés.

- **Avantages** :
  - Automatisation de la collecte de liens à travers plusieurs pages, économisant le temps d'extraction manuel.
  - Utilisation combinée de Selenium et BeautifulSoup pour garantir la collecte même sur des pages dynamiques.
  - Gère la pagination de manière continue et stoppe proprement lorsqu'il n'y a plus de pages.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le module `bs4` (BeautifulSoup) doit être installé (`pip install beautifulsoup4`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.


In [None]:

# Fonction pour parcourir les pages d'une liste de ressources et collecter les liens pertinents
def paginate_and_collect_link(driver, link_list):
    page_count = 0  # Initialiser le compteur de pages

    while True:  # Boucle pour parcourir toutes les pages
        print(f"Traitement de la page {page_count + 1}")  # Indiquer la page en cours de traitement

        # Attendre que tous les articles sur la page soient chargés
        WebDriverWait(driver, 20).until(
            EC.presence_of_all_elements_located((By.CSS_SELECTOR, ".views-infinite-scroll-content-wrapper.clearfix .views-row article"))
        )

        # Analyser le contenu de la page avec BeautifulSoup
        soup = bs(driver.page_source, 'html.parser')
        articles = soup.find_all('article')  # Extraire tous les éléments <article>

        # Parcourir chaque article pour extraire les liens pertinents
        for article in articles:
            about_attr = article.get('about')  # Récupérer l'attribut 'about'
            if about_attr and "/ressource/" in about_attr and about_attr not in link_list:
                # Ajouter le lien complet à la liste des jobs s'il n'y est pas déjà
                link_list.append("https://www.dispositif-rexbp.com" + about_attr)

        # Afficher le nombre d'éléments collectés après chaque page
        print(f"Nombre d'éléments dans link_list après la page {page_count + 1} : {len(link_list)}")
        page_count += 1  # Incrémenter le compteur de pages

        try:
            # Rechercher le bouton "Suivant" pour passer à la page suivante
            next_button = driver.find_element(By.CSS_SELECTOR, 'li.pager__item a[rel="next"]')
            if next_button:
                next_button.click()  # Cliquer sur le bouton "Suivant"
                print(f"Cliqué sur le bouton suivant pour la page {page_count + 1}")
                time.sleep(5)  # Pause pour laisser le temps à la nouvelle page de charger
            else:
                print("Aucun bouton 'Suivant' trouvé, fin de la pagination.")
                break  # Sortir de la boucle si aucun bouton "Suivant" n'est trouvé

        # Gérer les erreurs ou l'absence du bouton "Suivant"
        except Exception:
            print(f"Erreur lors du clic sur le bouton suivant ou fin de la pagination")
            break  # Sortir de la boucle en cas d'erreur

    # Retourner la liste des liens collectés
    return link_list


# Recherche par thème

Cette fonction effectue une recherche sur un site web pour extraire des URL correspondant à différents thèmes.
Elle automatise le processus de recherche pour chaque thème, navigue à travers plusieurs pages pour collecter les URL,
extrait les informations de chaque URL trouvée, et stocke les données collectées dans une base de données MongoDB.

- **Objectif** : Automatiser la collecte d'URL de ressources basées sur différents thèmes, extraire les informations de chaque URL, et les sauvegarder dans MongoDB.
- **Contexte** : Utilisé dans des applications de scraping pour collecter automatiquement des informations structurées à partir de sites web avec plusieurs pages de ressources.

- **Approche** :
  1. Initialiser un navigateur Selenium pour naviguer sur le site cible.
  2. Définir les thèmes de recherche à explorer.
  3. Pour chaque thème, effectuer une recherche sur le site et vérifier s'il y a des résultats.
  4. Si des résultats sont trouvés, collecter les URL de chaque page de résultats.
  5. Pour chaque URL, extraire les informations pertinentes (titre, description, type, etc.).
  6. Organiser les informations extraites dans un document structuré et l'exporter vers MongoDB.
  7. Fermer le navigateur Selenium à la fin de l'exécution.
  
- **Avantages** :
  - Automatisation complète du processus de collecte d'informations, réduisant le temps nécessaire pour la collecte manuelle.
  - Structure les données extraites pour une insertion facile dans une base de données.
  - Gère les erreurs et affiche les messages de progression pour un suivi en temps réel.

Prérequis :
- Le module `selenium` doit être installé et importé (`pip install selenium`).
- Le driver Selenium (par exemple, ChromeDriver) doit être configuré pour interagir avec le navigateur.
- Une base de données MongoDB doit être accessible pour stocker les informations extraites.


In [None]:

# Fonction principale pour rechercher, extraire et stocker des informations basées sur des thèmes
def extract_urls_and_info():
    # Initialiser le navigateur Selenium avec Chrome
    driver = webdriver.Chrome()

    try:
        # Définir la liste des thèmes à rechercher
        themes = ["Métiers de l'encadrement", "BIM"]  # Ajouter ici d'autres thèmes si nécessaire
        
        # Parcourir chaque thème de la liste
        for theme in themes:
            print(f"Recherche pour le thème : {theme}")

            # Ouvrir la page de recherche des ressources
            driver.get("https://www.dispositif-rexbp.com/ressources")

            # Lancer la recherche pour le thème spécifié
            search_by_theme(driver, theme)

            # Vérifier si des résultats sont disponibles pour le thème
            if check_no_results(driver):
                print(f"Pas de résultats pour le thème : {theme}. Passage au thème suivant.")
                continue  # Passer au thème suivant si aucun résultat n'est trouvé

            # Initialiser une liste pour collecter les URL des ressources
            link_list = []
            link_list = paginate_and_collect_link(driver, link_list)  # Paginer et collecter les liens d'articles

            # Afficher le nombre total de ressources collectées pour le thème actuel
            print(f"Nombre total d'éléments dans link_list pour le thème {theme} : {len(link_list)}")

            # Créer une liste pour stocker les données associées au thème
            theme_data = []

            # Parcourir chaque URL collectée dans `jobs_list`
            for index, url in enumerate(link_list):
                print(f"Traitement de l'URL {index + 1}/{len(link_list)}: {url}")
                
                # Extraire les informations de chaque URL
                data = get_info(url, driver)
                
                # Si des informations sont extraites avec succès, les ajouter à `theme_data`
                if data:
                    theme_data.append(data)
                    print(f"Données ajoutées avec succès pour l'URL : {url}")
                else:
                    print(f"Échec de la récupération des données pour l'URL : {url}")

            # Si des données ont été collectées pour le thème, créer un document structuré
            if theme_data:
                # Créer un document thématique contenant toutes les données du thème
                document = {
                    "theme": theme,  # Ajouter le nom du thème
                    "data": theme_data,  # Ajouter toutes les données extraites
                    "date_extraction": time.strftime("%Y-%m-%d %H:%M:%S")  # Ajouter la date de l'extraction
                }
                
                # Exporter le document vers la base de données MongoDB
                export_to_mongo([document])
                print(f"Données exportées avec succès pour le thème : {theme}")

    # Fermer le navigateur Selenium à la fin de l'exécution ou en cas d'erreur
    finally:
        driver.quit()
        print("Le navigateur Selenium a été fermé.")

# Exécuter la fonction `extract_urls_and_info()` si le script est lancé directement
if __name__ == "__main__":
    extract_urls_and_info()
