# Importation des packages nécessaires

In [None]:
from selenium import webdriver
# Bibliothèque Selenium permettant l'automatisation du navigateur.
# `webdriver` est utilisé pour initialiser et contrôler le navigateur.

from selenium.webdriver.common.by import By
# Permet de localiser les éléments sur une page Web à l'aide de différents sélecteurs (ID, XPATH, CSS_SELECTOR, etc.).

from selenium.webdriver.support.ui import WebDriverWait
# Offre la possibilité de gérer les temps d'attente explicites pour des éléments spécifiques sur la page avant d'interagir avec eux.

from selenium.webdriver.support import expected_conditions as EC
# Définit des conditions d'attente (comme la visibilité ou la cliquabilité d'un élément) pour automatiser la navigation.

from selenium.common.exceptions import TimeoutException
# Exception levée lorsque le temps d'attente d'un élément est dépassé, utile pour gérer les erreurs de chargement d'éléments.

from bs4 import BeautifulSoup as bs
# Bibliothèque BeautifulSoup permettant d'analyser et d'extraire des données d'une page HTML de manière structurée.
# Importée sous l'alias `bs` pour simplifier son utilisation.

import requests
# Bibliothèque pour envoyer des requêtes HTTP (GET, POST, etc.), couramment utilisée pour récupérer des données depuis une URL.

import os
# Module intégré permettant de manipuler le système d'exploitation, comme la gestion des fichiers et des dossiers.

from pymongo import MongoClient
# Bibliothèque permettant d'interagir avec une base de données MongoDB.
# `MongoClient` permet d'établir une connexion avec une instance MongoDB.

import re
# Module pour travailler avec les expressions régulières, utile pour rechercher et traiter des motifs dans des chaînes de caractères.

import time
# Module intégré pour la gestion des opérations temporelles, offrant des fonctions comme `time.sleep()` pour ajouter des pauses.

import uuid
# Module pour générer des identifiants uniques (UUID), souvent utilisés pour nommer des fichiers de manière unique.


# Connexion à MongoDB

Cette section de code établit une connexion avec une base de données MongoDB hébergée sur MongoDB Atlas.

Processus :

- Utilise ``MongoClient`` pour se connecter à MongoDB en utilisant une chaîne de connexion sécurisée qui comprend l’URL et les informations d’authentification.
- Sélectionne une base de données spécifique en remplaçant '``nom_de_ta_base``' par le nom réel de la base.
- Sélectionne une collection nommée ``Amaco`` dans la base de données. Remplace '``Amaco``' par le nom réel de la collection souhaitée.

In [None]:
# Connexion à MongoDB
client = MongoClient('mongodb+srv://serginemengue46:tu3uF7Ap0g2RQDou@cluster0.7xuvx.mongodb.net')
# Initialise une connexion à MongoDB en utilisant MongoClient. La chaîne de connexion MongoDB contient l'URL,
# le nom d'utilisateur et le mot de passe pour se connecter à la base de données hébergée sur MongoDB Atlas.

db = client['nom_de_ta_base']  # Remplace par le nom de ta base de données
# Sélectionne la base de données spécifique dans MongoDB. Remplace `'nom_de_ta_base'` par le nom réel de la base.

collection = db['Amaco']  # Remplace par le nom de ta collection
# Sélectionne la collection `Amaco` au sein de la base de données. Remplace `'Amaco'` par le nom réel de la collection.


# Fonction pour insérer un document par thème dans MongoDB

La fonction ``insert_theme_to_db`` permet d’insérer un document dans une collection MongoDB pour un thème spécifique. Elle prend le nom du thème et les données associées, et organise les informations dans un format structuré pour l'insertion.

Paramètres :

- ``theme_name`` : Nom du thème sous forme de chaîne de caractères.
- ``data`` : Données associées au thème, généralement une liste ou un dictionnaire contenant les informations collectées.

Processus :

Crée un dictionnaire ``theme_data`` avec deux clés :

- "``theme_name``" : Contient le nom du thème.
- "``data``" : Contient les informations associées au thème.
- Insère le dictionnaire dans la collection MongoDB en tant que document unique.
- Affiche un message de confirmation si l’insertion réussit, ou un message d'erreur si une exception est levée.

In [None]:
# Fonction pour insérer un document par thème dans MongoDB
def insert_theme_to_db(theme_name, data):
    # Insère un document dans MongoDB pour un thème spécifique, en structurant les données dans un format organisé.

    try:
        theme_data = {
            "theme_name": theme_name,  # Ajoute le nom du thème
            "data": data  # Ajoute les informations collectées pour le thème
        }
        # Crée un dictionnaire structuré contenant le nom du thème et les données associées.

        collection.insert_one(theme_data)
        # Insère le document dans la collection MongoDB spécifiée.

        print(f"Données pour le thème '{theme_name}' insérées avec succès dans MongoDB.")
        # Message de confirmation indiquant que l'insertion des données pour le thème a réussi.

    except Exception as e:
        print(f"Erreur lors de l'insertion dans MongoDB pour le thème '{theme_name}' : {str(e)}")
        # Affiche un message d'erreur en cas d'exception lors de l'insertion des données.


# Fonction pour télécharger un fichier depuis une URL (PDF ou image)

La fonction ``download_file`` télécharge un fichier à partir d’une URL et l’enregistre dans un dossier spécifié avec une extension donnée. Elle utilise un identifiant unique pour nommer le fichier, garantissant ainsi l’absence de conflits de noms dans le dossier cible.

Paramètres :

- ``url`` : URL du fichier à télécharger.
- ``folder`` : Dossier où le fichier téléchargé sera enregistré.
- `extension`: Extension du fichier (par exemple, ``pdf``, `jpg`) pour définir le type de fichier.

Processus :

- Envoie une requête GET pour télécharger le contenu depuis l’URL.
- Vérifie que le téléchargement est réussi en regardant le code de réponse HTTP.
- Génère un nom de fichier unique en utilisant ``uuid.uuid4()`` et l’extension spécifiée.
- Enregistre le fichier dans le dossier cible.
- Gère les exceptions en affichant un message d'erreur si le téléchargement échoue.

In [None]:
def download_file(url, folder, extension):
    # Télécharge un fichier depuis une URL spécifiée, enregistre le fichier dans un dossier donné avec une extension spécifique.

    try:
        response = requests.get(url)
        # Envoie une requête HTTP GET pour récupérer le contenu du fichier à partir de l'URL.

        if response.status_code == 200:
            # Vérifie si la requête a réussi (code HTTP 200 indique le succès).

            filename = f'{uuid.uuid4()}.{extension}'
            # Génère un nom de fichier unique en utilisant un identifiant UUID et l'extension spécifiée.

            full_path = os.path.join(folder, filename)
            # Crée le chemin complet pour enregistrer le fichier dans le dossier spécifié.

            with open(full_path, 'wb') as f:
                f.write(response.content)
            # Ouvre le fichier en mode binaire et écrit le contenu téléchargé.

            print(f"Téléchargement réussi : {full_path}")
            # Message de confirmation indiquant que le téléchargement a été effectué avec succès.

        else:
            print(f"Échec du téléchargement depuis : {url}")
            # Message d'erreur si la réponse HTTP n'indique pas un succès.

    except Exception as e:
        print(f"Erreur lors du téléchargement du fichier depuis {url} : {str(e)}")
        # En cas d'exception, affiche un message d'erreur détaillant la raison de l'échec.

# Fonction pour télécharger les images

La fonction ``download_images`` extrait et télécharge les images trouvées sur une page HTML, en utilisant une liste de sélecteurs CSS pour cibler les images dans divers emplacements et formats.

Paramètres :

- ``soup`` : Objet BeautifulSoup représentant la page HTML à partir de laquelle les images seront extraites.
- ``folder`` : Chemin du dossier où les images téléchargées seront enregistrées.

Processus :

- Définit une liste de sélecteurs CSS (``image_selectors``) pour identifier les images situées dans des éléments HTML spécifiques (figures, paragraphes, divs).
- Pour chaque sélecteur, extrait les éléments image de la page et les ajoute à la liste ``images``.
- Pour chaque image de la liste ``images``, récupère l'URL de l'attribut ``src``.
- Si l'URL de l'image est valide, appelle la fonction ``download_file`` pour télécharger l'image dans le dossier spécifié, avec l'extension ``.jpg``.

In [None]:
# Fonction pour télécharger les images
def download_images(soup, folder):
    # Extrait les images d'une page HTML et les télécharge dans un dossier spécifié.

    images = []  # Liste pour stocker les éléments image extraits de la page

    image_selectors = [
        'figure.wp-caption.alignright img[loading="lazy"]',
        'p[style="text-align: center;"] img[loading="lazy"]',
        'p img[loading="lazy"]',
        'figure.wp-caption.aligncenter img[loading="lazy"]',
        'figure.wp-caption.alignleft img[loading="lazy"]',
        'div.modula-items img[data-valign="middle"]'
    ]
    # Liste de sélecteurs CSS pour cibler différents emplacements et formats d'images dans la page HTML.

    for selector in image_selectors:
        images.extend(soup.select(selector))
        # Pour chaque sélecteur, extrait les éléments image correspondants et les ajoute à la liste `images`.

    for img in images:
        src = img.get('src')
        # Récupère l'URL de l'image à partir de l'attribut `src`.

        if src:
            download_file(src, folder, 'jpg')
            # Si l'URL est présente, appelle la fonction `download_file` pour télécharger l'image au format JPEG dans le dossier spécifié.


# Fonction pour télécharger les PDF

La fonction ``download_pdfs`` extrait et télécharge les fichiers PDF disponibles sur une page HTML en ciblant des liens avec des sélecteurs CSS spécifiques.

Paramètres :

- ``soup`` : Objet BeautifulSoup représentant la page HTML à analyser pour trouver les liens PDF.
- ``folder`` : Chemin du dossier où les fichiers PDF téléchargés seront enregistrés.

Processus :

- Définit une liste de sélecteurs CSS (``pdf_selectors``) pour cibler les liens vers des fichiers PDF dans des éléments HTML spécifiques (paragraphes, titres).
- Pour chaque sélecteur, extrait les liens correspondants vers les fichiers PDF et les ajoute à la liste ``pdfs``.
- Pour chaque lien PDF dans la liste ``pdfs``, récupère l'URL de l'attribut href.
- Si l'URL de fichier se termine par ``.pdf``, appelle ``download_file`` pour télécharger le fichier PDF dans le dossier spécifié.

In [None]:
# Fonction pour télécharger les PDF
def download_pdfs(soup, folder):
    # Extrait les liens vers des fichiers PDF d'une page HTML et télécharge chaque PDF dans un dossier spécifié.

    pdf_selectors = [
        'p[style="text-align: center;"] a[href]',
        'h2[style="text-align: center;"] a[href]',
        'p a[href]'
    ]
    # Liste de sélecteurs CSS pour cibler les liens menant à des fichiers PDF dans différents emplacements de la page.

    pdfs = []  # Liste pour stocker les éléments de lien vers les fichiers PDF

    for selector in pdf_selectors:
        pdfs.extend(soup.select(selector))
        # Pour chaque sélecteur, extrait les éléments de lien correspondants et les ajoute à la liste `pdfs`.

    for pdf in pdfs:
        href = pdf.get('href')
        # Récupère l'URL du fichier PDF à partir de l'attribut `href`.

        if href and href.endswith('.pdf'):
            download_file(href, folder, 'pdf')
            # Si l'URL est valide et se termine par '.pdf', appelle la fonction `download_file` pour télécharger le PDF.


# Fonction pour attendre le chargement des résultats

La fonction ``wait_for_results_to_load`` utilise Selenium pour attendre que les résultats de recherche d’une page soient entièrement chargés, en surveillant l'apparition d'un élément spécifique.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium utilisée pour interagir avec la page.

Processus :

- Attend jusqu’à 30 secondes pour que l'élément ``div.resdrg`` apparaisse dans le DOM, indiquant que les résultats de la recherche sont chargés.
- En cas de succès, affiche un message de confirmation.
- Si l'attente dépasse le délai ou si l'élément n'est pas trouvé, affiche un message d'erreur.

In [None]:
# Fonction pour attendre le chargement des résultats
def wait_for_results_to_load(driver):
    # Attend que les résultats de la recherche soient entièrement chargés en surveillant la présence d'un élément spécifique.

    try:
        WebDriverWait(driver, 30).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'div.resdrg'))
        )
        # Utilise une attente explicite de 30 secondes pour vérifier la présence d'un élément de résultats,
        # identifié par le sélecteur CSS 'div.resdrg'.

        print("Les résultats de la recherche sont chargés.")
        # Affiche un message confirmant le chargement réussi des résultats.

    except Exception as e:
        print(f"Erreur lors du chargement des résultats : {str(e)}")
        # En cas d'erreur (délai dépassé ou élément non trouvé), affiche un message d'erreur avec une description.


# Extraire les liens des résultats

La fonction `extract_results` extrait les liens des résultats de recherche affichés sur une page. Elle utilise Selenium pour vérifier le chargement complet des résultats avant de récupérer les liens présents dans chaque résultat.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium utilisée pour accéder aux éléments de la page.

Retour :

Renvoie une liste de liens (``href``) pour chaque résultat de recherche trouvé sur la page. Retourne une liste vide si une erreur survient.

Processus :

- Appelle ``wait_for_results_to_load`` pour s'assurer que les résultats sont visibles.
- Localise le conteneur principal des résultats, puis sélectionne chaque résultat individuel.
- Pour chaque résultat, récupère le lien (`<a>`) situé dans le tag `<h3>`.
- Ajoute l’URL de chaque lien valide dans une liste.
- Gère les erreurs en affichant un message d'erreur et en retournant une liste vide si l'extraction échoue.

In [None]:
# Extraire les liens des résultats
def extract_results(driver):
    # Extrait les liens des résultats de recherche sur une page en vérifiant que les résultats sont chargés.

    try:
        wait_for_results_to_load(driver)
        # Appelle la fonction pour attendre le chargement complet des résultats avant de procéder.

        results_container = driver.find_element(By.CSS_SELECTOR, 'div.resdrg')
        # Localise le conteneur principal des résultats de recherche.

        results = results_container.find_elements(By.CSS_SELECTOR, 'div.item.asl_r_pagepost.asl_r_post')
        # Récupère tous les éléments individuels des résultats dans le conteneur,
        # identifiés par leurs classes CSS 'item', 'asl_r_pagepost', et 'asl_r_post'.

        links = []
        for result in results:
            h3_tag = result.find_element(By.CSS_SELECTOR, 'h3 a')
            # Localise le lien (`<a>`) dans le tag `<h3>` de chaque résultat.

            href = h3_tag.get_attribute('href')
            # Extrait l'URL du lien.

            if href:
                links.append(href)
                # Ajoute le lien à la liste si une URL valide est trouvée.

        return links
        # Retourne la liste de tous les liens extraits.

    except Exception as e:
        print(f"Erreur lors de l'extraction des résultats : {str(e)}")
        return []
        # Affiche un message d'erreur et retourne une liste vide en cas d'échec de l'extraction.


# Fonction pour récupérer le nombre de commentaires de la vidéo

La fonction ``get_nombre_commentaire`` utilise Selenium pour charger la page d'une vidéo YouTube, scroller jusqu'au bas de la page pour afficher les commentaires, et extraire le nombre de commentaires si ceux-ci ne sont pas désactivés.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium utilisée pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube pour laquelle on souhaite récupérer le nombre de commentaires.

Retour :

Renvoie le nombre de commentaires sous forme de texte. Si les commentaires sont désactivés ou qu'une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et scrolle jusqu'au bas pour s'assurer que les commentaires sont chargés.
- Attends quelques secondes pour garantir que la page est complètement chargée.
- Vérifie si les commentaires sont désactivés et retourne "N/A" si c'est le cas.
- Si les commentaires sont activés, extrait le nombre de commentaires affiché sur la page.
- En cas d'erreur, affiche un message d'erreur et retourne "N/A".

In [None]:
def get_nombre_commentaire(driver, video_url):
    # Récupère le nombre de commentaires d'une vidéo YouTube en chargeant la page et en défilant vers le bas
    # pour s'assurer que les commentaires sont chargés.

    try:
        # Charger la page de la vidéo
        driver.get(video_url)

        # Scroller vers le bas de la page pour charger les commentaires
        driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")
        
        # Attendre quelques secondes pour s'assurer que la page a bien défilé et que les commentaires sont chargés
        WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.TAG_NAME, "body"))
        )

        # Essayer d'extraire le message indiquant que les commentaires sont désactivés
        try:
            commentaire_desactive_element = WebDriverWait(driver, 20).until(
                EC.presence_of_element_located((By.XPATH, "//yt-formatted-string[contains(text(), 'Les commentaires sont désactivés')]"))
            )
            if commentaire_desactive_element:
                nombre_commentaires = "N/A"
                print("Les commentaires sont désactivés sur cette vidéo.")
                # Si l'élément indiquant la désactivation des commentaires est trouvé, retourne "N/A".

        except TimeoutException:
            # Si les commentaires ne sont pas désactivés, extraire le nombre de commentaires
            try:
                nombre_commentaires = WebDriverWait(driver, 20).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.count-text.style-scope.ytd-comments-header-renderer'))
                ).text
                # Récupère le texte de l'élément indiquant le nombre de commentaires.

            except Exception as e:
                nombre_commentaires = "N/A"
                print(f"Erreur lors de l'extraction du nombre de commentaires : {str(e)}")
                # Si une erreur survient lors de l'extraction, retourne "N/A".

    except Exception as e:
        nombre_commentaires = "N/A"
        print(f"Erreur lors du chargement de la vidéo : {str(e)}")
        # En cas d'erreur lors du chargement de la vidéo, retourne "N/A".

    return nombre_commentaires
    # Retourne le nombre de commentaires ou "N/A" si les commentaires sont désactivés ou si une erreur est survenue.


# Fonction pour récupérer le titre d'une vidéo

La fonction ``get_titre_video`` utilise Selenium pour charger la page d'une vidéo YouTube et extraire son titre. Elle attend que l'élément contenant le titre soit visible avant de récupérer son texte.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on veut extraire le titre.

Retour :

Renvoie le titre de la vidéo sous forme de texte. Si le titre n'est pas disponible ou si une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant le titre soit présent.
- Localise et extrait le texte du titre en s'assurant qu'il n'est pas vide.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément du titre est introuvable ou si une exception se produit.

In [None]:
# Fonction pour récupérer le titre d'une vidéo
def get_titre_video(driver, video_url):
    # Charge la page d'une vidéo YouTube et extrait son titre si celui-ci est disponible.

    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube à partir de l'URL spécifiée.

        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'div.style-scope.ytd-watch-metadata yt-formatted-string.style-scope.ytd-watch-metadata'))
        )
        # Attend jusqu'à 20 secondes pour que l'élément contenant le titre de la vidéo soit présent sur la page.

        titre_video_element = driver.find_element(By.CSS_SELECTOR, 'div.style-scope.ytd-watch-metadata yt-formatted-string.style-scope.ytd-watch-metadata')
        # Localise l'élément contenant le titre de la vidéo en utilisant le sélecteur CSS approprié.

        return titre_video_element.text.strip() if titre_video_element else 'N/A'
        # Retourne le texte du titre de la vidéo sans espaces de début ou de fin.
        # Si l'élément du titre n'est pas trouvé, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération du titre de la vidéo : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction du titre.


# Fonction pour récupérer le propriétaire d'une vidéo

La fonction ``get_video_owner`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire le nom du propriétaire (chaîne). Elle attend que l'élément contenant le nom soit visible avant de le récupérer.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on veut extraire le nom du propriétaire.

Retour :

Renvoie le nom du propriétaire de la vidéo sous forme de texte. Si le nom n'est pas disponible ou si une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant le nom du propriétaire soit présent.
- Localise et extrait le texte du propriétaire en s'assurant qu'il n'est pas vide.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément du propriétaire est introuvable ou si une exception se produit.

In [None]:
# Fonction pour récupérer le propriétaire d'une vidéo
def get_video_owner(driver, video_url):
    # Charge la page d'une vidéo YouTube et extrait le nom du propriétaire (chaîne) si celui-ci est disponible.

    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube à partir de l'URL spécifiée.

        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'div.style-scope ytd-channel-name a.yt-simple-endpoint.style-scope.yt-formatted-string'))
        )
        # Attend jusqu'à 20 secondes pour que l'élément contenant le nom du propriétaire soit visible sur la page.

        owner_element = driver.find_element(By.CSS_SELECTOR, 'div.style-scope ytd-channel-name a.yt-simple-endpoint.style-scope.yt-formatted-string')
        # Localise l'élément contenant le nom du propriétaire de la chaîne YouTube.

        return owner_element.text.strip() if owner_element else 'N/A'
        # Retourne le nom du propriétaire sans espaces de début ou de fin.
        # Si l'élément du propriétaire n'est pas trouvé, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération du propriétaire de la vidéo : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction du nom du propriétaire.


# Fonction pour récupérer le nombre de vues d'une vidéo

La fonction ``get_nombre_vues`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire le nombre de vues affiché. Elle attend que l'élément contenant le nombre de vues soit visible avant de le récupérer.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- `video_url` : URL de la vidéo YouTube dont on veut extraire le nombre de vues.

Retour :

Renvoie le nombre de vues de la vidéo sous forme de texte. Si le nombre de vues n'est pas disponible ou si une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant le nombre de vues soit présent.
- Localise et extrait le texte du nombre de vues en s'assurant qu'il n'est pas vide.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément du nombre de vues est introuvable ou si une exception se produit.

In [None]:
# Fonction pour récupérer le nombre de vues d'une vidéo
def get_nombre_vues(driver, video_url):
    # Charge la page d'une vidéo YouTube et extrait le nombre de vues si celui-ci est disponible.

    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube à partir de l'URL spécifiée.

        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.style-scope.ytd-watch-info-text span.style-scope.yt-formatted-string.bold'))
        )
        # Attend jusqu'à 20 secondes pour que l'élément contenant le nombre de vues soit présent sur la page.

        vues_element = driver.find_element(By.CSS_SELECTOR, 'yt-formatted-string.style-scope.ytd-watch-info-text span.style-scope.yt-formatted-string.bold')
        # Localise l'élément contenant le nombre de vues de la vidéo.

        return vues_element.text.strip() if vues_element else 'N/A'
        # Retourne le texte du nombre de vues sans espaces de début ou de fin.
        # Si l'élément du nombre de vues n'est pas trouvé, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération du nombre de vues : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction du nombre de vues.


# Fonction pour récupérer le nombre de likes d'une vidéo

La fonction ``get_nombre_likes`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire le nombre de likes affiché. Elle attend que l'élément contenant le nombre de likes soit visible avant de le récupérer.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on veut extraire le nombre de likes.

Retour :

Renvoie le nombre de likes de la vidéo sous forme de texte. Si le nombre de likes n'est pas disponible ou si une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant le nombre de likes soit présent.
- Localise et extrait le texte du nombre de likes en s'assurant qu'il n'est pas vide.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément du nombre de likes est introuvable ou si une exception se produit.

In [None]:
def get_nombre_likes(driver, video_url):
    # Charge la page d'une vidéo YouTube et extrait le nombre de likes si celui-ci est disponible.

    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube à partir de l'URL spécifiée.

        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]'))
        )
        # Attend jusqu'à 20 secondes pour que l'élément contenant le nombre de likes soit présent sur la page.

        likes_element = driver.find_element(By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]')
        # Localise l'élément contenant le nombre de likes de la vidéo.

        return likes_element.text.strip() if likes_element else 'N/A'
        # Retourne le texte du nombre de likes sans espaces de début ou de fin.
        # Si l'élément du nombre de likes n'est pas trouvé, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération du nombre de likes : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction du nombre de likes.


# Fonction pour récupérer la description d'une vidéo

La fonction ``get_description_video`` utilise Selenium pour charger la page d'une vidéo YouTube, cliquer sur le bouton "Afficher plus" pour déployer la description complète, puis extraire le texte de cette description.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on souhaite extraire la description.

Retour :

Renvoie le texte de la description de la vidéo. Si la description est vide ou une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que le bouton "Afficher plus" soit cliquable.
- Clique sur le bouton "Afficher plus" pour afficher la description complète.
- Localise et extrait le texte de la description.
- En cas d'erreur ou si la description est introuvable, retourne "N/A".

In [None]:
def get_description_video(driver, video_url):
    # Charge la page d'une vidéo YouTube, affiche la description complète et l'extrait si elle est disponible.

    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube à partir de l'URL spécifiée.

        # Cliquer sur le bouton "Afficher plus" pour afficher toute la description
        show_more_button_xpath = '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-text-inline-expander/tp-yt-paper-button[1]'
        show_more_button = WebDriverWait(driver, 20).until(
            EC.element_to_be_clickable((By.XPATH, show_more_button_xpath))
        )
        driver.execute_script("arguments[0].click();", show_more_button)
        # Attend que le bouton "Afficher plus" soit cliquable, puis clique dessus pour déployer la description complète.

        time.sleep(2)  # Pause pour laisser le temps à la description complète de se charger

        # Récupérer l'élément contenant la description complète
        description_video_element = driver.find_element(By.CSS_SELECTOR, 'span.yt-core-attributed-string.yt-core-attributed-string--white-space-pre-wrap')
        # Localise l'élément contenant le texte de la description complète de la vidéo.

        description = description_video_element.text.strip() if description_video_element else 'N/A'
        # Récupère et nettoie le texte de la description. Si l'élément est introuvable, retourne "N/A".

        return description if description else 'N/A'
        # Si la description est vide, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération de la description : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction de la description.


# Fonction pour récupérer la date de publication

La fonction ``get_date_publication`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire la date de publication. Elle attend que l'élément contenant la date soit visible avant de récupérer son texte.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on souhaite extraire la date de publication.

Retour :

Renvoie la date de publication de la vidéo sous forme de texte. Si la date de publication n'est pas disponible ou qu'une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant la date de publication soit visible.
- Localise et extrait le texte de la date de publication.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément de la date de publication est introuvable ou si une exception se produit.

In [None]:
def get_date_publication(driver, video_url):
    # Charge la page d'une vidéo YouTube et extrait la date de publication si elle est disponible.

    try:
        # Ouvrir l'URL de la vidéo dans le navigateur
        driver.get(video_url)

        # Attendre que l'élément contenant la date de publication soit présent et visible
        date_publication = WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[3]'))
        ).text
        # Utilise une attente explicite jusqu'à 20 secondes pour localiser l'élément contenant la date de publication.

        print(f"Date de publication récupérée : {date_publication}")
        # Affiche la date de publication récupérée pour vérification.

        return date_publication
        # Retourne le texte de la date de publication si l'élément est trouvé.

    except Exception as e:
        print(f"Erreur lors de l'extraction de la date de publication : {str(e)}")
        return "N/A"
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction de la date.


# Fonction pour récupérer les informations d'une page

La fonction ``get_info`` charge une page web, extrait divers éléments textuels (titre, texte, catégories, etc.) et multimédias (images, PDF, informations de vidéo YouTube), puis retourne ces informations sous forme d’une liste.

Paramètres :

- ``link`` : Lien URL de la page web dont les informations doivent être extraites.
- ``driver`` : Instance du WebDriver Selenium pour interagir avec la page et charger des iframes de vidéos YouTube.

Retour :

Renvoie une liste contenant les informations extraites. Si une erreur survient, retourne None.

Processus :

- Charge la page et extrait le titre, les catégories, les sous-catégories, les années, les échelles, les thèmes, le type de ressource, et le contenu textuel principal.
- Télécharge les images et les fichiers PDF associés à la page.
- Si une vidéo intégrée est présente, extrait les informations de celle-ci (propriétaire, titre, nombre de commentaires, etc.) en chargeant la vidéo dans un nouvel onglet.
- Retourne toutes les informations extraites sous forme de liste.

In [None]:
# Fonction pour récupérer les informations d'une page
def get_info(link, driver):
    try:
        driver.get(link)
        page_source = driver.page_source
        soup = bs(page_source, 'html.parser')

        Titre = soup.find('h1')
        Titre_text = Titre.get_text(strip=True).replace('\xa0', ' ') if Titre else 'N/A'
        print(f"Titre extrait: {Titre_text}")

        # Téléchargement des images
        download_folder = 'Images'
        downloaded_images = download_images(soup, download_folder)


        # Téléchargement des PDF
        pdf_folder = 'PDFs'
        downloaded_pdfs = download_pdfs(soup, pdf_folder)


        # Récupération des autres informations

        activités_text = []
        activities_section = soup.find('section', class_='main-single-category container-fluid p-0 mt-6 mb-5')
        if activities_section:
            container_div = activities_section.find('div', class_='container d-flex justify-content-center align-items-center')
            if container_div:
                for cat in ['/projets?cat=21', '/projets?cat=18', '/projets?cat=19', '/projets?cat=20', '/projets?cat=14']:
                    a_tag = container_div.find('a', href=cat)
                    if a_tag:
                        activités_text.append(a_tag.get_text(strip=True).replace('\xa0', ' '))
        activités_text = ', '.join(activités_text) if activités_text else 'N/A'
        
        
        sous_activités_text = []
        for cat in ['/projets?cat=152', '/projets?cat=35', '/projets?cat=37', '/projets?cat=36',
                    '/projets?cat=121', '/projets?cat=38', '/projets?cat=879', '/projets?cat=66',
                    '/projets?cat=64', '/projets?cat=63', '/projets?cat=101', '/projets?cat=103',
                    '/projets?cat=102', '/projets?cat=44', '/projets?cat=904', '/projets?cat=41',
                    '/projets?cat=42', '/projets?cat=40', '/projets?cat=43']:
            a_tag = container_div.find('a', href=cat)
            if a_tag:
                sous_activités_text.append(a_tag.get_text(strip=True).replace('\xa0', ' '))
        sous_activités_text = ', '.join(sous_activités_text) if sous_activités_text else 'N/A'

        
        années_text = []
        for cat in ['/projets?cat=870', '/projets?cat=820', '/projets?cat=777', '/projets?cat=60',
                    '/projets?cat=59', '/projets?cat=23', '/projets?cat=24', '/projets?cat=25',
                    '/projets?cat=150', '/projets?cat=120', '/projets?cat=75', '/projets?cat=147']:
            a_tag = container_div.find('a', href=cat)
            if a_tag:
                années_text.append(a_tag.get_text(strip=True).replace('\xa0', ' '))
        années_text = ', '.join(années_text) if années_text else 'N/A'

        
        échelle_text = []
        for cat in ['/projets?cat=27', '/projets?cat=62', '/projets?cat=61', '/projets?cat=28']:
            a_tag = container_div.find('a', href=cat)
            if a_tag:
                échelle_text.append(a_tag.get_text(strip=True).replace('\xa0', ' '))
        échelle_text = ', '.join(échelle_text) if échelle_text else 'N/A'

        
        theme_principal_text = []
        for cat in ['/ressources?cat=15', '/ressources?cat=16']:
            a_tag = container_div.find('a', href=cat)
            if a_tag:
                theme_principal_text.append(a_tag.get_text(strip=True).replace('\xa0', ' '))
        theme_principal_text = ', '.join(theme_principal_text) if theme_principal_text else 'N/A'

        
        theme_technique_text = []
        for cat in ['/ressources?cat=157', '/ressources?cat=49', '/ressources?cat=50', '/ressources?cat=54',
                     '/ressources?cat=55', '/ressources?cat=155', '/ressources?cat=51', '/ressources?cat=52', 
                     '/ressources?cat=158', '/ressources?cat=56', '/ressources?cat=154', '/ressources?cat=159', 
                     '/ressources?cat=53', '/ressources?cat=161', '/ressources?cat=78', '/ressources?cat=57', 
                     '/ressources?cat=156']:
            a_tag = container_div.find('a', href=cat)
            if a_tag:
                theme_technique_text.append(a_tag.get_text(strip=True).replace('\xa0', ' '))
        theme_technique_text = ', '.join(theme_technique_text) if theme_technique_text else 'N/A'

        
        type_de_ressource_text = []
        for cat in ['/ressources?cat=153', '/ressources?cat=67', '/ressources?cat=68', '/ressources?cat=30']:
            a_tag = container_div.find('a', href=cat)
            if a_tag:
                type_de_ressource_text.append(a_tag.get_text(strip=True).replace('\xa0', ' '))
        type_de_ressource_text = ', '.join(type_de_ressource_text) if type_de_ressource_text else 'N/A'

        
        # Extraction des sections de contenu principales
        full_section_main = soup.find('section', class_="main-single-content container-fluid mt-5 mb-5")
        full_section_formation = soup.find('section', class_="main-single-formation-content container-fluid mt-5 mb-5")
        # Recherche les deux sections principales de la page qui contiennent le texte de contenu.

        texte = ""  # Variable pour stocker le texte extrait.

        for full_section in [full_section_main, full_section_formation]:
            if full_section:
                full_container_div = full_section.find('div', class_="container")
                # Si la section existe, recherche la div principale contenant les éléments de texte.

                if full_container_div:
                    previous_title_text = ""
                    for element in full_container_div.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p', 'ul']):
                        # Parcourt chaque élément de titre, paragraphe et liste dans la div pour récupérer le texte structuré.

                        if element.name in ['h1', 'h2', 'h3', 'h4', 'h5', 'h6']:
                            if texte and previous_title_text.strip():
                                texte += "\n"
                            # Ajoute une nouvelle ligne entre le texte et le titre précédent pour une meilleure lisibilité.

                            texte += element.get_text(strip=True).replace('\xa0', ' ') + "\n"
                            # Ajoute le texte du titre avec des espaces non sécables remplacés.

                            previous_title_text = element.get_text(strip=True).replace('\xa0', ' ')
                            # Enregistre le texte du titre pour la vérification suivante.

                        elif element.name == 'p':
                            paragraph_text = ''.join([str(item) if item.name != 'a' else item.get_text(strip=True).replace('\xa0', ' ') for item in element.contents])
                            # Construit le texte du paragraphe en remplaçant les liens par leur texte, en conservant les espaces.

                            if paragraph_text not in texte:
                                texte += paragraph_text + "\n\n"
                                # Ajoute le paragraphe au texte principal s'il n'est pas déjà présent.

                        elif element.name == 'ul':
                            if texte and texte[-1] != '\n':
                                texte += "\n"
                            # Ajoute une nouvelle ligne avant la liste pour une séparation.

                            for li in element.find_all('li'):
                                li_text = ''.join([str(item) if item.name != 'a' else item.get_text(strip=True).replace('\xa0', ' ') for item in li.contents])
                                if li_text not in texte:
                                    texte += li_text + "\n"
                                    # Ajoute chaque élément de liste au texte s'il n'est pas déjà présent.

                texte = re.sub(r'<[^>]*>', '', texte)
                # Supprime tout code HTML restant dans le texte.

                print(f"Texte extrait:\n{texte.strip()}")
                # Affiche le texte extrait pour vérification.

        # Informations sur la vidéo
        Propriétaire_video = 'N/A'
        Titre_vidéo = 'N/A'
        Nb_commentaire_video = 'N/A'
        Nb_vues_video = 'N/A'
        Description_video = 'N/A'
        Nb_likes_video = 'N/A'
        Date_publication_video = 'N/A'
        Lien_video = 'N/A'

        iframe = soup.find('iframe', {'loading': 'lazy'})
        if iframe:
            iframe_src = iframe.get('src')
            if iframe_src:
                driver.get(iframe_src)
                time.sleep(10)
                video_soup = bs(driver.page_source, 'html.parser')
                video_link = video_soup.find('a', class_='ytp-impression-link')
                if video_link:
                    Lien_video = video_link.get('href')
                    if Lien_video:
                        Propriétaire_video = get_video_owner(driver, Lien_video)
                        Titre_vidéo = get_titre_video(driver, Lien_video)
                        Nb_commentaire_video = get_nombre_commentaire(driver, Lien_video)
                        Nb_vues_video = get_nombre_vues(driver, Lien_video)
                        Description_video = get_description_video(driver, Lien_video)
                        Nb_likes_video = get_nombre_likes(driver, Lien_video)
                        Date_publication_video = get_date_publication(driver, Lien_video)


        document = {
            "Titre": Titre_text,
            "Activités": activités_text,
            "Sous-activités": sous_activités_text,
            "Années": années_text,
            "Échelle": échelle_text,
            "Thème principal": theme_principal_text,
            "Thème technique": theme_technique_text,
            "Type de ressource": type_de_ressource_text,
            "Texte": texte.strip(),
            "Lien": link,
            "Chaine vidéo":Propriétaire_video,
            "Titre vidéo" : Titre_vidéo,
            "Commentaire vidéo" : Nb_commentaire_video,
            "Vues video": Nb_vues_video,
            "Description vidéo": Description_video,
            "Lien vidéo": Lien_video,
            "Like vidéo": Nb_likes_video,
            "Date vidéo": Date_publication_video,
            "Images": downloaded_images,  # Chemins des images téléchargées
            "PDFs": downloaded_pdfs  # Chemins des PDFs téléchargés
        }

        return document

    except Exception as e:
        print(f"Une erreur est survenue lors de l'extraction des informations de {link} : {str(e)}")
        return None

# Fonction principale

La fonction ``main`` exécute le processus principal pour collecter et enregistrer les données de chaque thème de recherche à partir d'un site web. Elle configure les dossiers de téléchargement, lance la recherche pour chaque thème, collecte les informations de chaque lien, et enregistre ces données dans MongoDB.

Processus :

- Initialise le WebDriver Selenium pour contrôler le navigateur Chrome.
- Configure les dossiers pour stocker les images et les fichiers PDF téléchargés.

Pour chaque thème de la liste ``themes`` :

- Charge la page de ressources, effectue une recherche pour le thème, et récupère les liens des résultats.
- Pour chaque lien extrait, appelle ``get_info`` pour extraire les informations et les ajoute à ``theme_data``.
- Insère les données de chaque thème dans MongoDB en tant que document unique.
- Ferme le navigateur après la collecte de toutes les données.

In [None]:
# Fonction principale
def main():
    # Initialise le navigateur, configure les dossiers de téléchargement, effectue des recherches pour chaque thème,
    # collecte les données de chaque lien, et insère ces données dans MongoDB par thème.

    driver = webdriver.Chrome()
    # Initialise le WebDriver Selenium pour interagir avec le navigateur Chrome.

    try:
        themes = ['Construction bas carbone', 'Numérique dans la construction']
        # Liste des thèmes de recherche.

        global download_folder
        download_folder = 'Images'
        os.makedirs(download_folder, exist_ok=True)
        # Crée un dossier pour télécharger les images extraites de chaque page, s'il n'existe pas déjà.

        global pdf_folder
        pdf_folder = 'PDFs'
        os.makedirs(pdf_folder, exist_ok=True)
        # Crée un dossier pour télécharger les fichiers PDF extraits de chaque page, s'il n'existe pas déjà.

        for theme in themes:
            driver.get('https://amaco.org/ressources/')
            # Charge la page de ressources pour effectuer la recherche.

            search_input = driver.find_element(By.CSS_SELECTOR, 'div.proinput form[role="search"] input[type="search"].orig')
            search_input.send_keys(theme)
            # Localise le champ de recherche et entre le thème en cours.

            search_button = driver.find_element(By.CSS_SELECTOR, 'button.promagnifier')
            search_button.click()
            # Localise et clique sur le bouton de recherche.

            time.sleep(10)
            # Pause pour laisser le temps aux résultats de la recherche de se charger.

            wait_for_results_to_load(driver)
            # Attend que les résultats de la recherche soient complètement chargés.

            links = extract_results(driver)
            # Récupère tous les liens des résultats de la recherche.

            theme_data = []  # Liste pour stocker les données pour chaque lien du thème en cours.

            for link in links:
                print(f"Extraction des données pour le lien : {link}")
                data = get_info(link, driver)
                if data:
                    theme_data.append(data)
                    # Ajoute les données extraites du lien à la liste `theme_data` pour le thème actuel.

            # Insertion d'un document pour chaque thème dans MongoDB
            insert_theme_to_db(theme, theme_data)
            # Insère les données du thème sous forme de document unique dans MongoDB.

    finally:
        driver.quit()
        # Ferme le navigateur pour libérer les ressources.

if __name__ == "__main__":
    main()
    # Exécute la fonction principale si le script est exécuté directement.
