# Importation des packages nécessaires

In [None]:
from bs4 import BeautifulSoup as bs
# BeautifulSoup est utilisé pour analyser le contenu HTML d'une page et faciliter l'extraction d'informations.

import os
# Le module os fournit des fonctions pour interagir avec le système d'exploitation, comme la création de dossiers.

from selenium import webdriver
# Selenium est utilisé pour contrôler le navigateur et automatiser les interactions avec des pages Web.

from selenium.webdriver.common.by import By
# By est utilisé pour définir les types de localisateurs dans Selenium (comme CSS_SELECTOR, XPATH, etc.).

from selenium.webdriver.support.ui import WebDriverWait
# WebDriverWait est utilisé pour attendre que certains éléments soient présents ou cliquables avant de poursuivre.

from selenium.webdriver.support import expected_conditions as EC
# expected_conditions contient des conditions standard pour vérifier la présence ou la visibilité d'éléments.

from selenium.common.exceptions import TimeoutException
# TimeoutException est levée si une condition de WebDriverWait n'est pas remplie dans le délai imparti.

from pymongo import MongoClient
# MongoClient permet de se connecter à une base de données MongoDB et d'interagir avec elle.

import time
# Le module time est utilisé pour ajouter des pauses temporaires dans le script, permettant au navigateur de charger.


#  Connexion à la base de données MongoDB

Ce code établit une connexion à une base de données ``MongoDB`` hébergée sur MongoDB Atlas, sélectionne une base de données spécifique, et définit la collection dans laquelle les documents seront insérés.

Processus :

- Utilise MongoClient pour se connecter à MongoDB en utilisant l'URL fournie. Cette URL inclut l'authentification pour MongoDB Atlas.
- Sélectionne la base de données en remplaçant ``'nom_de_ta_base'`` par le nom réel de la base où les données doivent être stockées.
- Sélectionne la collection ``'Mooc-batiment-durable'``, où chaque document (représentant les données extraites) sera inséré.

In [None]:
# Connexion à la base de données MongoDB
client = MongoClient('mongodb+srv://serginemengue46:tu3uF7Ap0g2RQDou@cluster0.7xuvx.mongodb.net')
# Initialise une connexion à MongoDB en utilisant l'URL de connexion MongoDB Atlas.
# Remplace les informations dans l'URL pour correspondre aux identifiants et aux paramètres de sécurité de ta base.

db = client['nom_de_ta_base']  
# Sélectionne la base de données où les données seront stockées.
# Remplace 'nom_de_ta_base' par le nom de ta base MongoDB.

collection = db['Mooc-batiment-durable']  
# Sélectionne la collection spécifique dans la base de données pour y insérer les documents.
# Ici, 'Mooc-batiment-durable' est le nom de la collection dans laquelle les données seront insérées.


# Remplacement des caractères spéciaux et nettoyage de texte.

La fonction ``clean_text`` prend une chaîne de texte en entrée, remplace les espaces insécables par des espaces ordinaires, et supprime les espaces en début et fin de chaîne pour un nettoyage optimal.

Paramètres :

- ``text`` : Chaîne de texte à nettoyer.

Retour :

Renvoie le texte modifié sans espaces insécables ni espaces superflus.

Processus :

- Remplace tous les caractères ``\xa0`` (espace insécable) par un espace classique ``' '``.
- Supprime les espaces au début et à la fin de la chaîne de texte avec strip().

In [None]:
def clean_text(text):

    
    # Remplace les espaces insécables (\xa0) par des espaces ordinaires et supprime les espaces de début et de fin.
    return text.replace('\xa0', ' ').strip()
    # Retourne le texte nettoyé.


# Insertion des données dans MongoDB

La fonction ``insert_theme_to_db`` organise les données extraites sous forme de documents structurés, regroupés par thème, et les insère dans une collection MongoDB.

Paramètres :

- ``theme_name`` : Nom du thème sous lequel les données seront structurées dans MongoDB.
- ``data`` : Liste de listes contenant les informations de chaque ligne à insérer.

Retour :

- Aucun retour. La fonction effectue une insertion directe dans MongoDB et affiche un message de confirmation ou d'erreur.

Processus :

- Crée un dictionnaire ``theme_data`` avec le nom du thème et une liste vide pour y ajouter les documents individuels.
- Parcourt chaque ligne de données, utilise ``clean_text`` pour nettoyer chaque champ, et crée un document structuré pour chaque ligne.
- Insère le document ``theme_data`` dans la collection MongoDB sous forme de document unique.
- En cas d'échec, affiche un message d'erreur avec les détails de l'exception.

In [None]:
def insert_theme_to_db(theme_name, data):
    
    
    try:
        theme_data = {
            "theme_name": theme_name,  # Ajoute le nom du thème pour structurer les données.
            "data": []  # Liste pour stocker les documents individuels de données sous ce thème.
        }

        # Parcourt chaque ligne de données et crée un document structuré pour MongoDB
        for line in data:
            document = {
                "Thème": clean_text(str(line[0])),
                "Référence": clean_text(str(line[1])),
                "Titre": clean_text(str(line[2])),
                "Durée": clean_text(str(line[3])),
                "Temps d'effort": clean_text(str(line[4])),
                "Rythme": clean_text(str(line[5])),
                "Langue": clean_text(str(line[6])),
                "Inscription": clean_text(str(line[7])),
                "Cours": clean_text(str(line[8])),
                "Texte": clean_text(str(line[9])),
                "Plan de Formation": clean_text(str(line[10])),
                "Sessions de Cours Archivées": clean_text(str(line[11])),
                "Lien": clean_text(str(line[12])),
                "Propriétaire vidéo": clean_text(str(line[13])),
                "Titre vidéo": clean_text(str(line[14])),
                "Nombre de commentaires": clean_text(str(line[15])),
                "Nombre de vues": clean_text(str(line[16])),
                "Nombre de likes": clean_text(str(line[17])),
                "Description vidéo": clean_text(str(line[18])),
                "Date publication video": clean_text(str(line[19])),
                "Lien de la vidéo": clean_text(str(line[20]))
            }
            theme_data["data"].append(document)  # Ajoute chaque document structuré à la liste de données du thème.

        # Insertion du document structuré dans MongoDB
        collection.insert_one(theme_data)
        print(f"Données pour le thème '{theme_name}' insérées avec succès dans MongoDB.")
        # Confirme l'insertion réussie du document dans la base de données.

    except Exception as e:
        print(f"Une erreur est survenue lors de l'insertion dans MongoDB pour le thème '{theme_name}' : {str(e)}")
        # Affiche un message d'erreur si l'insertion dans MongoDB échoue.


# Refus des cookies 

La fonction ``click_refuse_cookies`` interagit avec une page Web pour cliquer sur le bouton de refus des cookies, lorsque celui-ci est présent et cliquable. Elle utilise des attentes explicites pour s'assurer de la visibilité et de la cliquabilité du bouton avant d'exécuter le clic.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium utilisée pour interagir avec la page et exécuter le clic.

Processus :

- Attend jusqu’à 20 secondes que le bouton de refus des cookies soit présent dans la page.
- Scrolle la page pour garantir la visibilité du bouton.
- Attend jusqu'à 10 secondes supplémentaires que le bouton soit cliquable.
- Clique sur le bouton pour refuser les cookies.
- En cas de succès, affiche un message de confirmation ; sinon, affiche un message d'erreur en cas d'exception.

In [None]:
def click_refuse_cookies(driver):
    

    try:
        # Rechercher le bouton de refus des cookies avec un délai d'attente de 20 secondes pour sa présence
        refuse_button = WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.XPATH, "//button[@aria-label=\"Refuser l'utilisation de cookies et d'autres données aux fins décrites\"]"))
        )
        # Défilement pour s'assurer que le bouton est visible à l'écran
        driver.execute_script("arguments[0].scrollIntoView(true);", refuse_button)
        
        # Attendre jusqu'à 10 secondes que le bouton soit cliquable avant d'exécuter le clic
        WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, "//button[@aria-label=\"Refuser l'utilisation de cookies et d'autres données aux fins décrites\"]"))
        )
        refuse_button.click()
        # Clic sur le bouton pour refuser les cookies

        print("Bouton 'Tout refuser' des cookies cliqué")
        # Message de confirmation indiquant le succès du clic

    except Exception as e:
        print(f"Erreur lors du refus des cookies : {str(e)}")
        # Affiche un message d'erreur si le clic échoue ou si le bouton n'est pas trouvé


# Récupérer le nombre de commentaire d'une vidéo

La fonction ``get_nombre_commentaire`` utilise Selenium pour charger une vidéo YouTube, fait défiler la page jusqu’en bas pour s’assurer que les commentaires sont chargés, puis extrait le nombre de commentaires s’ils sont activés.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour interagir avec la page de la vidéo.
- ``video_url`` : URL de la vidéo YouTube pour laquelle on veut récupérer le nombre de commentaires.

Retour :

Renvoie le nombre de commentaires sous forme de texte. Si les commentaires sont désactivés ou qu’une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et fait défiler vers le bas pour garantir le chargement des commentaires.
- Vérifie si un message indiquant la désactivation des commentaires est présent. Si oui, retourne "N/A".
- Si les commentaires sont activés, extrait le nombre de commentaires affiché.
- Gère les erreurs en affichant un message et en retournant "N/A" si une exception survient.

In [None]:
def get_nombre_commentaire(driver, video_url):
    

    try:
        # Charger la page de la vidéo
        driver.get(video_url)
        # Charge la page de la vidéo YouTube en utilisant l'URL spécifiée.

        # Scroller vers le bas de la page pour charger les commentaires
        driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")
        # Fait défiler la page vers le bas pour s'assurer que les commentaires sont chargés.

        # Attendre quelques secondes pour s'assurer que la page a bien défilé et que les commentaires sont chargés
        WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.TAG_NAME, "body"))
        )
        # Attendre que le corps de la page soit chargé pour garantir la disponibilité de tous les éléments.

        # Essayer d'extraire le message indiquant que les commentaires sont désactivés
        try:
            commentaire_desactive_element = WebDriverWait(driver, 20).until(
                EC.presence_of_element_located((By.XPATH, "//yt-formatted-string[contains(text(), 'Les commentaires sont désactivés')]"))
            )
            if commentaire_desactive_element:
                nombre_commentaires = "N/A"
                print("Les commentaires sont désactivés sur cette vidéo.")
                # Si un message indiquant la désactivation des commentaires est trouvé, retourne "N/A".

        except TimeoutException:
            # Si les commentaires ne sont pas désactivés, extraire le nombre de commentaires
            try:
                nombre_commentaires = WebDriverWait(driver, 20).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.count-text.style-scope.ytd-comments-header-renderer'))
                ).text
                # Récupère le texte indiquant le nombre de commentaires affiché sur la page.

            except:
                nombre_commentaires = "N/A"
                print("Erreur lors de l'extraction du nombre de commentaires")
                # En cas d'erreur, retourne "N/A".

    except:
        nombre_commentaires = "N/A"
        print("Erreur lors du chargement de la vidéo")
        # En cas d'erreur lors du chargement de la vidéo, retourne "N/A".

    return nombre_commentaires
    # Retourne le nombre de commentaires ou "N/A" si les commentaires sont désactivés ou si une erreur survient.


# Récupérer le titre d'une vidéo

La fonction g``et_titre_video`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire le titre. Elle attend que l'élément contenant le titre soit visible avant de le récupérer.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on souhaite extraire le titre.

Retour :

Renvoie le titre de la vidéo sous forme de texte. Si le titre n'est pas disponible ou si une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant le titre soit présent.
- Localise et extrait le texte du titre de la vidéo.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément du titre est introuvable ou si une exception se produit.

In [None]:
def get_titre_video(driver, video_url):
    

    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube en utilisant l'URL spécifiée.

        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'div.style-scope.ytd-watch-metadata yt-formatted-string.style-scope.ytd-watch-metadata'))
        )
        # Attend jusqu'à 20 secondes que l'élément contenant le titre de la vidéo soit présent sur la page.

        titre_video_element = driver.find_element(By.CSS_SELECTOR, 'div.style-scope.ytd-watch-metadata yt-formatted-string.style-scope.ytd-watch-metadata')
        # Localise l'élément contenant le titre de la vidéo en utilisant le sélecteur CSS.

        return titre_video_element.text.strip() if titre_video_element else 'N/A'
        # Retourne le texte du titre de la vidéo sans espaces de début ou de fin.
        # Si l'élément du titre n'est pas trouvé, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération du titre de la vidéo : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction du titre.


# Récupérer le propriétaire d'une vidéo

La fonction ``get_video_owner`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire le nom du propriétaire de la chaîne. Elle attend que l'élément contenant le nom soit visible avant de le récupérer.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on souhaite extraire le nom du propriétaire.

Retour :

- Renvoie le nom du propriétaire de la chaîne sous forme de texte. Si le nom n'est pas disponible ou qu'une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant le nom du propriétaire soit présent.
- Localise et extrait le texte du nom du propriétaire.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément du propriétaire est introuvable ou si une exception se produit.

In [None]:
def get_video_owner(driver, video_url):
    
    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube en utilisant l'URL spécifiée.

        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'div.style-scope.ytd-channel-name a.yt-simple-endpoint.style-scope.yt-formatted-string'))
        )
        # Attend jusqu'à 20 secondes que l'élément contenant le nom du propriétaire soit présent sur la page.

        owner_element = driver.find_element(By.CSS_SELECTOR, 'div.style-scope.ytd-channel-name a.yt-simple-endpoint.style-scope.yt-formatted-string')
        # Localise l'élément contenant le nom du propriétaire de la chaîne YouTube.

        return owner_element.text.strip() if owner_element else 'N/A'
        # Retourne le texte du nom du propriétaire sans espaces de début ou de fin.
        # Si l'élément du propriétaire n'est pas trouvé, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération du propriétaire de la vidéo : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction du nom du propriétaire.


# Récupérer le nombre de vues d'une vidéo

La fonction ``get_nombre_vues`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire le nombre de vues. Elle attend que l'élément contenant le nombre de vues soit visible avant de le récupérer.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on souhaite extraire le nombre de vues.

Retour :

- Renvoie le nombre de vues de la vidéo sous forme de texte. Si le nombre de vues n'est pas disponible ou si une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant le nombre de vues soit présent.
- Localise et extrait le texte du nombre de vues.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément du nombre de vues est introuvable ou si une exception se produit.

In [None]:
def get_nombre_vues(driver, video_url):
    
    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube en utilisant l'URL spécifiée.

        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'yt-formatted-string.style-scope.ytd-watch-info-text span.style-scope.yt-formatted-string.bold'))
        )
        # Attend jusqu'à 20 secondes que l'élément contenant le nombre de vues soit présent sur la page.

        vues_element = driver.find_element(By.CSS_SELECTOR, 'yt-formatted-string.style-scope.ytd-watch-info-text span.style-scope.yt-formatted-string.bold')
        # Localise l'élément contenant le nombre de vues de la vidéo.

        return vues_element.text.strip() if vues_element else 'N/A'
        # Retourne le texte du nombre de vues sans espaces de début ou de fin.
        # Si l'élément du nombre de vues n'est pas trouvé, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération du nombre de vues : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction du nombre de vues.


# Récupérer le nombre de likes d'une vidéo

La fonction ``get_nombre_likes`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire le nombre de likes. Elle attend que l'élément contenant le nombre de likes soit visible avant de le récupérer et vérifie si les likes sont effectivement disponibles.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on souhaite extraire le nombre de likes.

Retour :

- Renvoie le nombre de likes sous forme de texte. Si les likes ne sont pas disponibles ou si une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant le nombre de likes soit présent.
- Localise et extrait le texte du nombre de likes.
- Vérifie si le texte contient uniquement ``"J'aime"`` sans nombre, indiquant que les likes ne sont pas disponibles, et retourne ``"N/A"``.
- Gère les erreurs en affichant un message et en retournant ``"N/A"`` si l'élément des likes est introuvable ou si une exception se produit.

In [None]:
def get_nombre_likes(driver, video_url):
    

    try:
        # Chargement de la page vidéo
        driver.get(video_url)
        # Charge la page de la vidéo YouTube en utilisant l'URL spécifiée.

        # Attente que l'élément des likes soit présent
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]'))
        )
        # Attend jusqu'à 20 secondes que l'élément contenant le nombre de likes soit visible sur la page.

        # Récupération de l'élément contenant les likes
        likes_element = driver.find_element(By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]')
        # Localise l'élément contenant le nombre de likes de la vidéo.

        # Vérification si l'élément contient le texte "J'aime"
        likes_text = likes_element.text.strip()
        if "J'aime" in likes_text:
            return 'N/A'
        # Si le texte contient "J'aime" sans nombre, cela indique que les likes ne sont pas disponibles. Retourne "N/A".

        # Retour du nombre de likes si disponible, sinon 'N/A'
        return likes_text if likes_text else 'N/A'
        # Retourne le nombre de likes si disponible, sinon retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération du nombre de likes : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction du nombre de likes.


# Récupérer la description d'une vidéo

La fonction ``get_description_video`` utilise Selenium pour charger une vidéo YouTube, cliquer sur le bouton ``"Afficher plus"`` afin de dérouler la description complète, puis extrait cette description.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- `video_url` : URL de la vidéo YouTube pour laquelle on souhaite extraire la description.

Retour :

- Renvoie la description complète sous forme de texte. Si la description n'est pas disponible ou si une erreur survient, retourne ``"N/A"``.

Processus :

- Charge la page de la vidéo et attend que le bouton ``"Afficher plus"`` soit cliquable, puis clique dessus pour déployer la description complète.
- Attend brièvement pour permettre le chargement de la description.
- Localise et extrait le texte de la description.
- Gère les erreurs en affichant un message et en retournant ``"N/A"`` si l'élément de description est introuvable ou si une exception se produit.

In [None]:
def get_description_video(driver, video_url):
    

    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube en utilisant l'URL spécifiée.

        # Cliquer sur le bouton "Afficher plus" pour afficher toute la description
        show_more_button_xpath = '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-text-inline-expander/tp-yt-paper-button[1]'
        show_more_button = WebDriverWait(driver, 20).until(
            EC.element_to_be_clickable((By.XPATH, show_more_button_xpath))
        )
        driver.execute_script("arguments[0].click();", show_more_button)
        # Attend jusqu'à 20 secondes que le bouton "Afficher plus" soit cliquable, puis clique pour étendre la description.

        time.sleep(2)  # Pause pour laisser le temps à la description complète de se charger
        # Attente de 2 secondes pour garantir le chargement complet de la description étendue.

        # Récupérer l'élément contenant la description complète
        description_video_element = driver.find_element(By.CSS_SELECTOR, 'span.yt-core-attributed-string.yt-core-attributed-string--white-space-pre-wrap')
        description = description_video_element.text.strip() if description_video_element else 'N/A'
        # Localise l'élément contenant la description complète et extrait son texte, ou retourne "N/A" si absent.

        # Si la description est vide, retourner 'N/A'
        return description if description else 'N/A'
        # Retourne le texte de la description si elle est non vide, sinon retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération de la description : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction de la description.


# Récupérer la date de publication d'une vidéo

La fonction ``get_date_publication`` utilise Selenium pour charger la page d'une vidéo YouTube et en extraire la date de publication. Elle attend que l'élément contenant la date soit visible avant de le récupérer.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium pour accéder à la page de la vidéo et interagir avec les éléments.
- ``video_url`` : URL de la vidéo YouTube dont on souhaite extraire la date de publication.

Retour :

- Renvoie la date de publication sous forme de texte. Si la date n'est pas disponible ou qu'une erreur survient, retourne "N/A".

Processus :

- Charge la page de la vidéo et attend que l'élément contenant la date de publication soit présent.
- Localise et extrait le texte de la date de publication.
- Gère les erreurs en affichant un message et en retournant "N/A" si l'élément de date est introuvable ou si une exception se produit.

In [None]:
def get_date_publication(driver, video_url):


    try:
        driver.get(video_url)
        # Charge la page de la vidéo YouTube en utilisant l'URL spécifiée.

        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[3]'))
        )
        # Attend jusqu'à 20 secondes que l'élément contenant la date de publication soit présent sur la page.

        date_element = driver.find_element(By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-watch-info-text/div/yt-formatted-string/span[3]')
        # Localise l'élément contenant la date de publication de la vidéo.

        return date_element.text.strip() if date_element else 'N/A'
        # Retourne le texte de la date de publication sans espaces de début ou de fin.
        # Si l'élément de la date de publication n'est pas trouvé, retourne "N/A".

    except Exception as e:
        print(f"Erreur lors de la récupération de la date de publication : {str(e)}")
        return 'N/A'
        # Affiche un message d'erreur et retourne "N/A" en cas d'exception lors de l'extraction de la date de publication.


#   Récupération des liens de chaque page de résultats de pagination sur un site web

La fonction ``get_pagination_urls`` utilise Selenium pour récupérer tous les liens de pagination disponibles sur une page Web, permettant d'accéder aux pages de résultats suivantes.

Paramètres :

- ``driver`` : Instance du WebDriver Selenium utilisée pour naviguer et interagir avec la page.

Retour :

- Renvoie une liste pagination_links contenant les URLs de chaque page de pagination. Si une erreur survient, la liste retournée sera vide.

Processus :

- Sélectionne tous les éléments de pagination (liens) et extrait leur attribut href.
- Ajoute chaque lien unique à la liste pagination_links.
- Gère les erreurs en affichant un message et en continuant sans interrompre le processus.

In [None]:
def get_pagination_urls(driver):
    
    
    pagination_links = []
    try:
        # Trouver tous les éléments <li> de pagination contenant des liens
        pagination_items = driver.find_elements(By.CSS_SELECTOR, "li.pagination__item a")
        # Sélectionne tous les éléments de pagination sous forme de liens dans des éléments <li>.

        for item in pagination_items:
            href = item.get_attribute("href")
            # Récupère l'attribut href de chaque lien de pagination.

            if href and href not in pagination_links:
                pagination_links.append(href)
                # Ajoute le lien à la liste s'il est unique (non dupliqué).

    except Exception as e:
        print(f"Erreur lors de la récupération des liens de pagination : {str(e)}")
        # Affiche un message d'erreur en cas d'exception lors de la récupération des liens de pagination.

    return pagination_links
    # Retourne la liste des liens de pagination.


# Extraction des informations d'une page web

La fonction ``get_info`` utilise Selenium et BeautifulSoup pour extraire des informations détaillées sur une page de cours, telles que le thème, la référence, le titre, les caractéristiques du cours, les informations de vidéo associée, etc.

Paramètres :

- ``link`` : URL de la page de cours.
- ``driver`` : Instance de WebDriver utilisée pour naviguer sur la page et interagir avec les éléments.

Retour :

- Renvoie une liste line contenant les informations extraites. Si une erreur survient, renvoie une liste contenant "N/A" pour chaque élément attendu.

Processus :

- Charge la page de cours avec Selenium et attend que les éléments clés soient disponibles.
- Utilise BeautifulSoup pour extraire diverses informations (thème, titre, caractéristiques) en fonction de sélecteurs CSS spécifiques.
- Si une vidéo est présente, charge l’iframe et extrait les informations associées (propriétaire, titre, vues, likes, etc.).
- Retourne une liste complète de toutes les informations extraites, prête à être exportée dans un fichier Excel.

In [None]:
def get_info(link, driver):
    
    
    try:
        # Charger la page avec Selenium
        print(f"Chargement de la page : {link}")
        driver.get(link)
        WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, "div.course-detail__aside")))
        # Attend que la page se charge complètement en ciblant un élément spécifique pour vérifier la disponibilité.

        soup = bs(driver.page_source, 'html.parser')

        # Fonction utilitaire pour extraire du texte basé sur un sélecteur CSS
        def extract_text(selector, default='N/A'):
            element = soup.select_one(selector)
            return element.get_text(strip=True) if element else default

        # Extraction des informations générales de la page
        themes = ', '.join([span.get_text() for span in soup.select('div.category-badge-list__container a.category-badge span.category-badge__title')]) or 'N/A'
        reference = extract_text('div.subheader__code')
        titre = extract_text('h1.subheader__title')
        
        # Extraction des caractéristiques spécifiques
        characteristics_items = soup.select('div.characteristics ul.characteristics__container li.characteristics__item span.characteristics__term')
        duree = next((item.get_text(strip=True) for item in characteristics_items if "Durée" in item.get_text(strip=True)), 'N/A')
        temps_d_effort = next((item.get_text(strip=True) for item in characteristics_items if "Effort" in item.get_text(strip=True)), 'N/A')
        rythme = next((item.get_text(strip=True) for item in characteristics_items if "Rythme" in item.get_text(strip=True)), 'N/A')
        langue = next((item.get_text(strip=True) for item in characteristics_items if "Langue" in item.get_text(strip=True)), 'N/A')

        # Extraire les informations supplémentaires : Inscription et Cours
        inscription = 'N/A'
        cours = 'N/A'
        dl_elements = soup.select('div.course-detail__run-descriptions.course-detail__run-descriptions--course_and_search dl')
        if dl_elements:
            for dl in dl_elements:
                dts = dl.find_all('dt')
                dds = dl.find_all('dd')
                
                for i in range(len(dts)):
                    dt_text = dts[i].get_text(strip=True)
                    if 'Inscription' in dt_text and i + 1 < len(dds):
                        inscription = dds[i].get_text(strip=True)
                    elif 'Cours' in dt_text and i + 1 < len(dds):
                        cours = dds[i].get_text(strip=True)

        # Texte, Plan de formation et Sessions de cours archivées
        texte = ' '.join([element.get_text(strip=True) for element in soup.select('div.course-detail__block.course-detail__primary-group p')]) or 'N/A'
        plan_de_formation = ' '.join([element.get_text(strip=True) for element in soup.select('section.course-detail__row.course-detail__plan div.nested-item__content')]) or 'N/A'
        sessions_de_cours_archivées = ' '.join([element.get_text(strip=True) for element in soup.select('div.course-detail__row.course-detail__runs.course-detail__runs--archived ul li')]) or 'N/A'

        # Informations vidéo : Propriétaire, Titre, Commentaires, Vues, Likes, Description, Date, Lien
        Propriétaire_video = 'N/A'
        Titre_vidéo = 'N/A'
        Nb_commentaire_video = 'N/A'
        Nb_vues_video = 'N/A'
        Nb_likes_video = 'N/A'
        Description_video = 'N/A'
        Date_publication_video = 'N/A'
        Lien_video = 'N/A'

        # Trouver le lien de l'iframe pour la vidéo
        iframe = soup.find('iframe', {'title': 'Vidéo'})
        if iframe:
            iframe_src = iframe.get('src')
            print(f"IFrame src trouvé: {iframe_src}")
            if iframe_src:
                if not iframe_src.startswith('http'):
                    iframe_src = 'https:' + iframe_src  # Assurez-vous que l'URL commence par 'https:'
                driver.get(iframe_src)
                time.sleep(3)
                video_soup = bs(driver.page_source, 'html.parser')
                
                # Récupérer le lien de la vidéo après le chargement de l'iframe
                video_link = video_soup.find('a', class_='ytp-impression-link')
                if video_link:
                    Lien_video = video_link.get('href')
                    print(f"Video URL trouvé: {Lien_video}")
                    if Lien_video:
                        driver.get(Lien_video)
                        time.sleep(3)
                        # Vérifier si la vidéo est disponible
                        if "cette vidéo n'est plus disponible" not in driver.page_source.lower():
                            Propriétaire_video = get_video_owner(driver, Lien_video)
                            Titre_vidéo = get_titre_video(driver, Lien_video)
                            Nb_commentaire_video = get_nombre_commentaire(driver, Lien_video)
                            Nb_vues_video = get_nombre_vues(driver, Lien_video)
                            Nb_likes_video = get_nombre_likes(driver, Lien_video)
                            Description_video = get_description_video(driver, Lien_video)
                            Date_publication_video = get_date_publication(driver, Lien_video)
                        else:
                            print("Cette vidéo n'est plus disponible.")
                            Lien_video = 'N/A'

        # Structure des données extraites
        line = [
            themes,
            reference,
            titre,
            duree,
            temps_d_effort,
            rythme,
            langue,
            inscription,
            cours,
            texte,
            plan_de_formation,
            sessions_de_cours_archivées,
            link,
            Propriétaire_video,
            Titre_vidéo,
            Nb_commentaire_video,
            Nb_vues_video,
            Nb_likes_video,
            Description_video,
            Date_publication_video,
            Lien_video
        ]

        print(f"Données extraites : {line}")  # Vérification des données extraites
        return line

    except Exception as e:
        print(f"Une erreur est survenue lors de l'extraction des informations : {str(e)}")
        return ['N/A'] * 21  # Retourne une liste de N/A en cas d'erreur


# Extraction des URLs des formations et leurs informations pour plusieurs thèmes avec pagination et insertion dans MongoDB

La fonction ``extract_urls_and_info`` utilise Selenium pour extraire les liens de formation disponibles sur un site Web pour plusieurs thèmes. Elle parcourt les pages de résultats avec pagination, collecte les informations détaillées de chaque formation, puis les insère dans MongoDB par thème.

- Paramètres : Aucun paramètre d'entrée.

- Retour : Aucun retour direct. Les données sont stockées dans MongoDB.

- Processus :

Initialisation et Recherche :

- Parcourt chaque thème dans themes.
- Charge la page de formation pour le thème, entre le mot-clé dans la barre de recherche et effectue la recherche.

Collecte des liens :

- Récupère les liens de formation pour la page initiale.
- Utilise ``get_pagination_urls`` pour obtenir les URLs des pages de pagination.
- Parcourt chaque page de pagination pour ajouter les liens des formations sans duplication.

Extraction des informations de formation :

- Pour chaque lien de formation, utilise la fonction ``get_info`` pour extraire les informations détaillées et les stocke dans une liste all_data.

Insertion dans MongoDB :

- Insère les informations de formation dans MongoDB pour chaque thème en appelant ``insert_theme_to_db``.

Fermeture :

- Ferme le navigateur après la collecte de toutes les données.

In [None]:
def extract_urls_and_info():
    
    
    themes = ["Métiers de l'encadrement", "bas carbone"]  # Liste des thèmes à traiter

    options = webdriver.ChromeOptions()
    driver = webdriver.Chrome(options=options)
    # Initialisation de l'instance de WebDriver avec des options personnalisées.

    try:
        for theme in themes:
            print(f"Traitement du thème : {theme}")
            base_url = "https://www.mooc-batiment-durable.fr/fr/formations/?limit=21&offset=0&query={}"
            driver.get(base_url.format(theme))
            # Accès à la page de formation avec le thème spécifié.

            WebDriverWait(driver, 80).until(EC.presence_of_element_located((By.CSS_SELECTOR, "input.react-autosuggest__input")))
            # Attente jusqu'à ce que le champ de recherche soit visible.

            search_input = driver.find_element(By.CSS_SELECTOR, "input.react-autosuggest__input")
            search_input.clear()
            time.sleep(10)  # Pause pour garantir le bon chargement de la page
            search_input.send_keys(theme)
            # Entrée du thème dans le champ de recherche.

            search_button = driver.find_element(By.CSS_SELECTOR, "svg.icon.icon--medium.search-input__btn__icon")
            search_button.click()
            # Clique sur le bouton de recherche.

            WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, "div.course-glimpse-list__content")))
            # Attente jusqu'à ce que les résultats de recherche soient chargés.

            hrefs = []
            course_glimpses = driver.find_elements(By.CSS_SELECTOR, "div.course-glimpse__media a")
            for glimpse in course_glimpses:
                hrefs.append(glimpse.get_attribute("href"))
            # Extraction des liens des formations dans la page de résultats.

            # Récupération des liens des pages de pagination
            pagination_links = get_pagination_urls(driver)

            for page_link in pagination_links:
                driver.get(page_link)
                time.sleep(3)  # Pause pour laisser la page se charger
                course_glimpses = driver.find_elements(By.CSS_SELECTOR, "div.course-glimpse__media a")
                for glimpse in course_glimpses:
                    href = glimpse.get_attribute("href")
                    if href not in hrefs:
                        hrefs.append(href)
            # Parcours de chaque page de pagination pour collecter les liens de formation sans doublon.

            all_data = []
            for href in hrefs:
                data = get_info(href, driver)
                all_data.append(data)
            # Pour chaque lien de formation, collecte les informations et les ajoute à la liste `all_data`.

            # Insère les données collectées dans MongoDB par thème
            insert_theme_to_db(theme, all_data)

            print(f"Nombre total de liens récupérés pour le thème '{theme}' : {len(hrefs)}")

    finally:
        driver.quit()
        # Quitte le navigateur une fois toutes les opérations terminées.

if __name__ == "__main__":
    extract_urls_and_info()
