# Importation des bibliothèques nécessaires

In [None]:
# Importation du module Selenium qui permet d'automatiser le contrôle des navigateurs web.
from selenium import webdriver

# Importation de 'By' de Selenium, utilisé pour localiser les éléments sur une page web (par exemple par ID, nom, classe, etc.).
from selenium.webdriver.common.by import By

# Importation de WebDriverWait de Selenium, utilisé pour spécifier des attentes explicites pour un élément (ex. attendre que l'élément soit visible).
from selenium.webdriver.support.ui import WebDriverWait

# Importation de expected_conditions de Selenium, contient des conditions prédéfinies (ex. attendre que l'élément soit cliquable ou visible).
from selenium.webdriver.support import expected_conditions as EC

# Importation de TimeoutException de Selenium, utilisé pour gérer les exceptions d'attente (lorsqu'un élément n'apparaît pas dans un délai imparti).
from selenium.common.exceptions import TimeoutException

# Importation du module BeautifulSoup de la bibliothèque bs4, utilisé pour le parsing (analyse et extraction) de contenu HTML et XML.
from bs4 import BeautifulSoup as bs

# Importation de la bibliothèque requests pour effectuer des requêtes HTTP (obtenir le contenu d'une page web, envoyer des formulaires, etc.).
import requests

# Importation du module os, utilisé pour interagir avec le système d'exploitation (accès aux fichiers, navigation dans les répertoires, etc.).
import os

# Importation de la bibliothèque time, utilisée pour gérer les délais d'attente ou effectuer des pauses dans le script.
import time

# Importation de la bibliothèque pymongo et de la classe MongoClient, utilisée pour interagir avec une base de données MongoDB.
from pymongo import MongoClient


# Connexion à la base de données

Ce script établit une connexion à une base de données MongoDB hébergée sur MongoDB Atlas.
Il sélectionne ensuite une base de données spécifique et une collection.
MongoDB est une base de données NoSQL qui stocke les données sous forme de documents JSON.

- **Connexion** : Utilise l'URI pour se connecter au cluster MongoDB en ligne.
- **Base de données** : Une base de données MongoDB est sélectionnée pour stocker les informations.
- **Collection** : Une collection appelée `Tp-demain` est créée ou sélectionnée. C'est dans cette collection que les documents seront stockés.

Prérequis :
- Avoir `pymongo` installé (`pip install pymongo`)
- Disposer d'un cluster MongoDB avec les identifiants de connexion appropriés


In [None]:
# Connexion au cluster MongoDB Atlas en utilisant l'URI de connexion
client = MongoClient('mongodb+srv://serginemengue46:tu3uF7Ap0g2RQDou@cluster0.7xuvx.mongodb.net')

# Sélection de la base de données souhaitée
db = client['nom_de_ta_base']  # À remplacer par le nom de ta base de données

# Accès à la collection spécifique dans la base de données
collection = db['Tp-demain']  # Utilisation de la collection nommée 'Tp-demain'


# Options du navigateur
Ce bloc de code configure les options du navigateur Chrome pour gérer les pop-ups et notifications indésirables.
Les options de navigation permettent de contrôler divers aspects du comportement du navigateur lors de l'automatisation avec Selenium.

- **Objectif** : Empêcher les notifications pop-up (souvent des demandes de permissions ou des publicités) de perturber l'automatisation.
- **Approche** : Utiliser `ChromeOptions` pour définir des préférences spécifiques, comme la désactivation des notifications.

Étapes : 
1. Créer une instance `ChromeOptions` pour personnaliser le comportement du navigateur.
2. Ajouter une préférence (`prefs`) pour désactiver les notifications.
3. Associer les préférences au navigateur via `add_experimental_option`.

Avantages :
- Évite les interruptions lors du scraping ou des tests automatisés.
- Assure un fonctionnement fluide du script.

Prérequis :
- Avoir Selenium installé (`pip install selenium`)
- Utiliser le bon pilote pour Chrome (par exemple, `chromedriver` compatible avec la version de Chrome installée)


In [None]:
# Initialisation des options de configuration pour le navigateur Chrome
options = webdriver.ChromeOptions()  # Crée un objet pour définir les options de démarrage de Chrome

# Désactiver les notifications (pop-ups) qui pourraient interrompre l'exécution du script
prefs = {"profile.default_content_setting_values.notifications": 2}

# Ajout des préférences à l'objet options
options.add_experimental_option("prefs", prefs)  # Applique les préférences pour désactiver les notifications


# Initialisation du navigateur web

Ce bloc initialise le navigateur Chrome en tenant compte des options spécifiées précédemment.
Il permet de lancer une instance du navigateur Chrome configurée pour les besoins spécifiques de l'automatisation.

- **Objectif** : Démarrer Chrome avec des options personnalisées (par exemple, désactivation des notifications).
- **Contexte** : Utilisé dans les scripts Selenium pour s'assurer que le navigateur fonctionne selon les paramètres définis.
- **Approche** : Créer un objet `driver` qui pilote Chrome, en passant l'objet `options` contenant les préférences configurées.

**Étapes** :
1. Initialiser le navigateur avec `webdriver.Chrome()` et y associer les options.
2. Le `driver` est l'interface principale pour interagir avec le navigateur (ouverture de page, clics, etc.).
3. S'assurer que le `chromedriver` correspondant à la version de Chrome est présent dans le PATH.

**Avantages** :
- Le navigateur se lance automatiquement avec les paramètres préconfigurés, évitant les interventions manuelles.
- Réduit le risque de problèmes d'interactions (par exemple, fenêtres contextuelles intempestives).

In [None]:

# Initialisation du navigateur Chrome avec les options personnalisées définies précédemment
driver = webdriver.Chrome(options=options)  # Crée une instance du navigateur avec les préférences définies


# Création de répertoires locaux

Ce bloc de code crée des répertoires (dossiers) locaux pour stocker les fichiers image et PDF.
Il utilise le module `os` pour créer les dossiers nécessaires s'ils n'existent pas déjà.

- **Objectif** : Organiser le stockage local des données en créant des dossiers séparés pour les images et les fichiers PDF.
- **Contexte** : Lors du téléchargement ou de l'extraction de fichiers (par exemple, web scraping), il est crucial de les structurer dans des répertoires distincts.
- **Approche** :
  1. Utiliser la fonction `os.makedirs` pour créer des répertoires.
  2. Activer l'option `exist_ok=True` pour éviter les erreurs si les dossiers existent déjà.
  
- **Avantages** :
  - Évite les erreurs lors de l'exécution si les répertoires sont déjà présents.
  - Assure que les fichiers téléchargés ou générés sont bien organisés, ce qui facilite l'accès et la maintenance.

**Prérequis** :
- Le module `os` est inclus par défaut dans Python, il n'y a donc pas besoin d'installation supplémentaire.
- Les droits d'accès en écriture doivent être accordés sur le répertoire courant.


In [None]:


# Créer le dossier 'Images' s'il n'existe pas déjà
os.makedirs('Images', exist_ok=True)  # Stockage des fichiers image

# Créer le dossier 'PDFs' s'il n'existe pas déjà
os.makedirs('PDFs', exist_ok=True)  # Stockage des fichiers PDF


# Génération de fichier unique

Cette fonction permet de générer un nom de fichier unique si un fichier portant le même nom existe déjà dans le dossier spécifié.
Elle est utile pour éviter les conflits de noms lors de la sauvegarde de fichiers dans un répertoire.

- **Objectif** : Prévenir l'écrasement de fichiers existants en créant une version unique du nom.
- **Contexte** : Lors du téléchargement ou de la génération de fichiers, il est courant de rencontrer des fichiers portant le même nom. Cette fonction génère un nouveau nom avec un compteur incrémenté.
  
**Approche** :
1. Séparer le nom de fichier et son extension (par exemple, `rapport.pdf` devient `rapport` et `.pdf`).
2. Vérifier si le fichier existe déjà dans le dossier spécifié.
3. Si oui, ajouter un compteur incrémental (`_1`, `_2`, etc.) jusqu'à ce que le nom devienne unique.
4. Retourner le nom de fichier modifié.

- **Avantages** :
  - Évite la perte de données en prévenant l'écrasement de fichiers existants.
  - Génère automatiquement des versions distinctes de chaque fichier (par exemple, `rapport.pdf`, `rapport_1.pdf`, `rapport_2.pdf`).

**Prérequis** :
- Le module `os` doit être importé (`import os`).
- Le dossier de destination (`folder`) doit exister.


In [None]:


# Fonction pour générer un nom de fichier unique si un fichier portant le même nom existe déjà dans le dossier
def get_unique_filename(folder, filename):
    # Sépare le nom de base du fichier et son extension (par exemple, 'rapport.pdf' devient 'rapport' et '.pdf')
    base, extension = os.path.splitext(filename)

    # Initialise le compteur à 1 pour créer des versions uniques (ex. 'rapport_1.pdf')
    counter = 1

    # Le nom de fichier de départ est le même que l'original
    new_filename = filename

    # Boucle tant qu'un fichier portant le même nom existe dans le dossier spécifié
    while os.path.exists(os.path.join(folder, new_filename)):
        # Génère un nouveau nom en ajoutant un suffixe numérique (ex. 'rapport_1.pdf')
        new_filename = f"{base}_{counter}{extension}"
        counter += 1  # Incrémente le compteur pour la prochaine vérification

    # Retourne le nom de fichier unique généré
    return new_filename


# Téléchargement d'images

Cette fonction télécharge une image à partir d'une URL spécifiée, l'enregistre localement et stocke son lien d'accès dans une base de données MongoDB.
Elle est conçue pour gérer le téléchargement d'images de manière sécurisée tout en évitant les conflits de noms de fichiers.

- **Objectif** : Télécharger une image depuis une URL, s'assurer que le nom du fichier est unique, et enregistrer le lien local dans MongoDB.
- **Contexte** : Utilisé lors de l'extraction de données ou du web scraping pour stocker et référencer localement des images associées à des documents dans MongoDB.
  
- **Approche** :
  1. Générer un nom de fichier unique à l'aide de `get_unique_filename`.
  2. Envoyer une requête HTTP pour télécharger l'image.
  3. Sauvegarder le contenu de l'image localement dans le dossier `Images`.
  4. Créer un lien relatif vers le fichier image (par exemple, `Images/nom_image.jpg`).
  5. Mettre à jour le document MongoDB correspondant en ajoutant le lien d'accès dans le champ `images_paths`.

- **Avantages** :
  - Évite l'écrasement des fichiers en local grâce à la gestion automatique des noms.
  - Associe chaque image à un document MongoDB spécifique pour une récupération simplifiée.
  
Prérequis :
- Le module `requests` pour envoyer des requêtes HTTP doit être installé (`pip install requests`).
- Le module `pymongo` doit être configuré pour interagir avec MongoDB (`pip install pymongo`).
- Le dossier `Images` doit exister ou être créé au préalable.


In [None]:


# Fonction pour télécharger une image depuis une URL et stocker le lien d'accès dans MongoDB
def download_image(url, filename, doc_id):
    try:
        # Générer un nom de fichier unique s'il existe déjà dans le dossier 'Images'
        filename = get_unique_filename('Images', filename)

        # Envoyer une requête HTTP pour télécharger le contenu de l'image
        response = requests.get(url)

        # Vérifier si la requête a réussi (code 200)
        if response.status_code == 200:
            # Créer le chemin complet où l'image sera enregistrée localement
            full_path = os.path.join('Images', filename)

            # Enregistrer le contenu de l'image dans un fichier local en mode binaire ('wb')
            with open(full_path, 'wb') as f:
                f.write(response.content)
            print(f"Image téléchargée avec succès : {full_path}")

            # Générer un lien d'accès relatif pour l'image à stocker dans MongoDB
            link_access = f"Images/{filename}"

            # Mettre à jour le document MongoDB correspondant (identifié par `doc_id`) en ajoutant le lien d'accès dans le champ `images_paths`
            collection.update_one(
                {'_id': doc_id},  # Sélectionner le document par son identifiant unique
                {'$push': {'images_paths': link_access}}  # Ajouter le lien dans le champ `images_paths` (type liste)
            )
            print(f"Lien d'accès de l'image enregistré dans MongoDB pour le document {doc_id}: {link_access}")
        else:
            print(f"Échec du téléchargement de l'image : {filename}")

    # Gérer les exceptions (erreurs) survenant lors du téléchargement ou de la sauvegarde de l'image
    except Exception as e:
        print(f"Erreur lors du téléchargement de l'image {filename} : {str(e)}")


# Téléchargement de PDF

Cette fonction télécharge un fichier PDF à partir d'une URL donnée, l'enregistre localement dans le dossier `PDFs`, 
et stocke le chemin d'accès relatif dans un document MongoDB correspondant.

- **Objectif** : Télécharger un fichier PDF depuis une URL, s'assurer que le nom du fichier est unique, et enregistrer le chemin d'accès dans MongoDB.
- **Contexte** : Utilisé dans des applications où les fichiers PDF doivent être téléchargés, stockés localement, et référencés dans une base de données MongoDB.
  
- **Approche** :
  1. Générer un nom de fichier unique dans le dossier `PDFs` pour éviter tout conflit de noms.
  2. Envoyer une requête HTTP pour récupérer le PDF.
  3. Sauvegarder le fichier PDF localement en mode binaire.
  4. Créer un lien d'accès relatif pour stocker la référence dans la base de données MongoDB.
  5. Mettre à jour le document MongoDB avec ce lien, en l'ajoutant dans le champ `pdf_paths`.

- **Avantages** :
  - Évite l'écrasement des fichiers PDF existants en gérant automatiquement les noms de fichiers.
  - Facilite la gestion des fichiers PDF en associant chaque document téléchargé à un enregistrement MongoDB spécifique.

Prérequis :
- Le module `requests` doit être installé (`pip install requests`).
- Le module `pymongo` doit être configuré pour interagir avec MongoDB (`pip install pymongo`).
- Le dossier `PDFs` doit exister ou être créé au préalable.


In [None]:


# Fonction pour télécharger un fichier PDF depuis une URL et enregistrer son lien d'accès dans MongoDB
def download_pdf(url, filename, doc_id):
    try:
        # Générer un nom de fichier unique s'il existe déjà dans le dossier 'PDFs'
        filename = get_unique_filename('PDFs', filename)  # Gérer les conflits de noms pour les fichiers PDF

        # Envoyer une requête HTTP pour récupérer le contenu du PDF
        response = requests.get(url)

        # Vérifier si la requête a réussi (code 200)
        if response.status_code == 200:
            # Créer le chemin complet où le PDF sera enregistré localement
            full_path = os.path.join('PDFs', filename)

            # Enregistrer le contenu du PDF dans un fichier local en mode binaire ('wb')
            with open(full_path, 'wb') as f:
                f.write(response.content)
            print(f"PDF téléchargé avec succès : {full_path}")

            # Générer un lien d'accès relatif pour le PDF à stocker dans MongoDB
            link_access = f"PDFs/{filename}"

            # Mettre à jour le document MongoDB correspondant (identifié par `doc_id`) en ajoutant le lien d'accès dans le champ `pdf_paths`
            collection.update_one(
                {'_id': doc_id},  # Sélectionner le document par son identifiant unique
                {'$push': {'pdf_paths': link_access}}  # Ajouter le lien dans le champ `pdf_paths` (type liste)
            )
            print(f"Lien d'accès du PDF enregistré dans MongoDB pour le document {doc_id}: {link_access}")
        else:
            # Si le téléchargement échoue (code de statut différent de 200), afficher un message d'erreur
            print(f"Échec du téléchargement du PDF : {filename}")

    # Gérer les exceptions (erreurs) survenant lors du téléchargement ou de la sauvegarde du PDF
    except Exception as e:
        print(f"Erreur lors du téléchargement du PDF {filename} : {str(e)}")


# Enregistrement de données par thème dans la BDD

Cette fonction enregistre un nouveau thème dans une base de données MongoDB avec ses données associées.
Elle permet d'organiser les informations extraites sous forme de documents structurés, chaque thème étant stocké individuellement.

- **Objectif** : Créer un document MongoDB pour chaque thème, y ajouter les informations extraites et les chemins de fichiers (images et PDFs).
- **Contexte** : Utilisé pour stocker des informations catégorisées par thème, comme les détails d'articles, vidéos, et documents associés à partir d'une extraction de données.

- **Approche** :
  1. Créer un document initial avec le champ `theme` et une liste vide `Données`.
  2. Insérer ce document dans MongoDB et récupérer l'ID du document (`theme_doc_id`).
  3. Ajouter les informations de chaque article, vidéo, et document associé à ce thème.
  4. Mettre à jour le document en ajoutant chaque ligne de données à la liste `Données`.

- **Avantages** :
  - Organise les informations de manière structurée pour chaque thème dans MongoDB.
  - Facile à rechercher et à exploiter pour des requêtes ou des analyses ultérieures.

Prérequis :
- Le module `pymongo` doit être installé (`pip install pymongo`).
- La connexion à MongoDB et la collection MongoDB (`collection`) doivent être définies.

Paramètres :
- `theme` (str) : Le nom du thème à enregistrer.
- `data` (list) : Une liste de tuples contenant les informations extraites pour chaque lien. Chaque tuple suit cette structure :
  - `(line, images, pdfs)` :
    - `line` (list) : Détail des informations extraites pour chaque lien.
    - `images` (list) : Chemins d'accès des images associées.
    - `pdfs` (list) : Chemins d'accès des fichiers PDF associés.

Retour :
- L'ID du document inséré (`theme_doc_id`) en cas de succès.
- `None` en cas d'erreur.

In [None]:


def save_theme_to_mongodb(theme, data):
    try:
        # Créer un nouveau document avec le champ 'theme' et une liste vide pour stocker les données associées
        theme_doc = {
            'theme': theme,  # Nom du thème
            'Données': []  # Liste vide qui contiendra les informations associées à ce thème
        }

        # Insérer le document dans MongoDB et récupérer son identifiant unique
        theme_doc_id = collection.insert_one(theme_doc).inserted_id

        # Afficher le message de confirmation pour l'insertion réussie du nouveau document
        print(f"Nouveau document pour le thème '{theme}' inséré avec ID {theme_doc_id}")

        # Parcourir chaque élément de la liste `data` pour ajouter les informations au document
        # `line` contient les détails de chaque lien, `images` contient les chemins des images, et `pdfs` contient les chemins des PDFs.
        for line, images, pdfs in data:
            # Mettre à jour le document MongoDB avec les informations extraites et les chemins d'accès associés
            collection.update_one(
                {'_id': theme_doc_id},  # Sélectionner le document par son ID unique
                {'$push': {  # Utiliser l'opérateur `$push` pour ajouter un nouvel élément dans la liste `Données`
                    'Données': {  # Chaque entrée représente un élément du thème, avec divers attributs détaillés
                        'Titre': line[0],  # Titre de l'élément
                        'A_retenir': line[1],  # Points à retenir
                        'Sommaire': line[2],  # Sommaire de l'article ou de la vidéo
                        'Texte': line[3],  # Contenu textuel principal
                        'Source': line[4],  # Source de l'information
                        'Catégorie': line[5],  # Catégorie (par exemple, actualité, tutoriel, etc.)
                        'Thématique': line[6],  # Thème associé (peut différer du thème principal)
                        'Nb_consultation': line[7],  # Nombre de consultations ou de vues
                        'Nb_evaluation_positive': line[8],  # Nombre de mentions positives
                        'Lien': line[9],  # Lien vers l'article ou la vidéo
                        'Lien_video': line[10],  # Lien vers la vidéo si disponible
                        'Titre_video': line[11],  # Titre de la vidéo si pertinent
                        'Nom_chaine': line[12],  # Nom de la chaîne ou du créateur de contenu
                        'Likes': line[13],  # Nombre de likes sur la vidéo ou l'article
                        'Vues': line[14],  # Nombre de vues de la vidéo
                        'Date_publication': line[15],  # Date de publication de l'élément
                        'Description': line[16],  # Brève description de l'élément
                        'Nombre_de_commentaires': line[17],  # Nombre de commentaires si applicable
                        'images_paths': images,  # Chemins d'accès des images associées à l'élément
                        'pdf_paths': pdfs  # Chemins d'accès des fichiers PDF associés
                    }
                }}
            )

        # Retourner l'identifiant du document inséré en cas de succès
        return theme_doc_id

    # Gérer les exceptions et afficher un message d'erreur en cas de problème
    except Exception as e:
        print(f"Erreur lors de l'enregistrement du thème '{theme}' dans MongoDB : {str(e)}")
        return None


# Défilement automatique 

Cette fonction gère le défilement automatique à l'intérieur d'un pop-up vidéo sur une page web.
Elle est conçue pour permettre d'accéder à des contenus cachés ou chargés dynamiquement dans un conteneur de type pop-up.

- **Objectif** : Effectuer un défilement (scroll) vers le bas dans un conteneur pop-up de vidéos afin de révéler des éléments supplémentaires.
- **Contexte** : Utilisé dans des projets d'automatisation web avec Selenium, par exemple pour accéder à des vidéos ou du contenu affiché dans une fenêtre modale (pop-up).
  
- **Approche** :
  1. Localiser le conteneur pop-up à l'aide d'un sélecteur CSS spécifique (`tp-yt-iron-overlay-backdrop`).
  2. Utiliser JavaScript pour faire défiler verticalement le contenu du conteneur.
  3. Gérer les erreurs potentielles (par exemple, si le pop-up n'apparaît pas).

- **Avantages** :
  - Permet de révéler et d'interagir avec des éléments qui ne sont pas visibles au chargement initial de la page.
  - Utile pour les pages qui chargent du contenu de manière asynchrone ou utilisent des fenêtres modales.

Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le driver du navigateur doit être initialisé et connecté à la page avant d'appeler cette fonction (`driver` doit être défini).
- Un sélecteur CSS correct pour identifier le conteneur pop-up.

Retour :
- Affiche un message de confirmation si le défilement est réussi.
- Gère et affiche les erreurs en cas d'échec du défilement.

Cas d'utilisation :
- Permet de charger et d'extraire des données supplémentaires cachées dans des pop-ups.


In [None]:


# Fonction pour effectuer un défilement dans un pop-up de vidéos sur la page
def scroll_in_video_popup():
    try:
        # Attendre jusqu'à 10 secondes que le conteneur du pop-up de vidéos apparaisse sur la page
        popup_container = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "tp-yt-iron-overlay-backdrop"))  # Localiser l'élément avec un sélecteur CSS
        )

        # Exécuter un script JavaScript pour faire défiler le contenu du pop-up vers le bas
        driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight;", popup_container)
        
        # Afficher un message de confirmation une fois le défilement terminé
        print("Scroll dans le pop-up des vidéos effectué.")

    # Gérer les exceptions en cas de problème avec la recherche de l'élément ou le défilement
    except Exception as e:
        print(f"Erreur lors du scroll dans le pop-up des vidéos : {str(e)}")


#  Intéraction avec le  pop-up de cookies

Cette fonction interagit avec un pop-up de cookies dans une fenêtre vidéo, fait défiler le pop-up si nécessaire, 
et clique sur le bouton "Tout refuser" pour refuser les cookies. Elle est utilisée pour automatiser l'interaction 
avec les notifications de cookies qui apparaissent dans les vidéos, afin de poursuivre l'automatisation sans interruptions.

- **Objectif** : Refuser les cookies dans un pop-up de vidéos pour éviter les interruptions pendant l'automatisation.
- **Contexte** : Utilisé lors de l'automatisation de la navigation sur des sites web, notamment ceux qui affichent des vidéos dans des pop-ups avec des politiques de cookies.
  
- **Approche** :
  1. Effectuer un défilement dans le pop-up de vidéos pour s'assurer que le bouton de refus des cookies est visible.
  2. Attendre que le bouton "Tout refuser" soit cliquable.
  3. Cliquer sur le bouton "Tout refuser" pour fermer le pop-up.
  4. Gérer les erreurs et les cas où le bouton n'apparaît pas.

- **Avantages** :
  - Évite les interruptions pendant les interactions automatisées avec les vidéos.
  - Assure une continuité dans l'exécution du script même si le bouton de cookies n'est pas trouvé.

Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le driver du navigateur doit être initialisé (`driver`) et configuré pour accéder à la page cible.

Cas d'utilisation :
- Refuser les cookies de manière automatique sur des plateformes vidéo avant de procéder à d'autres actions d'automatisation.

Retour :
- Affiche un message de confirmation en cas de succès.
- Gère les erreurs si le bouton de cookies n'est pas trouvé.

Améliorations potentielles :
- Adapter le sélecteur XPath pour différents langages ou variantes de boutons (par exemple, "Reject All" en anglais).


In [None]:


# Fonction pour refuser les cookies dans un pop-up de vidéos
def refuse_video_cookies():
    try:
        # Faire défiler le contenu du pop-up vidéo pour révéler les boutons (si nécessaire)
        scroll_in_video_popup()  # Appel à la fonction `scroll_in_video_popup` pour gérer le défilement

        # Temporisation de 2 secondes pour laisser le temps au défilement de s'effectuer
        time.sleep(2)

        # Attendre jusqu'à 5 secondes que le bouton "Tout refuser" soit cliquable
        refuse_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, "//button//span[text()='Tout refuser']"))  # Sélectionner le bouton par XPath basé sur le texte "Tout refuser"
        )

        # Cliquer sur le bouton "Tout refuser" en utilisant JavaScript pour éviter les interférences de couche CSS
        driver.execute_script("arguments[0].click();", refuse_button)
        
        # Afficher un message de confirmation une fois que les cookies ont été refusés
        print("Cookies des vidéos refusés avec succès.")

    # Gérer le cas où le bouton de refus n'est pas trouvé dans le temps imparti
    except TimeoutException:
        print("Aucun bouton de cookies trouvé dans la vidéo, passage à l'étape suivante.")
    
    # Gérer toute autre erreur éventuelle lors de l'interaction avec le bouton de refus des cookies
    except Exception as e:
        print(f"Erreur lors du clic sur 'Tout refuser' dans les vidéos : {str(e)}")


#  Afficher la totalité de la description de la vidéo

Cette fonction clique automatiquement sur le bouton "Afficher plus" sur une page YouTube pour révéler la description complète d'une vidéo.
Elle est utilisée pour étendre la section de description qui est initialement tronquée, permettant ainsi d'accéder à l'intégralité du contenu.

- **Objectif** : Interagir avec le bouton "Afficher plus" pour déplier la section de description d'une vidéo.
- **Contexte** : Utilisé dans les scripts de scraping ou d'automatisation YouTube où la description complète est nécessaire pour une analyse plus approfondie.
  
- **Approche** :
  1. Localiser le bouton "Afficher plus" à l'aide d'un sélecteur XPath spécifique.
  2. Attendre que le bouton soit cliquable avant d'interagir avec lui.
  3. Cliquer sur le bouton à l'aide de JavaScript pour éviter les restrictions de clic.
  4. Gérer les exceptions si le bouton n'est pas trouvé ou si d'autres erreurs surviennent.

- **Avantages** :
  - Permet d'accéder à des informations supplémentaires qui ne sont pas visibles par défaut.
  - Facilite l'extraction des descriptions complètes pour un traitement ou une analyse plus approfondie.

Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le driver du navigateur (`driver`) doit être initialisé et configuré pour accéder à la page cible.
- Le sélecteur XPath doit être ajusté en fonction de la structure de la page.

Cas d'utilisation :
- Extraction des descriptions complètes des vidéos YouTube pour des projets de web scraping ou d'analyse de contenu.

Retour :
- Affiche un message de confirmation en cas de succès.
- Gère et affiche les erreurs en cas d'échec du clic ou d'absence du bouton.

Améliorations potentielles :
- Ajouter des temporisations ou des vérifications pour les variations de structure de la page.
- Adapter le sélecteur XPath pour différentes langues ou variantes de boutons.


In [None]:


# Fonction pour cliquer sur le bouton "Afficher plus" et révéler la description complète d'une vidéo YouTube
def click_show_more_button():
    try:
        # Localiser le bouton "Afficher plus" sur la page YouTube et attendre qu'il devienne cliquable
        show_more_button = WebDriverWait(driver, 15).until(
            EC.element_to_be_clickable((By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[4]/div[1]/div/ytd-text-inline-expander/tp-yt-paper-button[1]'))
        )

        # Cliquer sur le bouton "Afficher plus" en utilisant JavaScript pour contourner les restrictions CSS
        driver.execute_script("arguments[0].click();", show_more_button)

        # Afficher un message de confirmation une fois le clic effectué
        print("Le bouton 'Afficher plus' a été cliqué pour révéler la description complète.")

    # Gérer le cas où le bouton n'est pas trouvé dans le délai imparti
    except TimeoutException:
        print("Aucun bouton 'Afficher plus' trouvé.")
    
    # Gérer toute autre erreur éventuelle lors de l'interaction avec le bouton "Afficher plus"
    except Exception as e:
        print(f"Erreur lors du clic sur 'Afficher plus' : {str(e)}")


# Défilement automatique 

Cette fonction effectue un défilement automatique vers le bas de la page jusqu'à ce que tout le contenu soit chargé.
Elle est utile pour les pages à chargement dynamique (par exemple, des pages avec un contenu infini), 
où le contenu supplémentaire est révélé au fur et à mesure que l'utilisateur défile vers le bas.

- **Objectif** : Dérouler automatiquement la page jusqu'à la fin pour charger tout le contenu.
- **Contexte** : Utilisé lors de l'extraction de données (web scraping) sur des sites avec des listes déroulantes infinies ou du contenu paginé qui nécessite un défilement pour être affiché.
  
- **Approche** :
  1. Récupérer la hauteur actuelle de la page (`scrollHeight`).
  2. Effectuer un défilement vers le bas de la page.
  3. Attendre que le contenu soit chargé avant de vérifier la nouvelle hauteur de la page.
  4. Répéter l'opération jusqu'à ce que la hauteur de la page n'augmente plus (fin de la page atteinte).

- **Avantages** :
  - Permet de charger dynamiquement tout le contenu d'une page sans intervention manuelle.
  - Utile pour les pages qui ne chargent pas tout le contenu initialement (par exemple, les réseaux sociaux ou les boutiques en ligne).

Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le driver du navigateur (`driver`) doit être initialisé et configuré pour accéder à la page cible.

Cas d'utilisation :
- Web scraping de sites à contenu infini (ex. Twitter, Facebook).
- Défilement sur des sites d'actualités ou de commerce en ligne avec des sections de chargement dynamique.

Retour :
- Arrête le défilement lorsqu'il n'y a plus de nouveau contenu à charger.
- Ne retourne aucune valeur.

Améliorations potentielles :
- Ajouter un compteur de boucles pour limiter le nombre de défilements et éviter les boucles infinies.
- Adapter le temps d'attente entre les défilements selon la vitesse de chargement du site.


In [None]:


# Fonction pour faire défiler automatiquement la page jusqu'à la fin
def scroll_to_bottom():
    # Récupérer la hauteur actuelle de la page
    last_height = driver.execute_script("return document.documentElement.scrollHeight")  # Obtenir la hauteur initiale de la page

    # Début de la boucle de défilement
    while True:
        # Dérouler la page jusqu'à la fin actuelle de la page
        driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")

        # Attendre 2 secondes pour laisser le contenu se charger après le défilement
        WebDriverWait(driver, 2).until(
            EC.presence_of_element_located((By.TAG_NAME, 'body'))  # Vérifier que le corps de la page est bien présent
        )

        # Obtenir la nouvelle hauteur de la page après le défilement
        new_height = driver.execute_script("return document.documentElement.scrollHeight")

        # Si la nouvelle hauteur est égale à l'ancienne, cela signifie que le bas de la page a été atteint
        if new_height == last_height:
            break  # Sortir de la boucle si plus de nouveau contenu n'est chargé

        # Mettre à jour la hauteur de la page pour le prochain cycle de défilement
        last_height = new_height


# Extraction des informations de la vidéo

Cette fonction extrait les détails d'une vidéo YouTube à partir de son URL. Elle collecte le titre, le nom de la chaîne, 
le nombre de vues, le nombre de likes, la date de publication, la description et le nombre de commentaires.

- **Objectif** : Extraire les informations clés d'une vidéo YouTube pour analyse ou archivage.
- **Contexte** : Utilisé dans les projets d'automatisation ou de scraping pour collecter des informations détaillées sur une vidéo donnée.
  
- **Approche** :
  1. Accéder à l'URL de la vidéo.
  2. Gérer le pop-up de cookies et dérouler la section de description si nécessaire.
  3. Dérouler la page pour s'assurer que tous les éléments sont chargés.
  4. Extraire les détails de la vidéo : titre, nom de la chaîne, nombre de vues, nombre de likes, date de publication, description, et nombre de commentaires.
  5. Gérer les exceptions en fournissant des valeurs par défaut lorsque les éléments ne sont pas trouvés.

- **Avantages** :
  - Permet de capturer des informations précises sur les vidéos YouTube de manière automatisée.
  - Gère les cas où certains éléments ne sont pas disponibles, garantissant une continuité dans le processus.

Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le driver du navigateur (`driver`) doit être initialisé et configuré pour accéder à la page cible.

Cas d'utilisation :
- Analyse des vidéos YouTube pour créer des rapports ou des bases de données.
- Extraction de métadonnées pour évaluer la popularité et l'engagement des vidéos.

Retour :
- Un tuple contenant le titre, le nom de la chaîne, le nombre de likes, le nombre de vues, la date de publication, la description, et le nombre de commentaires.
- Valeurs par défaut ('N/A') en cas d'échec de l'extraction.

Améliorations potentielles :
- Adapter les sélecteurs pour prendre en charge différentes langues ou mises à jour de la structure de la page YouTube.
- Ajouter des vérifications pour des informations supplémentaires (par exemple, les tags ou les liens dans la description).


In [None]:


# Fonction pour extraire les détails d'une vidéo YouTube à partir de son URL
def get_video_details(video_url):
    try:
        # Ouvrir l'URL de la vidéo
        driver.get(video_url)

        # Attendre 5 secondes pour s'assurer que la page est bien chargée
        time.sleep(5)

        # Refuser les cookies si le pop-up est présent
        try:
            refuse_video_cookies()
        except Exception as e:
            print(f"Erreur lors du refus des cookies : {str(e)}")

        # Cliquer sur le bouton "Afficher plus" pour révéler la description complète
        try:
            click_show_more_button()
        except TimeoutException:
            print("Le bouton 'Afficher plus' n'a pas été trouvé. Passer à la suite.")

        # Faire défiler jusqu'en bas de la page pour charger les commentaires et autres informations
        scroll_to_bottom()

        # Extraction du titre de la vidéo
        try:
            title = WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, "h1.style-scope.ytd-watch-metadata"))  # Sélecteur CSS pour le titre
            ).text
        except TimeoutException:
            title = 'Titre non disponible'

        # Extraction du nom de la chaîne
        try:
            channel_name = driver.find_element(By.CSS_SELECTOR, "a.yt-simple-endpoint.style-scope.yt-formatted-string").text
        except Exception:
            channel_name = 'Chaîne non disponible'

        # Extraction du nombre de likes
        try:
            likes = driver.find_element(By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-watch-metadata/div/div[2]/div[2]/div/div/ytd-menu-renderer/div[1]/segmented-like-dislike-button-view-model/yt-smartimation/div/div/like-button-view-model/toggle-button-view-model/button-view-model/button/div[2]').text
        except Exception:
            likes = "Likes non disponibles"

        # Extraction du nombre de vues
        try:
            views = driver.find_element(By.XPATH, "(//yt-formatted-string[@id='info']//span[@dir='auto'])[1]").text
        except Exception:
            views = 'Vues non disponibles'

        # Extraction de la date de publication
        try:
            publication_date = driver.find_element(By.XPATH, "(//yt-formatted-string[@id='info']//span[@dir='auto'])[3]").text
        except Exception:
            publication_date = 'Date non disponible'

        # Extraction de la description de la vidéo
        try:
            description = driver.find_element(By.CSS_SELECTOR, "span.yt-core-attributed-string.yt-core-attributed-string--white-space-pre-wrap").text
        except Exception:
            description = 'Description non disponible'

        # Vérification de l'état des commentaires (désactivés ou non)
        try:
            # Chercher un élément indiquant que les commentaires sont désactivés
            commentaire_desactive_element = driver.find_element(By.XPATH, "//yt-formatted-string[contains(text(), 'Les commentaires sont désactivés')]")
            if commentaire_desactive_element:
                comment_count = "N/A"
                print("Les commentaires sont désactivés sur cette vidéo.")
        except Exception:
            # Si le message n'est pas trouvé, on essaie d'extraire le nombre de commentaires
            try:
                comment_count = driver.find_element(By.XPATH, '/html/body/ytd-app/div[1]/ytd-page-manager/ytd-watch-flexy/div[5]/div[1]/div/div[2]/ytd-comments/ytd-item-section-renderer/div[1]/ytd-comments-header-renderer/div[1]/div[1]/h2/yt-formatted-string').text
            except Exception:
                comment_count = "N/A"
                print("Commentaires non disponibles")

        # Retourner les informations extraites sous forme de tuple
        return title, channel_name, likes, views, publication_date, description, comment_count

    # Gérer les erreurs globales lors de la récupération des détails de la vidéo
    except Exception as e:
        print(f"Erreur lors de la récupération des détails de la vidéo : {str(e)}")
        return 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A'


# Extraction des liens de vidéos

Cette fonction extrait les liens de vidéos à partir d'un iframe YouTube intégré sur une page.
Les iframes (inline frames) sont souvent utilisés pour intégrer du contenu YouTube dans d'autres pages web. Cette fonction accède à l'URL de l'iframe, 
attend que les liens vidéo soient visibles, puis les collecte pour les retourner sous forme de liste.

- **Objectif** : Collecter tous les liens de vidéos présents dans un iframe YouTube intégré.
- **Contexte** : Utilisé pour extraire automatiquement les liens de vidéos recommandées ou associées dans un iframe YouTube affiché sur une autre page.
  
- **Approche** :
  1. Accéder à l'URL de l'iframe avec `driver.get`.
  2. Attendre que les éléments vidéo soient visibles sur la page.
  3. Récupérer les éléments correspondant aux liens de vidéos (`ytp-impression-link`).
  4. Extraire l'attribut `href` de chaque élément et les stocker dans une liste.
  5. Retourner la liste des liens de vidéos ou une liste vide en cas d'erreur.

- **Avantages** :
  - Permet de collecter facilement les liens de vidéos associées dans un iframe sans naviguer sur la page principale de YouTube.
  - Utile pour automatiser la découverte de vidéos recommandées sur des sites tiers.

Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le driver du navigateur (`driver`) doit être initialisé et configuré pour accéder à la page cible.

Paramètres :
- `iframe_src` (str) : L'URL de l'iframe YouTube intégré, à partir duquel les liens de vidéos seront extraits.

Retour :
- Une liste de chaînes de caractères (`hrefs`) représentant les liens de vidéos trouvés.
- Une liste vide (`[]`) en cas d'erreur ou si aucun lien n'est trouvé.

Améliorations potentielles :
- Ajouter des vérifications pour s'assurer que les liens correspondent bien à des vidéos YouTube.
- Gérer les différents types de contenus dans les iframes (par exemple, playlists ou vidéos individuelles).


In [None]:


# Fonction pour extraire les liens vidéo présents dans un iframe YouTube
def get_video_links_from_iframe(iframe_src):
    # Accéder à l'URL de l'iframe contenant les vidéos
    driver.get(iframe_src)

    try:
        # Attendre que les liens de vidéos soient visibles dans l'iframe (jusqu'à 10 secondes)
        WebDriverWait(driver, 10).until(
            EC.visibility_of_element_located((By.CLASS_NAME, 'ytp-impression-link'))  # Vérifier que l'élément avec la classe `ytp-impression-link` est visible
        )

        # Récupérer tous les éléments correspondant aux liens de vidéos dans l'iframe
        video_links = driver.find_elements(By.CLASS_NAME, 'ytp-impression-link')

        # Extraire les attributs `href` (liens) de chaque élément récupéré
        hrefs = [link.get_attribute('href') for link in video_links]

        # Retourner la liste des liens de vidéos
        return hrefs

    # Gérer les exceptions lors de l'accès ou de l'extraction des liens dans l'iframe
    except Exception as e:
        print(f"Erreur lors de la récupération des liens vidéo : {str(e)}")
        return []  # Retourner une liste vide en cas d'erreur


# Extraction et organisation de toutes les informations

Cette fonction extrait et organise les informations détaillées d'une page web à partir de son lien. Elle collecte les informations principales 
comme le titre, le texte, la source, la catégorie, les thèmes associés, les vidéos intégrées, les images, et les fichiers PDF. 
Les informations sont ensuite structurées pour être enregistrées dans une base de données MongoDB.

- **Objectif** : Extraire les informations d'une page de contenu et les organiser pour un stockage dans MongoDB.
- **Contexte** : Utilisé pour des projets de scraping ou d'archivage de contenus à partir de sites web comme des articles, des tutoriels, ou des ressources éducatives.
  
- **Approche** :
  1. Accéder à la page web et extraire le contenu avec BeautifulSoup.
  2. Extraire les informations clés (titre, texte, source, catégories, etc.).
  3. Télécharger les ressources multimédias (images et PDFs) et enregistrer les chemins d'accès.
  4. Organiser les données dans une liste structurée, incluant le titre de la vidéo, le nombre de vues, les likes, la date de publication, etc.
  5. Retourner les informations sous forme de liste structurée avec les chemins d'images et de PDFs.

- **Avantages** :
  - Automatise l'extraction des informations détaillées d'une page web.
  - Télécharge et organise les ressources multimédias pour un archivage local.

Prérequis :
- Le module `requests` pour récupérer le contenu de la page (`pip install requests`).
- Le module `beautifulsoup4` pour analyser le contenu HTML (`pip install beautifulsoup4`).
- Le module `pymongo` pour interagir avec MongoDB (`pip install pymongo`).

Paramètres :
- `link` (str) : L'URL de la page à extraire.
- `doc_id` (ObjectId) : L'ID du document MongoDB associé pour enregistrer les chemins des fichiers téléchargés.

Retour :
- Une liste structurée (`line`) contenant toutes les informations extraites.
- Les chemins d'accès des images (`images`) et des fichiers PDF (`pdfs`).
- Valeurs par défaut (`None`, `[]`, `[]`) en cas d'erreur.

Améliorations potentielles :
- Adapter les sélecteurs CSS ou XPath selon la structure HTML de la page cible.
- Ajouter des fonctionnalités pour capturer d'autres types de contenus (par exemple, vidéos hébergées localement).


In [None]:


# Fonction pour extraire les informations d'une page web, y compris les vidéos, images et PDFs associés
def get_info(link, doc_id):
    try:
        # Envoyer une requête pour récupérer le contenu de la page
        page = requests.get(link)
        soup = bs(page.content, 'html.parser')  # Analyser le contenu HTML avec BeautifulSoup

        # Extraction du titre de la page
        Titre = soup.find('h1', class_="pt-3 mb-3 mb-md-5 text-white text-center pb-md-5")
        Titre = Titre.string.strip() if Titre else 'N/A'  # Nettoyer le titre ou mettre 'N/A' s'il n'existe pas

        # Extraction du texte principal de la page
        Texte = soup.find('div', class_="module-section-item default-module-section-item")
        Texte_text = Texte.text.strip() if Texte else 'N/A'

        # Extraction de la source de l'article
        source = soup.find('div', class_="module-credits pt-3 mt-4")
        source_text = source.get_text(strip=True) if source else 'N/A'

        # Extraction de la catégorie
        categorie_div = soup.find('div', class_="mc-category d-flex justify-content-center")
        categorie = categorie_div.find('div', class_='mcc-tag').get_text(strip=True) if categorie_div else 'N/A'

        # Extraction des thèmes associés
        themes = soup.find('div', class_="tags-list")
        thematic_list = [span.get_text(strip=True) for span in themes.find_all('span')] if themes else 'N/A'

        # Extraction de l'URL de la vidéo intégrée dans un iframe, le cas échéant
        iframe_div = soup.find('div', class_='ratio ratio-16x9 mb-4')
        lien_video_src = iframe_div.find('iframe').get('src', 'N/A') if iframe_div else 'N/A'

        # Initialiser les valeurs par défaut pour les détails de la vidéo
        lien_video, video_title, channel_name, likes, views, publication_date, description, comment_count = 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A', 'N/A'
        
        # Si une vidéo est présente, récupérer les détails de cette vidéo
        if lien_video_src != 'N/A':
            lien_video_list = get_video_links_from_iframe(lien_video_src)  # Extraire les liens vidéo depuis l'iframe
            if lien_video_list:
                lien_video = lien_video_list[0]  # Prendre le premier lien de la liste
                video_title, channel_name, likes, views, publication_date, description, comment_count = get_video_details(lien_video)  # Extraire les détails de la vidéo

        # Extraction et téléchargement des images de la page
        module_section_item = soup.find('div', class_="module-section-item default-module-section-item")
        images = []
        if module_section_item:
            img_elements = module_section_item.find_all('img')
            for index, img in enumerate(img_elements):
                img_url = img.get('src')  # Récupérer l'URL de chaque image
                if img_url:
                    img_filename = f"{Titre[:50]}_{index + 1}.jpg"  # Générer un nom de fichier unique
                    download_image(img_url, img_filename, doc_id)  # Télécharger l'image
                    images.append(f"images/{img_filename}")  # Ajouter le chemin local de l'image

        # Extraction du nombre de consultations de l'article
        Nb_consultation = soup.find('span', id="mf-nb-views")
        Nb_consultation = Nb_consultation.string if Nb_consultation else 'N/A'

        # Extraction du nombre d'évaluations positives
        evaluation_span = soup.find('span', class_="ur-link")
        Nb_evaluation_positive = int(evaluation_span.text) if evaluation_span else 0

        # Extraction des sections "À retenir" et "Sommaire"
        A_retenir = []
        Sommaire = []
        divs = soup.find_all('div', class_="module-item-content")

        # Si des sections sont trouvées, les extraire
        if divs:
            first_div = divs[0]
            p_elements = first_div.find_all('p')
            if p_elements:
                A_retenir.extend([p.text.strip() for p in p_elements if p.text])  # Extraire les paragraphes de la première section

            # Extraction des listes de la deuxième section (Sommaire)
            if len(divs) > 1:
                second_div = divs[1]
                ul_element = second_div.find('ul')
                if ul_element:
                    li_elements = ul_element.find_all('li')
                    Sommaire = [li.string for li in li_elements if li.string]
                else:
                    Sommaire = 'N/A'
            else:
                Sommaire = 'N/A'

        # Extraction et téléchargement des fichiers PDF associés
        aller_plus_loin_div = soup.find('div', class_="encadre encadre-allerPlusLoin")
        pdfs = []
        if aller_plus_loin_div:
            content_html_div = aller_plus_loin_div.find('div', class_="content content-html")
            if content_html_div:
                ul_element = content_html_div.find('ul')
                if ul_element:
                    li_elements = ul_element.find_all('li')
                    for li in li_elements:
                        a_tag = li.find('a')
                        if a_tag and a_tag.get('href').endswith('.pdf'):
                            pdf_url = a_tag.get('href')
                            if not pdf_url.startswith('http'):
                                pdf_url = 'https://tpdemain.com' + pdf_url
                            pdf_filename = f"{Titre[:50]}_{os.path.basename(pdf_url)}"
                            download_pdf(pdf_url, pdf_filename, doc_id)
                            pdfs.append(f"PDFs/{pdf_filename}")  # Ajouter le chemin local du PDF

        # Structurer toutes les informations extraites dans une liste
        line = [
            Titre,
            ' '.join(A_retenir),
            ' '.join(Sommaire),
            Texte_text,
            source_text,
            categorie,
            ', '.join(thematic_list) if thematic_list != 'N/A' else 'N/A',
            Nb_consultation,
            Nb_evaluation_positive,
            link,
            lien_video,
            video_title,
            channel_name,
            likes,
            views,
            publication_date,
            description,
            comment_count,
            images,
            pdfs
        ]

        return line, images, pdfs

    # Gérer les erreurs lors de l'extraction
    except Exception as e:
        print(f"Une erreur est survenue lors de l'extraction des informations : {str(e)}")
        return None, [], []


# Scraping de toutes les pages pour chaque thème

Cette fonction effectue un scraping de toutes les pages de résultats pour chaque thème donné sur le site "https://tpdemain.com/ressources-pedagogiques/".
Elle recherche chaque thème, collecte tous les liens trouvés, puis extrait les informations détaillées de chaque lien avant de sauvegarder ces données dans MongoDB.

- **Objectif** : Scraper le site pour récupérer toutes les ressources pédagogiques associées à chaque thème et les organiser dans des documents MongoDB.
- **Contexte** : Utilisé pour automatiser la collecte de contenus sur des thèmes spécifiques (ex. "construction bas carbone", "transition environnementale").
  
- **Approche** :
  1. Accéder à la page de recherche principale.
  2. Pour chaque thème, effectuer une recherche en saisissant le thème dans la barre de recherche.
  3. Récupérer tous les liens de la première page de résultats, puis parcourir toutes les pages suivantes.
  4. Extraire les informations détaillées de chaque lien (titre, texte, fichiers multimédias, etc.).
  5. Sauvegarder les données de chaque thème dans un document MongoDB distinct.

- **Avantages** :
  - Automatisation complète de la recherche et de l'extraction des données pour plusieurs thèmes.
  - Organisation structurée des informations dans une base de données pour une exploitation ultérieure.

Prérequis :
- Le module `selenium` doit être installé (`pip install selenium`).
- Le driver du navigateur (`driver`) doit être initialisé pour automatiser la navigation.
- La connexion à MongoDB doit être configurée.

Paramètres :
- `themes` (list) : Liste des thèmes à rechercher (ex. ["construction bas carbone", "transition environnementale"]).

Retour :
- Les informations de chaque lien sont extraites et sauvegardées dans MongoDB.

Améliorations potentielles :
- Adapter la gestion des erreurs pour des pages de résultats avec des structures différentes.
- Optimiser le temps de recherche en ajustant les temporisations (`WebDriverWait`).


In [None]:


# Fonction pour scraper toutes les pages associées aux thèmes donnés
def scrape_all_pages(themes):
    # Liste pour stocker les liens de chaque thème
    links_list = []

    try:
        # Accéder à la page principale de recherche de ressources pédagogiques
        driver.get("https://tpdemain.com/ressources-pedagogiques/")

        # Parcourir chaque thème spécifié dans la liste
        for theme in themes:
            try:
                # Recharger la page de recherche avant chaque nouvelle requête
                driver.get("https://tpdemain.com/ressources-pedagogiques/")

                # Rechercher et cliquer sur le bouton de recherche pour afficher la barre de recherche
                toggle_button = WebDriverWait(driver, 20).until(
                    EC.element_to_be_clickable((By.CLASS_NAME, 'search-input-toggler'))
                )
                driver.execute_script("arguments[0].click();", toggle_button)
                print(f"Bouton de recherche cliqué pour le thème : {theme}")

            except Exception as e:
                print(f"Erreur lors de la recherche du bouton de recherche pour le thème : {theme}. Exception : {e}")

            try:
                # Localiser la barre de recherche, la vider et saisir le nom du thème
                search_bar = WebDriverWait(driver, 20).until(
                    EC.visibility_of_element_located((By.CSS_SELECTOR, 'form.app-search-form.form-group input.form-control'))
                )
                search_bar.clear()
                search_bar.send_keys(theme)
            except Exception as e:
                print(f"Barre de recherche non trouvée pour le thème : {theme}. Exception : {e}")

            try:
                # Cliquer sur le bouton de recherche pour lancer la requête
                search_button = WebDriverWait(driver, 20).until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR, 'form.app-search-form.form-group button'))
                )
                driver.execute_script("arguments[0].click();", search_button)
            except Exception as e:
                print(f"Bouton de recherche non trouvé pour le thème : {theme}. Exception : {e}")

            try:
                # Attendre que les résultats de la recherche soient visibles
                WebDriverWait(driver, 30).until(
                    EC.visibility_of_element_located((By.CLASS_NAME, 'content-area'))
                )
                print(f"Résultats de recherche trouvés pour le thème : {theme}")
            except Exception as e:
                print(f"Résultats de recherche non trouvés pour le thème : {theme}. Exception : {e}")

            # Initialiser la liste de liens pour ce thème
            links_list.clear()

            # Début de la boucle pour parcourir toutes les pages de résultats
            has_next_page = True
            while has_next_page:
                try:
                    # Localiser la zone de contenu contenant les liens
                    content_area = driver.find_element(By.CLASS_NAME, 'content-area')
                    links = content_area.find_elements(By.TAG_NAME, 'a')

                    # Ajouter chaque lien unique à la liste `links_list`
                    for link in links:
                        href = link.get_attribute('href')
                        if href and href not in links_list:
                            links_list.append(href)

                    # Gestion de la pagination : identifier la page actuelle et la dernière page
                    pagination_elements = driver.find_elements(By.CLASS_NAME, 'page-numbers')
                    current_page_element = driver.find_element(By.CLASS_NAME, 'current')
                    current_page = int(current_page_element.text)
                    last_page = current_page

                    # Parcourir tous les éléments de pagination pour déterminer la dernière page disponible
                    for elem in pagination_elements:
                        try:
                            page_number = int(elem.text)
                            if page_number > last_page:
                                last_page = page_number
                        except ValueError:
                            continue

                    # Si la page actuelle est la dernière, arrêter la boucle
                    if current_page >= last_page:
                        has_next_page = False
                    else:
                        # Cliquer sur le bouton "Suivant" pour passer à la page suivante
                        next_button = driver.find_elements(By.CLASS_NAME, 'next')
                        if next_button:
                            driver.execute_script("arguments[0].click();", next_button[0])
                            WebDriverWait(driver, 30).until(
                                EC.visibility_of_element_located((By.CLASS_NAME, 'content-area'))
                            )
                        else:
                            has_next_page = False

                except Exception as e:
                    print(f"Erreur lors de la pagination pour le thème {theme} : {str(e)}")
                    has_next_page = False

            # Liste pour stocker les données de chaque page du thème
            all_data = []

            # Parcourir tous les liens extraits pour récupérer les informations détaillées
            for link in links_list:
                # Extraire les informations de chaque lien
                info, images, pdfs = get_info(link, None)  # Ne passe pas l'ID MongoDB ici
                if info:
                    all_data.append((info, images, pdfs))  # Ajouter les données extraites à la liste `all_data`

            # Sauvegarder toutes les données extraites pour le thème dans MongoDB
            save_theme_to_mongodb(theme, all_data)
            print(f"Données du thème '{theme}' sauvegardées dans MongoDB.\n")

    finally:
        # Fermer le navigateur une fois le scraping terminé
        driver.quit()

# Liste des thèmes à rechercher
themes = [
    "construction bas carbone",
    "Transition environnementale"
]

# Lancer le scraping pour tous les thèmes spécifiés
scrape_all_pages(themes)
