# Importation des packages

In [None]:
import requests
from bs4 import BeautifulSoup as bs
import os
from pymongo import MongoClient


# Création de dossiers pour enregistrer les fichiers

Ce code initialise les dossiers nécessaires pour stocker les fichiers d’images et de documents PDF. Si les dossiers n'existent pas encore dans le répertoire de travail, ils sont créés automatiquement.

``image_folder = 'Images'`` :

- Définition du nom du dossier où toutes les images récupérées ou téléchargées seront stockées.
- ``image_folder`` servira de variable pour gérer le chemin d'accès aux images dans le reste du code.


``pdf_folder = 'PDFs'`` :

- Définition du nom du dossier où tous les fichiers PDF récupérés ou téléchargés seront stockés.
- p``df_folder`` est utilisé comme référence pour le chemin des fichiers PDF.

``os.makedirs(image_folder, exist_ok=True)`` :

- Utilise ``os.makedirs`` pour créer le dossier spécifié dans ``image_folder``.
- Le paramètre ``exist_ok=True`` vérifie si le dossier existe déjà ; si c’est le cas, il ne le recrée pas, évitant ainsi une erreur.

``os.makedirs(pdf_folder, exist_ok=True)`` :

Même fonction que pour image_folder, mais ici pour le dossier pdf_folder pour stocker les fichiers PDF.

In [None]:
image_folder = 'Images'
pdf_folder = 'PDFs'

os.makedirs(image_folder, exist_ok=True)  # Créer le dossier Images s'il n'existe pas
os.makedirs(pdf_folder, exist_ok=True)    # Créer le dossier PDFs s'il n'existe pas


# Connexion à MongoDB et nettoyage de texte

Connexion MongoDB :

- MongoClient : Crée une connexion au serveur MongoDB en utilisant une URL MongoDB.
- client[``'nom_de_ta_base'``] : Accède à une base de données spécifique, ici indiquée par 'nom_de_ta_base' (à remplacer par le nom réel de la base).
- Cette connexion permet d’interagir avec MongoDB pour stocker, récupérer et manipuler des données.

Fonction ``clean_text`` :

Paramètres :

- ``text`` : Chaîne de caractères à nettoyer, qui peut inclure des balises HTML ou des caractères spéciaux.

Retour :

- Renvoie le texte nettoyé sous forme de chaîne de caractères, sans balises HTML, avec des sauts de ligne appropriés pour une meilleure lisibilité.

Processus :

- Remplace les espaces insécables ``(\xa0)`` par des espaces standard pour uniformiser le texte.
- Ajoute des sauts de ligne après chaque balise `<li>` pour que les éléments de liste apparaissent sur des lignes séparées dans le texte extrait.
- Utilise BeautifulSoup pour analyser et supprimer toutes les balises HTML restantes.
- Extrait uniquement le texte brut et le retourne, avec une mise en forme propre et lisible.

In [None]:
# Connexion à la base de données MongoDB
client = MongoClient('mongodb+srv://serginemengue46:tu3uF7Ap0g2RQDou@cluster0.7xuvx.mongodb.net')
db = client['nom_de_ta_base']  # Remplace par le nom de ta base de données
# Création de la connexion à MongoDB en spécifiant l'URL du serveur MongoDB. 
# Cette connexion permet d'accéder à une base de données spécifique en indiquant son nom.

def clean_text(text):

    
    text = text.replace('\xa0', ' ').strip()
    # Remplace les caractères d'espace insécable ('\xa0') par des espaces standard et supprime les espaces superflus.

    text = text.replace('<li>', '<li>\n')
    # Ajoute un saut de ligne après chaque balise <li> pour rendre les éléments de liste plus lisibles dans le texte brut.

    soup = bs(text, 'html.parser')
    # Utilise BeautifulSoup pour analyser le texte HTML et supprimer toutes les balises HTML restantes.

    cleaned_text = soup.get_text(separator='\n').strip()
    # Extrait le texte brut avec des sauts de ligne entre les éléments et supprime les espaces superflus en début et fin de texte.

    return cleaned_text
    # Retourne le texte nettoyé.


# Insertion des données dans la bdd MongoDB

La fonction ``insert_to_db`` gère l’insertion des données dans MongoDB en les structurant par site et par thème. Elle permet de stocker les données de manière organisée en créant des collections spécifiques à chaque site.

Paramètres :

``site_name`` : Chaîne de caractères représentant le nom du site, qui est utilisé comme nom de collection dans MongoDB.
``theme_name`` : Chaîne de caractères représentant le nom du thème, pour différencier les données selon le sujet.
``data`` : Liste ou dictionnaire contenant les données à insérer pour le thème, représentant le contenu extrait.

Retour : Aucun retour direct. La fonction insère les données dans MongoDB et affiche un message de confirmation.

Processus :

- Sélectionne une collection dans MongoDB en fonction de ``site_name``. Si la collection n'existe pas, MongoDB la crée automatiquement.
- Crée un document ``theme_data`` contenant le nom du site, le thème, et les données associées.
- Insère ``theme_data`` dans la collection spécifiée. En cas d’insertion réussie, un message de confirmation est affiché avec le nom du thème et de la collection.
- Gère les erreurs avec un bloc ``try-except`` pour afficher un message explicatif en cas de problème.

In [None]:
def insert_to_db(site_name, theme_name, data):

    
    try:
        # Sélection de la collection par nom de site
        collection = db[site_name]  # Collection nommée d'après le site pour organiser les données
        # Cette ligne permet de sélectionner ou de créer une collection dans MongoDB en fonction du nom du site.

        # Créer un document séparé pour chaque thème
        theme_data = {
            'site_name': site_name,
            'theme_name': theme_name,
            'data': data
        }
        # Structure le document MongoDB avec le nom du site, le thème et les données extraites.

        # Insérer le document pour le thème dans MongoDB
        collection.insert_one(theme_data)
        print(f"Données pour le thème '{theme_name}' insérées avec succès dans la collection '{site_name}'.")
        # Ajoute le document à la collection MongoDB et confirme l'insertion avec un message.

    except Exception as e:
        print(f"Une erreur est survenue lors de l'insertion dans MongoDB : {str(e)}")
        # Capture et affiche les erreurs éventuelles survenues lors de l'insertion des données.


# Télechargement d'images

La fonction ``download_images`` télécharge toutes les images disponibles dans une page web et les enregistre localement dans un dossier défini pour les images. Elle utilise BeautifulSoup pour trouver les balises d'image et requests pour récupérer le contenu des images.

Paramètres :

- ``soup`` : Un objet BeautifulSoup représentant la page web analysée.
- ``link`` : L'URL de la page d'où proviennent les images, utilisée pour générer des noms uniques pour les fichiers.

Retour :

- Renvoie une liste contenant les chemins des images téléchargées. Si aucune image n'est téléchargée ou en cas d'erreur, retourne ['N/A'].

Processus :

- Récupère toutes les balises ``<img``> avec un attribut src pour collecter les URLs des images.
- Pour chaque URL d'image, télécharge l'image en utilisant requests.get.
- Génére un nom unique pour chaque image en utilisant une partie de l'URL de la page et un index.
- Sauvegarde chaque image dans le dossier défini, puis ajoute le chemin du fichier téléchargé à une liste.
- Retourne la liste des chemins des images téléchargées ou ``['N/A']`` en cas d'échec.

In [None]:
def download_images(soup, link):
    
    
    try:
        images = soup.find_all('img')
        image_urls = [img['src'] for img in images if 'src' in img.attrs]
        # Récupère toutes les balises <img> avec un attribut 'src' et compile leurs URLs.

        downloaded_images = []
        # Initialise une liste pour stocker les chemins des images téléchargées.

        for i, img_url in enumerate(image_urls):
            img_data = requests.get(img_url).content
            # Télécharge le contenu de l'image depuis son URL.

            img_name = f"{link.split('/')[-1]}_{i}.jpg"
            img_path = os.path.join(image_folder, img_name)
            # Définit un nom unique pour chaque image en utilisant une partie de l'URL de la page source et un index.
            
            with open(img_path, 'wb') as handler:
                handler.write(img_data)
                # Écrit le contenu de l'image dans un fichier local avec accès en mode écriture binaire.
            
            downloaded_images.append(img_path)
            # Ajoute le chemin de l'image téléchargée à la liste.

        return downloaded_images if downloaded_images else ['N/A']
        # Retourne la liste des images téléchargées, ou 'N/A' si aucune image n'a été téléchargée.

    except Exception as e:
        print(f"Une erreur est survenue lors du téléchargement des images : {str(e)}")
        return ['N/A']
        # En cas d'erreur, affiche un message d'erreur et retourne 'N/A'.


# Télechargement de pdfs

La fonction ``download_pdfs`` télécharge tous les fichiers PDF disponibles dans une page web et les enregistre localement dans un dossier spécifié pour les PDF. Elle utilise BeautifulSoup pour trouver les balises qui contiennent des liens vers les PDF et requests pour récupérer le contenu des fichiers.

Paramètres :

- ``soup`` : Un objet BeautifulSoup représentant la page web analysée.
- ``link`` : L'URL de la page d'où proviennent les fichiers PDF, utilisée pour générer des noms uniques pour les fichiers.

Retour :

- Renvoie une liste contenant les chemins des PDF téléchargés. Si aucun PDF n'est téléchargé ou en cas d'erreur, retourne ``['N/A']``.

Processus :

- Identifie les balises`` <div>`` spécifiques qui contiennent les liens vers les PDF en fonction de leurs classes CSS.
- Récupère les URLs des PDF dont le lien est marqué avec le titre 'Télécharger'.
- Pour chaque URL de PDF, télécharge le fichier en utilisant requests.get.
- Génère un nom unique pour chaque PDF en utilisant une partie de l'URL de la page source et un index.
- Sauvegarde chaque PDF dans le dossier défini, puis ajoute le chemin du fichier téléchargé à une liste.
- Retourne la liste des chemins des PDF téléchargés ou ``['N/A']`` en cas d'échec.

In [None]:
def download_pdfs(soup, link):
    
    
    try:
        pdf_divs = soup.find_all('div', class_=[
            'col-sm-12 col-xl-5- col-xxl-4 action-hover- d-flex flex-column justify-center', 
            'col-sm-3 col-md-6- col-lg-4 col-xl-3 col-xxl-2 action-hover- d-flex flex-column justify-center align-items-center'
        ])
        # Recherche tous les <div> qui contiennent des liens vers des PDF, en utilisant leurs classes spécifiques.

        pdf_urls = [
            div.find('a', href=True)['href'] for div in pdf_divs 
            if div.find('a', href=True) and div.find('a', href=True).get('title') == 'Télécharger'
        ]
        # Récupère les URLs des fichiers PDF en filtrant les liens dont le titre est 'Télécharger'.

        downloaded_pdfs = []
        # Initialise une liste pour stocker les chemins des PDF téléchargés.

        for i, pdf_url in enumerate(pdf_urls):
            pdf_data = requests.get(pdf_url).content
            # Télécharge le contenu du fichier PDF depuis son URL.

            pdf_name = f"{link.split('/')[-1]}_{i}.pdf"
            pdf_path = os.path.join(pdf_folder, pdf_name)
            # Définit un nom unique pour chaque PDF en utilisant une partie de l'URL de la page source et un index.
            
            with open(pdf_path, 'wb') as handler:
                handler.write(pdf_data)
                # Écrit le contenu du PDF dans un fichier local avec accès en mode écriture binaire.
            
            downloaded_pdfs.append(pdf_path)
            # Ajoute le chemin du PDF téléchargé à la liste.

        return downloaded_pdfs if downloaded_pdfs else ['N/A']
        # Retourne la liste des PDF téléchargés, ou 'N/A' si aucun PDF n'a été téléchargé.

    except Exception as e:
        print(f"Une erreur est survenue lors du téléchargement des PDFs : {str(e)}")
        return ['N/A']
        # En cas d'erreur, affiche un message d'erreur et retourne 'N/A'.


# Extration des informations sur une page web

La fonction ``get_info extrait`` les informations principales d’une page web, telles que la catégorie, le thème, la préface, la date, le titre, le texte, les liens utiles et les ressources (images et PDF) associées, puis les retourne dans un dictionnaire.

Paramètres :

- ``link`` : URL de la page à analyser et à partir de laquelle extraire les informations.

Retour :

- Renvoie un dictionnaire contenant les informations extraites. En cas d’erreur, retourne un dictionnaire avec 'N/A' pour chaque champ.

Processus :

- Utilise BeautifulSoup pour récupérer le contenu de la page et analyser les balises HTML spécifiques.
- Extrait les informations texte des éléments de catégorie, thème, préface, date, titre, et texte.
- Récupère les liens utiles spécifiés, concaténant leurs URLs en une seule chaîne.
- Télécharge les images et PDF associés en utilisant des fonctions dédiées et ajoute leurs chemins au dictionnaire.
- Retourne un dictionnaire contenant toutes les informations extraites, ou un dictionnaire de valeurs par défaut en cas d'erreur.

In [None]:
def get_info(link):
    
    
    try:
        page = requests.get(link)
        soup = bs(page.content, 'html.parser')
        # Envoie une requête pour obtenir le contenu de la page, puis l'analyse avec BeautifulSoup.

        # Extraire la catégorie de l'article
        categorie_element = soup.find('h1', class_='h2')
        categorie = categorie_element.text.strip() if categorie_element else 'N/A'
        # Récupère et nettoie le texte de la catégorie, ou retourne 'N/A' si non trouvé.

        # Extraire le thème de l'article
        theme_element = soup.find('h1', class_='wiki-title-theme')
        theme = theme_element.text.strip() if theme_element else 'N/A'
        # Récupère et nettoie le texte du thème, ou retourne 'N/A' si non trouvé.

        # Extraire la préface de l'article
        preface_element = soup.find('p', class_='lead')
        preface = preface_element.text.strip() if preface_element else 'N/A'
        # Récupère et nettoie le texte de la préface, ou retourne 'N/A' si non trouvé.

        # Extraire la date de publication
        date_element = soup.find('small', class_='app-card-date text-muted')
        date = date_element.text.strip() if date_element else 'N/A'
        # Récupère et nettoie le texte de la date, ou retourne 'N/A' si non trouvé.

        # Extraire le titre de l'article
        titre_elements = soup.find_all('h2', class_=['wiki-title-def', 'app-post-title'])
        titre = ' / '.join([elem.text.strip() for elem in titre_elements]) if titre_elements else 'N/A'
        # Récupère et concatène tous les titres trouvés dans les balises spécifiées, ou retourne 'N/A' si non trouvé.

        # Extraire le contenu texte principal
        texte_elements = soup.find_all(['div', 'article'], class_=['card-text', 'kPost-content'])
        texte = ' '.join([elem.get_text(separator='\n').strip() if elem else 'N/A' for elem in texte_elements]) if texte_elements else 'N/A'
        # Récupère et concatène le contenu texte des sections principales, ou retourne 'N/A' si non trouvé.

        # Extraire les liens utiles
        liens_utiles = []
        for a_tag in soup.find_all('a', href=True, title=True):
            if a_tag['title'].strip() in ["Je me lance", "Accéder à l'outil"]:
                liens_utiles.append(a_tag['href'])
        liens_utiles = ', '.join(liens_utiles) if liens_utiles else 'N/A'
        # Récupère les liens ayant des titres spécifiques et les concatène en une chaîne séparée par des virgules.

        # Télécharger les images et les PDFs associés à la page
        downloaded_images = download_images(soup, link)
        downloaded_pdfs = download_pdfs(soup, link)
        # Utilise des fonctions de téléchargement d'images et de PDFs.

        # Créer un dictionnaire avec toutes les informations extraites
        document = {
            'Catégorie': categorie,
            'Date': date,
            'Thème': theme,
            'Préface': preface,
            'Titre': titre,
            'Texte': texte,
            'Lien': link,
            'Liens utiles': liens_utiles,
            'Images': downloaded_images,
            'PDFs': downloaded_pdfs
        }

        return document
        # Retourne le dictionnaire avec les données extraites.

    except Exception as e:
        print(f"Une erreur est survenue lors de l'extraction des informations : {str(e)}")
        # Affiche un message d'erreur en cas de problème d'extraction.
        
        # Retourne un dictionnaire avec 'N/A' pour chaque champ si une erreur se produit.
        return {
            'Catégorie': 'N/A',
            'Date': 'N/A',
            'Thème': 'N/A',
            'Préface': 'N/A',
            'Titre': 'N/A',
            'Texte': 'N/A',
            'Lien': link,
            'Liens utiles': 'N/A',
            'Images': 'N/A',
            'PDFs': 'N/A'
        }


# Extraction des liens d'une page web, récupération des informations associées aux liens, et insertion dans MongoDB

Ce code extrait des liens d'une page web, récupère les informations associées aux liens, et les insère dans MongoDB en les structurant par thèmes.

Fonctions et paramètres :

- ``extract_links(section_id)``: Extrait les liens dans une section de la page HTML identifiée par section_id.
- `section_id`: Chaîne représentant l'ID de la section dans la page (par exemple, ``'collapse-bas-carbone'``).
- ``site_name``: Nom du site, utilisé pour générer l'URL complète de la page.

Retour des fonctions :

- ``extract_links`` retourne une liste de liens extraits de la section. Si aucun lien n'est trouvé, elle retourne une liste vide.

Processus :

- Envoie une requête pour charger le contenu de la page spécifiée par url.
- Utilise ``extract_links`` pour récupérer les liens des sections de thèmes comme ``"Bas carbone"`` et ``"BIM"``.
- Pour chaque lien, appelle ``get_info`` pour extraire des informations spécifiques sur chaque page liée, et stocke les résultats dans des listes (``bas_carbone_data`` pour ``"Bas carbone"`` et ``bim_data`` pour ``"BIM"``).
- Utilise ``insert_to_db`` pour insérer les informations dans MongoDB, organisées par thème et nom de site.

Utilisation :

- Le code principal effectue la requête initiale, l'extraction des liens, et le traitement pour chaque lien extrait, puis organise et insère les données dans MongoDB.

In [None]:
def extract_links(section_id):
    
    section = soup.find('div', id=section_id)
    links = []
    # Initialise une liste vide pour stocker les liens trouvés dans la section.

    if section:
        list_items = section.find_all('li', class_='list-item col-12 col-lg-6 py-2')
        for item in list_items:
            link = item.find('a', href=True)
            if link:
                links.append(link['href'])
        # Si la section est trouvée, recherche toutes les balises <li> contenant des liens <a> et les ajoute à la liste.

    return links
    # Retourne la liste des liens extraits ou une liste vide si aucun lien n'est trouvé.

if __name__ == "__main__":
    # Nom du site à utiliser pour construire l'URL
    site_name = "lab.cercle-promodul"
    url = f"https://{site_name}.inef4.org/themes"
    # Définit l'URL de la page web à analyser en fonction du nom du site.

    response = requests.get(url)
    soup = bs(response.content, 'html.parser')
    # Envoie une requête pour obtenir le contenu de la page et l'analyse avec BeautifulSoup.

    # Extraction des liens par thème
    links_bas_carbone = extract_links('collapse-bas-carbone')
    links_bim = extract_links('collapse-bim')
    # Utilise la fonction extract_links pour extraire les liens des sections "Bas carbone" et "BIM".

    # Thème "Bas Carbone"
    print("Liens de la section 'Bas carbone':")
    bas_carbone_data = []
    # Initialise une liste pour stocker les données du thème "Bas carbone".

    for link in links_bas_carbone:
        print(link)
        info = get_info(link)
        bas_carbone_data.append(info)
        # Pour chaque lien extrait, affiche le lien et appelle la fonction get_info pour extraire les informations.
        # Ajoute les informations extraites à la liste bas_carbone_data.

    # Insertion dans MongoDB pour le thème "Bas carbone"
    insert_to_db(site_name, "Bas Carbone", bas_carbone_data)
    # Insère les données du thème "Bas carbone" dans la base de données MongoDB.

    # Thème "BIM"
    print("\nLiens de la section 'BIM':")
    bim_data = []
    # Initialise une liste pour stocker les données du thème "BIM".

    for link in links_bim:
        print(link)
        info = get_info(link)
        bim_data.append(info)
        # Pour chaque lien extrait, affiche le lien et appelle la fonction get_info pour extraire les informations.
        # Ajoute les informations extraites à la liste bim_data.

    # Insertion dans MongoDB pour le thème "BIM"
    insert_to_db(site_name, "BIM", bim_data)
    # Insère les données du thème "BIM" dans la base de données MongoDB.
