In [None]:
import requests
import time
from bs4 import BeautifulSoup
import json
import os
import re

def lire_urls(chemin_fichier):
    """Lire les URLs à partir d'un fichier texte.

    Args:
        chemin_fichier (str): Le chemin d'accès au fichier texte contenant les URLs.

    Returns:
        list: Une liste d'URLs.
    """
    with open(chemin_fichier, 'r') as fichier:
        return [ligne.strip() for ligne in fichier if ligne.strip()]

def extraire_article(url, visited_urls=None):
    """Extraire le titre et le contenu d'un article complet, en excluant la description.

    Args:
        url (str): L'URL de la page web à scraper.

    Returns:
        dict: Un dictionnaire contenant l'ID (URL), le titre et le contenu de l'article, ainsi que la description.
    """
    if visited_urls is None:
        visited_urls = set()

    if url in visited_urls:
        return None

    visited_urls.add(url)

    try:
        en_tetes = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, Gecko) Chrome/58.0.3029.110 Safari/537.3'
        }
        reponse = requests.get(url, headers=en_tetes)
        reponse.raise_for_status()

        soupe = BeautifulSoup(reponse.text, 'html.parser')

        # Trouver le titre
        balise_titre = soupe.find('title')
        titre = balise_titre.get_text(strip=True) if balise_titre else 'Titre non trouvé'

        # Trouver le contenu de l'article, en excluant la description
        balise_article = soupe.find('article')
        if balise_article:
            # Supprimer les éventuelles balises de description du contenu de l'article
            for meta in balise_article.find_all('meta', attrs={'name': 'description'}):
                meta.decompose()

            # Récupérer tous les paragraphes et les balises d'en-tête dans la balise article
            contenu = '\n'.join([p.get_text(strip=True) for p in balise_article.find_all(['p', 'h2', 'h3', 'h4'])])

            # Trouver les hyperliens dans l'article
            hyperliens = set(re.findall('href="(.*?)"', str(balise_article)))
            hyperliens = [h for h in hyperliens if h.startswith('http')]

            # Scraper les articles liés
            related_articles = []
            for hyperlien in hyperliens:
                related_article = extraire_article(hyperlien, visited_urls)
                if related_article:
                    related_articles.append(related_article)

            # Extraire la description séparément
            balise_description = soupe.find('meta', attrs={'name': 'description'})
            description = balise_description['content'] if balise_description else 'Aucune description trouvée'

            return {"id": url, "titre": titre, "contenu": contenu, "description": description, "related_articles": related_articles}
        else:
            contenu = "Contenu de l'article non trouvé"
            return {"id": url, "titre": titre, "contenu": contenu, "description": "Aucune description trouvée"}
    except Exception as e:
        print(f"Échec du scraping de {url} : {str(e)}")
        return None

def ecrire_dans_json(donnees, fichier_json):
    """Écrire une liste de dictionnaires dans un fichier JSON avec des colonnes spécifiques.

    Args:
        donnees (list): Une liste de dictionnaires contenant les données à écrire dans le fichier JSON.
        fichier_json (str): Le nom du fichier JSON dans lequel écrire les données.
    """
    repertoire_sortie = 'output_data'
    if not os.path.exists(repertoire_sortie):
        os.makedirs(repertoire_sortie)

    with open(os.path.join(repertoire_sortie, fichier_json), 'w', encoding='utf-8') as fichier:
        json.dump(donnees, fichier, ensure_ascii=False, indent=4)

def principal():
    """Fonction principale pour scraper les articles et enregistrer les données dans un fichier JSON."""
    chemin_fichier = '../data/url_leparisien.txt'
    fichier_json = 'scraped_data.json'

    urls = lire_urls(chemin_fichier)
    articles = []

    for url in urls:
        article = extraire_article(url)
        if article:
            articles.append(article)
        time.sleep(0.1)

    ecrire_dans_json(articles, fichier_json)

if __name__ == "__main__":
    principal()


Échec du scraping de https://twitter.com/lequipe/status/1661464144174874627?ref_src=twsrc%5Etfw : 400 Client Error: Bad Request for url: https://twitter.com/lequipe/status/1661464144174874627?ref_src=twsrc%5Etfw
Échec du scraping de https://twitter.com/hashtag/lequipeTTABLE?src=hash&amp;ref_src=twsrc%5Etfw : 400 Client Error: Bad Request for url: https://twitter.com/hashtag/lequipeTTABLE?src=hash&amp;ref_src=twsrc%5Etfw
Échec du scraping de https://twitter.com/lequipe/status/1661449035021012999?ref_src=twsrc%5Etfw : 400 Client Error: Bad Request for url: https://twitter.com/lequipe/status/1661449035021012999?ref_src=twsrc%5Etfw
Échec du scraping de https://twitter.com/hashtag/WTTMacao?src=hash&amp;ref_src=twsrc%5Etfw : 400 Client Error: Bad Request for url: https://twitter.com/hashtag/WTTMacao?src=hash&amp;ref_src=twsrc%5Etfw
Échec du scraping de https://twitter.com/hashtag/WTTChampions?src=hash&amp;ref_src=twsrc%5Etfw : 400 Client Error: Bad Request for url: https://twitter.com/hashta

  k = self.parse_starttag(i)


Échec du scraping de https://twitter.com/share?url=https%3A%2F%2Fwww.wbez.org%2Fstories%2Fchicago-businesses-consider-implications-of-health-care-overhaul%2F11150a29-0ac9-4eee-bdf3-3b9173aced86%3Futm_source%3Dtwitter%26utm_medium%3Dreferral%26utm_campaign%3DWeb-Share&amp;text=As%20Congress%20debates%20health%20care%2C%20business%20owners%20in%20Chicago%20are%20looking%20at%20how%20decisions%20in%20Washington%20will%20affect%20their%20plans%20for%20next%20year.%20WBEZ%E2%80%99s%20Dan%20Weissmann%20reports. : 400 Client Error: Bad Request for url: https://twitter.com/share?url=https%3A%2F%2Fwww.wbez.org%2Fstories%2Fchicago-businesses-consider-implications-of-health-care-overhaul%2F11150a29-0ac9-4eee-bdf3-3b9173aced86%3Futm_source%3Dtwitter%26utm_medium%3Dreferral%26utm_campaign%3DWeb-Share&amp;text=As%20Congress%20debates%20health%20care%2C%20business%20owners%20in%20Chicago%20are%20looking%20at%20how%20decisions%20in%20Washington%20will%20affect%20their%20plans%20for%20next%20year.%20WB