In [21]:
import requests
import time
import csv
import os
from bs4 import BeautifulSoup
import pandas as pd
import time

In [22]:
def lire_urls(chemin_fichier):
    """Lire les URLs à partir d'un fichier texte.

    Args:
        chemin_fichier (str): Le chemin d'accès au fichier texte contenant les URLs.

    Returns:
        list: Une liste d'URLs.
    """
    with open(chemin_fichier, 'r') as fichier:
        return [ligne.strip() for ligne in fichier if ligne.strip()]

def extraire_article(url):
    """Extraire le titre et le contenu d'un article complet, en excluant la description.

    Args:
        url (str): L'URL de la page web à scraper.

    Returns:
        dict: Un dictionnaire contenant l'ID (URL), le titre et le contenu de l'article, ainsi que la description.
    """
    try:
        en_tetes = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, Gecko) Chrome/58.0.3029.110 Safari/537.3'
        }
        reponse = requests.get(url, headers=en_tetes)
        reponse.raise_for_status()

        soupe = BeautifulSoup(reponse.text, 'html.parser')

        # Trouver le titre
        balise_titre = soupe.find('title')
        titre = balise_titre.get_text(strip=True) if balise_titre else 'Titre non trouvé'

        # Trouver le contenu de l'article, en excluant la description
        balise_article = soupe.find('article')
        if balise_article:
            # Supprimer les éventuelles balises de description du contenu de l'article
            for meta in balise_article.find_all('meta', attrs={'name': 'description'}):
                meta.decompose()

            # Récupérer tous les paragraphes et les balises d'en-tête dans la balise article
            contenu = '\n'.join([p.get_text(strip=True) for p in balise_article.find_all(['p', 'h2', 'h3', 'h4'])])
        else:
            contenu = "Contenu de l'article non trouvé"

        # Extraire la description séparément
        balise_description = soupe.find('meta', attrs={'name': 'description'})
        description = balise_description['content'] if balise_description else 'Aucune description trouvée'

        return {"id": url, "titre": titre, "contenu": contenu, "description": description}
    except Exception as e:
        print(f"Échec du scraping de {url} : {str(e)}")
        return None

def ecrire_dans_csv(donnees, fichier_csv):
    """Écrire une liste de dictionnaires dans un fichier CSV avec des colonnes spécifiques.

    Args:
        donnees (list): Une liste de dictionnaires contenant les données à écrire dans le fichier CSV.
        fichier_csv (str): Le nom du fichier CSV dans lequel écrire les données.
    """
    repertoire_sortie = 'output_data'
    if not os.path.exists(repertoire_sortie):
        os.makedirs(repertoire_sortie)

    with open(os.path.join(repertoire_sortie, fichier_csv), 'w', newline='', encoding='utf-8') as fichier:
        noms_colonnes = ["id", "titre", "contenu", "description"]
        ecrivain = csv.DictWriter(fichier, fieldnames=noms_colonnes)
        ecrivain.writeheader()
        ecrivain.writerows(donnees)

def principal():
    """Fonction principale pour scraper les articles et enregistrer les données dans un fichier CSV."""
    chemin_fichier = '../data/url_leparisien.txt'
    fichier_csv = 'scraped_data.csv'

    urls = lire_urls(chemin_fichier)
    articles = []

    for url in urls:
        article = extraire_article(url)
        if article:
            articles.append(article)
        time.sleep(0.1)

    ecrire_dans_csv(articles, fichier_csv)

    # Lire le fichier CSV dans un DataFrame Pandas et afficher les résultats
    dataframe = pd.read_csv(os.path.join('output_data', fichier_csv))
    print(dataframe)

In [23]:
if __name__ == "__main__":
    principal()


                                                   id  \
0   https://www.leparisien.fr/jo-paris-2024/tennis...   
1   https://www.leparisien.fr/jo-paris-2024/jo-par...   
2   https://www.leparisien.fr/sports/pour-le-kyks-...   
3   https://www.leparisien.fr/jo-paris-2024/tennis...   
4   https://www.leparisien.fr/jo-paris-2024/jo-par...   
5   https://www.leparisien.fr/jo-paris-2024/jo-par...   
6   https://www.leparisien.fr/jo-paris-2024/jo-par...   
7   https://www.leparisien.fr/jo-paris-2024/le-rel...   
8   https://www.leparisien.fr/jo-paris-2024/il-sag...   
9   https://www.leparisien.fr/essonne-91/les-ulis-...   
10  https://www.leparisien.fr/essonne-91/les-ulis-...   
11  https://www.leparisien.fr/economie/un-habitant...   
12  https://www.leparisien.fr/culture-loisirs/tv/u...   
13  https://www.leparisien.fr/international/cent-m...   
14  https://www.leparisien.fr/faits-divers/tel-un-...   
15  https://www.leparisien.fr/sports/cyclisme/giro...   
16  https://www.leparisien.fr/p