<a href="https://colab.research.google.com/github/hadilamamou/Lushlyrics-insecure/blob/main/Untitled18.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import logging
from tqdm import tqdm

# Configurer le logging
logging.basicConfig(filename='scraping_errors.log', level=logging.ERROR,
                    format='%(asctime)s:%(levelname)s:%(message)s')

# URL de base pour la catégorie News
base_url = "https://www.leaders.com.tn"

# Configuration des en-têtes de la requête
headers = {
    'Host': 'www.leaders.com.tn',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
    'Connection': 'keep-alive',
    'Cache-Control': 'max-age=0'
}

# Liste pour stocker les données extraites
data = []

# Fonction pour effectuer une requête avec gestion des erreurs et des tentatives
def make_request(url, headers, max_retries=3, sleep_time=2):
    for attempt in range(max_retries):
        try:
            response = requests.get(url, headers=headers, timeout=10)
            response.raise_for_status()
            return response
        except requests.RequestException as e:
            logging.error(f"Erreur lors de la requête: {e}, tentative {attempt + 1}/{max_retries}")
            time.sleep(sleep_time)
    return None

# Fonction pour extraire les articles d'une page donnée
def get_articles_from_page(url):
    response = make_request(url, headers)
    if response is None:
        return False  # Sortir de la fonction si la requête échoue après plusieurs tentatives

    try:
        soup = BeautifulSoup(response.text, 'html.parser')

        articles = soup.find_all('div', class_='news')
        for article in articles:
            try:
                link_tag = article.find('a', href=True)
                link = base_url + link_tag['href'] if link_tag else None
                title_tag = article.find('div', class_='title')
                title = title_tag.get_text(strip=True) if title_tag else None
                date_tag = article.find('div', class_='infos')
                date = date_tag.get_text(strip=True).split('-')[-1].strip() if date_tag else None

                content = ''
                if link:
                    article_response = make_request(link, headers)
                    if article_response:
                        article_soup = BeautifulSoup(article_response.text, 'html.parser')
                        paragraphs = article_soup.find_all('p')
                        content = ' '.join([para.get_text(strip=True) for para in paragraphs])

                if link and title and date and content:
                    data.append({'Date': date, 'Title': title, 'Link': link, 'Content': content, 'Source': 'www.leaders.com.tn'})
            except Exception as e:
                logging.error(f"Erreur lors de l'extraction d'un article : {e}")
    except Exception as e:
        logging.error(f"Erreur lors de l'analyse HTML de la page : {e}")

    return True

# Processus de scraping par lots de 100 pages
for batch in range(0, 1000, 100):  # Ajuster la plage selon le nombre total de pages à scraper
    urls = [f"{base_url}/categorie/news?page={i}" for i in range(batch + 1, batch + 101)]
    for url in tqdm(urls, desc=f"Scraping pages {batch+1}-{batch+100}"):
        if not get_articles_from_page(url):
            break
        time.sleep(1)  # Pause d'une seconde entre les requêtes pour éviter de surcharger le serveur

    # Convertir les données en DataFrame
    df = pd.DataFrame(data)

    # Enregistrer les données dans un fichier CSV
    df.to_csv(f'articles_batch_{batch+1}_{batch+100}.csv', index=False, encoding='utf-8')

    # Réinitialiser la liste des données pour le prochain lot
    data = []


Scraping pages 1-100: 100%|██████████| 100/100 [40:47<00:00, 24.48s/it]
Scraping pages 101-200: 100%|██████████| 100/100 [40:30<00:00, 24.31s/it]
Scraping pages 201-300: 100%|██████████| 100/100 [40:56<00:00, 24.56s/it]
Scraping pages 301-400: 100%|██████████| 100/100 [40:57<00:00, 24.58s/it]
Scraping pages 401-500: 100%|██████████| 100/100 [40:18<00:00, 24.18s/it]
Scraping pages 501-600:  47%|████▋     | 47/100 [19:23<21:52, 24.76s/it]


KeyboardInterrupt: 

In [13]:
import pandas as pd
from google.colab import drive

# Monter Google Drive
drive.mount('/content/drive')

# Chemin vers le dossier contenant les fichiers CSV
folder_path = '/content/drive/My Drive/articles/'

# Lire les fichiers CSV dans différents DataFrames
df1 = pd.read_csv(f'{folder_path}articles_batch_1_100.csv')
df2 = pd.read_csv(f'{folder_path}articles_batch_101_200.csv')
df3 = pd.read_csv(f'{folder_path}articles_batch_201_300.csv')
df4 = pd.read_csv(f'{folder_path}articles_batch_301_400.csv')
df5 = pd.read_csv(f'{folder_path}articles_batch_401_500.csv')

# Afficher les premières lignes des DataFrames pour vérifier leur contenu
print("Premières lignes de df1:")
print(df1.head())
print("\nPremières lignes de df2:")
print(df2.head())
print("\nPremières lignes de df3:")
print(df3.head())
print("\nPremières lignes de df4:")
print(df4.head())
print("\nPremières lignes de df5:")
print(df5.head())

# Concaténer tous les DataFrames en un seul
merged_df = pd.concat([df1, df2, df3, df4, df5], axis=0, ignore_index=True)

# Afficher les premières lignes du DataFrame fusionné pour vérifier le résultat
print("\nPremières lignes du DataFrame fusionné:")
print(merged_df.head())

# Enregistrer le DataFrame fusionné dans un nouveau fichier CSV
merged_df.to_csv(f'{folder_path}merged_articles.csv', index=False, encoding='utf-8')
print("Fusion terminée avec succès et enregistrée dans 'merged_articles.csv'")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Premières lignes de df1:
         Date                                              Title  \
0  10.07.2024            L'histoire des Jeux Olympiques modernes   
1  10.07.2024  La vie et la mort dans «le Mort-vivant» de Moh...   
2  09.07.2024                            Décès du Dr Hédi Mhenni   
3  09.07.2024      Les médailles tunisiennes aux Jeux Olympiques   
4  09.07.2024  Le nouveau pont de Bizerte: Vision et perspect...   

                                                Link  \
0  https://www.leaders.com.tn/article/36049-l-his...   
1  https://www.leaders.com.tn/article/36048-la-vi...   
2  https://www.leaders.com.tn/article/36046-deces...   
3  https://www.leaders.com.tn/article/36045-les-m...   
4  https://www.leaders.com.tn/article/36044-le-no...   

                                             Content              Source  
0   1-Demetrius Vikelas (