# Analyse des flux RSS - InsightDetector

Ce notebook effectue une analyse complète des articles collectés depuis les flux RSS configurés.

## Sommaire

1. [Configuration et imports](#1-configuration-et-imports)
2. [Collecte des données](#2-collecte-des-données) 
3. [Traitement et stockage](#3-traitement-et-stockage)
4. [Analyses statistiques de base](#4-analyses-statistiques-de-base)
5. [Analyses temporelles avancées](#5-analyses-temporelles-avancées)
6. [Analyse des mots-clés et contenus](#6-analyse-des-mots-clés-et-contenus)
7. [Visualisations interactives](#7-visualisations-interactives)
8. [Métriques de qualité](#8-métriques-de-qualité)
9. [Conclusions et recommandations](#9-conclusions-et-recommandations)

---

## 1. Configuration et imports



In [20]:
# Auto-reload des modules modifiés (pratique pour développement)
%load_ext autoreload
%autoreload 2

# Imports standards
import sys
from pathlib import Path

# Définition du répertoire racine du projet 
project_root = Path().resolve().parents[1] if "notebooks" in str(Path().resolve()) else Path().resolve()

# Définition des chemins utilisés
src_dir = project_root / "src"
data_dir = project_root / "data"
outputs_dir = project_root / "outputs"
notebooks_dir = project_root / "notebooks"

# Création des dossiers s'ils n'existent pas
for d in [data_dir, outputs_dir]:
    d.mkdir(parents=True, exist_ok=True)

# 
src_path = str(src_dir.resolve())
if src_path not in sys.path:
    sys.path.insert(0, src_path)




The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [21]:
# Imports principaux
from data.rss_collector import RSSCollector
from data.article_parser import ArticleParser
from data.database_manager import DatabaseManager
from config.database import SessionLocal

import pandas as pd
import numpy as np
import time
import logging
from datetime import datetime, timedelta
import warnings
from collections import Counter
import re

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots


In [22]:

import os
from dotenv import load_dotenv
from sqlalchemy import create_engine

# Charger .env
load_dotenv(dotenv_path="../../.env")  # adapte le chemin si besoin

# Récupérer la vraie DATABASE_URL
db_url = os.getenv("DATABASE_URL")
if db_url is None:
    raise ValueError("DATABASE_URL manquant dans le fichier .env")

# Création moteur SQLAlchemy
connect_args = {"check_same_thread": False} if db_url.startswith("sqlite") else {}
engine = create_engine(db_url, connect_args=connect_args)

# Test connexion
with engine.connect() as conn:
    print(f"Connexion réussie à la base : {db_url}")


Connexion réussie à la base : sqlite:///data/insight.db


In [23]:
# Pour accéder au dossier src/ depuis le notebook
import sys
sys.path.append(".")

# Importation des composants ORM
from config.database import engine
from data.models import Base

# Création des tables dans la base PostgreSQL
Base.metadata.create_all(bind=engine)



In [24]:
from sqlalchemy import text

with engine.connect() as conn:
    result = conn.execute(
        text("SELECT name FROM sqlite_master WHERE type='table';")  # pour SQLite
    )
    print("Tables dans la base de données :")
    for row in result:
        print("  →", row[0])
        


Tables dans la base de données :
  → articles


In [25]:
# Installation et imports avec gestion d'erreurs
import sys
import subprocess
import importlib

# Function pour installer les packages manquants
def install_package(package):
    subprocess.check_call([sys.executable, "-m", "pip", "install", package])

# Liste des packages requis
required_packages = [
    "lxml_html_clean",
    "pandas", 
    "matplotlib", 
    "seaborn", 
    "plotly", 
    "feedparser",
    "beautifulsoup4"
]

# Installer les packages manquants
for package in required_packages:
    try:
        importlib.import_module(package)
    except ImportError:
        print(f"Installation de {package}...")
        try:
            install_package(package)
        except:
            print(f"Impossible d'installer {package}")

# Imports principaux avec gestion d'erreur
try:
    import sys
    sys.path.append('C:/Users/beedi.goua_square-ma/Desktop/Gheb/projet perso/InsightDetector/insight-detector/src')
    
    from data.rss_collector import RSSCollector
    from data.article_parser import ArticleParser
    from data.database_manager import DatabaseManager
    from config.database import SessionLocal
except ImportError as e:
    print(f"Erreur d'import modules projet: {e}")
    print(" Vérifiez que vous êtes dans le bon répertoire et que les modules existent")


Installation de beautifulsoup4...


In [26]:

import pandas as pd
import numpy as np
import time
import logging
from datetime import datetime, timedelta
import warnings
from collections import Counter
import re

# Visualisation (avec gestion d'erreurs)
try:
    import matplotlib.pyplot as plt
    import seaborn as sns
    plt.style.use('seaborn-v0_8')
except:
    plt.style.use('default')
    
try:
    import plotly.express as px
    import plotly.graph_objects as go
    from plotly.subplots import make_subplots
    plotly_available = True
except ImportError:
    print("Plotly non disponible - visualisations interactives désactivées")
    plotly_available = False

# Configuration
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)

# Configuration logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

# Flux RSS utilisés
RSS_SOURCES = [
    "https://www.lemonde.fr/rss/une.xml",
    "https://www.france24.com/fr/rss", 
    "https://www.rfi.fr/fr/rss",
    "https://www.lexpress.fr/rss/actualite.xml",
    "https://www.courrierinternational.com/feed/all/rss.xml",
    "https://www.nouvelobs.com/rss.xml",
    "https://www.lesechos.fr/rss/rss_une.xml",
    "https://www.euronews.com/rss?level=theme&name=news",
    "https://www.huffingtonpost.fr/feeds/index.xml",
    "https://rss.nytimes.com/services/xml/rss/nyt/World.xml"
]

print("Configuration et imports terminés")
print(f" Plotly disponible: {'Oui' if plotly_available else 'Non'}")
print(f"  Sources RSS configurées: {len(RSS_SOURCES)}")

Configuration et imports terminés
 Plotly disponible: Oui
  Sources RSS configurées: 10


In [27]:
# Initialisation des composants avec gestion d'erreurs
session = None
collector = None
parser = None
db = None

try:
    collector = RSSCollector(RSS_SOURCES)
    parser = ArticleParser()
    session = SessionLocal()
    db = DatabaseManager(session)
    logger.info("Composants initialisés avec succès")
    
    # Variables pour tracking des métriques
    metrics = {
        'sources_success': {},
        'sources_errors': {},
        'total_fetched': 0,
        'total_processed': 0,
        'total_inserted': 0,
        'total_duplicates': 0,
        'processing_errors': []
    }
    
except Exception as e:
    logger.error(f"Erreur lors de l'initialisation: {e}")
    if session:
        session.close()
    raise

2025-07-23 10:15:06,070 - INFO - Composants initialisés avec succès


## 2. Collecte des données

Initialisation des composants et collecte des articles depuis les flux RSS configurés.

In [28]:
# Collecte robuste des articles avec métriques détaillées
articles = []
start_time = time.time()

try:
    logger.info("Début de la collecte des flux RSS...")
    articles = collector.fetch_feeds()
    metrics['total_fetched'] = len(articles)
    
    # Analyse des sources par succès/échec
    for article in articles:
        source = article.get('source', 'Unknown')
        metrics['sources_success'][source] = metrics['sources_success'].get(source, 0) + 1
    
    collection_time = time.time() - start_time
    
    logger.info(f"{len(articles)} articles collectés en {collection_time:.2f}s")
    print(f"Résumé de la collecte:")
    print(f"   • Total articles: {len(articles)}")
    print(f"   • Temps de collecte: {collection_time:.2f}s")
    print(f"   • Articles par seconde: {len(articles)/collection_time:.1f}")
    
    # Affichage par source
    if articles:
        print("\nArticles par source:")
        for source, count in sorted(metrics['sources_success'].items(), key=lambda x: x[1], reverse=True):
            print(f"   • {source}: {count} articles")
    
except Exception as e:
    logger.error(f"Erreur lors de la collecte: {e}")
    metrics['processing_errors'].append(f"Collecte: {str(e)}")
    print(f"Échec de la collecte: {e}")

2025-07-23 10:15:06,171 - INFO - Début de la collecte des flux RSS...
2025-07-23 10:15:06,171 - INFO - Lecture du flux RSS : https://www.lemonde.fr/rss/une.xml
2025-07-23 10:15:06,471 - INFO - Lecture du flux RSS : https://www.france24.com/fr/rss
2025-07-23 10:15:06,653 - INFO - Lecture du flux RSS : https://www.rfi.fr/fr/rss
2025-07-23 10:15:06,823 - INFO - Lecture du flux RSS : https://www.lexpress.fr/rss/actualite.xml
2025-07-23 10:15:07,679 - INFO - Lecture du flux RSS : https://www.courrierinternational.com/feed/all/rss.xml
2025-07-23 10:15:07,912 - INFO - Lecture du flux RSS : https://www.nouvelobs.com/rss.xml
2025-07-23 10:15:08,245 - INFO - Lecture du flux RSS : https://www.lesechos.fr/rss/rss_une.xml
2025-07-23 10:15:08,411 - INFO - Lecture du flux RSS : https://www.euronews.com/rss?level=theme&name=news
2025-07-23 10:15:08,565 - INFO - Lecture du flux RSS : https://www.huffingtonpost.fr/feeds/index.xml
2025-07-23 10:15:08,877 - INFO - Lecture du flux RSS : https://rss.nytimes

Résumé de la collecte:
   • Total articles: 510
   • Temps de collecte: 2.95s
   • Articles par seconde: 173.1

Articles par source:
   • https://www.nouvelobs.com/rss.xml: 200 articles
   • https://www.lexpress.fr/rss/actualite.xml: 100 articles
   • https://rss.nytimes.com/services/xml/rss/nyt/World.xml: 54 articles
   • https://www.euronews.com/rss?level=theme&name=news: 50 articles
   • https://www.france24.com/fr/rss: 24 articles
   • https://www.rfi.fr/fr/rss: 24 articles
   • https://www.courrierinternational.com/feed/all/rss.xml: 20 articles
   • https://www.huffingtonpost.fr/feeds/index.xml: 20 articles
   • https://www.lemonde.fr/rss/une.xml: 18 articles


In [29]:
# Traitement optimisé des articles avec métriques détaillées
processed = []
processing_start = time.time()

if articles:
    logger.info(f"Début du traitement de {len(articles)} articles...")
    
    for i, article in enumerate(articles, 1):
        try:
            # Extraction du texte avec timeout
            start_extract = time.time()
            article["text"] = parser.extract_text(article["url"])
            extract_time = time.time() - start_extract
            
            if not article["text"] or len(article["text"]) < 100:
                logger.debug(f"Article {i}: texte trop court ou vide ({article.get('url', 'URL inconnue')})")
                continue
            
            # Tentative d'insertion en base
            try:
                db.create_article(article)
                metrics['total_inserted'] += 1
                processed.append(article)
                logger.debug(f"Article {i}: inséré avec succès (extraction: {extract_time:.2f}s)")
                
            except Exception as db_error:
                if "UNIQUE constraint failed" in str(db_error) or "duplicate key" in str(db_error):
                    metrics['total_duplicates'] += 1
                    logger.debug(f"Article {i}: doublons détecté")
                else:
                    error_msg = f"Insertion article {i}: {str(db_error)}"
                    metrics['processing_errors'].append(error_msg)
                    logger.warning(error_msg)
            
            metrics['total_processed'] += 1
            
            # Pause adaptative pour éviter la surcharge
            time.sleep(0.1 if i % 10 != 0 else 0.3)
            
            # Progress indicator
            if i % 10 == 0 or i == len(articles):
                progress = (i / len(articles)) * 100
                print(f"Progression: {i}/{len(articles)} ({progress:.1f}%) - "
                      f"Insérés: {metrics['total_inserted']}, "
                      f"Doublons: {metrics['total_duplicates']}")
                
        except Exception as e:
            error_msg = f"Erreur traitement article {i}: {str(e)}"
            metrics['processing_errors'].append(error_msg)
            logger.error(error_msg)
            continue

processing_time = time.time() - processing_start

# Résumé final
print(f"\nRésumé du traitement:")
print(f"   • Articles traités: {metrics['total_processed']}/{len(articles)}")
print(f"   • Articles insérés: {metrics['total_inserted']}")
print(f"   • Doublons détectés: {metrics['total_duplicates']}")
print(f"   • Erreurs: {len(metrics['processing_errors'])}")
print(f"   • Temps total: {processing_time:.2f}s")
print(f"   • Taux de succès: {(metrics['total_inserted']/len(articles)*100):.1f}%")

if metrics['processing_errors']:
    print(f"\nDernières erreurs:")
    for error in metrics['processing_errors'][-3:]:  # Affiche les 3 dernières erreurs
        print(f"   • {error}")
        
logger.info(f"Traitement terminé: {metrics['total_inserted']} articles insérés")

2025-07-23 10:15:09,245 - INFO - Début du traitement de 510 articles...
2025-07-23 10:15:09,245 - INFO - Téléchargement de l'article : https://www.lemonde.fr/international/article/2025/07/23/en-cisjordanie-l-expulsion-silencieuse-des-bedouins-sous-la-pression-des-colons-israeliens_6623127_3210.html
2025-07-23 10:15:09,792 - INFO - Téléchargement de l'article : https://www.lemonde.fr/sport/article/2025/07/23/l-entraineur-de-ski-joel-chenal-vise-par-une-plainte-pour-agression-sexuelle-sur-mineure-et-de-nouvelles-accusations_6623140_3242.html
2025-07-23 10:15:10,191 - INFO - Téléchargement de l'article : https://www.lemonde.fr/international/live/2025/07/23/en-direct-guerre-en-ukraine-volodymyr-zelensky-assure-que-les-instances-anticorruption-ukrainiennes-vont-continuer-a-faire-leur-travail-apres-l-adoption-d-une-loi-revenant-sur-leur-independance_6622319_3210.html
2025-07-23 10:15:10,824 - INFO - Téléchargement de l'article : https://www.lemonde.fr/planete/article/2025/07/23/la-loi-duplom

Progression: 10/510 (2.0%) - Insérés: 10, Doublons: 0


2025-07-23 10:15:14,026 - INFO - Téléchargement de l'article : https://www.lemonde.fr/international/article/2025/07/23/en-espagne-pedro-sanchez-echoue-a-faire-adopter-une-loi-contre-les-megapannes-d-electricite_6623132_3210.html
2025-07-23 10:15:14,393 - INFO - Téléchargement de l'article : https://www.lemonde.fr/international/article/2025/07/23/droits-de-douane-donald-trump-annonce-un-accord-avec-le-japon_6623054_3210.html
2025-07-23 10:15:14,785 - INFO - Téléchargement de l'article : https://www.lemonde.fr/international/article/2025/07/23/aux-etats-unis-l-universite-columbia-sanctionne-a-des-etudiants-ayant-participe-a-des-actions-propalestiniennes_6623121_3210.html
2025-07-23 10:15:15,241 - INFO - Téléchargement de l'article : https://www.lemonde.fr/sport/article/2025/07/23/venus-williams-s-offre-a-45-ans-une-victoire-au-tournoi-wta-500-de-washington_6623122_3242.html
2025-07-23 10:15:15,638 - INFO - Téléchargement de l'article : https://www.lemonde.fr/disparitions/article/2025/07/2

Progression: 20/510 (3.9%) - Insérés: 20, Doublons: 0


2025-07-23 10:15:17,894 - INFO - Téléchargement de l'article : https://www.france24.com/fr/vid%C3%A9o/20250723-le-roi-du-heavy-metal-ozzy-osbourne-s-%C3%A9teint-%C3%A0-76-ans
2025-07-23 10:15:18,065 - INFO - Téléchargement de l'article : https://www.france24.com/fr/vid%C3%A9o/20250723-sable-eau-minerai-un-atlas-des-ressources-en-voie-de-disparition
2025-07-23 10:15:18,364 - INFO - Téléchargement de l'article : https://www.france24.com/fr/vid%C3%A9o/20250723-l-ukraine-adopte-une-loi-supprimant-l-ind%C3%A9pendance-des-instances-anticorruption
2025-07-23 10:15:18,556 - INFO - Téléchargement de l'article : https://www.france24.com/fr/info-en-continu/20250723-un-d%C3%A9sastre-climatique-inconstitutionnel-de-jeunes-am%C3%A9ricains-saisissent-la-justice
2025-07-23 10:15:18,896 - INFO - Téléchargement de l'article : https://www.france24.com/fr/info-en-continu/20250723-p%C3%A9rou-d%C3%A9couverte-d-une-fresque-murale-vieille-de-plus-de-3-000-ans
2025-07-23 10:15:19,199 - INFO - Téléchargement de

Progression: 30/510 (5.9%) - Insérés: 28, Doublons: 0


2025-07-23 10:15:21,044 - INFO - Téléchargement de l'article : https://www.france24.com/fr/%C3%A9co-tech/20250723-etats-unis-japon-accord-commercial-automobile-donald-trump
2025-07-23 10:15:21,380 - INFO - Téléchargement de l'article : https://www.france24.com/fr/moyen-orient/20250723-famine-de-masse-gaza-ong-msf-amnesty-oxfam-israel
2025-07-23 10:15:21,686 - INFO - Téléchargement de l'article : https://www.france24.com/fr/europe/20250722-espagne-deputes-rejettent-serie-mesures-nouvelle-mega-panne-%C3%A9lectrique-pedro-sanchez
2025-07-23 10:15:22,024 - INFO - Téléchargement de l'article : https://www.france24.com/fr/info-en-continu/20250722-euro-2025-miracul%C3%A9e-l-angleterre-s-offre-l-italie-et-la-finale
2025-07-23 10:15:22,365 - INFO - Téléchargement de l'article : https://www.france24.com/fr/%C3%A9missions/info-ou-intox/20250722-quand-donald-trump-fait-arr%C3%AAter-barack-obama-%C3%A0-coup-d-ia
2025-07-23 10:15:22,705 - INFO - Téléchargement de l'article : https://www.france24.com

Progression: 40/510 (7.8%) - Insérés: 38, Doublons: 0


2025-07-23 10:15:24,554 - INFO - Téléchargement de l'article : https://www.france24.com/fr/sports/20250722-euro-2025-ann-katrin-berger-le-barrage-allemand-qui-a-survecu-a-deux-cancers-gardienne-demi-finale-espagne
2025-07-23 10:15:24,903 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/musique/20250723-%C3%A9thiopie-1985-la-mobilisation-mondiale-des-artistes-contre-la-famine
2025-07-23 10:15:25,241 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/afrique/20250723-face-%C3%A0-la-s%C3%A9cheresse-en-tunisie-un-mouvement-de-jeunes-cherche-%C3%A0-sensibiliser-aux-questions-de-climat
2025-07-23 10:15:25,587 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/am%C3%A9riques/20250723-ha%C3%AFti-des-policiers-tu%C3%A9s-dans-une-embuscade-par-les-gangs-arm%C3%A9s-dans-l-artibonite
2025-07-23 10:15:25,911 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/am%C3%A9riques/20250723-bolivie-des-%C3%A9lecteurs-d%C3%A9noncent-leur-inscription-%C3%A0-leur-insu-

Progression: 50/510 (9.8%) - Insérés: 48, Doublons: 0


2025-07-23 10:15:28,124 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/afrique/20250723-cameroun-le-nombre-record-de-candidatures-%C3%A0-la-pr%C3%A9sidentielle-fait-d%C3%A9bat
2025-07-23 10:15:28,421 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/afrique/20250723-soudan-la-reconstruction-de-la-capitale-khartoum-objectif-prioritaire-du-premier-ministre
2025-07-23 10:15:28,778 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/afrique/20250723-mali-human-rights-watch-documente-de-nouvelles-ex%C3%A9cutions-et-disparitions-de-civils-peuls-par-l-arm%C3%A9e-et-wagner
2025-07-23 10:15:29,096 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/europe/20250722-la-turquie-accueille-ce-23-juillet-une-troisi%C3%A8me-session-de-pourparlers-entre-la-russie-et-l-ukraine
2025-07-23 10:15:29,418 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/afrique/20250722-rdc-l-ancien-pr%C3%A9sident-joseph-kabila-se-positionne-sur-les-accords-entre-kinshas

Progression: 60/510 (11.8%) - Insérés: 58, Doublons: 0


2025-07-23 10:15:31,571 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/culture/20250722-ozzy-osbourne-chanteur-de-l%C3%A9gende-du-groupe-black-sabbath-est-mort-%C3%A0-l-%C3%A2ge-de-76-ans
2025-07-23 10:15:31,870 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/europe/20250722-russie-la-consultation-de-contenus-extr%C3%A9mistes-sanctionn%C3%A9e-par-une-amende
2025-07-23 10:15:32,189 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/afrique-foot/20250722-can-f%C3%A9minine-2025-le-nigeria-%C3%A9limine-la-tenante-sud-africaine-et-retrouve-la-finale
2025-07-23 10:15:32,482 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/france/20250722-france-les-17-premiers-narcotrafiquants-transf%C3%A9r%C3%A9s-vers-la-prison-de-vendin-le-vieil
2025-07-23 10:15:32,831 - INFO - Téléchargement de l'article : https://www.rfi.fr/fr/environnement/20250722-les-descendants-d-esclaves-africains-gardiens-de-la-for%C3%AAt-amazonienne
2025-07-23 10:15:33,120 - INFO - 

Progression: 70/510 (13.7%) - Insérés: 68, Doublons: 0


2025-07-23 10:15:35,041 - INFO - Téléchargement de l'article : https://www.lexpress.fr/sciences-sante/loi-duplomb-leclairage-dun-chercheur-de-linserm-cest-grace-a-un-vide-scientifique-que-prospere-la-3GYP5KSJ2ZFNJPH5S3CJEUH5RI/
2025-07-23 10:15:35,385 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/amerique/les-etats-unis-de-donald-trump-se-retirent-a-nouveau-de-lunesco-73BOB5GDHRDNVO3XQXXNRS77YA/
2025-07-23 10:15:35,720 - INFO - Téléchargement de l'article : https://www.lexpress.fr/economie/droits-de-douane-de-donald-trump-cette-autre-menace-americaine-qui-plane-sur-la-chine-VSTNVJDOSZEA3K2LANCC3NURZM/
2025-07-23 10:15:36,087 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/europe/guerre-en-ukraine-ce-que-lon-sait-des-nouveaux-pourparlers-prevus-en-turquie-ce-mercredi-WW4YQKOX45AC5NLBFE2CRG2PA4/
2025-07-23 10:15:36,416 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/europe/espagne-derriere-la-fievre-anti-immigres-des-relais

Progression: 80/510 (15.7%) - Insérés: 78, Doublons: 0


2025-07-23 10:15:38,628 - INFO - Téléchargement de l'article : https://www.lexpress.fr/societe/justice/narcotrafic-17-premiers-detenus-transferes-vers-une-prison-de-haute-securite-SGSQDSCCTJBINCUORXE3SS5NOQ/
2025-07-23 10:15:38,969 - INFO - Téléchargement de l'article : https://www.lexpress.fr/sciences-sante/sante/covid-19-et-anxiete-cette-nouvelle-etude-qui-contredit-les-idees-recues-XEESVCUK3RBCZNFOS33SVFBAWY/
2025-07-23 10:15:39,326 - INFO - Téléchargement de l'article : https://www.lexpress.fr/politique/georges-ibrahim-abdallah-ne-doit-pas-sa-liberation-a-ses-soutiens-tres-politiques-par-jean-marc-IAA2JPKNLBHHZCPWZPAVIUZ27Y/
2025-07-23 10:15:39,655 - INFO - Téléchargement de l'article : https://www.lexpress.fr/economie/emploi/management/pourquoi-prendre-lascenseur-au-travail-nous-met-il-autant-mal-a-laise-UNTISWDDVJAN5NEUTJJAPRKDZE/
2025-07-23 10:15:39,971 - INFO - Téléchargement de l'article : https://www.lexpress.fr/economie/politique-economique/avec-ou-sans-loi-duplomb-lagricult

Progression: 90/510 (17.6%) - Insérés: 88, Doublons: 0


2025-07-23 10:15:43,435 - INFO - Téléchargement de l'article : https://www.lexpress.fr/societe/justice/des-docks-du-havre-a-dubai-lascension-et-la-chute-de-bibi-lun-des-plus-gros-narcotrafiquants-LAHDW44D5FAS5GDXI5WGBX4TOA/
2025-07-23 10:15:43,955 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/europe/ukraine-la-russie-juge-quil-faudra-beaucoup-de-travail-pour-rapprocher-les-positions-TW2OBU6MMZBGDAKIYEM6CWRRSI/
2025-07-23 10:15:44,292 - INFO - Téléchargement de l'article : https://www.lexpress.fr/societe/justice/accusations-dingerence-etrangere-le-reseau-x-soppose-a-la-justice-francaise-WADY7EU7FVF4JGYEDYKXPQ3UUY/
2025-07-23 10:15:44,619 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/europe/depuis-1945-jamais-les-enfants-nont-autant-souffert-de-la-guerre-lalerte-de-la-presidente-dunicef-AO6KC2KPP5C5HODB4YBB53IBCU/
2025-07-23 10:15:44,963 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/proche-moyen-orient/apres-le-madleen-

Progression: 100/510 (19.6%) - Insérés: 98, Doublons: 0


2025-07-23 10:15:47,146 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/europe/sommet-chine-ue-ces-dossiers-a-lorigine-des-tensions-entre-pekin-et-bruxelles-XVUPZ5RGDFBCVNXHBKXNCI7CZ4/
2025-07-23 10:15:47,466 - INFO - Téléchargement de l'article : https://www.lexpress.fr/idees-et-debats/budget-2026-ces-quatre-malentendus-que-beaucoup-ont-pris-soin-de-dissimuler-par-jean-francois-cope-OHHJNZEL3VAOJHWPESPH3BOZCM/
2025-07-23 10:15:47,789 - INFO - Téléchargement de l'article : https://www.lexpress.fr/politique/quel-avenir-pour-la-loi-duplomb-quatre-questions-apres-le-succes-inedit-de-la-petition-contre-le-NLNARHBPJVFQJL7WOWXRRX5WCU/
2025-07-23 10:15:48,115 - INFO - Téléchargement de l'article : https://www.lexpress.fr/idees-et-debats/la-grande-arnaque-des-livres-de-developpement-personnel-a-la-plage-par-julia-de-funes-IVHZBPZ2TJBKBGWT4PZZFKKGAE/
2025-07-23 10:15:48,429 - INFO - Téléchargement de l'article : https://www.lexpress.fr/idees-et-debats/vladimir-poutine-et-le

Progression: 110/510 (21.6%) - Insérés: 108, Doublons: 0


2025-07-23 10:15:50,647 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/amerique/etats-unis-declin-du-soutien-a-la-politique-migratoire-de-donald-trump-apres-six-mois-au-pouvoir-YCXD7MVEBFGK7GD5SMUZJCLKMQ/
2025-07-23 10:15:50,983 - INFO - Téléchargement de l'article : https://www.lexpress.fr/sciences-sante/comment-bien-manger-pour-rester-mince-et-en-bonne-sante-les-conseils-de-la-science-LH5PAE3245F6TADSDWKD2SXRQM/
2025-07-23 10:15:51,339 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/proche-moyen-orient/israel-et-la-syrie-saccordent-sur-un-cessez-le-feu-mais-les-violences-se-poursuivent-DLBLVJ5X6VBGPJ7TIPG3KISQ64/
2025-07-23 10:15:51,671 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/asie/terres-rares-face-aux-restrictions-a-lexportation-chinoise-les-fabricants-occidentaux-cherchent-des-RGPETSXCWVHHHFGQX4M2GRO2VU/
2025-07-23 10:15:51,990 - INFO - Téléchargement de l'article : https://www.lexpress.fr/economie/emploi/manag

Progression: 120/510 (23.5%) - Insérés: 118, Doublons: 0


2025-07-23 10:15:54,189 - INFO - Téléchargement de l'article : https://www.lexpress.fr/sciences-sante/sciences/alexei-grinbaum-cea-tout-se-passe-comme-si-les-ia-etaient-conscientes-GKMOWMXGGNF4VE3KAY77QNT4U4/
2025-07-23 10:15:54,554 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/proche-moyen-orient/axe-de-la-resistance-malgre-les-revers-liran-cherche-a-rearmer-ses-allies-TUCPWTTS2BFZ7LKQGIT3OC5CGM/
2025-07-23 10:15:54,860 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/amerique/six-mois-de-donald-trump-a-la-maison-blanche-une-croissance-sous-tension-une-democratie-sous-IVL5P3DKKNDQTJZTJ7B764QUZM/
2025-07-23 10:15:55,209 - INFO - Téléchargement de l'article : https://www.lexpress.fr/idees-et-debats/ben-chu-bbc-si-les-etats-unis-se-retirent-de-leconomie-mondiale-les-autres-pourraient-tenir-bon-PIT2WTECDNAQBFKSHGSCS2XG24/
2025-07-23 10:15:55,569 - INFO - Téléchargement de l'article : https://www.lexpress.fr/economie/entreprises/handilab-le-pari-d

Progression: 130/510 (25.5%) - Insérés: 128, Doublons: 0


2025-07-23 10:15:57,818 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/afrique/la-rdc-et-le-m23-signent-un-accord-de-cessez-le-feu-au-qatar-KZX4DRIU5FERBJ6J2SAVU6QSYU/
2025-07-23 10:15:58,155 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/europe/on-les-envoie-sur-le-front-combattre-les-leurs-marc-levy-raconte-son-enquete-sur-les-enfants-MZWWPQAEJJHF3PMQ3YBSIJC7GI/
2025-07-23 10:15:58,490 - INFO - Téléchargement de l'article : https://www.lexpress.fr/economie/emploi/taux-demploi-les-francais-ne-travaillent-pas-moins-mais-ils-sont-moins-a-travailler-YK73TCESRVHXDBQPCV6MXDUPNI/
2025-07-23 10:15:58,834 - INFO - Téléchargement de l'article : https://www.lexpress.fr/societe/les-festivals-francais-vont-ils-disparaitre-cette-crise-silencieuse-qui-menace-tout-un-modele-5LJAJ6UZXRHWVIBEXJMCXI47SA/
2025-07-23 10:15:59,265 - INFO - Téléchargement de l'article : https://www.lexpress.fr/culture/quand-chateaubriand-et-musset-ecrivaient-fashionables-ces-angl

Progression: 140/510 (27.5%) - Insérés: 138, Doublons: 0


2025-07-23 10:16:01,586 - INFO - Téléchargement de l'article : https://www.lexpress.fr/economie/high-tech/ia-entre-meta-google-et-microsoft-la-chasse-aux-cerveaux-vire-a-la-foire-dempoigne-7CLY5D752FHRVFNKVNUJZURHBI/
2025-07-23 10:16:01,912 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/proche-moyen-orient/adel-bakawan-pour-israel-la-menace-turque-serait-encore-plus-grande-que-celle-de-liran-UJDDHJ267ZAGZKHQKZIRXGVPKA/
2025-07-23 10:16:02,263 - INFO - Téléchargement de l'article : https://www.lexpress.fr/sciences-sante/sante/transitions-de-genre-lautorite-de-sante-publie-ses-recommandations-sur-la-prise-en-charge-medicale-2DQFB4ZTVVHW5FRKVAY2CUPX7A/
2025-07-23 10:16:02,564 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/proche-moyen-orient/syrie-le-cessez-le-feu-deja-menace-par-de-nouveaux-affrontements-JVDLKEAA5FETFPYPRJI2YYSGHY/
2025-07-23 10:16:02,913 - INFO - Téléchargement de l'article : https://www.lexpress.fr/politique/gestion-de-lelyse

Progression: 150/510 (29.4%) - Insérés: 148, Doublons: 0


2025-07-23 10:16:05,245 - INFO - Téléchargement de l'article : https://www.lexpress.fr/economie/high-tech/ia-comment-les-marques-infiltrent-lassistant-google-gemini-pour-promouvoir-leurs-produits-O2OCWFA66ZHJZAVCFBIMN52RC4/
2025-07-23 10:16:05,608 - INFO - Téléchargement de l'article : https://www.lexpress.fr/societe/reseaux-sociaux-le-gouvernement-relance-son-projet-dinterdiction-pour-les-moins-de-15-ans-GRK44PEA2JBFPDQHM3OX7AAELE/
2025-07-23 10:16:05,941 - INFO - Téléchargement de l'article : https://www.lexpress.fr/societe/justice/mouvance-incel-et-haine-des-femmes-cest-un-danger-reel-qui-menace-de-plus-en-plus-leurope-LGWN5RPMK5CXFK25KXNUKY5RHQ/
2025-07-23 10:16:06,279 - INFO - Téléchargement de l'article : https://www.lexpress.fr/societe/justice/la-surpopulation-en-prison-ne-concerne-pas-que-la-france-lalerte-du-conseil-de-leurope-XVQA5MRX4JAC7MR26VYRAZBX34/
2025-07-23 10:16:06,612 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/europe/malgre-les-critiques-de-

Progression: 160/510 (31.4%) - Insérés: 158, Doublons: 0


2025-07-23 10:16:08,977 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/europe/pogacar-et-tant-dautres-champions-les-secrets-de-la-slovenie-devoiles-par-son-ministre-des-sports-DN7R5HVNGZB4ZNYNLII5EIOUFM/
2025-07-23 10:16:09,356 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/amerique/laffaire-epstein-nen-finit-plus-dembarrasser-donald-trump-Y7LPRK4GOBG23HZ62FK4B3EIRI/
2025-07-23 10:16:09,762 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/du-jeu-televise-kvn-a-la-guerre-en-ukraine-les-debuts-meconnus-de-volodymyr-zelensky-2PWE7DB3F5CFLJ3KQCW7MXRH4E/
2025-07-23 10:16:10,109 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/proche-moyen-orient/gaza-la-france-condamne-le-bombardement-inadmissible-dune-eglise-sous-sa-protection-historique-D2GVBZQJ2FCHLCF7I33E2WDL24/
2025-07-23 10:16:10,465 - INFO - Téléchargement de l'article : https://www.lexpress.fr/monde/a-laube-de-leur-destin-notre-serie-dete-XGG5K3EPR5D

Progression: 190/510 (37.3%) - Insérés: 167, Doublons: 0


2025-07-23 10:16:14,608 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/societe/20250723.OBS106141/elle-me-parle-de-meteo-de-son-chien-du-linge-qui-seche-plus-je-vois-ma-belle-mere-plus-elle-m-insupporte.html
2025-07-23 10:16:15,009 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/justice/20250723.OBS106140/eric-routier-est-tombe-fou-amoureux-de-la-femme-parfaite-une-camgirl-roumaine-qui-etait-en-fait-un-brouteur-ivoirien.html
2025-07-23 10:16:15,386 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/histoire/20250723.OBS106139/il-y-a-80-ans-au-proces-du-marechal-petain-il-a-tres-peu-ete-question-du-sort-des-juifs.html
2025-07-23 10:16:15,730 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/ecologie/20250722.OBS106138/interpol-leve-la-notice-rouge-visant-le-militant-ecologiste-paul-watson.html
2025-07-23 10:16:16,111 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/societe/20250722.OBS106137/le-gouvernement-

Progression: 200/510 (39.2%) - Insérés: 177, Doublons: 0


2025-07-23 10:16:18,542 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/cinema/20250722.OBS106131/frantz-fanon-ces-annees-que-le-psychiatre-et-figure-de-l-anticolonialisme-passa-a-l-hopital-de-blida.html
2025-07-23 10:16:18,885 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/cinema/20250722.OBS106130/aux-jours-qui-viennent-un-film-entre-thriller-conjugal-et-melo-familiale.html
2025-07-23 10:16:19,272 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/cinema/20250722.OBS106129/vittoria-un-film-entre-documentaire-et-fiction-qui-prouve-que-le-cinema-italien-n-est-pas-mort.html
2025-07-23 10:16:19,666 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/cinema/20250722.OBS106128/the-things-you-kill-une-fable-politique-et-symbolique-sur-le-deni-de-culpabilite.html
2025-07-23 10:16:20,030 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/cinema/20250722.OBS106127/dangerous-animals-quand-un-serial-killer-donne-des-tour

Progression: 220/510 (43.1%) - Insérés: 195, Doublons: 0


2025-07-23 10:16:25,344 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/politique/20250722.OBS106102/petition-contre-la-loi-duplomb-face-a-une-mobilisation-citoyenne-inedite-le-camp-presidentiel-marche-sur-des-ufs.html
2025-07-23 10:16:25,384 - ERROR - Échec parsing https://www.nouvelobs.com/politique/20250722.OBS106102/petition-contre-la-loi-duplomb-face-a-une-mobilisation-citoyenne-inedite-le-camp-presidentiel-marche-sur-des-ufs.html : Article `download()` failed with 406 Client Error: Not Acceptable for url: https://www.nouvelobs.com/politique/20250722.OBS106102/petition-contre-la-loi-duplomb-face-a-une-mobilisation-citoyenne-inedite-le-camp-presidentiel-marche-sur-des-ufs.html on URL https://www.nouvelobs.com/politique/20250722.OBS106102/petition-contre-la-loi-duplomb-face-a-une-mobilisation-citoyenne-inedite-le-camp-presidentiel-marche-sur-des-ufs.html
2025-07-23 10:16:25,384 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/societe/20250722.OBS1061

Progression: 230/510 (45.1%) - Insérés: 202, Doublons: 0


2025-07-23 10:16:28,458 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/politique/20250721.OBS106093/petition-contre-la-loi-duplomb-les-4-raisons-d-un-succes-inedit.html
2025-07-23 10:16:28,851 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/monde/20250721.OBS106092/liberation-de-georges-abdallah-le-parquet-general-forme-un-pourvoi-en-cassation.html
2025-07-23 10:16:29,220 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/cinema/20250721.OBS106091/renard-et-lapine-sauvent-la-foret-un-cartoon-ecolo-politique-et-inventif.html
2025-07-23 10:16:29,605 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/politique/20250721.OBS106090/nous-malades-du-rein-prions-francois-bayrou-de-bien-vouloir-cesser-de-nous-faire-les-poches.html
2025-07-23 10:16:29,970 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/chroniques/20250721.OBS106089/le-bloc-notes-de-jerome-garcin-les-schneider-pere-et-fille.html
2025-07-23 10:16:30,336

Progression: 250/510 (49.0%) - Insérés: 220, Doublons: 0


2025-07-23 10:16:35,385 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/justice/20250721.OBS106073/roselyne-54-ans-pensait-etre-en-couple-avec-david-hallyday-elle-a-verse-60-000-euros-a-des-brouteurs.html
2025-07-23 10:16:35,756 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/monde/20250721.OBS106072/la-nouvelle-croisade-des-anti-avortement-en-italie.html
2025-07-23 10:16:36,098 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/politique/20250720.OBS106071/comment-gabriel-attal-veut-se-verdir-face-a-l-offensive-anti-ecolo-de-retailleau-ou-le-pen.html
2025-07-23 10:16:36,475 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/politique/20250720.OBS106070/un-million-de-signatures-pour-la-petition-contre-la-loi-duplomb-cessez-le-feu-en-syrie-bayrou-et-son-budget-les-cinq-infos-a-retenir-du-week-end.html
2025-07-23 10:16:36,887 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/teleobs/20250720.OBS106069/dj-mehdi-m

Progression: 270/510 (52.9%) - Insérés: 232, Doublons: 0


2025-07-23 10:16:40,444 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/ecologie/20250720.OBS106053/ca-ne-m-inspire-pas-grand-chose-laurent-duplomb-reagit-a-la-petition-qui-a-atteint-780-000-signatures.html
2025-07-23 10:16:40,797 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/chroniques/20250720.OBS106052/quand-marine-le-pen-et-valerie-pecresse-rivalisent-dans-la-demagogie-anti-ecolo.html
2025-07-23 10:16:41,128 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/societe/20250720.OBS106051/henri-a-appris-le-tricot-sur-youtube-j-ai-besoin-de-ces-espaces-numeriques-ou-les-gens-sont-gentils.html
2025-07-23 10:16:41,517 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/monde/20250720.OBS106050/une-voiture-fonce-dans-la-foule-a-los-angeles-ce-que-l-on-sait-sur-l-attaque.html
2025-07-23 10:16:41,868 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/musique/20250720.OBS106049/je-chantais-dans-la-rue-payee-au-chapea

Progression: 290/510 (56.9%) - Insérés: 246, Doublons: 0


2025-07-23 10:16:45,997 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/economie/20250719.OBS106033/qu-est-ce-que-la-dermatose-nodulaire-maladie-detectee-en-savoie-ayant-entraine-l-euthanasie-de-cheptels-entiers-de-vaches.html
2025-07-23 10:16:46,030 - ERROR - Échec parsing https://www.nouvelobs.com/economie/20250719.OBS106033/qu-est-ce-que-la-dermatose-nodulaire-maladie-detectee-en-savoie-ayant-entraine-l-euthanasie-de-cheptels-entiers-de-vaches.html : Article `download()` failed with 406 Client Error: Not Acceptable for url: https://www.nouvelobs.com/economie/20250719.OBS106033/qu-est-ce-que-la-dermatose-nodulaire-maladie-detectee-en-savoie-ayant-entraine-l-euthanasie-de-cheptels-entiers-de-vaches.html on URL https://www.nouvelobs.com/economie/20250719.OBS106033/qu-est-ce-que-la-dermatose-nodulaire-maladie-detectee-en-savoie-ayant-entraine-l-euthanasie-de-cheptels-entiers-de-vaches.html
2025-07-23 10:16:46,031 - INFO - Téléchargement de l'article : https://www.nouvel

Progression: 310/510 (60.8%) - Insérés: 257, Doublons: 0


2025-07-23 10:16:50,578 - ERROR - Échec parsing https://www.nouvelobs.com/chroniques/20250718.OBS106011/cher-superman-bienvenue-chez-les-super-wokes.html : Article `download()` failed with 406 Client Error: Not Acceptable for url: https://www.nouvelobs.com/chroniques/20250718.OBS106011/cher-superman-bienvenue-chez-les-super-wokes.html on URL https://www.nouvelobs.com/chroniques/20250718.OBS106011/cher-superman-bienvenue-chez-les-super-wokes.html
2025-07-23 10:16:50,579 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/teleobs/20250718.OBS106010/inde-des-dieux-et-des-hommes-au-pays-de-tous-les-obstacles.html
2025-07-23 10:16:50,612 - ERROR - Échec parsing https://www.nouvelobs.com/teleobs/20250718.OBS106010/inde-des-dieux-et-des-hommes-au-pays-de-tous-les-obstacles.html : Article `download()` failed with 406 Client Error: Not Acceptable for url: https://www.nouvelobs.com/teleobs/20250718.OBS106010/inde-des-dieux-et-des-hommes-au-pays-de-tous-les-obstacles.html on URL http

Progression: 330/510 (64.7%) - Insérés: 264, Doublons: 0


2025-07-23 10:16:54,232 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/justice/20250717.OBS105990/affaire-hedi-a-marseille-usage-disproportionne-de-la-force-responsabilite-de-la-hierarchie-ce-qu-il-faut-retenir-du-rapport-de-l-igpn.html
2025-07-23 10:16:54,262 - ERROR - Échec parsing https://www.nouvelobs.com/justice/20250717.OBS105990/affaire-hedi-a-marseille-usage-disproportionne-de-la-force-responsabilite-de-la-hierarchie-ce-qu-il-faut-retenir-du-rapport-de-l-igpn.html : Article `download()` failed with 406 Client Error: Not Acceptable for url: https://www.nouvelobs.com/justice/20250717.OBS105990/affaire-hedi-a-marseille-usage-disproportionne-de-la-force-responsabilite-de-la-hierarchie-ce-qu-il-faut-retenir-du-rapport-de-l-igpn.html on URL https://www.nouvelobs.com/justice/20250717.OBS105990/affaire-hedi-a-marseille-usage-disproportionne-de-la-force-responsabilite-de-la-hierarchie-ce-qu-il-faut-retenir-du-rapport-de-l-igpn.html
2025-07-23 10:16:54,262 - INFO - Télé

Progression: 340/510 (66.7%) - Insérés: 268, Doublons: 0


2025-07-23 10:16:56,117 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/economie/20250717.OBS105981/budget-2026-ces-cinq-mesures-de-francois-bayrou-qui-visent-les-classes-moyennes-et-les-plus-modestes.html
2025-07-23 10:16:56,160 - ERROR - Échec parsing https://www.nouvelobs.com/economie/20250717.OBS105981/budget-2026-ces-cinq-mesures-de-francois-bayrou-qui-visent-les-classes-moyennes-et-les-plus-modestes.html : Article `download()` failed with 406 Client Error: Not Acceptable for url: https://www.nouvelobs.com/economie/20250717.OBS105981/budget-2026-ces-cinq-mesures-de-francois-bayrou-qui-visent-les-classes-moyennes-et-les-plus-modestes.html on URL https://www.nouvelobs.com/economie/20250717.OBS105981/budget-2026-ces-cinq-mesures-de-francois-bayrou-qui-visent-les-classes-moyennes-et-les-plus-modestes.html
2025-07-23 10:16:56,161 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/monde/20250717.OBS105980/qui-controle-gaza-israel-continue-de-diviser-pour-m

Progression: 380/510 (74.5%) - Insérés: 277, Doublons: 0


2025-07-23 10:17:00,849 - INFO - Téléchargement de l'article : https://www.nouvelobs.com/politique/20250716.OBS105937/retraites-impot-sur-le-revenu-collectivites-locales-qu-est-ce-qu-une-annee-blanche.html
2025-07-23 10:17:00,905 - ERROR - Échec parsing https://www.nouvelobs.com/politique/20250716.OBS105937/retraites-impot-sur-le-revenu-collectivites-locales-qu-est-ce-qu-une-annee-blanche.html : Article `download()` failed with 406 Client Error: Not Acceptable for url: https://www.nouvelobs.com/politique/20250716.OBS105937/retraites-impot-sur-le-revenu-collectivites-locales-qu-est-ce-qu-une-annee-blanche.html on URL https://www.nouvelobs.com/politique/20250716.OBS105937/retraites-impot-sur-le-revenu-collectivites-locales-qu-est-ce-qu-une-annee-blanche.html
2025-07-23 10:17:00,905 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/23/bitcoin-boom-trumps-policies-create-15000-new-millionaires-in-2025
2025-07-23 10:17:01,339 - INFO - Téléchargement de l'article : http

Progression: 390/510 (76.5%) - Insérés: 280, Doublons: 0


2025-07-23 10:17:03,135 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/22/initial-probe-into-south-koreas-jeju-air-crash-angers-families-by-hinting-at-pilot-error
2025-07-23 10:17:03,576 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/22/us-prosecutors-want-to-speak-to-ghislaine-maxwell-as-scrutiny-grows-over-epstein-files
2025-07-23 10:17:04,070 - INFO - Téléchargement de l'article : https://www.euronews.com/video/2025/07/22/latest-news-bulletin-july-22nd-evening
2025-07-23 10:17:04,417 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/22/afp-journalists-at-risk-of-starving-to-death-in-gaza-without-intervention-news-agency-says
2025-07-23 10:17:04,817 - INFO - Téléchargement de l'article : https://www.euronews.com/video/2025/07/22/displaced-gazans-live-in-tents-at-bombed-stadium-in-gaza-city
2025-07-23 10:17:05,115 - INFO - Téléchargement de l'article : https://www.euronews.com/video/2025/07/22/giant-trolls-made-fr

Progression: 400/510 (78.4%) - Insérés: 287, Doublons: 0


2025-07-23 10:17:07,289 - INFO - Téléchargement de l'article : https://www.euronews.com/video/2025/07/22/latest-news-bulletin-july-22nd-midday
2025-07-23 10:17:08,109 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/22/more-than-100-women-freed-after-spanish-police-dismantle-human-trafficking-ring
2025-07-23 10:17:08,453 - INFO - Téléchargement de l'article : https://www.euronews.com/video/2025/07/22/tourists-watch-cooling-lava-as-icelands-volcanic-activity-slows
2025-07-23 10:17:08,925 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/22/stranded-uk-f-35-fighter-jet-leaves-india-after-triggering-barrage-of-memes
2025-07-23 10:17:09,350 - INFO - Téléchargement de l'article : https://www.euronews.com/video/2025/07/22/japan-steps-up-bear-safety-measures-after-recent-attacks
2025-07-23 10:17:09,770 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/22/germanys-interior-minister-backs-polish-border-measures-during-visit
2025

Progression: 410/510 (80.4%) - Insérés: 291, Doublons: 0


2025-07-23 10:17:12,754 - INFO - Téléchargement de l'article : https://www.euronews.com/video/2025/07/21/latest-news-bulletin-july-21st-evening
2025-07-23 10:17:13,191 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/21/egypts-government-provides-free-train-tickets-so-sudanese-refugees-can-return-home
2025-07-23 10:17:13,781 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/21/israeli-military-launches-first-ground-operation-into-central-gaza-city-of-deir-al-balah
2025-07-23 10:17:14,212 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/21/syrian-forces-evacuate-bedouin-families-out-of-suwayda-as-shaky-ceasefire-holds
2025-07-23 10:17:14,646 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/21/iran-to-consult-with-russia-and-china-ahead-of-friday-nuclear-talks-with-european-nations
2025-07-23 10:17:15,096 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/21/far-right-japanese-

Progression: 430/510 (84.3%) - Insérés: 304, Doublons: 0


2025-07-23 10:17:22,247 - INFO - Téléchargement de l'article : https://www.euronews.com/video/2025/07/20/latest-news-bulletin-july-20th-midday
2025-07-23 10:17:22,548 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/20/tsunami-threat-declared-in-russias-kamchatka-after-powerful-74-magnitude-earthquake
2025-07-23 10:17:22,912 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/20/clashes-continue-in-sweida-as-ceasefire-struggles-to-hold
2025-07-23 10:17:23,332 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/20/zelenskyy-proposes-new-round-of-peace-talks-with-russia
2025-07-23 10:17:23,743 - INFO - Téléchargement de l'article : https://www.euronews.com/2025/07/20/trump-threatens-to-break-delta-aeromexico-alliance-restricts-flights-from-mexico
2025-07-23 10:17:24,193 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/sport/article/venus-williams-reussit-son-come-back-la-legende-du-tennis-remporte-son-prem

Progression: 440/510 (86.3%) - Insérés: 312, Doublons: 0


2025-07-23 10:17:26,014 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/politique/article/monsieur-le-president-utilisez-l-article-10-de-la-constitution-sur-la-loi-duplomb-tribune_252876.html
2025-07-23 10:17:26,396 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/politique/article/ces-autres-points-de-la-loi-duplomb-eclipses-par-la-reintroduction-de-l-acetamipride_252870.html
2025-07-23 10:17:26,677 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/politique/article/un-an-apres-la-designation-de-lucie-castets-la-gauche-toujours-minee-par-la-division_252875.html
2025-07-23 10:17:26,984 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/international/video/donald-trump-empetre-dans-l-affaire-epstein-allume-un-contre-feu-en-visant-barack-obama_252888.html
2025-07-23 10:17:27,275 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/culture/article/superman-james-gunn-regrette-la-maniere-dont-henr

Progression: 450/510 (88.2%) - Insérés: 322, Doublons: 0


2025-07-23 10:17:29,233 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/politique/article/elisabeth-borne-demande-bruno-retailleau-du-respect-apres-sa-nouvelle-sortie-contre-le-macronisme_252881.html
2025-07-23 10:17:29,564 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/culture/article/mort-d-ozzy-ozbourne-leader-emblematique-des-black-sabbath-a-l-age-de-76-ans_252882.html
2025-07-23 10:17:29,881 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/politique/article/proces-de-rachida-dati-macron-douche-leurs-espoirs-des-elus-qui-demandent-la-demission-de-la-ministre_252879.html
2025-07-23 10:17:30,158 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/politique/article/peut-on-signer-la-petition-contre-la-loi-duplomb-plusieurs-fois_252865.html
2025-07-23 10:17:30,500 - INFO - Téléchargement de l'article : https://www.huffingtonpost.fr/france/video/loi-duplomb-c-est-quoi-l-acetamipride-ce-pesticide-controverse-

Progression: 460/510 (90.2%) - Insérés: 332, Doublons: 0


2025-07-23 10:17:33,040 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/africa/congo-gold-mine-collapse.html
2025-07-23 10:17:33,377 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/europe/zelensky-protests-corruption.html
2025-07-23 10:17:33,726 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/europe/fiona-hill-trump-russia-uk-defense.html
2025-07-23 10:17:34,135 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/europe/italy-mother-child-dead-police.html
2025-07-23 10:17:34,473 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/europe/austria-stocker-military-spending.html
2025-07-23 10:17:34,848 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/europe/us-withdraw-unesco.html
2025-07-23 10:17:35,216 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/world/asia/japan-election-analysi

Progression: 470/510 (92.2%) - Insérés: 342, Doublons: 0


2025-07-23 10:17:37,166 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/23/world/australia/virgin-airlines-plane-battery-fire.html
2025-07-23 10:17:37,509 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/23/world/asia/chinese-hackers-microsoft-sharepoint.html
2025-07-23 10:17:37,878 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/23/briefing/wednesday-briefing-israel-expands-gaza-offensive.html
2025-07-23 10:17:38,274 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/23/world/middleeast/iran-fires-sabotage.html
2025-07-23 10:17:38,659 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/climate/new-mexico-navajo-power.html
2025-07-23 10:17:39,254 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/climate/montana-grizzly-bears-guard-dogs.html
2025-07-23 10:17:39,750 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/climate/north-car

Progression: 480/510 (94.1%) - Insérés: 352, Doublons: 0


2025-07-23 10:17:41,510 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/canada/carney-trade-deal-trump.html
2025-07-23 10:17:41,880 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/briefing/israel-gaza-philippines-trade-us-ozzy-osbourne.html
2025-07-23 10:17:42,335 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/middleeast/syria-military-killings-human-rights.html
2025-07-23 10:17:42,736 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/us/politics/trump-indonesia-trade-deal.html
2025-07-23 10:17:43,084 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/climate/fema-urban-search-rescue-chief-resigns.html
2025-07-23 10:17:43,412 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/climate/antonio-guterres-energy-transition-speech-economics.html
2025-07-23 10:17:43,735 - INFO - Téléchargement de l'article : https://www.nytimes.com/20

Progression: 490/510 (96.1%) - Insérés: 362, Doublons: 0


2025-07-23 10:17:45,863 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/22/world/asia/bed-sharing-parents-children-sleep-asia.html
2025-07-23 10:17:46,296 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/briefing/bangladesh-plane-crash-gaza-israel-hamas-ukraine-russia.html
2025-07-23 10:17:47,249 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/climate/extreme-fire-weather-forests.html
2025-07-23 10:17:47,714 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/us/politics/china-exit-ban-us-government-employee.html
2025-07-23 10:17:48,055 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/climate/metals-company-seabed-mining-trump.html
2025-07-23 10:17:48,383 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/world/middleeast/syria-clashes-druse-bedouin-evacuations.html
2025-07-23 10:17:48,917 - INFO - Téléchargement de l'article : https://www.nyti

Progression: 500/510 (98.0%) - Insérés: 372, Doublons: 0


2025-07-23 10:17:51,301 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/world/asia/china-lead-poisoning-scandal.html
2025-07-23 10:17:51,693 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/world/middleeast/iran-nuclear-talks-europe.html
2025-07-23 10:17:52,415 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/world/europe/ukraine-weapons-industry.html
2025-07-23 10:17:52,870 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/climate/china-brazil-electric-vehicles.html
2025-07-23 10:17:53,329 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/world/europe/russia-ukraine-missile-drone-strikes.html
2025-07-23 10:17:53,713 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/world/asia/south-korea-floods-death-toll.html
2025-07-23 10:17:54,439 - INFO - Téléchargement de l'article : https://www.nytimes.com/2025/07/21/briefing/gaza-israel-japan-trump-

Progression: 510/510 (100.0%) - Insérés: 382, Doublons: 0

Résumé du traitement:
   • Articles traités: 382/510
   • Articles insérés: 382
   • Doublons détectés: 0
   • Erreurs: 0
   • Temps total: 167.17s
   • Taux de succès: 74.9%


## 3. Traitement et stockage

Extraction du texte complet et insertion en base de données avec gestion d'erreurs avancée.

In [31]:
# Création et enrichissement du DataFrame
if processed:
    df = pd.DataFrame(processed)

    # Nettoyage et enrichissement
    df["published"] = pd.to_datetime(df["published"], errors='coerce')
    df["title_length"] = df["title"].fillna("").str.len()
    df["text_length"] = df["text"].fillna("").str.len()
    df["summary_length"] = df["summary"].fillna("").str.len()

    # Extraction de features temporelles
    df["published_date"] = df["published"].dt.date
    df["published_hour"] = df["published"].dt.hour
    df["published_weekday"] = df["published"].dt.day_name()
    df["published_month"] = df["published"].dt.month

    # Qualité du texte
    df["words_count"] = df["text"].fillna("").str.split().str.len()
    df["reading_time"] = (df["words_count"] / 250).round(1)  # lecture estimée

    # Statistiques robustes
    print("Statistiques du dataset :")
    print(f"   • Nombre d'articles : {len(df)}")

    # Gestion du cas où toutes les dates sont NaT
    if df["published"].notna().sum() > 0:
        min_date = df["published"].min().strftime("%Y-%m-%d")
        max_date = df["published"].max().strftime("%Y-%m-%d")
        print(f"   • Période couverte : {min_date} à {max_date}")
    else:
        print("   • Période couverte : inconnue (aucune date valide)")

    print(f"   • Sources uniques : {df['source'].nunique()}")
    print(f"   • Articles avec date : {df['published'].notna().sum()}")

    print("\n Métriques de contenu :")
    print(f"   • Longueur moyenne titre : {df['title_length'].mean():.0f} caractères")
    print(f"   • Longueur moyenne texte : {df['text_length'].mean():.0f} caractères")
    print(f"   • Temps de lecture moyen : {df['reading_time'].mean():.1f} minutes")
    print(f"   • Articles > 1000 caractères : {(df['text_length'] > 1000).sum()}")

    # Affichage
    print("\nAperçu des articles :")
    display_cols = ['title', 'source', 'published', 'text_length', 'reading_time']
    print(df[display_cols].head(3).to_string())

else:
    print("Aucun article traité pour l'analyse.")
    df = pd.DataFrame()


Statistiques du dataset :
   • Nombre d'articles : 382
   • Période couverte : inconnue (aucune date valide)
   • Sources uniques : 8
   • Articles avec date : 0

 Métriques de contenu :
   • Longueur moyenne titre : 85 caractères
   • Longueur moyenne texte : 3506 caractères
   • Temps de lecture moyen : 2.2 minutes
   • Articles > 1000 caractères : 341

Aperçu des articles :
                                                                                                                                      title                              source published  text_length  reading_time
0                          L’expulsion silencieuse des Bédouins de Cisjordanie,  attaqués chaque jour par des colons extrémistes israéliens  https://www.lemonde.fr/rss/une.xml       NaT         1956           1.2
1                      L’entraîneur de ski Joël Chenal visé par une plainte pour agression sexuelle sur mineure et de nouvelles accusations  https://www.lemonde.fr/rss/une.xml       NaT         

In [33]:
print("Exemple de dates extraites :")
print(df["published"].dropna().head())
print("Dates valides :", df["published"].notna().sum(), "/", len(df))


Exemple de dates extraites :
Series([], Name: published, dtype: datetime64[ns])
Dates valides : 0 / 382


## 4. Analyses statistiques de base

Création du DataFrame et calcul des métriques de base pour l'analyse.

In [None]:
# Analyses temporelles avancées
if not df.empty and df["published"].notna().sum() > 0:
    
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    fig.suptitle('Analyses Temporelles des Publications', fontsize=16, y=0.98)
    
    # 1. Distribution des longueurs de texte
    axes[0, 0].hist(df["text_length"], bins=30, alpha=0.7, color='skyblue', edgecolor='black')
    axes[0, 0].set_title("Distribution des longueurs de texte")
    axes[0, 0].set_xlabel("Nombre de caractères")
    axes[0, 0].set_ylabel("Nombre d'articles")
    axes[0, 0].axvline(df["text_length"].mean(), color='red', linestyle='--', 
                       label=f'Moyenne: {df["text_length"].mean():.0f}')
    axes[0, 0].legend()
    
    # 2. Publications par heure
    if df["published_hour"].notna().sum() > 0:
        hourly_counts = df["published_hour"].value_counts().sort_index()
        axes[0, 1].bar(hourly_counts.index, hourly_counts.values, color='lightgreen', alpha=0.7)
        axes[0, 1].set_title("Publications par heure de la journée")
        axes[0, 1].set_xlabel("Heure")
        axes[0, 1].set_ylabel("Nombre d'articles")
        axes[0, 1].set_xticks(range(0, 24, 2))
    
    # 3. Publications par jour de la semaine
    if df["published_weekday"].notna().sum() > 0:
        weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
        weekday_counts = df["published_weekday"].value_counts().reindex(weekday_order, fill_value=0)
        axes[1, 0].bar(range(len(weekday_counts)), weekday_counts.values, 
                       color='orange', alpha=0.7)
        axes[1, 0].set_title("Publications par jour de la semaine")
        axes[1, 0].set_xlabel("Jour de la semaine")
        axes[1, 0].set_ylabel("Nombre d'articles")
        axes[1, 0].set_xticks(range(len(weekday_order)))
        axes[1, 0].set_xticklabels([day[:3] for day in weekday_order], rotation=45)
    
    # 4. Évolution temporelle
    if df["published_date"].notna().sum() > 0:
        daily_counts = df["published_date"].value_counts().sort_index()
        axes[1, 1].plot(daily_counts.index, daily_counts.values, 
                        marker='o', linewidth=2, markersize=4, color='purple')
        axes[1, 1].set_title("Évolution des publications dans le temps")
        axes[1, 1].set_xlabel("Date")
        axes[1, 1].set_ylabel("Nombre d'articles")
        axes[1, 1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()
    
    # Statistiques temporelles
    print("Insights temporels:")
    if df["published_hour"].notna().sum() > 0:
        peak_hour = df["published_hour"].mode().iloc[0]
        print(f"   • Heure de publication la plus active: {peak_hour}h")
    
    if df["published_weekday"].notna().sum() > 0:
        peak_day = df["published_weekday"].mode().iloc[0]
        print(f"   • Jour le plus actif: {peak_day}")
    
    # Corrélations intéressantes
    correlations = df[['text_length', 'title_length', 'reading_time', 'published_hour']].corr()
    print(f"\n🔗 Corrélations notables:")
    print(f"   • Corrélation titre/texte: {correlations.loc['title_length', 'text_length']:.3f}")
    
else:
    print("Pas assez de données temporelles pour l'analyse")
    
    


Pas assez de données temporelles pour l'analyse


## 5. Analyses temporelles avancées

Analyse des patterns de publication dans le temps.

In [None]:
# Analyse des mots-clés et thèmes
if not df.empty:
    
    # Préparation des données textuelles
    all_titles = ' '.join(df['title'].fillna('').str.lower())
    all_summaries = ' '.join(df['summary'].fillna('').str.lower())
    
    # Mots vides français + anglais (basic list)
    stop_words = {
        'le', 'de', 'et', 'à', 'un', 'il', 'être', 'et', 'en', 'avoir', 'que', 'pour',
        'dans', 'ce', 'son', 'une', 'sur', 'avec', 'ne', 'se', 'pas', 'tout', 'plus',
        'par', 'grand', 'comme', 'mais', 'faire', 'son', 'que', 'du', 'sa', 'les',
        'des', 'la', 'au', 'aux', 'nous', 'vous', 'ils', 'elle', 'sont', 'ont', 'est',
        'the', 'and', 'or', 'but', 'in', 'on', 'at', 'to', 'for', 'of', 'with',
        'by', 'an', 'a', 'is', 'are', 'was', 'were', 'be', 'been', 'have', 'has', 'had'
    }
    
    # Extraction des mots-clés des titres
    title_words = re.findall(r'\\b[a-zA-Zàâäéèêëïîôöùûüç]{3,}\\b', all_titles)
    title_words = [word for word in title_words if word not in stop_words]
    title_word_freq = Counter(title_words).most_common(20)
    
    # Extraction des mots-clés des résumés
    summary_words = re.findall(r'\\b[a-zA-Zàâäéèêëïîôöùûüç]{3,}\\b', all_summaries)
    summary_words = [word for word in summary_words if word not in stop_words]
    summary_word_freq = Counter(summary_words).most_common(20)
    
    # Visualisation des mots-clés
    fig, axes = plt.subplots(1, 2, figsize=(16, 6))
    fig.suptitle('Analyse des Mots-Clés', fontsize=16)
    
    # Mots-clés des titres
    if title_word_freq:
        words, counts = zip(*title_word_freq[:15])
        axes[0].barh(range(len(words)), counts, color='lightblue')
        axes[0].set_yticks(range(len(words)))
        axes[0].set_yticklabels(words)
        axes[0].set_xlabel('Fréquence')
        axes[0].set_title('Mots les plus fréquents dans les titres')
        axes[0].invert_yaxis()
    
    # Mots-clés des résumés
    if summary_word_freq:
        words, counts = zip(*summary_word_freq[:15])
        axes[1].barh(range(len(words)), counts, color='lightcoral')
        axes[1].set_yticks(range(len(words)))
        axes[1].set_yticklabels(words)
        axes[1].set_xlabel('Fréquence')
        axes[1].set_title('Mots les plus fréquents dans les résumés')
        axes[1].invert_yaxis()
    
    plt.tight_layout()
    plt.show()
    
    # Analyse des longueurs et diversité
    print("Insights textuels:")
    print(f"   • Mots uniques dans les titres: {len(set(title_words))}")
    print(f"   • Mots uniques dans les résumés: {len(set(summary_words))}")
    print(f"   • Diversité lexicale titres: {len(set(title_words))/len(title_words):.3f}")
    
    # Top mots-clés par catégorie
    print(f"\\n  Top 5 mots-clés titres:")
    for word, count in title_word_freq[:5]:
        print(f"   • {word}: {count} occurrences")
    
    print(f"\\n  Top 5 mots-clés résumés:")
    for word, count in summary_word_freq[:5]:
        print(f"   • {word}: {count} occurrences")
    
    # Analyse de la diversité des sources
    source_diversity = df['source'].value_counts()
    print(f"\\n Diversité des sources:")
    print(f"   • Source principale: {source_diversity.index[0]} ({source_diversity.iloc[0]} articles)")
    print(f"   • Répartition: {(source_diversity / len(df) * 100).round(1).to_dict()}")
    
else:
    print(" Pas de données pour l'analyse textuelle")

## 6. Analyse des mots-clés et contenus

Analyse textuelle pour identifier les thèmes et mots-clés dominants.

In [None]:
# Visualisations interactives avec Plotly
if not df.empty:
    
    # 1. Graphique scatter interactif: longueur texte vs titre
    fig1 = px.scatter(
        df, 
        x='text_length', 
        y='title_length',
        color='source',
        size='reading_time',
        hover_data=['title', 'published', 'words_count'],
        title=' Relation Longueur Texte vs Longueur Titre (par source)',
        labels={
            'text_length': 'Longueur du texte (caractères)',
            'title_length': 'Longueur du titre (caractères)',
            'source': 'Source RSS'
        }
    )
    fig1.update_layout(height=500)
    fig1.show()
    
    # 2. Graphique temporel interactif
    if df["published"].notna().sum() > 10:
        # Agrégation par jour
        daily_stats = df.groupby(df['published'].dt.date).agg({
            'title': 'count',
            'text_length': 'mean',
            'reading_time': 'mean',
            'source': lambda x: x.nunique()
        }).rename(columns={
            'title': 'articles_count',
            'text_length': 'avg_length',
            'reading_time': 'avg_reading_time',
            'source': 'unique_sources'
        })
        
        fig2 = make_subplots(
            rows=2, cols=2,
            subplot_titles=('Articles par jour', 'Longueur moyenne', 
                          'Temps de lecture moyen', 'Sources uniques par jour'),
            vertical_spacing=0.08
        )
        
        # Articles par jour
        fig2.add_trace(
            go.Scatter(x=daily_stats.index, y=daily_stats['articles_count'],
                      mode='lines+markers', name='Articles/jour', line=dict(color='blue')),
            row=1, col=1
        )
        
        # Longueur moyenne
        fig2.add_trace(
            go.Scatter(x=daily_stats.index, y=daily_stats['avg_length'],
                      mode='lines+markers', name='Longueur moy.', line=dict(color='green')),
            row=1, col=2
        )
        
        # Temps de lecture moyen
        fig2.add_trace(
            go.Scatter(x=daily_stats.index, y=daily_stats['avg_reading_time'],
                      mode='lines+markers', name='Temps lecture', line=dict(color='red')),
            row=2, col=1
        )
        
        # Sources uniques
        fig2.add_trace(
            go.Bar(x=daily_stats.index, y=daily_stats['unique_sources'],
                   name='Sources uniques', marker_color='orange'),
            row=2, col=2
        )
        
        fig2.update_layout(
            height=600,
            title_text=" Évolution Temporelle des Métriques",
            showlegend=False
        )
        fig2.show()
    
    # 3. Distribution des sources (graphique en secteurs interactif)
    source_counts = df['source'].value_counts()
    fig3 = px.pie(
        values=source_counts.values,
        names=source_counts.index,
        title=' Distribution des Articles par Source RSS',
        hover_data=[source_counts.values],
        labels={'values': f"Nombre d'articles"}
    )
    fig3.update_traces(textposition='inside', textinfo='percent+label')
    fig3.update_layout(height=500)
    fig3.show()
    
    # 4. Heatmap des publications par heure et jour
    if df["published_hour"].notna().sum() > 0 and df["published_weekday"].notna().sum() > 0:
        heatmap_data = df.groupby(['published_weekday', 'published_hour']).size().reset_index(name='count')
        heatmap_pivot = heatmap_data.pivot(index='published_weekday', 
                                         columns='published_hour', 
                                         values='count').fillna(0)
        
        # Réorganiser les jours de la semaine
        weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 
                        'Friday', 'Saturday', 'Sunday']
        heatmap_pivot = heatmap_pivot.reindex(weekday_order, fill_value=0)
        
        fig4 = px.imshow(
            heatmap_pivot,
            labels=dict(x="Heure", y="Jour", color="Articles"),
            title="Heatmap: Publications par Jour et Heure",
            color_continuous_scale="Viridis"
        )
        fig4.update_layout(height=400)
        fig4.show()
    
    print("Toutes les visualisations interactives ont été générées!")
    
else:
    print("Pas de données pour les visualisations interactives")

## 8. Métriques de qualité

Évaluation de la performance du système de collecte et de la qualité des données.

In [None]:
# Rapport complet des métriques de qualité
print("RAPPORT DE QUALITÉ - INSIGHTDETECTOR")
print("=" * 50)

# Métriques de collecte
if 'metrics' in locals():
    print("\\n MÉTRIQUES DE COLLECTE:")
    success_rate = (metrics['total_inserted'] / max(metrics['total_fetched'], 1)) * 100
    print(f"   • Taux de succès global: {success_rate:.1f}%")
    print(f"   • Articles récupérés: {metrics['total_fetched']}")
    print(f"   • Articles traités: {metrics['total_processed']}")  
    print(f"   • Articles insérés: {metrics['total_inserted']}")
    print(f"   • Doublons détectés: {metrics['total_duplicates']}")
    print(f"   • Erreurs rencontrées: {len(metrics['processing_errors'])}")
    
    # Performance par source
    if metrics['sources_success']:
        print(f"\\n PERFORMANCE PAR SOURCE:")
        total_by_source = metrics['sources_success']
        for source, count in sorted(total_by_source.items(), key=lambda x: x[1], reverse=True):
            percentage = (count / metrics['total_fetched']) * 100
            print(f"   • {source[:30]:<30} : {count:>3} articles ({percentage:>5.1f}%)")

# Métriques de qualité des données
if not df.empty:
    print(f"\\n QUALITÉ DES DONNÉES:")
    
    # Complétude des données
    completeness = {
        'Titre': df['title'].notna().sum() / len(df),
        'URL': df['url'].notna().sum() / len(df),
        'Résumé': df['summary'].notna().sum() / len(df),
        'Texte': df['text'].notna().sum() / len(df),
        'Date publication': df['published'].notna().sum() / len(df),
        'Source': df['source'].notna().sum() / len(df)
    }
    
    for field, completeness_rate in completeness.items():
        status = "✅" if completeness_rate > 0.9 else "⚠️ " if completeness_rate > 0.7 else "❌"
        print(f"   • {field:<15}: {completeness_rate:>6.1%} {status}")
    
    # Qualité du contenu
    print(f"\\n QUALITÉ DU CONTENU:")
    short_articles = (df['text_length'] < 500).sum()
    medium_articles = ((df['text_length'] >= 500) & (df['text_length'] < 2000)).sum()
    long_articles = (df['text_length'] >= 2000).sum()
    
    print(f"   • Articles courts (<500 char): {short_articles} ({short_articles/len(df)*100:.1f}%)")
    print(f"   • Articles moyens (500-2000): {medium_articles} ({medium_articles/len(df)*100:.1f}%)")
    print(f"   • Articles longs (>2000 char): {long_articles} ({long_articles/len(df)*100:.1f}%)")
    
    # Diversité temporelle
    if df['published'].notna().sum() > 0:
        date_range = (df['published'].max() - df['published'].min()).days
        unique_days = df['published'].dt.date.nunique()
        print(f"\\n COUVERTURE TEMPORELLE:")
        print(f"   • Période analysée: {date_range} jours")
        print(f"   • Jours avec publications: {unique_days}")
        print(f"   • Couverture temporelle: {unique_days/max(date_range, 1)*100:.1f}%")
    
    # Analyse des anomalies
    print(f"\\n DÉTECTION D'ANOMALIES:")
    
    # Articles avec titre très long/court
    very_short_titles = (df['title_length'] < 20).sum()
    very_long_titles = (df['title_length'] > 150).sum()
    print(f"   • Titres très courts (<20 char): {very_short_titles}")
    print(f"   • Titres très longs (>150 char): {very_long_titles}")
    
    # URLs potentiellement problématiques
    duplicate_urls = df['url'].duplicated().sum()
    print(f"   • URLs dupliquées: {duplicate_urls}")
    
    # Contenu potentiellement vide ou invalide
    empty_content = ((df['text'].str.len() < 100) | (df['text'].isna())).sum()
    print(f"   • Contenu vide/invalide: {empty_content}")

# Score de qualité global
if not df.empty and 'metrics' in locals():
    print(f"\\n SCORE DE QUALITÉ GLOBAL:")
    
    # Calcul du score (sur 100)
    collection_score = min(success_rate, 100) * 0.3  # 30% pour la collecte
    completeness_score = (sum(completeness.values()) / len(completeness)) * 100 * 0.4  # 40% pour la complétude
    content_score = ((medium_articles + long_articles) / len(df)) * 100 * 0.3  # 30% pour la qualité du contenu
    
    total_score = collection_score + completeness_score + content_score
    
    print(f"   • Score de collecte: {collection_score:.1f}/30")
    print(f"   • Score de complétude: {completeness_score:.1f}/40") 
    print(f"   • Score de contenu: {content_score:.1f}/30")
    print(f"   • SCORE TOTAL: {total_score:.1f}/100")
    
    # Recommandations
    print(f"\\n RECOMMANDATIONS:")
    if total_score >= 80:
        print("    Excellente qualité des données!")
    elif total_score >= 60:
        print("     Qualité correcte, quelques améliorations possibles:")
        if success_rate < 80:
            print("      - Améliorer le taux de succès de collecte")
        if completeness_score < 35:
            print("      - Améliorer la complétude des champs")
        if content_score < 25:
            print("      - Filtrer davantage le contenu de faible qualité")
    else:
        print("    Qualité insuffisante, actions requises:")
        print("      - Revoir la configuration des sources RSS")
        print("      - Améliorer les filtres de qualité")
        print("      - Corriger les erreurs de traitement")

print("\\n" + "=" * 50)

## 9. Conclusions et recommandations

Synthèse des insights découverts et recommandations pour améliorer le système.

In [None]:
# Nettoyage des ressources et conclusion
try:
    if session:
        session.close()
        logger.info("🧹 Session de base de données fermée")
    
    # Résumé final pour l'utilisateur
    if not df.empty and 'metrics' in locals():
        print("\\n ANALYSE TERMINÉE AVEC SUCCÈS!")
        print(f" {len(df)} articles analysés de {df['source'].nunique()} sources différentes")
        print(f" Période couverte: {(df['published'].max() - df['published'].min()).days} jours")
        print(f" Taux de réussite: {(metrics['total_inserted']/metrics['total_fetched']*100):.1f}%")
        
        # Insights clés découverts
        print(f"\\n INSIGHTS CLÉS:")
        if df['published_hour'].notna().sum() > 0:
            peak_hour = df['published_hour'].mode().iloc[0]
            print(f"   • Heure de pointe: {peak_hour}h")
        
        top_source = df['source'].mode().iloc[0]
        top_source_count = df['source'].value_counts().iloc[0]
        print(f"   • Source la plus productive: {top_source} ({top_source_count} articles)")
        
        avg_length = df['text_length'].mean()
        print(f"   • Longueur moyenne des articles: {avg_length:.0f} caractères")
        
        avg_reading = df['reading_time'].mean()
        print(f"   • Temps de lecture moyen: {avg_reading:.1f} minutes")
    
    print("\\n Toutes les analyses sont complètes. Le notebook peut être utilisé pour:")
    print("   • Surveiller la qualité de la collecte RSS")
    print("   • Identifier les tendances temporelles de publication") 
    print("   • Analyser les performances par source")
    print("   • Détecter les anomalies dans les données")
    print("   • Optimiser la configuration des flux RSS")
    
except Exception as e:
    logger.error(f"Erreur lors du nettoyage: {e}")
    
finally:
    print("\\n Analyse RSS terminée.")

## 7. Visualisations interactives

Graphiques interactifs pour une exploration approfondie des données.

In [None]:
# Visualisations interactives avec Plotly (avec fallback)
if not df.empty:
    
    if plotly_available:
        print("🎨 Génération des visualisations interactives Plotly...")
        
        # 1. Graphique scatter interactif: longueur texte vs titre
        fig1 = px.scatter(
            df, 
            x='text_length', 
            y='title_length',
            color='source',
            size='reading_time',
            hover_data=['title', 'published', 'words_count'],
            title='📊 Relation Longueur Texte vs Longueur Titre (par source)',
            labels={
                'text_length': 'Longueur du texte (caractères)',
                'title_length': 'Longueur du titre (caractères)',
                'source': 'Source RSS'
            }
        )
        fig1.update_layout(height=500)
        fig1.show()
        
        # 2. Graphique temporel interactif
        if df["published"].notna().sum() > 10:
            # Agrégation par jour
            daily_stats = df.groupby(df['published'].dt.date).agg({
                'title': 'count',
                'text_length': 'mean',
                'reading_time': 'mean',
                'source': lambda x: x.nunique()
            }).rename(columns={
                'title': 'articles_count',
                'text_length': 'avg_length',
                'reading_time': 'avg_reading_time',
                'source': 'unique_sources'
            })
            
            fig2 = make_subplots(
                rows=2, cols=2,
                subplot_titles=('Articles par jour', 'Longueur moyenne', 
                              'Temps de lecture moyen', 'Sources uniques par jour'),
                vertical_spacing=0.08
            )
            
            # Articles par jour
            fig2.add_trace(
                go.Scatter(x=daily_stats.index, y=daily_stats['articles_count'],
                          mode='lines+markers', name='Articles/jour', line=dict(color='blue')),
                row=1, col=1
            )
            
            # Longueur moyenne
            fig2.add_trace(
                go.Scatter(x=daily_stats.index, y=daily_stats['avg_length'],
                          mode='lines+markers', name='Longueur moy.', line=dict(color='green')),
                row=1, col=2
            )
            
            # Temps de lecture moyen
            fig2.add_trace(
                go.Scatter(x=daily_stats.index, y=daily_stats['avg_reading_time'],
                          mode='lines+markers', name='Temps lecture', line=dict(color='red')),
                row=2, col=1
            )
            
            # Sources uniques
            fig2.add_trace(
                go.Bar(x=daily_stats.index, y=daily_stats['unique_sources'],
                       name='Sources uniques', marker_color='orange'),
                row=2, col=2
            )
            
            fig2.update_layout(
                height=600,
                title_text="📈 Évolution Temporelle des Métriques",
                showlegend=False
            )
            fig2.show()
        
        # 3. Distribution des sources (graphique en secteurs interactif)
        source_counts = df['source'].value_counts()
        fig3 = px.pie(
            values=source_counts.values,
            names=source_counts.index,
            title='🥧 Distribution des Articles par Source RSS',
            hover_data=[source_counts.values],
            labels={'values': 'Nombre d\'articles'}
        )
        fig3.update_traces(textposition='inside', textinfo='percent+label')
        fig3.update_layout(height=500)
        fig3.show()
        
        # 4. Heatmap des publications par heure et jour
        if df["published_hour"].notna().sum() > 0 and df["published_weekday"].notna().sum() > 0:
            heatmap_data = df.groupby(['published_weekday', 'published_hour']).size().reset_index(name='count')
            heatmap_pivot = heatmap_data.pivot(index='published_weekday', 
                                             columns='published_hour', 
                                             values='count').fillna(0)
            
            # Réorganiser les jours de la semaine
            weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 
                            'Friday', 'Saturday', 'Sunday']
            heatmap_pivot = heatmap_pivot.reindex(weekday_order, fill_value=0)
            
            fig4 = px.imshow(
                heatmap_pivot,
                labels=dict(x="Heure", y="Jour", color="Articles"),
                title="🔥 Heatmap: Publications par Jour et Heure",
                color_continuous_scale="Viridis"
            )
            fig4.update_layout(height=400)
            fig4.show()
        
        print("✅ Visualisations Plotly générées avec succès!")
        
    else:
        # Fallback avec matplotlib si Plotly n'est pas disponible
        print("📊 Plotly non disponible - utilisation de matplotlib...")
        
        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        fig.suptitle('📊 Analyses Visuelles des Données RSS', fontsize=16)
        
        # 1. Scatter plot longueur texte vs titre
        scatter = axes[0, 0].scatter(df['text_length'], df['title_length'], 
                                   c=df['reading_time'], alpha=0.6, cmap='viridis')
        axes[0, 0].set_xlabel('Longueur texte (caractères)')
        axes[0, 0].set_ylabel('Longueur titre (caractères)')
        axes[0, 0].set_title('Relation Texte vs Titre')
        plt.colorbar(scatter, ax=axes[0, 0], label='Temps lecture (min)')
        
        # 2. Distribution des longueurs
        axes[0, 1].hist(df['text_length'], bins=30, alpha=0.7, color='skyblue', label='Texte')
        axes[0, 1].hist(df['title_length'], bins=30, alpha=0.7, color='orange', label='Titre')
        axes[0, 1].set_xlabel('Longueur (caractères)')
        axes[0, 1].set_ylabel('Fréquence')
        axes[0, 1].set_title('Distribution des longueurs')
        axes[0, 1].legend()
        
        # 3. Articles par source
        source_counts = df['source'].value_counts()
        axes[1, 0].barh(range(len(source_counts)), source_counts.values, color='lightgreen')
        axes[1, 0].set_yticks(range(len(source_counts)))
        axes[1, 0].set_yticklabels([s[:20] + '...' if len(s) > 20 else s for s in source_counts.index])
        axes[1, 0].set_xlabel('Nombre d\'articles')
        axes[1, 0].set_title('Articles par source')
        
        # 4. Évolution temporelle si données disponibles
        if df['published'].notna().sum() > 5:
            daily_counts = df.groupby(df['published'].dt.date).size()
            axes[1, 1].plot(daily_counts.index, daily_counts.values, marker='o')
            axes[1, 1].set_xlabel('Date')
            axes[1, 1].set_ylabel('Nombre d\'articles')
            axes[1, 1].set_title('Évolution temporelle')
            axes[1, 1].tick_params(axis='x', rotation=45)
        else:
            axes[1, 1].text(0.5, 0.5, 'Pas assez de\ndonnées temporelles', 
                           ha='center', va='center', transform=axes[1, 1].transAxes)
            axes[1, 1].set_title('Évolution temporelle')
        
        plt.tight_layout()
        plt.show()
        
        print("✅ Visualisations matplotlib générées!")
    
    print("🎯 Analyses visuelles terminées avec succès!")
    
else:
    print("❌ Pas de données pour les visualisations")