In [4]:
"""
Script de rÃ©cupÃ©ration de documents gÃ©opolitiques pour le TP RAG
Utilise des sources RSS publiques et gratuites
"""

import feedparser
import requests
import json
import os
from datetime import datetime
from bs4 import BeautifulSoup
import time

# CrÃ©er un dossier pour stocker les documents
DOCS_FOLDER = "documents_geopolitique"
if not os.path.exists(DOCS_FOLDER):
    os.makedirs(DOCS_FOLDER)

# Sources RSS d'actualitÃ© gÃ©opolitique (gratuites et accessibles)
SOURCES_RSS = {
    "monde_diplo": {
        "url": "https://www.monde-diplomatique.fr/recents.xml",
        "name": "Le Monde Diplomatique",
        "lang": "fr"
    },
    "france24_fr": {
        "url": "https://www.france24.com/fr/rss",
        "name": "France 24",
        "lang": "fr"
    },
    "rfi_monde": {
        "url": "https://www.rfi.fr/fr/monde/rss",
        "name": "RFI Monde",
        "lang": "fr"
    },
    "un_news": {
        "url": "https://news.un.org/feed/subscribe/en/news/all/rss.xml",
        "name": "UN News",
        "lang": "en"
    },
    "reuters_world": {
        "url": "https://www.reutersagency.com/feed/?taxonomy=best-regions&post_type=best",
        "name": "Reuters World",
        "lang": "en"
    }
}

def nettoyer_texte(html_text):
    """Nettoie le HTML pour extraire le texte brut"""
    if not html_text:
        return ""
    soup = BeautifulSoup(html_text, 'html.parser')
    return soup.get_text().strip()

def recuperer_articles_rss(source_key, source_info, max_articles=20):
    """RÃ©cupÃ¨re les articles d'une source RSS"""
    print(f"\nRÃ©cupÃ©ration depuis {source_info['name']}...")
    
    try:
        feed = feedparser.parse(source_info['url'])
        articles = []
        
        for i, entry in enumerate(feed.entries[:max_articles]):
            article = {
                "source": source_info['name'],
                "langue": source_info['lang'],
                "titre": entry.get('title', 'Sans titre'),
                "date": entry.get('published', ''),
                "lien": entry.get('link', ''),
                "resume": nettoyer_texte(entry.get('summary', '')),
                "contenu": nettoyer_texte(entry.get('content', [{}])[0].get('value', '')) if 'content' in entry else ""
            }
            
            # Si pas de contenu, utiliser le rÃ©sumÃ©
            if not article['contenu']:
                article['contenu'] = article['resume']
            
            # Ne garder que les articles avec du contenu
            if article['contenu'] and len(article['contenu']) > 100:
                articles.append(article)
                print(f"  âœ“ Article {i+1}: {article['titre'][:60]}...")
        
        return articles
    
    except Exception as e:
        print(f"  âœ— Erreur: {e}")
        return []

def sauvegarder_documents(tous_articles):
    """Sauvegarde les documents dans des fichiers JSON et TXT"""
    
    # Sauvegarder tous les articles dans un JSON
    filename_json = os.path.join(DOCS_FOLDER, f"articles_geopolitique_{datetime.now().strftime('%Y%m%d')}.json")
    with open(filename_json, 'w', encoding='utf-8') as f:
        json.dump(tous_articles, f, ensure_ascii=False, indent=2)
    print(f"\nâœ“ {len(tous_articles)} articles sauvegardÃ©s dans {filename_json}")
    
    # CrÃ©er aussi des fichiers texte individuels pour chaque article
    txt_folder = os.path.join(DOCS_FOLDER, "articles_txt")
    if not os.path.exists(txt_folder):
        os.makedirs(txt_folder)
    
    for i, article in enumerate(tous_articles):
        filename_txt = os.path.join(txt_folder, f"article_{i+1:03d}.txt")
        with open(filename_txt, 'w', encoding='utf-8') as f:
            f.write(f"TITRE: {article['titre']}\n")
            f.write(f"SOURCE: {article['source']}\n")
            f.write(f"DATE: {article['date']}\n")
            f.write(f"LANGUE: {article['langue']}\n")
            f.write(f"\nCONTENU:\n{article['contenu']}\n")
    
    print(f"âœ“ Articles individuels sauvegardÃ©s dans {txt_folder}")
    
    return filename_json

def generer_corpus_thematique():
    """GÃ©nÃ¨re aussi quelques documents thÃ©matiques de rÃ©fÃ©rence"""
    
    documents_reference = [
        {
            "titre": "Les grandes puissances mondiales en 2025",
            "contenu": """Les Ã‰tats-Unis maintiennent leur position de premiÃ¨re puissance mondiale malgrÃ© la montÃ©e de la Chine. 
            L'Union europÃ©enne cherche son autonomie stratÃ©gique. La Russie reste un acteur majeur dans les questions Ã©nergÃ©tiques et militaires. 
            L'Inde Ã©merge comme puissance rÃ©gionale avec des ambitions globales. Le BrÃ©sil domine en AmÃ©rique du Sud.""",
            "theme": "puissances_mondiales"
        },
        {
            "titre": "Les conflits rÃ©gionaux actuels",
            "contenu": """Les tensions en mer de Chine mÃ©ridionale impliquent plusieurs pays asiatiques. 
            Le conflit ukrainien reste central en Europe. Au Moyen-Orient, les questions israÃ©lo-palestiniennes perdurent. 
            En Afrique, le Sahel fait face Ã  des dÃ©fis sÃ©curitaires majeurs. Les tensions frontaliÃ¨res persistent en Asie du Sud.""",
            "theme": "conflits"
        },
        {
            "titre": "Enjeux climatiques et gÃ©opolitique",
            "contenu": """Le changement climatique redÃ©finit les relations internationales. L'Arctique devient un nouvel espace de compÃ©tition. 
            Les pays insulaires militent pour des actions urgentes. La transition Ã©nergÃ©tique crÃ©e de nouvelles dÃ©pendances. 
            L'accÃ¨s Ã  l'eau devient un enjeu sÃ©curitaire majeur dans plusieurs rÃ©gions.""",
            "theme": "climat"
        },
        {
            "titre": "Organisations internationales et multilatÃ©ralisme",
            "contenu": """L'ONU cherche Ã  se rÃ©former face aux nouveaux dÃ©fis. L'OTAN s'adapte aux menaces hybrides. 
            Les BRICS proposent des alternatives au systÃ¨me occidental. L'Union africaine gagne en influence. 
            Le G20 devient le forum principal de gouvernance Ã©conomique mondiale.""",
            "theme": "organisations"
        },
        {
            "titre": "Technologies et souverainetÃ© numÃ©rique",
            "contenu": """La 5G et l'IA deviennent des enjeux de souverainetÃ©. Les Ã‰tats-Unis et la Chine rivalisent dans les semiconducteurs. 
            L'Europe dÃ©veloppe sa stratÃ©gie numÃ©rique autonome. La cybersÃ©curitÃ© est au cÅ“ur des prÃ©occupations. 
            Les donnÃ©es sont le nouveau pÃ©trole de l'Ã©conomie mondiale.""",
            "theme": "technologie"
        }
    ]
    
    ref_folder = os.path.join(DOCS_FOLDER, "documents_reference")
    if not os.path.exists(ref_folder):
        os.makedirs(ref_folder)
    
    for i, doc in enumerate(documents_reference):
        filename = os.path.join(ref_folder, f"ref_{doc['theme']}.txt")
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(f"TITRE: {doc['titre']}\n")
            f.write(f"THEME: {doc['theme']}\n")
            f.write(f"\nCONTENU:\n{doc['contenu']}\n")
    
    print(f"\nâœ“ {len(documents_reference)} documents de rÃ©fÃ©rence crÃ©Ã©s dans {ref_folder}")

def main():
    """Fonction principale"""
    print("=== RÃ©cupÃ©ration de documents gÃ©opolitiques ===")
    print(f"Dossier de destination: {DOCS_FOLDER}\n")
    
    tous_articles = []
    
    # RÃ©cupÃ©rer les articles RSS
    for source_key, source_info in SOURCES_RSS.items():
        articles = recuperer_articles_rss(source_key, source_info, max_articles=100)
        tous_articles.extend(articles)
        time.sleep(1)  # Politesse envers les serveurs
    
    # Sauvegarder les documents
    if tous_articles:
        sauvegarder_documents(tous_articles)
    
    # GÃ©nÃ©rer des documents de rÃ©fÃ©rence
    generer_corpus_thematique()
    
    print(f"\n=== RÃ©cupÃ©ration terminÃ©e ===")
    print(f"Total: {len(tous_articles)} articles d'actualitÃ© rÃ©cupÃ©rÃ©s")
    print(f"Les documents sont prÃªts pour le TP RAG!")

if __name__ == "__main__":
    main()

=== RÃ©cupÃ©ration de documents gÃ©opolitiques ===
Dossier de destination: documents_geopolitique


RÃ©cupÃ©ration depuis Le Monde Diplomatique...
  âœ“ Article 1: Polar et mÃ©taphysique...
  âœ“ Article 2: Vers un nouvel ordre rÃ©gional au Proche-Orient...
  âœ“ Article 3: Tous influenceurs !...
  âœ“ Article 4: Du judÃ©o-bolchevisme culturel...
  âœ“ Article 5: Des femmes trÃ¨s indociles...
  âœ“ Article 6: De Constantinople Ã  Istanbul...
  âœ“ Article 7: Une tribu d'indÃ©sirables...
  âœ“ Article 8: Â« LycÃ©e pro Â», la dÃ¨che et le mÃ©pris...
  âœ“ Article 9: La CrimÃ©e veut croire Ã  la paix...
  âœ“ Article 10: Papiers d'oranges, un monde en soie ?...
  âœ“ Article 11: Le socialisme polonais survit dans l'assiette...
  âœ“ Article 12: Gaza ou la faillite de l'Occident...
  âœ“ Article 13: La monnaie n'est pas qu'une affaire d'hommes...
  âœ“ Article 14: Culture club...
  âœ“ Article 15: Au Cachemire, en attendant la prochaine fois...
  âœ“ Article 16: Le parti des mÃ©dias dÃ©jÃ 

In [2]:
!pip install feedparser

Collecting feedparser
  Downloading feedparser-6.0.11-py3-none-any.whl.metadata (2.4 kB)
Collecting sgmllib3k (from feedparser)
  Downloading sgmllib3k-1.0.0.tar.gz (5.8 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hDownloading feedparser-6.0.11-py3-none-any.whl (81 kB)
Building wheels for collected packages: sgmllib3k
  Building wheel for sgmllib3k (pyproject.toml) ... [?25ldone
[?25h  Created wheel for sgmllib3k: filename=sgmllib3k-1.0.0-py3-none-any.whl size=6089 sha256=70e446095be55e6fa2472ac11f9f726c0a74eaf964c6ec4c28476da1ce1ade28
  Stored in directory: /Users/raphaelcousin/Library/Caches/pip/wheels/3d/4d/ef/37cdccc18d6fd7e0dd7817dcdf9146d4d6789c32a227a28134
Successfully built sgmllib3k
Installing collected packages: sgmllib3k, feedparser
Successfully installed feedparser-6.0.11 sgmllib3k-1.0.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new