# Exemple d'utilisation du scraper

In [1]:
from stratadl.core.ingestion.scraper import ScrapingConfig, BasicScraper

## Scrape d'une page

Récupération d'un contenu précis sur une page et d'une liste de liens

In [4]:
config = ScrapingConfig(

    # 2 secondes entre chaque requête
    delay=2.0,

    # personnalisation de l'user-agent pour simuler un navigateur
    user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0",

    # extraction des liens uniquement depuis le contenu ciblé
    extract_links_from_content_only=True,

    # sélecteur CSS pour cibler le contenu principal
    content_selector="section.taxonomy-contents",

    # possibilité d'ajouter des sélecteurs CSS pour cibler les liens supplémentaires
    link_selectors = ['.pagination'],

    # filtrage des URLs à scraper
    allowed_url_patterns=[
        r"/internet/intelligence-artificielle/.*",
    ],

    # types de contenu à extraire (texte uniquement ici) , autres valeurs: 'text', 'images'
    content_types=['text']
)


In [5]:
url = "https://www.franceinfo.fr/internet/intelligence-artificielle/"

scraper = BasicScraper(config)

print("\n=== Scraping d'une seule page ===")
content = scraper.scrape_page(url)


INFO:stratadl.core.ingestion.scraper:robots.txt chargé pour https://www.franceinfo.fr



=== Scraping d'une seule page ===


INFO:stratadl.core.ingestion.scraper:✓ Scrapé: https://www.franceinfo.fr/internet/intelligence-artificielle/ (titre: Intelligence artificielle - actualité et info en direct)


In [6]:
if content:
    print(f"Titre: {content.title}")
    print(f"Nombre de liens trouvés: {len(content.links)}")

    for link in content.links:
        print(f"{link}")

    print(f"Contenu extrait:\n{content.text}")

Titre: Intelligence artificielle - actualité et info en direct
Nombre de liens trouvés: 21
https://www.franceinfo.fr/internet/intelligence-artificielle/10.html
https://www.franceinfo.fr/internet/intelligence-artificielle/2.html
https://www.franceinfo.fr/internet/intelligence-artificielle/3.html
https://www.franceinfo.fr/internet/intelligence-artificielle/4.html
https://www.franceinfo.fr/internet/intelligence-artificielle/5.html
https://www.franceinfo.fr/internet/intelligence-artificielle/6.html
https://www.franceinfo.fr/internet/intelligence-artificielle/7.html
https://www.franceinfo.fr/internet/intelligence-artificielle/8.html
https://www.franceinfo.fr/internet/intelligence-artificielle/9.html
https://www.franceinfo.fr/internet/intelligence-artificielle/actrice-creee-par-l-intelligence-artificielle-on-est-contre-l-ia-qui-nous-propose-un-monde-sans-humain-reagit-la-directrice-generale-de-l-adami_7523182.html
https://www.franceinfo.fr/internet/intelligence-artificielle/droits-d-auteurs-

## Scrape récursif

Permet de suivre les liens présents et parcourir le site internet.

In [7]:
config = ScrapingConfig(
    # 2 secondes entre chaque requête
    delay=2.0,

    # profondeur maximale de scraping
    max_depth=2,

    # nombre maximal de pages à scraper
    max_pages=5,
    # user_agent personnalisé pour simuler un navigateur
    user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0",

    # extraction des liens uniquement depuis le contenu ciblé
    extract_links_from_content_only=True,

    # sélecteur CSS pour cibler le contenu principal
    content_selector="section.taxonomy-contents",
    # possibilité d'ajouter des sélecteurs CSS pour cibler les liens supplémentaires
    link_selectors = ['.pagination'],
    # filtrage des URLs à scraper
    allowed_url_patterns=[
        r"/internet/intelligence-artificielle/.*",
    ],
    # types de contenu à extraire (texte et images ici)
    content_types=['text', 'images'],
    # sauvegarder les URLs visitées
    save_urls=True
)

In [8]:
url = "https://www.franceinfo.fr/internet/intelligence-artificielle/"
scraper = BasicScraper(config)

print("\n=== Deep scraping ===")
results, to_visit = scraper.deep_scrape(url, same_domain_only=True)


INFO:stratadl.core.ingestion.scraper:robots.txt chargé pour https://www.franceinfo.fr



=== Deep scraping ===


INFO:stratadl.core.ingestion.scraper:✓ Scrapé: https://www.franceinfo.fr/internet/intelligence-artificielle/ (titre: Intelligence artificielle - actualité et info en direct)
INFO:stratadl.core.ingestion.scraper:Profondeur 0: 21 liens en attente
INFO:stratadl.core.ingestion.scraper:Attente de 1.69s avant la prochaine requête
INFO:stratadl.core.ingestion.scraper:✓ Scrapé: https://www.franceinfo.fr/internet/intelligence-artificielle/10.html (titre: Intelligence artificielle - actualité et info en direct - page 10)
INFO:stratadl.core.ingestion.scraper:Profondeur 1: 34 liens en attente
INFO:stratadl.core.ingestion.scraper:Attente de 1.89s avant la prochaine requête
INFO:stratadl.core.ingestion.scraper:✓ Scrapé: https://www.franceinfo.fr/internet/intelligence-artificielle/2.html (titre: Intelligence artificielle - actualité et info en direct - page 2)
INFO:stratadl.core.ingestion.scraper:Profondeur 1: 46 liens en attente
INFO:stratadl.core.ingestion.scraper:Attente de 2.24s avant la prochain

Liste des urls récupérés mais non visités

In [9]:
to_visit

[('https://www.franceinfo.fr/internet/intelligence-artificielle/5.html', 1),
 ('https://www.franceinfo.fr/internet/intelligence-artificielle/6.html', 1),
 ('https://www.franceinfo.fr/internet/intelligence-artificielle/7.html', 1),
 ('https://www.franceinfo.fr/internet/intelligence-artificielle/8.html', 1),
 ('https://www.franceinfo.fr/internet/intelligence-artificielle/9.html', 1),
 ('https://www.franceinfo.fr/internet/intelligence-artificielle/actrice-creee-par-l-intelligence-artificielle-on-est-contre-l-ia-qui-nous-propose-un-monde-sans-humain-reagit-la-directrice-generale-de-l-adami_7523182.html',
  1),
 ('https://www.franceinfo.fr/internet/intelligence-artificielle/droits-d-auteurs-anthropic-developpeur-de-claude-ai-devra-verser-au-moins-1-5-milliard-de-dollars-d-indemnites_7517803.html',
  1),
 ('https://www.franceinfo.fr/internet/intelligence-artificielle/il-n-y-a-aucune-erreur-l-intelligence-artificielle-s-immisce-dans-la-protection-des-arbres_7531624.html',
  1),
 ('https://www

Affichage des éléments scrapés

In [10]:
print(f"Total de pages scrapées: {len(results)}")
for content in results:
    print(f"  Profondeur {content.depth}: {content.url}")
    print(f"  Content : \n {content.text}")
    print(f"   Images ({len(content.images)}) :")
    for img in content.images:
        print(img)
    print("----------")

Total de pages scrapées: 5
  Profondeur 0: https://www.franceinfo.fr/internet/intelligence-artificielle/
  Content : 
 "L'IA permet de satisfaire les fantasmes à la demande" : pourquoi les géants du secteur s'ouvrent de plus en plus aux contenus érotiques et pornographiques ChatGPT aura bientôt la possibilité de mener des discussions érotiques. OpenAI n'est pas la première entreprise d'intelligence artificielle à emprunter ce chemin... Quand les morts célèbres hantent TikTok avec Sora 2 Deepfakes de célébrités décédées, "résurrections" numériques et polémiques familiales : le lancement de Sora 2, le nouvel outil vidéo d’OpenAI, relance le débat sur les limites éthiques de l’intelligence artificielle. : Enquête Municipales 2026 : de faux sites d'information locale soupçonnés d'être des outils d'ingérence russe et chinoise À l'approche des municipales de mars 2026, une armée de faux médias locaux en ligne, dopés à l'IA et reliés à des réseaux d'influence russes et chinois ont été identif

Dans la configuration on a indiqué une sauvegarde des urls, titre et texte scrapé dans des csv.

Les CSV sont présents dans un dossier scraped_csv créés à la racine du dossier notebooks.

Par exemple :
```bash
notebooks/
├── scraped_csv
│   ├── images_71dca383.csv
│   ├── pages_71dca383.csv
│   └── text_71dca383.csv
└── scraper.ipynb
```