# Exemple d'utilisation du scraper

In [None]:
from stratadl.core.ingestion.scraper import ScrapingConfig, BasicScraper

## Scrape d'une page

Récupération d'un contenu précis sur une page et d'une liste de liens

In [None]:
config = ScrapingConfig(

    # 2 secondes entre chaque requête
    delay=2.0,

    # personnalisation de l'user-agent pour simuler un navigateur
    user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0",

    # extraction des liens uniquement depuis le contenu ciblé
    extract_links_from_content_only=True,

    # sélecteur CSS pour cibler le contenu principal
    content_selector="section.taxonomy-contents",

    # possibilité d'ajouter des sélecteurs CSS pour cibler les liens supplémentaires
    link_selectors = ['.pagination'],

    # filtrage des URLs à scraper
    allowed_url_patterns=[
        r"/internet/intelligence-artificielle/.*",
    ],

    # types de contenu à extraire (texte uniquement ici) , autres valeurs: 'text', 'images'
    content_types=['text']
)


In [None]:
url = "https://www.franceinfo.fr/internet/intelligence-artificielle/"

scraper = BasicScraper(config)

print("\n=== Scraping d'une seule page ===")
content = scraper.scrape_page(url)


In [None]:
if content:
    print(f"Titre: {content.title}")
    print(f"Nombre de liens trouvés: {len(content.links)}")

    for link in content.links:
        print(f"{link}")

    print(f"Contenu extrait:\n{content.text}")

## Scrape récursif

Permet de suivre les liens présents et parcourir le site internet.

In [None]:
config = ScrapingConfig(
    # 2 secondes entre chaque requête
    delay=2.0,

    # profondeur maximale de scraping
    max_depth=2,

    # nombre maximal de pages à scraper
    max_pages=5,
    # user_agent personnalisé pour simuler un navigateur
    user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0",

    # extraction des liens uniquement depuis le contenu ciblé
    extract_links_from_content_only=True,

    # sélecteur CSS pour cibler le contenu principal
    content_selector="section.taxonomy-contents",
    # possibilité d'ajouter des sélecteurs CSS pour cibler les liens supplémentaires
    link_selectors = ['.pagination'],
    # filtrage des URLs à scraper
    allowed_url_patterns=[
        r"/internet/intelligence-artificielle/.*",
    ],
    # types de contenu à extraire (texte et images ici)
    content_types=['text', 'images'],
    # sauvegarder les URLs visitées
    save_urls=True
)

In [None]:
url = "https://www.franceinfo.fr/internet/intelligence-artificielle/"
scraper = BasicScraper(config)

print("\n=== Deep scraping ===")
results, to_visit = scraper.deep_scrape(url, same_domain_only=True)


Liste des urls récupérés mais non visités

In [None]:
to_visit

Affichage des éléments scrapés

In [None]:
print(f"Total de pages scrapées: {len(results)}")
for content in results:
    print(f"  Profondeur {content.depth}: {content.url}")
    print(f"  Content : \n {content.text}")
    print(f"   Images ({len(content.images)}) :")
    for img in content.images:
        print(img)
    print("----------")

Dans la configuration on a indiqué une sauvegarde des urls, titre et texte scrapé dans des csv.

Les CSV sont présents dans un dossier scraped_csv créés à la racine du dossier notebooks.

Par exemple :
```bash
notebooks/
├── scraped_csv
│   ├── images_71dca383.csv
│   ├── pages_71dca383.csv
│   └── text_71dca383.csv
└── scraper.ipynb
```