In [None]:
import requests
from bs4 import BeautifulSoup
import time

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}
def scrape_offers_requests(url):
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")

    offers = []

    # chaque offre = une ligne <tr id="O....">
    for row in soup.select("tr[id^='O']"):

        link = row.select_one("a.lien-details-offre")
        if not link:
            continue

        offer_title = link.get_text(strip=True)
        offer_url = "https://www.emploi-territorial.fr" + link["href"]

        offers.append({
            "title": offer_title,
            "url": offer_url
        })

    return offers

1000 offres trouvées via requests
{'title': "Chargé d'études : Data Analyst  (h/f)", 'url': 'https://www.emploi-territorial.fr/offre/o075251230000243-charge-etudes-data-analyst'}
{'title': 'Chef de projet IA et DATA (F/H)', 'url': 'https://www.emploi-territorial.fr/offre/o076251219001438-chef-projet-ia-data-h'}
{'title': 'Chargé de mission Data-SIG', 'url': 'https://www.emploi-territorial.fr/offre/o069251219000919-charge-mission-data-sig'}
{'title': 'data manager', 'url': 'https://www.emploi-territorial.fr/offre/o004251216000458-data-manager'}
{'title': 'Chargé de la mission Data, simplification, innovation, qualité de vie au travail (h/f)', 'url': 'https://www.emploi-territorial.fr/offre/o092251205000609-charge-mission-data-simplification-innovation-qualite-vie-travail'}
{'title': 'DATA ANALYSTE', 'url': 'https://www.emploi-territorial.fr/offre/o972251215001906-data-analyste'}
{'title': 'Administrateur Data et CRM', 'url': 'https://www.emploi-territorial.fr/offre/o075251215000792-admi

In [2]:
def scrape_offer_detail(url):
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")

    # Conteneur principal du détail de l'offre
    main = soup.select_one("div#contenuOffre, div.contenu-offre, main")

    if not main:
        return ""

    # Supprimer éléments inutiles
    for tag in main(["script", "style", "button", "nav"]):
        tag.decompose()

    text = main.get_text(separator="\n", strip=True)
    return text


In [None]:
URL = "https://www.emploi-territorial.fr/emploi-mobilite/?search-fam-metier=A7&page=20000"

offers = scrape_offers_requests(URL)

corpus = []

for offer in offers:
    print(f"Scraping : {offer['title']}")
    full_text = scrape_offer_detail(offer["url"])

    corpus.append({
        "title": offer["title"],
        "url": offer["url"],
        "text": full_text
    })

    time.sleep(1)  # pour éviter les surchages même si on récupère pas 10K emplois d'un coup



Scraping : Chargé d'études : Data Analyst  (h/f)
Scraping : Chef de projet IA et DATA (F/H)
Scraping : Chargé de mission Data-SIG
Scraping : data manager
Scraping : Chargé de la mission Data, simplification, innovation, qualité de vie au travail (h/f)
Scraping : DATA ANALYSTE
Scraping : Administrateur Data et CRM
Scraping : Chargé de la mission Data, simplification, innovation, qualité de vie au travail (h/f)
Scraping : Technicien du service DATA et SIG
Scraping : Chargé  de projets BIM - Data Manager (h/f)
Scraping : CHEF DU SERVICE CONTRATS, PROCESS & DATA  (F/H)
Scraping : Data analyst (h/f) - 5432
Scraping : Data analyst - 5432 (h/f)
Scraping : Chargé d'études  (H/F)
Scraping : Cartographe
Scraping : Régisseur technique et logistique - Conservatoire BCC
Scraping : CHEF DE PROJET DONNÉES (F/H)
Scraping : Responsable Réseaux et Coproduction (h/f)
Scraping : Gestionnaire des marchés publics (H/F)
Scraping : Agent de surveillance des voies publiques (ASVP
Scraping : Assistant Administr

KeyboardInterrupt: 

In [None]:
import csv

def save_corpus_to_csv(corpus, filename="corpus_offres_data.csv"):
    with open(filename, mode="w", encoding="utf-8", newline="") as f:
        writer = csv.DictWriter(
            f,
            fieldnames=["title", "url", "text"],
            delimiter=";"
        )
        writer.writeheader()
        for row in corpus:
            writer.writerow(row)
save_corpus_to_csv(corpus)

# petite sauvegarde en csv rapide pour pas le perdre (optionnelle pour la suite)
