# Scraping: récupération de la page d'accueil du journal Le Soir

Dans ce notebook, nous créons un robot qui va ouvrir la page d'accueil du site du journal [Le Soir](https://www.lesoir.be/) et récupérer le titre de tous les articles du jour et les stocker dans un fichier csv.

## Imports

In [None]:
import os
import requests
from bs4 import BeautifulSoup

# URL racine
root_url = "https://max.de.wilde.web.ulb.be/camille/"

# Headers pour éviter le blocage du serveur
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}

# Récupération de la page
response = requests.get(root_url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

# Extraction des liens PDF
pdf_links = [a['href'] for a in soup.find_all("a") if a['href'].endswith(".pdf")]

# Création dossier pour sauvegarder les PDFs
os.makedirs("pdfs", exist_ok=True)

# Téléchargement des fichiers
for link in pdf_links:
    pdf_url = root_url + link  # lien complet
    file_name = os.path.join("pdfs", link)
    print(f"Téléchargement de {pdf_url}")
    pdf_data = requests.get(pdf_url, headers=headers)
    with open(file_name, "wb") as f:
        f.write(pdf_data.content)

print(f"✅ Téléchargés : {len(pdf_links)} fichiers PDF.")


Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB230_1892-08-07_01-0003.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB427_1920-01-10_01-00004.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB555_1836-02-08_01-00002.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB638_1860-05-21_01-00002.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB773_1918-11-30_01-00002.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB838_1887-12-28_01-00003.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB230_1903-10-16_01-0002.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB427_1933-01-04_01-00003.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB555_1899-01-19_01-00003.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB638_1902-12-20_01-00002.pdf
Téléchargement de https://max.de.wilde.web.ulb.be/camille/KB_JB773_1933-10-07_01-00007.pdf
T

In [None]:
import requests

# API sans HTTPS (pas de problème SSL)
url = "http://api.open-notify.org/iss-now.json"

response = requests.get(url)
if response.status_code == 200:
    data = response.json()
    position = data["iss_position"]
    print(f" L'ISS est actuellement à la latitude {position['latitude']} et longitude {position['longitude']}.")
else:
    print("Erreur API :", response.status_code)


🚀 L'ISS est actuellement à la latitude 50.6010 et longitude 119.5311.
