# Requête HTTP 

Un requête HTTP est une requête basée sur le protocole TCP, elle fait partie de la couche application de la couche OSI. Elle permet d'accéder aux données mise à disposition sur une adresse IP (ou url résolue par un DNS) et un port. 

Les deux ports les plus utilisés dans le web sont le 80 pour les sites en HTTP et le 443 pour les sites en HTTPS. HTTPS est une variable du protocole HTTP basé sur le protocole TLS.

Il existe de nombreux types de requêtes selon la convention `REST`: 
- GET
- POST
- PUT 
- DELETE
- UPDATE.

Dans notre cas, nous allons utiliser la plupart du temps des GET et potentiellement des POST. 
- Le GET permet comme son nom l'indique de récupérer des informations en fonction de certains paramètres. 
- Le POST nécessite un envoi de données pour récupérer des données. Le body du post est, la plupart du temps, envoyé sous la forme d'un objet JSON.

Ces requêtes encapsulent un certain nombre de paramètres qui permettent soient d'identifier une provenance et un utilisateur ou de réaliser différentes actions.

In [2]:
import requests

In [3]:
url = "https://www.esiee.fr/"
response = requests.get(url)
response.status_code

200

Il existe deux méthodes pour récupérer le contenu de la page :

- `response.text` qui permet de retourner le texte sous la forme d'une chaine de charactères.
- `response.content` qui permet de récupérer le contenu de la page sous la forme de bytes

In [4]:
type(response.content)

bytes

In [5]:
type(response.text)

str

Pour récupérer les 1000 premiers charactères de la page :

In [6]:
response.text[0:1000]

'<!DOCTYPE html>\n<html lang="fr-FR">\n<head>\n\n<meta charset="utf-8">\n<!-- \n\tThis website is powered by TYPO3 - inspiring people to share!\n\tTYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.\n\tTYPO3 is copyright 1998-2025 of Kasper Skaarhoj. Extensions are copyright of their respective owners.\n\tInformation and contribution at https://typo3.org/\n-->\n\n\n\n<title>ESIEE Paris, l&#039;école de l&#039;innovation technologique | ESIEE Paris</title>\n<meta name="generator" content="TYPO3 CMS" />\n<meta name="description" content="Rejoignez ESIEE Paris, grande école d&#039;ingénieur dans les domaines des transitions numérique, énergétique et environnementale. Classée dans le groupe A, parmi les meilleures écoles d&#039;ingénieur selon le classement de l&#039;Etudiant. Habilitée par la Commission des Titres d&#039;Ingénieur (CTI). Membre de la Conférence des Grandes Ecoles (CGE). " />\n<meta name="viewport" conte

Pour récupérer les headers HTTP de la réponse :

In [7]:
response.headers

{'Date': 'Tue, 18 Nov 2025 15:31:39 GMT', 'Server': 'Apache', 'Content-Language': 'fr', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'X-UA-Compatible': 'IE=edge', 'X-Content-Type-Options': 'nosniff', 'Content-Length': '16642', 'Content-Type': 'text/html; charset=utf-8', 'X-Varnish': '536545959 531272484', 'Age': '96', 'Via': '1.1 varnish (Varnish/7.1)', 'Accept-Ranges': 'bytes', 'Connection': 'keep-alive'}

On peut modifier les paramètres de la requête et/ou ses headers. On peut par exemple ajouter un UserAgent (identifiant de l'initiateur de la requête) et un timeout de 10 secondes :

In [8]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers, timeout = 10)
response.content[0:1000]

b'<!DOCTYPE html>\n<html lang="fr-FR">\n<head>\n\n<meta charset="utf-8">\n<!-- \n\tThis website is powered by TYPO3 - inspiring people to share!\n\tTYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.\n\tTYPO3 is copyright 1998-2025 of Kasper Skaarhoj. Extensions are copyright of their respective owners.\n\tInformation and contribution at https://typo3.org/\n-->\n\n\n\n<title>ESIEE Paris, l&#039;\xc3\xa9cole de l&#039;innovation technologique | ESIEE Paris</title>\n<meta name="generator" content="TYPO3 CMS" />\n<meta name="description" content="Rejoignez ESIEE Paris, grande \xc3\xa9cole d&#039;ing\xc3\xa9nieur dans les domaines des transitions num\xc3\xa9rique, \xc3\xa9nerg\xc3\xa9tique et environnementale. Class\xc3\xa9e dans le groupe A, parmi les meilleures \xc3\xa9coles d&#039;ing\xc3\xa9nieur selon le classement de l&#039;Etudiant. Habilit\xc3\xa9e par la Commission des Titres d&#039;Ing\xc3\xa9nieur (CTI). Membr

## Exercice

## Exercice 1

- Créer une classe Python permettant de faire des requêtes HTTP.
- Cette classe doit utiliser toujours le même UserAgent.
- Le TimeOut sera spécifié à chaque appelle avec une valeur par défaut.
- Un mécanisme de retry sera mis en place de façon recursive.

## Exercice 2

- Faire une fonction permettant de supprimer tous les espaces supperflus d'une string
- Faire une fonction qui prend une string html et renvois une string intelligible (enlever les caractères spéciaux,
- Récupérer le domaine en fonction d'un url

In [9]:
#Exercice 1

class RequestHTTP:
    USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    
    def __init__(self):
        self.session = requests.Session()
        self.session.headers.update({'User-Agent': self.USER_AGENT})
    
    def get(self, url: str, timeout: float = 10.0, retries: int = 3):
        """
        Requête GET avec timeout par défaut et retry récursif.
        Lève l'exception finale si tous les retries échouent.
        """
        try:
            resp = self.session.get(url, timeout=timeout)
            resp.raise_for_status()
            return resp
        except requests.RequestException:
            if retries > 0:
                return self.get(url, timeout=timeout, retries=retries - 1)
            raise
    def get_text(self, url: str, timeout: float = 10.0, retries: int = 3) -> str:
        """Retourne le contenu texte de la page."""
        return self.get(url, timeout=timeout, retries=retries).text
    
    def get_json(self, url: str, timeout: float = 10.0, retries: int = 3):
        """Retourne JSON si possible, sinon None."""
        
        resp = self.get(url, timeout=timeout, retries=retries)
        try:
            return resp.json()
        except ValueError:
            return None

# Exemple rapide d'utilisation
if __name__ == "__main__":
    client = RequestHTTP()
    try:
        print(client.get_text(url, timeout=5, retries=2)[:200])
    except Exception as e:
        print("Erreur:", e)

<!DOCTYPE html>
<html lang="fr-FR">
<head>

<meta charset="utf-8">
<!-- 
	This website is powered by TYPO3 - inspiring people to share!
	TYPO3 is a free open source Content Management Framework initia


In [10]:
#Exercice 2
import re
import html
import unicodedata
import urllib.parse

def normalize_spaces(s: str) -> str:
    """Supprime les espaces superflus et normalise les retours à la ligne/tab."""
    return re.sub(r'\s+', ' ', s).strip()

def html_to_text(html_str: str) -> str:
    """
    Transforme une string HTML en texte 'intelligible' sans balises ni entités.
    - supprime <script> et <style>
    - enlève les balises HTML
    - décode les entités HTML (&nbsp;, &amp;, ...)
    - normalise unicode et supprime caractères non imprimables
    - compresse les espaces
    """
    # retirer scripts/styles
    cleaned = re.sub(r'(?is)<(script|style).*?>.*?</\1>', ' ', html_str)
    # retirer balises
    cleaned = re.sub(r'<[^>]+>', ' ', cleaned)
    # décoder entités HTML
    cleaned = html.unescape(cleaned)
    # normaliser unicode
    cleaned = unicodedata.normalize('NFKC', cleaned)
    # supprimer retours multiples/tab et garder imprimables
    cleaned = re.sub(r'[\r\n\t]+', ' ', cleaned)
    cleaned = ''.join(ch for ch in cleaned if ch.isprintable())
    # enlever espaces superflus
    return normalize_spaces(cleaned)

def get_domain(url: str) -> str:
    """
    Retourne le domaine principal d'une URL (sans www. et sans port).
    Accepte aussi 'example.com' sans schéma.
    """
    if '://' not in url:
        url = 'http://' + url
    parsed = urllib.parse.urlparse(url)
    domain = parsed.netloc.split(':')[0].lower()
    if domain.startswith('www.'):
        domain = domain[4:]
    return domain

# Exemples rapides
if __name__ == "__main__":
    s = "   Ceci   est   une   phrase \n avec\tdes  espaces   "
    print("normalize_spaces:", normalize_spaces(s))

    html_sample = "<html><head><title>Test&nbsp;Page</title><style>p{}</style></head><body><h1>Salut</h1><p>Bonjour &amp; bienvenue&nbsp;!</p><script>alert(1)</script></body></html>"
    print("html_to_text:", html_to_text(html_sample))

    print("get_domain:", get_domain(url))

normalize_spaces: Ceci est une phrase avec des espaces
html_to_text: Test Page Salut Bonjour & bienvenue !
get_domain: esiee.fr


# Exploitation du HTML  

Ici, il faut récupérer le code HTML d'un site web à partir d'une requête. Lorsque vous avez récupéré le texte d'un site il faut le parser. Pour cela, on utilise BeautifulSoup qui permet de transformer la structure HTML en objet Python. Cela permet de récupérer efficacement les données qui nous intéresse.

Pour les webmasters, le blocage le plus souvent mis en place et un blocage sur le User-Agent. Le User-Agent est un paramètre intégré dans la requête HTTP réalisé par le Navigateur pour envoyer au front des informations basiques :

- la version du Navigateur,
- la version de l'OS
- Le type de gestionnaire graphique (Gecko)
- le type de device utilisé

Exemple de User Agent :  

`Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0`

Commençons à utiliser `BeautifulSoup`, il est normalement déjà installé, le cas échéant executez les lignes suivantes : 

In [11]:
import requests
from bs4 import BeautifulSoup

Pour transformer une requête (requests) en objet BeautifulSoup :

In [12]:
response = requests.get(url)
soup = BeautifulSoup(response.text)

Pour trouver tous les liens d'une page, on récupère la balise `a` qui permet de gérer les liens en HTML :

In [13]:
soup.find_all("a")[0:10]

[<a href="/#content">Aller au contenu</a>,
 <a href="/#menu">Aller au menu</a>,
 <a href="/plan-du-site/">Plan du site</a>,
 <a href="/actualites/journees-portes-ouvertes-2025-2026" target="_blank" title="Ouvre une nouvelle fenêtre">Journée portes ouvertes le 6 décembre de 13h à 18h. Inscrivez-vous dès maintenant !</a>,
 <a href="/"><img alt="ESIEE PARIS" class="a42-ac-replace-img" src="/typo3conf/ext/esiee_sitepackage/Resources/Public/imgs/svg/logo-esiee.svg"/></a>,
 <a href="/brochures-1">Brochures</a>,
 <a href="/informations/etudiantes-et-etudiants">Espace élèves</a>,
 <a href="/" hreflang="fr-FR" title="Français">
 <span>Fr</span>
 </a>,
 <a href="/en/" hreflang="en-US" title="English">
 <span>En</span>
 </a>,
 <a href="/candidater-1">Candidater</a>]

On peut aussi préciser la classe HTML qu'on veut récupérer :

```python
soup.find_all(class_="<CLASS_NAME>")[0:10]
```

Ici par exemple: 

In [14]:
soup.find_all(class_="toggler")[0:5]

[<button aria-controls="searchbox-header-form" aria-expanded="false" class="toggler">
 <i class="fa-solid fa-magnifying-glass"></i>
 <i class="fa-solid fa-xmark"></i>
 <span class="sr-only">
 <span class="display">Afficher</span><span class="hide">Masquer</span> la recherche
 		</span>
 </button>,
 <button aria-controls="submenu-40" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu : </span>L'école</button>,
 <button aria-controls="submenu-563" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu : </span>Gouvernance et conseils</button>,
 <button aria-controls="submenu-65" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu : </span>Départements d'enseignements et de recherche</button>,
 <button aria-controls="su

Pour récupérer le text sans les balises HTML :

In [15]:
soup.text[0:1000]

"\n\n\n\nESIEE Paris, l'école de l'innovation technologique | ESIEE Paris\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nAller au contenu\nAller au menu\nPlan du site\n\n\n\n\n\n\n\nJournée portes ouvertes le 6 décembre de 13h à 18h. Inscrivez-vous dès maintenant !\n\n\n\n\n\nMasquer l'alerte\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nBrochuresEspace élèves\n\n\n\nFr\n\n\n\n\nEn\n\n\n\n\n\n\n\n\n\nAfficherMasquer la recherche\r\n\t\t\n\n\n\nSaisissez votre recherche\xa0:\n\nLancer la recherche\n\n\n\nCandidater\n\nAfficherMasquer le menu\n\n\n\n\n\nRetour au menu principalAfficherMasquer le sous menu\xa0: L'écolePourquoi choisir ESIEE Paris ?AfficherMasquer le sous menu\xa0: Gouvernance et conseilsGouvernance et conseilsConseil scientifiqueAfficherMasquer le sous menu\xa0: Départements d'enseignements et de rechercheInformatique et télécommunicationsIngénierie des systèmes cyberphysiquesIngénierie industrielleSanté, énergie et environnement durableManagement, sciences humaines et languesCorps pr

## Exercice
### Exercice 3

Améliorer la classe développé précédemment.

- Ajouter une méthode pour récupérer l'objet soup d'un url
- Récupérer une liste de User Agent et effectuer une rotation aléatoire sur celui à utiliser
- Utiliser cette classe pour parser une page HTML et récupérer : le titre, tous les H1 (si ils existent), les liens vers les images, les liens sortants vers d'autres sites, et le texte principal.

In [16]:
#Exercice 3
import random
import time
import re
import urllib.parse

try:
    from bs4 import BeautifulSoup  # optional
    _HAS_BS = True
except Exception:
    _HAS_BS = False

class RequestHTTP:
    USER_AGENTS = [
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.1 Safari/605.1.15",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36",
        "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    ]

    def __init__(self):
        self.session = requests.Session()
        self.session.headers.update({"User-Agent": self.USER_AGENTS[0]})

    def _set_random_ua(self):
        ua = random.choice(self.USER_AGENTS)
        self.session.headers.update({"User-Agent": ua})
        return ua

    def get(self, url: str, timeout: float = 10.0, retries: int = 3, rotate_ua: bool = True, backoff: float = 0.5):
        """
        GET with optional UA rotation and recursive retry with simple backoff.
        """
        if rotate_ua:
            self._set_random_ua()
        try:
            resp = self.session.get(url, timeout=timeout)
            resp.raise_for_status()
            return resp
        except requests.RequestException:
            if retries > 0:
                time.sleep(backoff)
                return self.get(url, timeout=timeout, retries=retries - 1, rotate_ua=rotate_ua, backoff=backoff * 2)
            raise

    def get_text(self, url: str, timeout: float = 10.0, retries: int = 3, rotate_ua: bool = True) -> str:
        return self.get(url, timeout=timeout, retries=retries, rotate_ua=rotate_ua).text

    def get_soup(self, url: str, timeout: float = 10.0, retries: int = 3, rotate_ua: bool = True):
        """
        Retourne un objet BeautifulSoup si bs4 est installé, sinon retourne le HTML brut.
        """
        reponse = self.get(url, timeout=timeout, retries=retries, rotate_ua=rotate_ua)
        if _HAS_BS:
            url_soup = BeautifulSoup(reponse).text
        return url_soup
    
    def parse_page(self, url: str, timeout: float = 10.0, retries: int = 3, rotate_ua: bool = True) -> dict:
        """
        Parse la page et renvoie:
          - title (str)
          - h1 (list[str])
          - images (list[str]) absolute URLs
          - external_links (list[str]) absolute URLs to other domains
          - text_main (str) cleaned text (uses html_to_text from Exercice 2)
        """
        html_text = self.get_text(url, timeout=timeout, retries=retries, rotate_ua=rotate_ua)
        base_domain = get_domain(url)

        # title
        m = re.search(r'(?is)<title[^>]*>(.*?)</title>', html_text)
        title = (m.group(1).strip() if m else "").replace("\n", " ")

        # all H1
        raw_h1 = re.findall(r'(?is)<h1[^>]*>(.*?)</h1>', html_text)
        h1_list = [re.sub(r'<[^>]+>', '', h).strip() for h in raw_h1]

        # images src
        imgs = re.findall(r'(?is)<img[^>]+src=["\']?([^"\'>\s]+)', html_text)
        imgs_abs = [urllib.parse.urljoin(url, src) for src in imgs]

        # all links, make absolute
        links = re.findall(r'(?is)<a[^>]+href=["\']?([^"\'>\s]+)', html_text)
        links_abs = [urllib.parse.urljoin(url, href) for href in links]
        # external links
        external_links = [l for l in links_abs if l.startswith('http') and get_domain(l) != base_domain]

        # main text cleaned using html_to_text from Exercice 2 (assumes present)
        try:
            text_main = html_to_text(html_text)
        except NameError:
            # fallback: strip tags and normalize spaces
            text_main = re.sub(r'<[^>]+>', ' ', html_text)
            text_main = re.sub(r'\s+', ' ', text_main).strip()

        return {
            "url": url,
            "title": title,
            "h1": h1_list,
            "images": imgs_abs,
            "external_links": external_links,
            "text_main": text_main
        }

# Exemple d'utilisation rapide
if __name__ == "__main__":
    client = RequestHTTP()
    page = client.parse_page("https://www.esiee.fr/", timeout=5, retries=2, rotate_ua=True)
    print("Title:", page["title"])
    print("H1:", page["h1"])
    print("Images:", page["images"][:5])
    print("External links:", page["external_links"][:5])
    print("Text snippet:", page["text_main"][:200])

Title: ESIEE Paris, l&#039;école de l&#039;innovation technologique | ESIEE Paris
H1: ['']
Images: ['https://www.esiee.fr/typo3conf/ext/esiee_sitepackage/Resources/Public/imgs/svg/logo-esiee.svg', 'https://www.esiee.fr/fileadmin/user_upload/Fichiers/image-home/ESIEE-Home-Main-Picture.webp', 'https://www.esiee.fr/fileadmin/user_upload/Fichiers/image-home/ESIEE-Home-Main-Picture.webp', 'https://www.esiee.fr/fileadmin/_processed_/0/b/csm_photos-salons-1344x840_472aff3f3e.jpg', 'https://www.esiee.fr/fileadmin/_processed_/0/b/csm_photos-salons-1344x840_472aff3f3e.jpg']
External links: ['http://esiee.jobteaser.com/fr/recruiter_account/job_offers', 'https://www.cge.asso.fr/', 'https://www.cti-commission.fr/', 'https://www.cti-commission.fr/la-cti/demarche-qualite/systeme-qe/eur-ace', 'https://www.enseignementsup-recherche.gouv.fr/fr/labels-des-formations-controlees-par-l-etat-46088']
Text snippet: ESIEE Paris, l'école de l'innovation technologique | ESIEE Paris Aller au contenu Aller au menu 

# Exploitation des appels d'API



Losque le front du site récupère des données sur une API gérée par le back, un appel d'API est réalisé. Cet appel est recensé dans les appels réseaux. Il est alors possible de re-jouer cet appel pour récupérer à nouveau les données. Il est très facile de récupérer ces appels dans l'onglet Network de la console développeur de Chrome ou FireFox. La console vous permet de copier le code CURL de la requête et vous pouvez ensuite la transformer en code Python depuis le site https://curl.trillworks.com/.

Souvent les APIs sont bloquées avec certains paramètres. L'API vérifie que dans les headers de la requête HTTP ces paramètres sont présents :
* un token généré à la volée avec des protocoles OAuth2 (ou moins développés).
* un referer provenant du site web (la source de la requête), très facile à falsifier.



## Exercice 
### Exercice 4

- Utiliser les informations développées plus haut pour récupérer les premiers résultats d'une recherche d'une requête
sur Google. 

Tips : 

- Ouvrir les outils de développements de Chrome ou Firefox
- Onglet Network
- Fouiller dans les requêtes pour voir à quoi ressemble un appel API Google
- Utilisez beautiful soup pour convertir le contenu de la request en objet et accéder aux balises

In [None]:
#Exercice 4

def search_google(query: str, client: RequestHTTP = None, num: int = 10, pause: float = 1.0) -> list:
    """
    Récupère les premiers résultats Google pour `query`.
    Utilise BeautifulSoup si disponible, sinon regex fallback.
    """
    if client is None:
        client = RequestHTTP()
    # ajouter Accept-Language et header plus complet pour ressembler à un navigateur
    client.session.headers.update({
        "Accept-Language": "fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
    })
    base = "https://www.google.com/search"
    params = {"q": query, "num": str(num), "hl": "fr"}
    resp = client.get(base, timeout=10, retries=2, rotate_ua=True, params=params) if hasattr(client.session, 'get') else client.get(base + "?" + urllib.parse.urlencode(params), timeout=10, retries=2)
    html_text = resp.text
    # debug utile :
    print("Status:", resp.status_code, "HTML len:", len(html_text))
    time.sleep(pause)
    results = []

    try:
        from bs4 import BeautifulSoup
        soup = BeautifulSoup(html_text, "html.parser")
        # plus robuste : chercher les conteneurs de résultat usuels
        # 1) div.yuRUbf > a  (desktop)  2) chercher <a href="/url?q="> si présent
        for a in soup.select("div.yuRUbf > a"):
            h3 = a.find("h3")
            if not h3:
                continue
            target = a.get("href", "")
            title = h3.get_text(" ", strip=True)
            # snippet best-effort : texte dans le même conteneur
            snippet = ""
            parent = a.find_parent()
            if parent:
                s = parent.find_next("div")
                if s:
                    snippet = s.get_text(" ", strip=True)
            results.append({"title": title, "url": target, "snippet": normalize_spaces(html.unescape(snippet))})
            if len(results) >= num:
                break

        # fallback secondaire : /url?q= links
        if not results:
            for a in soup.select('a[href^="/url?q="]'):
                m = re.search(r'/url\?q=([^&]+)', a["href"])
                if not m:
                    continue
                target = urllib.parse.unquote(m.group(1))
                title = (a.find("h3").get_text(" ", strip=True) if a.find("h3") else "")
                results.append({"title": title, "url": target, "snippet": ""})
                if len(results) >= num:
                    break
    except Exception:
        pass

    # si toujours vide, c'est probablement blocage côté Google (consent/captcha) -> afficher début HTML pour debug
    if not results:
        print("No parsed results — HTML snippet for debug:\n", html_text[:2000].replace("\n", " "))
    return results

# Exercice Final  

Exercice Final
Utilisez tout ce que vous avez appris pour récupérer des articles de News avec une catégorie. Il est souvent intéressant de partir des flux RSS pour commencer :

Les données doivent comprendre :
- Le texte important propre
- L'url
- Le domaine
- la catégorie
- Le titre de l'article
- Le titre de la page
- (Facultatif) : les images

Tips : 

- Taper le nom de votre média favoris + RSS (par exemple : https://www.lemonde.fr/rss/)
- Aller dans le DOM de la page 
- Trouver les catégories et les liens vers les articles

In [26]:
from urllib.parse import urljoin

import xml.etree.ElementTree as ET

def find_rss_feed(site_url: str, requester: RequestHTTP) -> str | None:
    """Try to discover an RSS/Atom feed for the given site_url."""
    soup = requester.get_soup(site_url)
    # look for link rel alternate RSS/Atom
    for link in soup.find_all("link", rel=lambda r: r and "alternate" in r):
        t = (link.get("type") or "").lower()
        if "rss" in t or "atom" in t or "xml" in t:
            href = link.get("href")
            if href:
                return urljoin(site_url, href)
    # try common feed paths
    common_paths = ["/rss", "/rss.xml", "/feed", "/feeds", "/atom.xml"]
    for p in common_paths:
        candidate = urljoin(site_url, p)
        try:
            resp = requester.get(candidate, timeout=8, retries=1)
            if resp and resp.status_code == 200 and ("xml" in (resp.headers.get("Content-Type") or "") or resp.text.strip().startswith("<")):
                return candidate
        except Exception:
            continue
    return None

def parse_feed_xml(feed_xml: str) -> list[ET.Element]:
    """Return list of item/entry elements from feed xml string."""
    root = ET.fromstring(feed_xml.encode("utf-8"))
    items = root.findall(".//item")
    if not items:
        # try atom entries
        items = root.findall(".//{http://www.w3.org/2005/Atom}entry")
        if not items:
            # fallback: any <entry> without namespace
            items = root.findall(".//entry")
    return items

def extract_text_from_element(el: ET.Element) -> str:
    """Serialize element to HTML and strip tags using BeautifulSoup for readable text."""
    raw = ET.tostring(el, encoding="utf-8", method="html")
    text = BeautifulSoup(raw, "html.parser").get_text(separator=" ")
    return html_to_text(text)

def get_first_text(e: ET.Element, tag_names: list[str]) -> str | None:
    for tag in tag_names:
        # try with and without common namespaces
        node = e.find(tag)
        if node is not None and (node.text and node.text.strip()):
            return node.text.strip()
        # try namespaced variants
        for child in e:
            if child.tag.lower().endswith(tag.lower()):
                if child.text and child.text.strip():
                    return child.text.strip()
    return None

def extract_link_from_item(item: ET.Element) -> str | None:
    # 1) <link>text</link>
    link = get_first_text(item, ["link"])
    if link and link.startswith("http"):
        return link
    # 2) <link href="..."> (Atom)
    for child in item.findall("link"):
        href = child.get("href")
        if href:
            return href
    # 3) search for enclosure/url
    enc = item.find("enclosure")
    if enc is not None and enc.get("url"):
        return enc.get("url")
    return None

def scrape_news_from_site(site_url: str, max_articles: int = 10) -> list[dict]:
    requester = RequestHTTP()
    feed_url = find_rss_feed(site_url, requester)
    if not feed_url:
        raise RuntimeError(f"No RSS/Atom feed found for {site_url}")
    resp = requester.get(feed_url)
    items = parse_feed_xml(resp.text)
    results = []
    for item in items[:max_articles]:
        try:
            article_title = get_first_text(item, ["title"]) or ""
            article_link = extract_link_from_item(item)
            category = get_first_text(item, ["category"]) or ""
            # try to extract description/content from feed item
            description = get_first_text(item, ["description"]) or ""
            # sometimes content:encoded is used
            if not description:
                # search for any child that endswith 'encoded' or 'content'
                for child in item:
                    if child.tag.lower().endswith("encoded") or child.tag.lower().endswith("content"):
                        if child.text:
                            description = child.text.strip()
                            break
            main_text = html_to_text(description) if description else ""
            page_title = ""
            images = []
            if article_link:
                # fetch article to enrich data
                try:
                    page_soup = requester.get_soup(article_link, timeout=10, retries=2)
                    page_title = page_soup.title.string.strip() if page_soup.title else ""
                    images = [urljoin(article_link, img.get("src")) for img in page_soup.find_all("img") if img.get("src")]
                    if not main_text:
                        # fallback to page text
                        main_text = clean_html_string(page_soup.get_text())
                except Exception:
                    pass
            domain = get_domain(article_link or site_url)
            results.append({
                "article_title": article_title,
                "url": article_link or "",
                "domain": domain,
                "category": category,
                "page_title": page_title,
                "text": html_to_text(main_text),
                "images": images
            })
        except Exception:
            continue
    return results

# Example usage with provided `url` (and available classes/functions in the notebook):
news = scrape_news_from_site(url, max_articles=8)
for i, item in enumerate(news, 1):
    print(i, item["article_title"], "-", item["url"])

1 ESIEE Paris : deux filières renouvellent leur label SecNumedu par l’ANSSI - https://www.esiee.fr/actualites/esiee-paris-deux-filieres-renouvellent-leur-label-secnumedu-par-lanssi
2 Des élèves ESIEE Paris participent au Concours jeunes talents Orange 2025 - https://www.esiee.fr/actualites/des-eleves-esiee-paris-participent-au-concours-jeunes-talents-orange-2025
3 Préparez votre rentrée ! - https://www.esiee.fr/actualites/preparez-votre-rentree-2025
4 Bienvenue aux admis CPGE 2025 à ESIEE Paris - https://www.esiee.fr/actualites/admissions-cpge-2025
5 L'université Gustave Eiffel parmi les 3% des meilleures universités au monde selon CWUR - https://www.esiee.fr/actualites/luniversite-gustave-eiffel-parmi-les-meilleures-universites-au-monde-selon-cwur
6 Résultats Parcoursup : félicitations aux nouveaux admis à ESIEE Paris - https://www.esiee.fr/actualites/resultats-parcoursup-felicitations-aux-nouveaux-admis-esiee-paris
7 Taxe d'apprentissage 2025 : encouragez l'innovation en choisissant 