# Requ√™te HTTP 

Un requ√™te HTTP est une requ√™te bas√©e sur le protocole TCP, elle fait partie de la couche application de la couche OSI. Elle permet d'acc√©der aux donn√©es mise √† disposition sur une adresse IP (ou url r√©solue par un DNS) et un port. 

Les deux ports les plus utilis√©s dans le web sont le 80 pour les sites en HTTP et le 443 pour les sites en HTTPS. HTTPS est une variable du protocole HTTP bas√© sur le protocole TLS.

Il existe de nombreux types de requ√™tes selon la convention `REST`: 
- GET
- POST
- PUT 
- DELETE
- UPDATE.

Dans notre cas, nous allons utiliser la plupart du temps des GET et potentiellement des POST. 
- Le GET permet comme son nom l'indique de r√©cup√©rer des informations en fonction de certains param√®tres. 
- Le POST n√©cessite un envoi de donn√©es pour r√©cup√©rer des donn√©es. Le body du post est, la plupart du temps, envoy√© sous la forme d'un objet JSON.

Ces requ√™tes encapsulent un certain nombre de param√®tres qui permettent soient d'identifier une provenance et un utilisateur ou de r√©aliser diff√©rentes actions.

In [2]:
import requests

In [3]:
url = "https://www.esiee.fr/"
response = requests.get(url)
response.status_code

200

Il existe deux m√©thodes pour r√©cup√©rer le contenu de la page :

- `response.text` qui permet de retourner le texte sous la forme d'une chaine de charact√®res.
- `response.content` qui permet de r√©cup√©rer le contenu de la page sous la forme de bytes

In [4]:
type(response.content)

bytes

In [5]:
type(response.text)

str

Pour r√©cup√©rer les 1000 premiers charact√®res de la page :

In [6]:
response.text[0:1000]

'<!DOCTYPE html>\n<html lang="fr-FR">\n<head>\n\n<meta charset="utf-8">\n<!-- \n\tThis website is powered by TYPO3 - inspiring people to share!\n\tTYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.\n\tTYPO3 is copyright 1998-2025 of Kasper Skaarhoj. Extensions are copyright of their respective owners.\n\tInformation and contribution at https://typo3.org/\n-->\n\n\n\n<title>ESIEE Paris, l&#039;√©cole de l&#039;innovation technologique | ESIEE Paris</title>\n<meta name="generator" content="TYPO3 CMS" />\n<meta name="description" content="Rejoignez ESIEE Paris, grande √©cole d&#039;ing√©nieur dans les domaines des transitions num√©rique, √©nerg√©tique et environnementale. Class√©e dans le groupe A, parmi les meilleures √©coles d&#039;ing√©nieur selon le classement de l&#039;Etudiant. Habilit√©e par la Commission des Titres d&#039;Ing√©nieur (CTI). Membre de la Conf√©rence des Grandes Ecoles (CGE). " />\n<meta name="vie

Pour r√©cup√©rer les headers HTTP de la r√©ponse :

In [7]:
response.headers

{'Date': 'Tue, 18 Nov 2025 13:27:20 GMT', 'Server': 'Apache', 'Content-Language': 'fr', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'X-UA-Compatible': 'IE=edge', 'X-Content-Type-Options': 'nosniff', 'Content-Length': '16642', 'Content-Type': 'text/html; charset=utf-8', 'X-Varnish': '533630589 535791364', 'Age': '73', 'Via': '1.1 varnish (Varnish/7.1)', 'Accept-Ranges': 'bytes', 'Connection': 'keep-alive'}

On peut modifier les param√®tres de la requ√™te et/ou ses headers. On peut par exemple ajouter un UserAgent (identifiant de l'initiateur de la requ√™te) et un timeout de 10 secondes :

In [4]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers, timeout = 10)
response.content[0:1000]

b'<!DOCTYPE html>\n<html lang="fr-FR">\n<head>\n\n<meta charset="utf-8">\n<!-- \n\tThis website is powered by TYPO3 - inspiring people to share!\n\tTYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.\n\tTYPO3 is copyright 1998-2025 of Kasper Skaarhoj. Extensions are copyright of their respective owners.\n\tInformation and contribution at https://typo3.org/\n-->\n\n\n\n<title>ESIEE Paris, l&#039;\xc3\xa9cole de l&#039;innovation technologique | ESIEE Paris</title>\n<meta name="generator" content="TYPO3 CMS" />\n<meta name="description" content="Rejoignez ESIEE Paris, grande \xc3\xa9cole d&#039;ing\xc3\xa9nieur dans les domaines des transitions num\xc3\xa9rique, \xc3\xa9nerg\xc3\xa9tique et environnementale. Class\xc3\xa9e dans le groupe A, parmi les meilleures \xc3\xa9coles d&#039;ing\xc3\xa9nieur selon le classement de l&#039;Etudiant. Habilit\xc3\xa9e par la Commission des Titres d&#039;Ing\xc3\xa9nieur (CTI). Membr

## Exercice

## Exercice 1

- Cr√©er une classe Python permettant de faire des requ√™tes HTTP.
- Cette classe doit utiliser toujours le m√™me UserAgent.
- Le TimeOut sera sp√©cifi√© √† chaque appelle avec une valeur par d√©faut.
- Un m√©canisme de retry sera mis en place de fa√ßon recursive.


In [None]:
class HttpClient:
    def __init__(self, user_agent: str = "MonSuperScraper/1.0"):
        """
        Constructeur de la classe, on d√©finit ici le user agent qui sera utilis√© pour toutes les requ√™tes
        """
        self.user_agent = user_agent
        self.headers = {"user-agent": self.user_agent}

    def get(self, url: str, timeout: float = 5.0, retries: int = 3):
        """
        Effectue une requ√™te HTTP GET avec :
        - un timeout sp√©cifiable
        - un m√©canisme de retry r√©cursif

        url: URL √† appeler
        timeout: dur√©e max d'attente en secondes
        retries: nombre de tentatives restantes
        return: l'objet Response si succ√®s, sinon None
        """

        try:
            # On tente la requ√™te
            response = requests.get(url, headers=self.headers, timeout=timeout)

            # Si le code HTTP indique un succ√®s (200, 201, etc.)
            response.raise_for_status()  # l√®ve une erreur pour les codes 4xx/5xx

            return response

        except (requests.exceptions.RequestException) as e:
            # En cas d'erreur r√©seau, timeout, mauvais code HTTP,...
            print(f"Erreur lors de la requ√™te vers {url} : {e}")

            if retries > 0:
                print(f"Nouvelle tentative... (retries restants : {retries})")
                # Appel r√©cursif avec un retry en moins
                return self.get(url, timeout=timeout, retries=retries - 1)
            else:
                print("Plus de retries disponibles, abandon.")
                return None



## Exercice 2

- Faire une fonction permettant de supprimer tous les espaces supperflus d'une string
- Faire une fonction qui prend une string html et renvois une string intelligible (enlever les caract√®res sp√©ciaux,
- R√©cup√©rer le domaine en fonction d'un url

In [7]:
# pour retirer les esapces pr√©sent dans un string
def clean_spaces(text: str) -> str:
    """
    Supprime les espaces superflus :
    - espaces en d√©but/fin
    - plusieurs espaces cons√©cutifs -> un seul
    """
    # fonction .split() coupe sur n'importe quel espace et enl√®ve les doublons
    parts = text.split()
    # on rejoint avec un seul espace
    return " ".join(parts)


In [8]:
import re
import html

def html_to_text_simple(html_string: str) -> str:
    """
    Transforme une string HTML en texte lisible
    """
    # Enlever les balises <...>
    #    <[^>]+> veut dire : un '<', puis n'importe quels caract√®res sauf '>', puis un '>' 
    # on remplace par un espace pour √©viter de coller des mots ensemble
    text = re.sub(r"<[^>]+>", " ", html_string)

    # D√©coder les entit√©s HTML (&amp; -> &, &eacute; -> √©, etc.)
    # on utilise la biblioth√®que standard html
    text = html.unescape(text)

    # Nettoyer les espaces superflus avec la fonction d√©finie plus haut
    text = clean_spaces(text)

    return text


In [9]:
from urllib.parse import urlparse

def get_domain(url: str) -> str:
    """
    R√©cup√®re le domaine √† partir d'une URL compl√®te.
    """
    # on utilise la fonction urlparse pour analyser l'URL
    parsed = urlparse(url)
    domain = parsed.netloc  # ex: 'www.google.com'

    # Optionnel : enlever 'www.' au d√©but
    if domain.startswith("www."):
        domain = domain[4:]
    
    return domain


# Exploitation du HTML  

Ici, il faut r√©cup√©rer le code HTML d'un site web √† partir d'une requ√™te. Lorsque vous avez r√©cup√©r√© le texte d'un site il faut le parser. Pour cela, on utilise BeautifulSoup qui permet de transformer la structure HTML en objet Python. Cela permet de r√©cup√©rer efficacement les donn√©es qui nous int√©resse.

Pour les webmasters, le blocage le plus souvent mis en place et un blocage sur le User-Agent. Le User-Agent est un param√®tre int√©gr√© dans la requ√™te HTTP r√©alis√© par le Navigateur pour envoyer au front des informations basiques :

- la version du Navigateur,
- la version de l'OS
- Le type de gestionnaire graphique (Gecko)
- le type de device utilis√©

Exemple de User Agent :  

`Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0`

Commen√ßons √† utiliser `BeautifulSoup`, il est normalement d√©j√† install√©, le cas √©ch√©ant executez les lignes suivantes : 

In [10]:
import requests
from bs4 import BeautifulSoup

Pour transformer une requ√™te (requests) en objet BeautifulSoup :

In [11]:
response = requests.get(url)
soup = BeautifulSoup(response.text)

Pour trouver tous les liens d'une page, on r√©cup√®re la balise `a` qui permet de g√©rer les liens en HTML :

In [12]:
soup.find_all("a")[0:10]

[<a href="/#content">Aller au contenu</a>,
 <a href="/#menu">Aller au menu</a>,
 <a href="/plan-du-site/">Plan du site</a>,
 <a href="/actualites/journees-portes-ouvertes-2025-2026" target="_blank" title="Ouvre une nouvelle fen√™tre">Journ√©e portes ouvertes le 6 d√©cembre de 13h √† 18h. Inscrivez-vous d√®s maintenant !</a>,
 <a href="/"><img alt="ESIEE PARIS" class="a42-ac-replace-img" src="/typo3conf/ext/esiee_sitepackage/Resources/Public/imgs/svg/logo-esiee.svg"/></a>,
 <a href="/brochures-1">Brochures</a>,
 <a href="/informations/etudiantes-et-etudiants">Espace √©l√®ves</a>,
 <a href="/" hreflang="fr-FR" title="Fran√ßais">
 <span>Fr</span>
 </a>,
 <a href="/en/" hreflang="en-US" title="English">
 <span>En</span>
 </a>,
 <a href="/candidater-1">Candidater</a>]

On peut aussi pr√©ciser la classe HTML qu'on veut r√©cup√©rer :

```python
soup.find_all(class_="<CLASS_NAME>")[0:10]
```

Ici par exemple: 

In [13]:
soup.find_all(class_="toggler")[0:5]

[<button aria-controls="searchbox-header-form" aria-expanded="false" class="toggler">
 <i class="fa-solid fa-magnifying-glass"></i>
 <i class="fa-solid fa-xmark"></i>
 <span class="sr-only">
 <span class="display">Afficher</span><span class="hide">Masquer</span> la recherche
 		</span>
 </button>,
 <button aria-controls="submenu-40" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu¬†: </span>L'√©cole</button>,
 <button aria-controls="submenu-563" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu¬†: </span>Gouvernance et conseils</button>,
 <button aria-controls="submenu-65" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu¬†: </span>D√©partements d'enseignements et de recherche</button>,
 <button aria-control

Pour r√©cup√©rer le text sans les balises HTML :

In [14]:
soup.text[0:1000]

"\n\n\n\nESIEE Paris, l'√©cole de l'innovation technologique | ESIEE Paris\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nAller au contenu\nAller au menu\nPlan du site\n\n\n\n\n\n\n\nJourn√©e portes ouvertes le 6 d√©cembre de 13h √† 18h. Inscrivez-vous d√®s maintenant !\n\n\n\n\n\nMasquer l'alerte\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nBrochuresEspace √©l√®ves\n\n\n\nFr\n\n\n\n\nEn\n\n\n\n\n\n\n\n\n\nAfficherMasquer la recherche\r\n\t\t\n\n\n\nSaisissez votre recherche\xa0:\n\nLancer la recherche\n\n\n\nCandidater\n\nAfficherMasquer le menu\n\n\n\n\n\nRetour au menu principalAfficherMasquer le sous menu\xa0: L'√©colePourquoi choisir ESIEE Paris ?AfficherMasquer le sous menu\xa0: Gouvernance et conseilsGouvernance et conseilsConseil scientifiqueAfficherMasquer le sous menu\xa0: D√©partements d'enseignements et de rechercheInformatique et t√©l√©communicationsIng√©nierie des syst√®mes cyberphysiquesIng√©nierie industrielleSant√©, √©nergie et environnement durableManagement, sciences humaines et

## Exercice
### Exercice 3

Am√©liorer la classe d√©velopp√© pr√©c√©demment.

- Ajouter une m√©thode pour r√©cup√©rer l'objet soup d'un url
- R√©cup√©rer une liste de User Agent et effectuer une rotation al√©atoire sur celui √† utiliser
- Utiliser cette classe pour parser une page HTML et r√©cup√©rer : le titre, tous les H1 (si ils existent), les liens vers les images, les liens sortants vers d'autres sites, et le texte principal.

In [12]:
import random
from urllib.parse import urljoin

class HttpClient:
    def __init__(self, user_agents=None):
        """
        user_agents : liste de cha√Ænes User-Agent.
        Si None, on utilise une petite liste par d√©faut.
        """
        if user_agents is None:
            self.user_agents = [
                "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
                "Mozilla/5.0 (X11; Linux x86_64)",
                "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)",
                "MonSuperScraper/1.0"
            ]
        else:
            self.user_agents = user_agents

    def _get_random_headers(self):
        """
        Choisit un User-Agent au hasard et construit les headers.
        """
        ua = random.choice(self.user_agents)
        return {"User-Agent": ua}

    def get(self, url: str, timeout: float = 5.0, retries: int = 3):
        """
        Effectue une requ√™te HTTP GET avec :
        - rotation al√©atoire de User-Agent
        - timeout
        - retries r√©cursifs
        """
        try:
            headers = self._get_random_headers()
            response = requests.get(url, headers=headers, timeout=timeout)
            response.raise_for_status()  # l√®ve une exception si code HTTP 4xx/5xx
            return response

        except requests.exceptions.RequestException as e:
            print(f"Erreur lors de la requ√™te vers {url} : {e}")

            if retries > 0:
                print(f"Nouvelle tentative... (retries restants : {retries})")
                return self.get(url, timeout=timeout, retries=retries - 1)
            else:
                print("Plus de retries disponibles, abandon.")
                return None
    
    def get_soup(self, url: str, timeout: float = 5.0, retries: int = 3):
        """
        R√©cup√®re un objet BeautifulSoup √† partir d'une URL.
        """
        response = self.get(url, timeout=timeout, retries=retries)
        if response is None:
            return None

        # Cr√©e l'objet soup √† partir du HTML
        soup = BeautifulSoup(response.text, "html.parser")
        return soup
    
    def parse_page(self, url: str, timeout: float = 5.0, retries: int = 3):
        """
        Parse une page HTML et renvoie :
        - title : titre de la page
        - h1_list : liste de tous les H1
        - image_links : liste des URLs d'images
        - external_links : liste des liens sortants vers d'autres domaines
        - main_text : texte principal (contenu des <p>)
        """
        soup = self.get_soup(url, timeout=timeout, retries=retries)
        if soup is None:
            return None

        # ----- Titre -----
        title_tag = soup.find("title")
        title = title_tag.get_text(strip=True) if title_tag else ""

        # ----- H1 -----
        h1_list = [h.get_text(strip=True) for h in soup.find_all("h1")]

        # ----- Images -----
        image_links = []
        for img in soup.find_all("img"):
            src = img.get("src")
            if src:
                full_url = urljoin(url, src)
                image_links.append(full_url)

        # ----- Liens sortants -----
        parsed_base = urlparse(url)
        base_domain = parsed_base.netloc.replace("www.", "")

        external_links_set = set()
        for a in soup.find_all("a", href=True):
            href = a["href"]
            full_url = urljoin(url, href)
            parsed_link = urlparse(full_url)

            if parsed_link.scheme not in ("http", "https"):
                continue

            link_domain = parsed_link.netloc.replace("www.", "")
            if link_domain and link_domain != base_domain:
                external_links_set.add(full_url)

        external_links = list(external_links_set)

        # ----- Texte principal -----
        paragraphs = [p.get_text(" ", strip=True) for p in soup.find_all("p")]
        main_text = " ".join(paragraphs)
        main_text = clean_spaces(main_text)

        # On renvoie tout dans un dictionnaire
        return {
            "title": title,
            "h1_list": h1_list,
            "image_links": image_links,
            "external_links": external_links,
            "main_text": main_text
        }



# Exploitation des appels d'API



Losque le front du site r√©cup√®re des donn√©es sur une API g√©r√©e par le back, un appel d'API est r√©alis√©. Cet appel est recens√© dans les appels r√©seaux. Il est alors possible de re-jouer cet appel pour r√©cup√©rer √† nouveau les donn√©es. Il est tr√®s facile de r√©cup√©rer ces appels dans l'onglet Network de la console d√©veloppeur de Chrome ou FireFox. La console vous permet de copier le code CURL de la requ√™te et vous pouvez ensuite la transformer en code Python depuis le site https://curl.trillworks.com/.

Souvent les APIs sont bloqu√©es avec certains param√®tres. L'API v√©rifie que dans les headers de la requ√™te HTTP ces param√®tres sont pr√©sents :
* un token g√©n√©r√© √† la vol√©e avec des protocoles OAuth2 (ou moins d√©velopp√©s).
* un referer provenant du site web (la source de la requ√™te), tr√®s facile √† falsifier.



## Exercice 
### Exercice 4

- Utiliser les informations d√©velopp√©es plus haut pour r√©cup√©rer les premiers r√©sultats d'une recherche d'une requ√™te
sur Google. 

Tips : 

- Ouvrir les outils de d√©veloppements de Chrome ou Firefox
- Onglet Network
- Fouiller dans les requ√™tes pour voir √† quoi ressemble un appel API Google
- Utilisez beautiful soup pour convertir le contenu de la request en objet et acc√©der aux balises

In [None]:
def get_soup(self, url: str, timeout: float = 5.0, retries: int = 3, parser: str = "html.parser"):
        """
        R√©cup√®re un objet BeautifulSoup √† partir d'une URL.
        parser : "html.parser" (par d√©faut) ou "xml" pour les flux RSS.
        """
        response = self.get(url, timeout=timeout, retries=retries)
        if response is None:
            return None

        soup = BeautifulSoup(response.text, parser)
        return soup

In [15]:
from urllib.parse import quote_plus

def build_google_search_url(query: str, lang: str = "fr") -> str:
    """
    Construit une URL de recherche Google √† partir d'une requ√™te.
    """
    q = quote_plus(query)  # remplace espaces par +, etc.
    return f"https://www.google.com/search?q={q}&hl={lang}"


In [16]:
def google_search(client: HttpClient, query: str, max_results: int = 5):
    """
    Utilise la classe HttpClient pour r√©cup√©rer les premiers r√©sultats Google d'une requ√™te.
    Retourne une liste de dictionnaires
    """
    # Construire l'URL de recherche avec la fonction d√©finie plus haut
    search_url = build_google_search_url(query)

    #R√©cup√©rer le soup avec notre client
    soup = client.get_soup(search_url)
    if soup is None:
        print("Impossible de r√©cup√©rer la page de r√©sultats Google")
        return []

    results = []

    # Trouver les blocs de r√©sultats : div.g 
    for result_block in soup.select("div.g"):
        # Titre
        title_tag = result_block.find("h3")
        if not title_tag:
            continue  # si pas de titre, on saute ce bloc

        title = title_tag.get_text(strip=True)

        # Lien
        link_tag = result_block.find("a", href=True)
        if not link_tag:
            continue

        url = link_tag["href"]

        # Snippet 
        snippet_tag = result_block.find("div", class_="VwiC3b")
        if snippet_tag is None:
            snippet_tag = result_block.find("span", class_="aCOpRe")

        snippet = ""
        if snippet_tag is not None:
            snippet = snippet_tag.get_text(" ", strip=True)

        results.append({
            "title": title,
            "url": url,
            "snippet": snippet
        })

        if len(results) >= max_results:
            break

    return results


# Exercice Final  

Exercice Final
Utilisez tout ce que vous avez appris pour r√©cup√©rer des articles de News avec une cat√©gorie. Il est souvent int√©ressant de partir des flux RSS pour commencer :

Les donn√©es doivent comprendre :
- Le texte important propre
- L'url
- Le domaine
- la cat√©gorie
- Le titre de l'article
- Le titre de la page
- (Facultatif) : les images

Tips : 

- Taper le nom de votre m√©dia favoris + RSS (par exemple : https://www.lemonde.fr/rss/)
- Aller dans le DOM de la page 
- Trouver les cat√©gories et les liens vers les articles

In [18]:
class HttpClient:
    def __init__(self, user_agents=None):
        if user_agents is None:
            self.user_agents = [
                "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
                "Mozilla/5.0 (X11; Linux x86_64)",
                "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)",
                "MonSuperScraper/1.0"
            ]
        else:
            self.user_agents = user_agents

    def _get_random_headers(self):
        ua = random.choice(self.user_agents)
        return {"User-Agent": ua}

    def get(self, url: str, timeout: float = 5.0, retries: int = 3):
        try:
            headers = self._get_random_headers()
            response = requests.get(url, headers=headers, timeout=timeout)
            response.raise_for_status()
            return response
        except requests.exceptions.RequestException as e:
            print(f"Erreur lors de la requ√™te vers {url} : {e}")
            if retries > 0:
                print(f"Nouvelle tentative... (retries restants : {retries})")
                return self.get(url, timeout=timeout, retries=retries - 1)
            else:
                print("Abandon.")
                return None

    def get_soup(self, url: str, timeout: float = 5.0, retries: int = 3, parser: str = "html.parser"):
        response = self.get(url, timeout=timeout, retries=retries)
        if response is None:
            return None
        return BeautifulSoup(response.text, parser)


In [19]:
def fetch_rss_items(client: HttpClient, rss_url: str, max_items: int = 5):
    """
    R√©cup√®re les items d'un flux RSS (titre, lien, cat√©gorie √©ventuelle).
    Utilise HttpClient.get_soup avec parser="xml".
    """
    soup = client.get_soup(rss_url, parser="xml")
    if soup is None:
        print("Impossible de r√©cup√©rer le flux RSS.")
        return []

    items = []
    for item in soup.find_all("item")[:max_items]:
        title_tag = item.find("title")
        link_tag = item.find("link")
        category_tag = item.find("category")

        title = title_tag.get_text(strip=True) if title_tag else ""
        link = link_tag.get_text(strip=True) if link_tag else ""
        category = category_tag.get_text(strip=True) if category_tag else ""

        items.append({
            "rss_title": title,
            "url": link,
            "category": category
        })

    return items


In [20]:
def parse_article_page(client: HttpClient, article_info: dict):
    """
    Prend un dict contenant au moins:
    - 'url'
    - 'category' (depuis le RSS, peut √™tre vide)
    - 'rss_title'

    Retourne un dict avec :
    - text : texte important propre
    - url
    - domain
    - category
    - article_title
    - page_title
    - images
    """
    url = article_info["url"]
    category = article_info.get("category", "")
    rss_title = article_info.get("rss_title", "")

    # Si pas de cat√©gorie dans le RSS, on met une valeur par d√©faut
    if not category:
        category = "Ouest-France"

    soup = client.get_soup(url)
    if soup is None:
        return None

    # Titre de la page (<title>)
    page_title_tag = soup.find("title")
    page_title = page_title_tag.get_text(strip=True) if page_title_tag else ""

    # Titre de l'article (souvent <h1>)
    h1_tag = soup.find("h1")
    article_title = h1_tag.get_text(strip=True) if h1_tag else rss_title

    # Texte principal : on essaie d'abord <article>, sinon tous les <p>
    article_tag = soup.find("article")
    if article_tag:
        paragraphs = [p.get_text(" ", strip=True) for p in article_tag.find_all("p")]
    else:
        paragraphs = [p.get_text(" ", strip=True) for p in soup.find_all("p")]

    main_text = clean_spaces(" ".join(paragraphs))

    # Images : src des <img>
    image_links = []
    img_tags = article_tag.find_all("img") if article_tag else soup.find_all("img")
    for img in img_tags:
        src = img.get("src")
        if src:
            full_url = urljoin(url, src)
            image_links.append(full_url)

    # Domaine (ouest-france.fr)
    parsed = urlparse(url)
    domain = parsed.netloc
    if domain.startswith("www."):
        domain = domain[4:]

    return {
        "text": main_text,
        "url": url,
        "domain": domain,
        "category": category,
        "article_title": article_title,
        "page_title": page_title,
        "images": image_links
    }


In [21]:
def fetch_news_from_rss(client: HttpClient, rss_url: str, max_items: int = 5):
    """
    1) R√©cup√®re quelques items depuis le flux RSS
    2) Pour chaque item, va sur la page de l'article et la parse
    3) Retourne une liste de dicts complets
    """
    rss_items = fetch_rss_items(client, rss_url, max_items=max_items)

    articles = []
    for item in rss_items:
        parsed = parse_article_page(client, item)
        if parsed is not None:
            articles.append(parsed)
    return articles


In [22]:
client = HttpClient()

# üëâ Flux RSS Ouest-France (France enti√®re)
rss_url = "https://www.ouest-france.fr/rss.xml?insee=FRA"

articles = fetch_news_from_rss(client, rss_url, max_items=3)

for i, art in enumerate(articles, start=1):
    print("="*80)
    print(f"ARTICLE {i}")
    print("Titre de la page   :", art["page_title"])
    print("Titre de l'article :", art["article_title"])
    print("URL                :", art["url"])
    print("Domaine            :", art["domain"])
    print("Cat√©gorie          :", art["category"])
    print("Nb images trouv√©es :", len(art["images"]))
    print("\nTexte (d√©but) :")
    print(art["text"][:500], "...\n")


ARTICLE 1
Titre de la page   : Apr√®s Shein, la plateforme eBay vis√©e par une enqu√™te pour vente de produits ill√©gaux
Titre de l'article : Apr√®s Shein, la plateforme eBay vis√©e par une enqu√™te pour vente de produits ill√©gaux
URL                : https://www.ouest-france.fr/economie/commerce/e-commerce/apres-shein-la-plateforme-ebay-visee-par-une-enquete-pour-vente-de-produits-illegaux-e6c4e986-c9ff-11f0-a0e6-83b9718ad3c0?utm_source=fluxpublicfrance&utm_medium=fluxrss&utm_campaign=banquedecontenu
Domaine            : ouest-france.fr
Cat√©gorie          : Ouest-France
Nb images trouv√©es : 2

Texte (d√©but) :
Mardi 25 novembre, le parquet de Paris a indiqu√© que la plateforme am√©ricaine eBay √©tait vis√©e par une enqu√™te pour vente de produits ill√©gaux. Quatre autres plateformes, Shein, Temu, Wish et AliExpress sont d√©j√† poursuivies en France. Ouest-France Newsletter Mon Budget Chaque semaine, infos pratiques et conseils utiles pour vos d√©penses du quotidien Merci de saisir 