# Requête HTTP 

# HTTP 请求

Un requête HTTP est une requête basée sur le protocole TCP, elle fait partie de la couche application de la couche OSI. Elle permet d'accéder aux données mise à disposition sur une adresse IP (ou url résolue par un DNS) et un port. 

Les deux ports les plus utilisés dans le web sont le 80 pour les sites en HTTP et le 443 pour les sites en HTTPS. HTTPS est une variable du protocole HTTP basé sur le protocole TLS.

Il existe de nombreux types de requêtes selon la convention `REST`: 
- GET
- POST
- PUT 
- DELETE
- UPDATE.

Dans notre cas, nous allons utiliser la plupart du temps des GET et potentiellement des POST. 
- Le GET permet comme son nom l'indique de récupérer des informations en fonction de certains paramètres. 
- Le POST nécessite un envoi de données pour récupérer des données. Le body du post est, la plupart du temps, envoyé sous la forme d'un objet JSON.

Ces requêtes encapsulent un certain nombre de paramètres qui permettent soient d'identifier une provenance et un utilisateur ou de réaliser différentes actions.

---

HTTP 请求是基于 TCP 协议的请求，属于 OSI 模型的应用层。它允许访问 IP 地址（或通过 DNS 解析的 URL）和端口上提供的数据。

Web 中最常用的两个端口是 HTTP 站点的 80 端口和 HTTPS 站点的 443 端口。HTTPS 是基于 TLS 协议的 HTTP 协议变体。

根据 `REST` 约定，有多种类型的请求：
- GET
- POST
- PUT 
- DELETE
- UPDATE.

在我们的案例中，我们将主要使用 GET，可能也会使用 POST。
- 顾名思义，GET 允许根据某些参数检索信息。
- POST 需要发送数据以检索数据。POST 的主体通常以 JSON 对象的形式发送。

这些请求封装了许多参数，允许识别来源和用户或执行不同的操作。

In [1]:
import requests

In [2]:
url = "https://www.esiee.fr/"
response = requests.get(url)
response.status_code

200

Il existe deux méthodes pour récupérer le contenu de la page :

- `response.text` qui permet de retourner le texte sous la forme d'une chaine de charactères.
- `response.content` qui permet de récupérer le contenu de la page sous la forme de bytes

---

有两种方法可以检索页面内容：

- `response.text` 以字符串形式返回文本。
- `response.content` 以字节形式检索页面内容。

In [3]:
type(response.content)

bytes

In [4]:
type(response.text)

str

Pour récupérer les 1000 premiers charactères de la page :

---

要检索页面的前 1000 个字符：

In [5]:
response.text[0:1000]

'<!DOCTYPE html>\n<html lang="fr-FR">\n<head>\n\n<meta charset="utf-8">\n<!-- \n\tThis website is powered by TYPO3 - inspiring people to share!\n\tTYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.\n\tTYPO3 is copyright 1998-2025 of Kasper Skaarhoj. Extensions are copyright of their respective owners.\n\tInformation and contribution at https://typo3.org/\n-->\n\n\n\n<title>ESIEE Paris, l&#039;école de l&#039;innovation technologique | ESIEE Paris</title>\n<meta name="generator" content="TYPO3 CMS" />\n<meta name="description" content="Rejoignez ESIEE Paris, grande école d&#039;ingénieur dans les domaines des transitions numérique, énergétique et environnementale. Classée dans le groupe A, parmi les meilleures écoles d&#039;ingénieur selon le classement de l&#039;Etudiant. Habilitée par la Commission des Titres d&#039;Ingénieur (CTI). Membre de la Conférence des Grandes Ecoles (CGE). " />\n<meta name="viewport" conte

Pour récupérer les headers HTTP de la réponse :

---

要检索响应的 HTTP 标头：

In [7]:
response.headers

{'Date': 'Mon, 07 Oct 2024 19:47:47 GMT', 'Server': 'Apache', 'Content-Language': 'fr', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'X-UA-Compatible': 'IE=edge', 'X-Content-Type-Options': 'nosniff', 'Content-Length': '16326', 'Content-Type': 'text/html; charset=utf-8', 'X-Varnish': '106366047 107283725', 'Age': '14', 'Via': '1.1 varnish (Varnish/7.1)', 'Accept-Ranges': 'bytes', 'Connection': 'keep-alive'}

On peut modifier les paramètres de la requête et/ou ses headers. On peut par exemple ajouter un UserAgent (identifiant de l'initiateur de la requête) et un timeout de 10 secondes :

---

我们可以修改请求参数和/或其标头。例如，我们可以添加 UserAgent（请求发起者的标识符）和 10 秒的超时时间：

In [8]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers, timeout = 10)
response.content[0:1000]

b'<!DOCTYPE html>\n<html lang="fr-FR">\n<head>\n\n<meta charset="utf-8">\n<!-- \n\tThis website is powered by TYPO3 - inspiring people to share!\n\tTYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.\n\tTYPO3 is copyright 1998-2024 of Kasper Skaarhoj. Extensions are copyright of their respective owners.\n\tInformation and contribution at https://typo3.org/\n-->\n\n\n\n<title>ESIEE Paris, l&#039;\xc3\xa9cole de l&#039;innovation technologique | ESIEE Paris</title>\n<meta name="generator" content="TYPO3 CMS" />\n<meta name="description" content="Rejoignez ESIEE Paris, grande \xc3\xa9cole d&#039;ing\xc3\xa9nieur dans les domaines des transitions num\xc3\xa9rique, \xc3\xa9nerg\xc3\xa9tique et environnementale. Class\xc3\xa9e dans le groupe A, parmi les meilleures \xc3\xa9coles d&#039;ing\xc3\xa9nieur selon le classement de l&#039;Etudiant. Habilit\xc3\xa9e par la Commission des Titres d&#039;Ing\xc3\xa9nieur (CTI). Membr

## Exercice

## 练习

## Exercice 1

- Créer une classe Python permettant de faire des requêtes HTTP.
- Cette classe doit utiliser toujours le même UserAgent.
- Le TimeOut sera spécifié à chaque appelle avec une valeur par défaut.
- Un mécanisme de retry sera mis en place de façon recursive.

## Exercice 2

- Faire une fonction permettant de supprimer tous les espaces supperflus d'une string
- Faire une fonction qui prend une string html et renvois une string intelligible (enlever les caractères spéciaux,
- Récupérer le domaine en fonction d'un url

---

## 练习 1

- 创建一个允许发出 HTTP 请求的 Python 类。
- 该类必须始终使用相同的 UserAgent。
- TimeOut 将在每次调用时指定，并带有默认值。
- 将以递归方式建立重试机制。

## 练习 2

- 创建一个函数来删除字符串中所有多余的空格
- 创建一个函数，该函数接受 html 字符串并返回可理解的字符串（删除特殊字符，
- 根据 url 检索域名

In [None]:
# 练习 1: HTTP 请求类
import requests
import time
from typing import Optional

class HTTPRequester:
    """
    用于发出 HTTP 请求的类
    - 始终使用相同的 UserAgent
    - 支持自定义超时时间（带默认值）
    - 实现递归重试机制
    """
    
    def __init__(self, user_agent: str = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'):
        """
        初始化 HTTP 请求器
        
        Args:
            user_agent: 用户代理字符串，默认为 Chrome
        """
        self.user_agent = user_agent
        self.headers = {'User-Agent': self.user_agent}
    
    def get(self, url: str, timeout: int = 10, max_retries: int = 3, retry_delay: int = 1) -> Optional[requests.Response]:
        """
        发出 GET 请求，带有重试机制
        
        Args:
            url: 请求的 URL
            timeout: 超时时间（秒），默认 10 秒
            max_retries: 最大重试次数，默认 3 次
            retry_delay: 重试延迟（秒），默认 1 秒
            
        Returns:
            Response 对象或 None（如果所有重试都失败）
        """
        return self._get_with_retry(url, timeout, max_retries, retry_delay, current_attempt=1)
    
    def _get_with_retry(self, url: str, timeout: int, max_retries: int, retry_delay: int, current_attempt: int) -> Optional[requests.Response]:
        """
        递归重试机制
        
        Args:
            url: 请求的 URL
            timeout: 超时时间
            max_retries: 最大重试次数
            retry_delay: 重试延迟
            current_attempt: 当前尝试次数
            
        Returns:
            Response 对象或 None
        """
        try:
            print(f"尝试 {current_attempt}/{max_retries}...")
            response = requests.get(url, headers=self.headers, timeout=timeout)
            response.raise_for_status()  # 如果状态码不是 200，抛出异常
            print(f"成功！状态码: {response.status_code}")
            return response
        except (requests.RequestException, requests.Timeout) as e:
            print(f"请求失败: {str(e)}")
            
            if current_attempt < max_retries:
                print(f"等待 {retry_delay} 秒后重试...")
                time.sleep(retry_delay)
                # 递归调用
                return self._get_with_retry(url, timeout, max_retries, retry_delay, current_attempt + 1)
            else:
                print(f"已达到最大重试次数 ({max_retries})，放弃请求。")
                return None

# 测试练习 1
requester = HTTPRequester()
response = requester.get("https://www.esiee.fr/", timeout=10, max_retries=3)
if response:
    print(f"\n内容长度: {len(response.text)} 字符")
    print(f"前 200 个字符: {response.text[:200]}")


# 练习 2: 字符串处理函数
import re
from urllib.parse import urlparse
from html import unescape

def remove_extra_spaces(text: str) -> str:
    """
    删除字符串中所有多余的空格
    
    Args:
        text: 输入字符串
        
    Returns:
        清理后的字符串
    """
    # 将多个空格替换为单个空格
    text = re.sub(r'\s+', ' ', text)
    # 去除首尾空格
    return text.strip()

def clean_html_string(html_text: str) -> str:
    """
    将 HTML 字符串转换为可理解的文本字符串
    删除特殊字符和 HTML 标签
    
    Args:
        html_text: HTML 字符串
        
    Returns:
        清理后的文本
    """
    # 解码 HTML 实体（如 &nbsp; -> 空格）
    text = unescape(html_text)
    
    # 移除 script 和 style 标签及其内容
    text = re.sub(r'<script[^>]*>.*?</script>', '', text, flags=re.DOTALL | re.IGNORECASE)
    text = re.sub(r'<style[^>]*>.*?</style>', '', text, flags=re.DOTALL | re.IGNORECASE)
    
    # 移除所有 HTML 标签
    text = re.sub(r'<[^>]+>', '', text)
    
    # 移除特殊字符，保留字母、数字、基本标点和中文字符
    text = re.sub(r'[^\w\s\u4e00-\u9fff.,!?;:()\-\'"]+', '', text)
    
    # 删除多余的空格
    text = remove_extra_spaces(text)
    
    return text

def get_domain_from_url(url: str) -> str:
    """
    从 URL 中提取域名
    
    Args:
        url: 完整的 URL
        
    Returns:
        域名（netloc）
    """
    parsed_url = urlparse(url)
    return parsed_url.netloc

# 测试练习 2
print("\n=== 测试练习 2 ===\n")

# 测试 1: 删除多余空格
test_text = "这是   一个    有很多     空格的    字符串"
print(f"原始文本: '{test_text}'")
print(f"清理后: '{remove_extra_spaces(test_text)}'")

# 测试 2: 清理 HTML 字符串
html_test = """
<html>
    <head><title>测试页面</title></head>
    <body>
        <h1>这是标题</h1>
        <p>这是一段文本，包含 &nbsp; 特殊字符 &amp; 符号。</p>
        <script>alert('这应该被删除');</script>
    </body>
</html>
"""
print(f"\n原始 HTML:\n{html_test}")
print(f"\n清理后的文本: '{clean_html_string(html_test)}'")

# 测试 3: 提取域名
test_urls = [
    "https://www.esiee.fr/programmes/bachelor",
    "http://example.com:8080/path/to/page?query=value",
    "https://lemonde.fr/international/article.html"
]
print("\n域名提取:")
for url in test_urls:
    print(f"{url} -> {get_domain_from_url(url)}")

Ex1

In [None]:
class Requester:
    def __init__(self):
        self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
    
    def get(self, url, timeout: int = 10, max_retries: int = 3, retry_delay: int = 1):
        return self._getrec(url, timeout, max_retries, retry_delay, current_attempt=1)
    
    def _getrec(self, url, timeout, max_retries, retry_delay, current_attempt):
        try:
            print(f"尝试 {current_attempt}/{max_retries}...")
            response = requests.get(url, headers=self.headers, timeout=timeout)
            response.raise_for_status()  # 如果状态码不是 200，抛出异常
            print(f"成功！状态码: {response.status_code}")
            return response
        except (requests.RequestException, requests.Timeout) as e:
            print(f"请求失败: {str(e)}")
            
            if current_attempt < max_retries:
                print(f"等待 {retry_delay} 秒后重试...")
                time.sleep(retry_delay)
                return self._getrec(url, timeout, max_retries, retry_delay, current_attempt + 1)
            else:
                print(f"已达到最大重试次数 ({max_retries})，放弃请求。")
                return None


# Exploitation du HTML  

# HTML 利用

Ici, il faut récupérer le code HTML d'un site web à partir d'une requête. Lorsque vous avez récupéré le texte d'un site il faut le parser. Pour cela, on utilise BeautifulSoup qui permet de transformer la structure HTML en objet Python. Cela permet de récupérer efficacement les données qui nous intéresse.

Pour les webmasters, le blocage le plus souvent mis en place et un blocage sur le User-Agent. Le User-Agent est un paramètre intégré dans la requête HTTP réalisé par le Navigateur pour envoyer au front des informations basiques :

- la version du Navigateur,
- la version de l'OS
- Le type de gestionnaire graphique (Gecko)
- le type de device utilisé

---

在这里，我们需要从请求中检索网站的 HTML 代码。当您检索到网站的文本时，必须对其进行解析。为此，我们使用 BeautifulSoup，它允许将 HTML 结构转换为 Python 对象。这使我们可以有效地检索我们感兴趣的数据。

对于网站管理员来说，最常实施的阻止是对 User-Agent 的阻止。User-Agent 是浏览器发出的 HTTP 请求中集成的参数，用于向前端发送基本信息：

- 浏览器版本，
- 操作系统版本
- 图形管理器类型 (Gecko)
- 使用的设备类型

Exemple de User Agent :  

`Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0`

---

User Agent 示例：

`Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0`

Commençons à utiliser `BeautifulSoup`, il est normalement déjà installé, le cas échéant executez les lignes suivantes : 

---

让我们开始使用 `BeautifulSoup`，它通常已经安装，如果没有，请执行以下行：

In [9]:
import requests
from bs4 import BeautifulSoup

Pour transformer une requête (requests) en objet BeautifulSoup :

---

要将请求 (requests) 转换为 BeautifulSoup 对象：

In [10]:
response = requests.get(url)
soup = BeautifulSoup(response.text)

Pour trouver tous les liens d'une page, on récupère la balise `a` qui permet de gérer les liens en HTML :

---

要查找页面上的所有链接，我们检索允许在 HTML 中管理链接的 `a` 标签：

In [11]:
soup.find_all("a")[0:10]

[<a href="/#content">Aller au contenu</a>,
 <a href="/#menu">Aller au menu</a>,
 <a href="/plan-du-site/">Plan du site</a>,
 <a href="https://www.soltea.education.gouv.fr/espace-public/" rel="noreferrer" target="_blank" title="Ouvre une nouvelle fenêtre">Entreprises, soutenez nos élèves en fléchant votre taxe d'apprentissage avant le 25 octobre 2024 !</a>,
 <a href="/"><img alt="ESIEE PARIS" class="a42-ac-replace-img" src="/typo3conf/ext/esiee_sitepackage/Resources/Public/imgs/svg/logo-esiee.svg"/></a>,
 <a href="/brochures-1">Brochures</a>,
 <a href="/informations/etudiantes-et-etudiants">Espace élèves</a>,
 <a href="/" hreflang="fr-FR" title="Français">
 <span>Fr</span>
 </a>,
 <a href="/en/" hreflang="en-US" title="English">
 <span>En</span>
 </a>,
 <a href="/candidater-1">Candidater</a>]

On peut aussi préciser la classe HTML qu'on veut récupérer :

```python
soup.find_all(class_="<CLASS_NAME>")[0:10]
```

Ici par exemple: 

---

我们还可以指定我们要检索的 HTML 类：

```python
soup.find_all(class_="<CLASS_NAME>")[0:10]
```

例如这里：

In [12]:
soup.find_all(class_="toggler")[0:5]

[<button aria-controls="searchbox-header-form" aria-expanded="false" class="toggler">
 <i class="fa-solid fa-magnifying-glass"></i>
 <i class="fa-solid fa-xmark"></i>
 <span class="sr-only">
 <span class="display">Afficher</span><span class="hide">Masquer</span> la recherche
 		</span>
 </button>,
 <button aria-controls="submenu-40" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu : </span>L'école</button>,
 <button aria-controls="submenu-563" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu : </span>Gouvernance et conseils</button>,
 <button aria-controls="submenu-65" aria-expanded="false" class="toggler"><span class="sr-only"><span class="display">Afficher</span><span class="hide">Masquer</span> le sous menu : </span>Départements d'enseignements et de recherche</button>,
 <button aria-controls="su

Pour récupérer le text sans les balises HTML :

---

要检索不带 HTML 标签的文本：

In [13]:
soup.text[0:1000]

"\n\n\n\nESIEE Paris, l'école de l'innovation technologique | ESIEE Paris\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nAller au contenu\nAller au menu\nPlan du site\n\n\n\n\n\n\n\nEntreprises, soutenez nos élèves en fléchant votre taxe d'apprentissage avant le 25 octobre 2024 !\n\n\n\n\n\nMasquer l'alerte\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nBrochuresEspace élèves\n\n\n\nFr\n\n\n\n\nEn\n\n\n\n\n\n\n\n\n\nAfficherMasquer la recherche\r\n\t\t\n\n\n\nSaisissez votre recherche\xa0:\n\nLancer la recherche\n\n\n\nCandidater\n\nAfficherMasquer le menu\n\n\n\n\n\nRetour au menu principalAfficherMasquer le sous menu\xa0: L'écolePourquoi choisir ESIEE Paris ?AfficherMasquer le sous menu\xa0: Gouvernance et conseilsGouvernance et conseilsConseil scientifiqueAfficherMasquer le sous menu\xa0: Départements d'enseignements et de rechercheInformatique et télécommunicationsIngénierie des systèmes cyberphysiquesIngénierie industrielleSanté, énergie et environnement durableManagement, sciences humaines et 

## Exercice
### Exercice 3

Améliorer la classe développé précédemment.

- Ajouter une méthode pour récupérer l'objet soup d'un url
- Récupérer une liste de User Agent et effectuer une rotation aléatoire sur celui à utiliser
- Utiliser cette classe pour parser une page HTML et récupérer : le titre, tous les H1 (si ils existent), les liens vers les images, les liens sortants vers d'autres sites, et le texte principal.

---

## 练习
### 练习 3

改进之前开发的类。

- 添加一个方法来检索 url 的 soup 对象
- 检索 User Agent 列表并对要使用的 User Agent 执行随机轮换
- 使用此类解析 HTML 页面并检索：标题、所有 H1（如果存在）、图像链接、指向其他站点的出站链接以及主要文本。

# Exploitation des appels d'API

# API 调用利用

Losque le front du site récupère des données sur une API gérée par le back, un appel d'API est réalisé. Cet appel est recensé dans les appels réseaux. Il est alors possible de re-jouer cet appel pour récupérer à nouveau les données. Il est très facile de récupérer ces appels dans l'onglet Network de la console développeur de Chrome ou FireFox. La console vous permet de copier le code CURL de la requête et vous pouvez ensuite la transformer en code Python depuis le site https://curl.trillworks.com/.

Souvent les APIs sont bloquées avec certains paramètres. L'API vérifie que dans les headers de la requête HTTP ces paramètres sont présents :
* un token généré à la volée avec des protocoles OAuth2 (ou moins développés).
* un referer provenant du site web (la source de la requête), très facile à falsifier.

---

当站点前端从后端管理的 API 检索数据时，会进行 API 调用。此调用记录在网络调用中。然后可以重播此调用以再次检索数据。在 Chrome 或 FireFox 开发者控制台的 Network 选项卡中很容易检索这些调用。控制台允许您复制请求的 CURL 代码，然后您可以从 https://curl.trillworks.com/ 站点将其转换为 Python 代码。

API 通常会被某些参数阻止。API 验证 HTTP 请求标头中是否存在这些参数：
* 使用 OAuth2 协议（或开发程度较低的协议）动态生成的令牌。
* 来自网站（请求源）的 referer，很容易伪造。

## Exercice 
### Exercice 4

- Utiliser les informations développées plus haut pour récupérer les premiers résultats d'une recherche d'une requête
sur Google. 

Tips : 

- Ouvrir les outils de développements de Chrome ou Firefox
- Onglet Network
- Fouiller dans les requêtes pour voir à quoi ressemble un appel API Google
- Utilisez beautiful soup pour convertir le contenu de la request en objet et accéder aux balises

---

## 练习
### 练习 4

- 使用上面开发的信息来检索 Google 查询搜索的前几个结果。

提示：

- 打开 Chrome 或 Firefox 开发者工具
- Network 选项卡
- 搜索请求以查看 Google API 调用的样子
- 使用 beautiful soup 将请求内容转换为对象并访问标签

# Exercice Final  

# 最终练习

Exercice Final
Utilisez tout ce que vous avez appris pour récupérer des articles de News avec une catégorie. Il est souvent intéressant de partir des flux RSS pour commencer :

Les données doivent comprendre :
- Le texte important propre
- L'url
- Le domaine
- la catégorie
- Le titre de l'article
- Le titre de la page
- (Facultatif) : les images

Tips : 

- Taper le nom de votre média favoris + RSS (par exemple : https://www.lemonde.fr/rss/)
- Aller dans le DOM de la page 
- Trouver les catégories et les liens vers les articles

---

最终练习
使用您学到的所有知识来检索带有类别的文章新闻。从 RSS 提要开始通常很有趣：

数据必须包括：
- 干净的重要文本
- url
- 域名
- 类别
- 文章标题
- 页面标题
- （可选）：图像

提示：

- 输入您最喜欢的媒体名称 + RSS（例如：https://www.lemonde.fr/rss/）
- 进入页面 DOM
- 查找类别和文章链接