# 1. Rappel sur le protocole HTTP

Objectifs pédagogiques :
- Comprendre les principes fondamentaux du protocole HTTP
- Maîtriser les méthodes HTTP et les codes de réponse
- Savoir construire des requêtes web correctes

Concepts clés :
- HTTP (HyperText Transfer Protocol): Protocole de communication client-serveur utilisé pour transférer des ressources sur le Web
- Client: Votre application (navigateur, script Python, etc.)
- Serveur: Ordinateur distant qui fournit les données
- Requête HTTP: Demande du client au serveur (méthode, URL, headers, body)
- Réponse HTTP: Réponse du serveur au client (code statut, headers, body)

Méthodes HTTP courantes :
- GET: Récupérer une ressource (données, pages HTML, etc.) - SANS effet de bord
- POST: Envoyer des données au serveur pour créer une ressource - AVEC effet de bord
- PUT: Remplacer complètement une ressource existante
- DELETE: Supprimer une ressource
- PATCH: Modifier partiellement une ressource

Codes de statut HTTP :
* 2xx: Succès
  - 200 OK: Requête réussie
  - 201 Created: Ressource créée
* 3xx: Redirection
  - 301 Moved Permanently: Redirection permanente
  - 304 Not Modified: Contenu non modifié (cache)
* 4xx: Erreur du client
  - 400 Bad Request: Requête mal formée
  - 401 Unauthorized: Authentification requise
  - 404 Not Found: Ressource non trouvée
* 5xx: Erreur du serveur
  - 500 Internal Server Error: Erreur serveur

Structure d'une URL :

  https://jsonplaceholder.typicode.com/posts/1

     |      |                                 |
    Schéma Domaine (host)                   Chemin (path)

https://user:pass@example.com:8080/path?key=value#fragment

       |          |         |    |        |         |
    Credentials   Host    Port  Path   Paramètres  Ancre

Exemples d'URL :
- https://example.com : Schéma HTTPS, domaine example.com
- https://api.example.com/users/123 : API REST, ressource utilisateur
- https://example.com/search?q=python : Requête avec paramètres

# 2. Requêtes simples avec Requests

Objectifs pédagogiques :
- Installer et utiliser la bibliothèque Requests
- Effectuer des requêtes HTTP GET simples
- Interpréter les réponses et les codes de statut

Concepts clés :
- requests: Bibliothèque Python pour effectuer des requêtes HTTP facilement
- Response object: Objet retourné par les requêtes contenant statut, headers, body
- JSON API: API retournant des données au format JSON (très courante)
- status_code: Code numérique indiquant si la requête a réussi
- .json(): Méthode pour parser automatiquement le contenu JSON

Workflow typique :
1. Importer `requests`
2. Construire l'URL
3. Effectuer la requête avec `requests.get()` (ou POST, PUT, etc.)
4. Vérifier le code de statut
5. Parser la réponse (.json(), .text, .content)

In [2]:
%pip install requests

Collecting requests
  Downloading requests-2.32.5-py3-none-any.whl.metadata (4.9 kB)
Collecting charset_normalizer<4,>=2 (from requests)
  Downloading charset_normalizer-3.4.4-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (37 kB)
Collecting idna<4,>=2.5 (from requests)
  Downloading idna-3.11-py3-none-any.whl.metadata (8.4 kB)
Collecting urllib3<3,>=1.21.1 (from requests)
  Using cached urllib3-2.6.3-py3-none-any.whl.metadata (6.9 kB)
Collecting certifi>=2017.4.17 (from requests)
  Downloading certifi-2026.1.4-py3-none-any.whl.metadata (2.5 kB)
Downloading requests-2.32.5-py3-none-any.whl (64 kB)
Downloading certifi-2026.1.4-py3-none-any.whl (152 kB)
Downloading charset_normalizer-3.4.4-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl (153 kB)
Downloading idna-3.11-py3-none-any.whl (71 kB)
Using cached urllib3-2.6.3-py3-none-any.whl (131 kB)
Installing collected packages: urllib3, idna, charset_n

In [3]:
import requests

# ===== EFFECTUER UNE REQUÊTE GET =====
# jsonplaceholder.typicode.com: API publique gratuite pour tester (JSONPlaceholder)
# /posts/1: Ressource spécifique (post avec ID 1)
url = 'https://jsonplaceholder.typicode.com/posts/1'

# requests.get() envoie une requête HTTP GET au serveur
# Cette fonction BLOQUE jusqu'à recevoir une réponse du serveur
response = requests.get(url)

# ===== ANALYSER LA RÉPONSE =====
# response.status_code: Code numérique du statut (200 = succès, 404 = non trouvé, etc.)
print('Statut de la requête:', response.status_code)

# Vérification du succès (optionnelle mais recommandée)
if response.status_code == 200:
    print('✓ Requête réussie!')
else:
    print(f'✗ Erreur {response.status_code}')

# response.json() parse automatiquement le contenu JSON
# Retourne des types Python natifs (dict, list, str, int, bool, None)
print('Contenu JSON:', response.json())

# ===== ACCÉDER AUX DONNÉES PARSÉES =====
# Depuis que response.json() retourne un dictionnaire Python
data = response.json()
print(f"\nID du post: {data['id']}")
print(f"Titre: {data['title']}")
print(f"Contenu: {data['body'][:50]}...")  # Premiers 50 caractères

# ===== NOTES IMPORTANTES =====
# 1. requests.get() bloque l'exécution en attendant la réponse
# 2. TOUJOURS vérifier le status_code avant de traiter les données
# 3. response.json() lève une exception si le contenu n'est pas JSON valide
# 4. Alternatives à .json():
#    - .text: Retourne le contenu brut en string
#    - .content: Retourne le contenu brut en bytes
#    - .headers: Dictionnaire des headers de réponse
# 5. Timeouts: requests.get(url, timeout=5) pour éviter de bloquer indéfiniment
# 6. Headers personnalisés: requests.get(url, headers={'User-Agent': 'Mon App'})
# 7. Paramètres de requête: requests.get(url, params={'key': 'value'})

Statut de la requête: 200
Contenu JSON: {'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}


# 3. Stocker les données avec SQLAlchemy

Objectifs pédagogiques :
- Comprendre le concept d'ORM (Object-Relational Mapping)
- Maîtriser la création et utilisation de modèles SQLAlchemy
- Effectuer les opérations CRUD (Create, Read, Update, Delete) en base de données
- Travailler avec SQLite pour un stockage persistant

Concepts clés :
- ORM (Object-Relational Mapping): Technique pour convertir les objets Python en lignes de base de données
- SQLAlchemy: Bibliothèque Python puissante pour interagir avec les bases de données
- SQLite: Base de données légère, fichier local (parfait pour apprentissage)
- Session: Objet de gestion des transactions avec la base de données
- Modèle: Classe Python représentant une table de la base de données
- Column: Champ d'une table avec type et propriétés
- Primary Key: Identifiant unique pour chaque ligne

Types SQLAlchemy courants :
- Integer : Nombre entier
- String(100) : Texte limité à 100 caractères
- Text : Texte long (illimité)
- Float : Nombre décimal
- Boolean : Vrai/Faux
- DateTime : Date et heure

Workflow CRUD :
1. Create: Créer et insérer une nouvelle ligne
2. Read: Lire/récupérer des lignes
3. Update: Modifier une ligne existante
4. Delete: Supprimer une ligne

In [4]:
%pip install sqlalchemy

Collecting sqlalchemy
  Downloading sqlalchemy-2.0.46-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (9.5 kB)
Collecting greenlet>=1 (from sqlalchemy)
  Downloading greenlet-3.3.1-cp313-cp313-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (3.7 kB)
Collecting typing-extensions>=4.6.0 (from sqlalchemy)
  Downloading typing_extensions-4.15.0-py3-none-any.whl.metadata (3.3 kB)
Downloading sqlalchemy-2.0.46-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl (3.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.3/3.3 MB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hDownloading greenlet-3.3.1-cp313-cp313-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (612 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m612.9/612.9 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading typing_extensions-4.15.0-py3-none-any.whl (44 kB)
Installing colle

In [7]:
from sqlalchemy import create_engine, Column, Integer, String, Text
from sqlalchemy.orm import sessionmaker, declarative_base

# ===== CONFIGURATION DE LA BASE DE DONNÉES =====
# create_engine() crée une connexion à la base de données
# 'sqlite:///web_data2.db' : utilise SQLite, fichier local web_data2.db
# echo=False : ne pas afficher les requêtes SQL exécutées (True pour déboguer)
Base = declarative_base()
engine = create_engine('sqlite:///web_data2.db', echo=False)

# Session: Objet pour gérer les transactions (ajouter, modifier, supprimer)
Session = sessionmaker(bind=engine)
session = Session()

# ===== DÉFINIR UN MODÈLE =====
# Un modèle est une classe Python représentant une table en base de données
# Chaque attribut = une colonne, chaque instance = une ligne
class Post(Base):
    __tablename__ = 'posts'  # Nom de la table en base de données

    # Colonnes avec leurs types et propriétés
    id = Column(Integer, primary_key=True)  # Primary key: identifiant unique
    title = Column(String(200))              # String limité à 200 caractères
    body = Column(Text)                      # Text: contenu long illimité

# ===== CRÉER LES TABLES =====
# Base.metadata.create_all(engine) crée toutes les tables définies par les modèles
# Si les tables existent déjà, ne fait rien
Base.metadata.create_all(engine)
print("✓ Table 'posts' créée (ou déjà existante)")

# ===== INSÉRER DES DONNÉES (CREATE) =====
# Récupérer les données JSON de la requête précédente
post_data = response.json()

# Créer une nouvelle instance de Post
# Les valeurs correspondent aux colonnes définies
post = Post(
    id=post_data['id'],           # Integer
    title=post_data['title'],     # String
    body=post_data['body']        # Text
)

# session.add() : Ajouter l'objet à la session (pas encore en base)
session.add(post)
# session.commit() : Valider la transaction (écrire en base)
session.commit()
print("✓ Post inséré en base de données")

# ===== LIRE LES DONNÉES (READ) =====
# session.query() : Construire une requête
# Post : Requêter la table/modèle Post
# .first() : Récupérer la première ligne (ou None)
stored_post = session.query(Post).first()

print('\nPost stocké en base:')
print(f'ID: {stored_post.id}, Titre: {stored_post.title}')

# ===== NOTES IMPORTANTES =====
# 1. Toujours appeler session.commit() après insert/update/delete
# 2. session.query() retourne un objet QueryBuilder (peut être modifié)
# 3. Autres méthodes de récupération:
#    - .all(): Récupérer TOUS les résultats (liste)
#    - .first(): Premier résultat (ou None)
#    - .filter(): Ajouter une condition WHERE
#    - .count(): Nombre de résultats
# 4. Fermer la session : session.close()
# 5. Alternatives à SQLAlchemy: peewee, tortoise-orm (async)


Post stocké en base:
ID: 1, Title: sunt aut facere repellat provident occaecati excepturi optio reprehenderit


# 4. Analyser du HTML avec BeautifulSoup

Objectifs pédagogiques :
- Comprendre la structure du HTML et les balises
- Maîtriser BeautifulSoup pour extraire des données de pages web
- Utiliser les sélecteurs CSS et les navigateurs d'arbre
- Développer des techniques de web scraping responsable

Concepts clés :
- HTML: Format de balisage pour structurer le contenu web
- BeautifulSoup: Bibliothèque Python pour parser et analyser du HTML/XML
- Parser: Convertit une chaîne HTML en arborescence navigable
- Tag: Élément HTML comme `<div>`, `<p>`, `<a>`
- Sélecteurs CSS: Méthodes pour cibler des éléments (ex: `.class`, `#id`, `tag > child`)
- Web scraping: Extraction automatisée de données de pages web

Structure HTML de base :
```html
<html>
  <head>
    <title>Titre de la page</title>
  </head>
  <body>
    <div class="container">
      <h1 id="header">Titre principal</h1>
      <p>Paragraphe</p>
      <a href="https://example.com">Lien</a>
    </div>
  </body>
</html>
```

Sélecteurs CSS courants :
- tag : Sélectionner par nom de balise
- .class : Sélectionner par classe CSS
- #id : Sélectionner par ID unique
- parent > child : Enfant direct
- ancestor descendant : Tout descendant
- tag[attr="value"] : Sélectionner par attribut

Éthique du web scraping :
1. Respecter les conditions d'utilisation du site
2. Vérifier le `robots.txt` et la politique de scraping
3. Ne pas surcharger le serveur (délai entre requêtes)
4. S'identifier clairement avec un User-Agent
5. Préférer les APIs officielles si disponibles

In [8]:
%pip install beautifulsoup4

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.14.3-py3-none-any.whl.metadata (3.8 kB)
Collecting soupsieve>=1.6.1 (from beautifulsoup4)
  Downloading soupsieve-2.8.3-py3-none-any.whl.metadata (4.6 kB)
Downloading beautifulsoup4-4.14.3-py3-none-any.whl (107 kB)
Downloading soupsieve-2.8.3-py3-none-any.whl (37 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.14.3 soupsieve-2.8.3

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m26.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [9]:
from bs4 import BeautifulSoup

# ===== CONTENU HTML EXEMPLE =====
# HTML brut à analyser (simule le contenu d'une page web)
html_content = '''<html>
<head>
    <title>Exemple de page</title>
</head>
<body>
    <h1>Hello World!</h1>
    <div class="container">
        <p class="intro">Ceci est une introduction.</p>
        <p>Ceci est un paragraphe normal.</p>
        <a href="https://example.com">Cliquez ici</a>
    </div>
</body>
</html>'''

# ===== CRÉER UN OBJET BEAUTIFULSOUP =====
# BeautifulSoup() parse le HTML en arborescence navigable
# 'html.parser' : parseur Python natif (simple, efficace)
# Alternatives: 'lxml' (rapide), 'html5lib' (stricte)
soup = BeautifulSoup(html_content, 'html.parser')

# ===== EXTRACTION SIMPLE =====
# Accéder directement à une balise par son nom
# soup.title retourne le premier élément <title>
print('\n=== EXTRACTION SIMPLE ===')
print('Titre HTML:', soup.title.text)  # .text récupère le contenu texte

# soup.h1 retourne le premier <h1>
print('Texte H1:', soup.h1.text)

# ===== EXTRACTION AVEC FIND() =====
# .find('tag') retourne le PREMIER élément avec ce tag
print('\n=== RECHERCHE AVEC FIND() ===')

# Trouver le premier paragraphe
first_p = soup.find('p')
print('Premier <p>:', first_p.text)

# Trouver le premier lien
link = soup.find('a')
# .get('attr') ou ['attr'] pour accéder aux attributs HTML
print('Attribut href du lien:', link.get('href'))

# ===== EXTRACTION AVEC FIND_ALL() =====
# .find_all('tag') retourne une LISTE de tous les éléments
print('\n=== RECHERCHE AVEC FIND_ALL() ===')

# Trouver TOUS les paragraphes
all_p = soup.find_all('p')
print(f'Nombre de <p>: {len(all_p)}')
for i, p in enumerate(all_p, 1):
    print(f'  P{i}: {p.text}')

# ===== SÉLECTION PAR CLASSE CSS =====
# .find('tag', class_='classe') ou soup.find_all('tag', class_='classe')
print('\n=== SÉLECTION PAR CLASSE ===')
container = soup.find('div', class_='container')
print('Contenu du container:', container.text.strip()[:50] + '...')

# Trouver éléments avec classe spécifique
intro = soup.find('p', class_='intro')
print('Élément avec classe "intro":', intro.text)

# ===== NAVIGATION DANS L'ARBORESCENCE =====
print('\n=== NAVIGATION ARBORESCENTE ===')

# .parent : parent de l'élément
p_tag = soup.find('p')
parent = p_tag.parent
print(f'Parent de <p>: <{parent.name}>')  # .name : nom de la balise

# .children : enfants (itérateur)
# .contents : enfants (liste)
div = soup.find('div')
print(f'Nombre d\'enfants du <div>: {len(list(div.children))}')

# ===== FILTRER AVEC ATTRIBUTS =====
print('\n=== FILTRAGE PAR ATTRIBUT ===')

# Trouver un élément avec un attribut spécifique
# attrs est un dictionnaire d'attributs
link_with_href = soup.find('a', attrs={'href': 'https://example.com'})
print(f'Lien trouvé: {link_with_href.text}')

# ===== NOTES IMPORTANTES =====
# 1. .find() retourne le PREMIER résultat (ou None)
# 2. .find_all() retourne une LISTE (peut être vide)
# 3. .text ou .get_text() : obtenir le contenu texte
# 4. .name : obtenir le nom de la balise
# 5. .attrs ou ['attr'] : accéder aux attributs HTML
# 6. .parent, .children, .contents, .next_sibling, .previous_sibling
# 7. Sélecteurs CSS avancés: soup.select('.class > p') (nécessite lxml)
# 8. Données structurées: utiliser .find_all() + boucles for
# 9. Gestion des erreurs: vérifier que l'élément existe avant d'accéder
# 10. Performance: BeautifulSoup est lent pour gros volumes, utiliser lxml ou selenium




Titre HTML: Exemple
Texte H1: Hello World!
