# Définition

Le **web scraping** consiste à écrire un programme qui va visiter une ou plusieurs pages web, analyser le contenu HTML, et extraire des données spécifiques (ex : titres, prix, images, liens, etc.).

# Web Scraping, légal ?

La légalité du **web scraping** dépend du contexte, du pays, et des conditions d’utilisation du site ciblé. Voici les points essentiels à connaître :

---

### ✅ **Quand le web scraping est légal :**

* **Sites publics sans restrictions explicites** : Si les données sont accessibles librement, sans connexion ni verrou, et que le site ne l’interdit pas explicitement dans ses conditions d’utilisation (CGU), le scraping est généralement autorisé.
* **Respect du fichier `robots.txt`** : Ce fichier indique ce que le site autorise ou interdit aux robots. Respecter ces règles est une bonne pratique recommandée (mais pas toujours une obligation légale stricte).
* **Usage non commercial et respectueux** : Extraire des données pour un usage personnel, pédagogique, ou scientifique est souvent toléré, surtout si le scraping ne surcharge pas le serveur.

---

### ❌ **Quand le web scraping est illégal ou risqué :**

* **Violation des CGU du site** : Si le site interdit explicitement le scraping dans ses conditions d’utilisation, scraper peut être considéré comme une violation contractuelle.
* **Accès non autorisé ou contournement de protections** : Scraper des contenus protégés par authentification, payants, ou utiliser des techniques pour masquer l’identité (proxy, user-agent falsifié) peut être illégal (ex : violation du Computer Fraud and Abuse Act aux USA).
* **Atteinte à la vie privée ou aux données personnelles** : Scraper des données personnelles sans consentement peut violer le RGPD (en Europe) ou d’autres lois sur la protection des données.
* **Surcharge ou attaque** : Effectuer des requêtes trop fréquentes peut être considéré comme une attaque (DoS) ou une nuisance.

---


### 📝 En résumé :

| **Condition**                                 | **Légalité probable**            |
| --------------------------------------------- | -------------------------------- |
| Site public, données non personnelles         | Généralement légal               |
| Respect des CGU et `robots.txt`               | Recommandé et souvent nécessaire |
| Données personnelles sans consentement        | Risqué et souvent illégal        |
| Contournement de protections (login, captcha) | Illégal                          |
| Usage abusif ou surcharge serveur             | Illégal                          |

---

### Conseils pratiques :

* Toujours lire les **conditions d’utilisation** du site.
* Favoriser les **API officielles** si disponibles.
* Limiter la fréquence des requêtes pour ne pas surcharger le site.
* Éviter de scraper des données personnelles sensibles.
* En cas de doute, consulter un **juriste spécialisé**.

---

# Librairies pour webscraping

## 1. **Requests**

### Fonctionnement :

Requests est une librairie Python simple et puissante pour **faire des requêtes HTTP** (GET, POST, etc.).

* Elle permet de récupérer le contenu brut d’une page web (le code HTML) en envoyant une requête à l’URL cible.
* Exemple : télécharger la page HTML d’une URL.

### Particularité :

* Ne comprend pas ni n’interprète le contenu, elle se contente de récupérer les données brutes.
* Très légère, facile à utiliser.
* Ne gère pas le JavaScript dynamique (pages où le contenu s’affiche après chargement JS).

---

## 2. **BeautifulSoup**

### Fonctionnement :

BeautifulSoup est une librairie de **parsing HTML/XML**.

* Elle prend en entrée le code HTML (souvent récupéré via Requests) et le transforme en un **arbre d’objets Python** faciles à manipuler.
* Permet de naviguer dans l’arbre DOM, rechercher des balises, extraire du texte, des attributs (ex : liens, images, titres).

### Particularité :

* Très intuitive et flexible pour extraire précisément les éléments ciblés dans le HTML.
* Fonctionne sur le contenu HTML statique (ce qui est dans le code source).
* Combine parfaitement avec Requests pour un scraping simple.

---

## 3. **Selenium**

### Fonctionnement :

Selenium est un outil d’**automatisation de navigateur web**.

* Il pilote un vrai navigateur (Chrome, Firefox, etc.) ou un navigateur sans interface graphique (headless).
* Charge les pages comme un utilisateur réel, ce qui permet de gérer le contenu **chargé dynamiquement via JavaScript**.
* Permet aussi d’interagir avec la page (cliquer sur des boutons, remplir des formulaires).

### Particularité :

* Indispensable pour scraper des sites avec **contenu dynamique ou protégé par JS**.
* Plus lourd et lent que Requests + BeautifulSoup car il ouvre un navigateur complet.
* Permet de simuler une navigation humaine.

---

## Synthèse rapide :

| Librairie         | Rôle principal                         | Utilisation type                       | Points forts                  | Limitations                    |
| ----------------- | -------------------------------------- | -------------------------------------- | ----------------------------- | ------------------------------ |
| **Requests**      | Récupérer le code HTML d’une page      | Accès aux pages statiques              | Simple, rapide                | Pas d’exécution JS             |
| **BeautifulSoup** | Parser et extraire des données du HTML | Extraction ciblée sur contenu statique | Flexible, intuitive           | Ne traite pas le JS            |
| **Selenium**      | Automatiser un vrai navigateur         | Scraping de sites dynamiques           | Gère JavaScript, interaction  | Lourd, plus lent               |

---

# Exemples avec https://quotes.toscrape.com

In [15]:
!pip install requests beautifulsoup4 




[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: c:\Users\Dell\AppData\Local\Programs\Python\Python39\python.exe -m pip install --upgrade pip


In [20]:
import requests
from bs4 import BeautifulSoup

url = "https://quotes.toscrape.com"
response = requests.get(url)
# response.text
soup = BeautifulSoup(response.text, "html.parser")
# soup.find_all("div", class_="quote")
# # Extraire les citations et auteurs
for quote in soup.find_all("div", class_="quote"):
    texte = quote.find("span", class_="text").text
    auteur = quote.find("small", class_="author").text
    print(f"{texte} — {auteur}")

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.” — Albert Einstein
“It is our choices, Harry, that show what we truly are, far more than our abilities.” — J.K. Rowling
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.” — Albert Einstein
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.” — Jane Austen
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.” — Marilyn Monroe
“Try not to become a man of success. Rather become a man of value.” — Albert Einstein
“It is better to be hated for what you are than to be loved for what you are not.” — André Gide
“I have not failed. I've just found 10,000 ways that won't work.” — Thomas A. Edison
“A woman is like a tea bag; you never know how strong it is until it's in hot water.” — Eleanor Roos

In [21]:
page = 1
while True:
    url = f"https://quotes.toscrape.com/page/{page}/"
    response = requests.get(url)
    if "No quotes found!" in response.text:
        break

    soup = BeautifulSoup(response.text, "html.parser")
    print(f"\n📄 Page {page}")
    for quote in soup.find_all("div", class_="quote"):
        texte = quote.find("span", class_="text").text
        auteur = quote.find("small", class_="author").text
        print(f"{texte} — {auteur}")
    
    page += 1



📄 Page 1
“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.” — Albert Einstein
“It is our choices, Harry, that show what we truly are, far more than our abilities.” — J.K. Rowling
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.” — Albert Einstein
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.” — Jane Austen
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.” — Marilyn Monroe
“Try not to become a man of success. Rather become a man of value.” — Albert Einstein
“It is better to be hated for what you are than to be loved for what you are not.” — André Gide
“I have not failed. I've just found 10,000 ways that won't work.” — Thomas A. Edison
“A woman is like a tea bag; you never know how strong it is until it's in hot water.” — El

In [12]:
!pip install selenium

Collecting fake-useragent
  Downloading fake_useragent-2.2.0-py3-none-any.whl.metadata (17 kB)
Collecting cloudscraper
  Downloading cloudscraper-1.2.71-py2.py3-none-any.whl.metadata (19 kB)
Collecting playwright
  Downloading playwright-1.54.0-py3-none-win_amd64.whl.metadata (3.5 kB)
Collecting requests-toolbelt>=0.9.1 (from cloudscraper)
  Downloading requests_toolbelt-1.0.0-py2.py3-none-any.whl.metadata (14 kB)
Collecting greenlet<4.0.0,>=3.1.1 (from playwright)
  Downloading greenlet-3.2.3-cp39-cp39-win_amd64.whl.metadata (4.2 kB)
Downloading fake_useragent-2.2.0-py3-none-any.whl (161 kB)
Downloading cloudscraper-1.2.71-py2.py3-none-any.whl (99 kB)
Downloading playwright-1.54.0-py3-none-win_amd64.whl (35.5 MB)
   ---------------------------------------- 0.0/35.5 MB ? eta -:--:--
   -- ------------------------------------- 2.6/35.5 MB 13.7 MB/s eta 0:00:03
   ----- ---------------------------------- 4.7/35.5 MB 11.4 MB/s eta 0:00:03
   ------- -------------------------------- 6.6/35


[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: c:\Users\Dell\AppData\Local\Programs\Python\Python39\python.exe -m pip install --upgrade pip


In [26]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("https://quotes.toscrape.com/js/")

quotes = driver.find_elements(By.CLASS_NAME, "quote")
# quotes
for q in quotes:
    print(q.text)
    print("\n")

driver.quit()


“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
by Albert Einstein
Tags: change deep-thoughts thinking world


“It is our choices, Harry, that show what we truly are, far more than our abilities.”
by J.K. Rowling
Tags: abilities choices


“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
by Albert Einstein
Tags: inspirational life live miracle miracles


“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
by Jane Austen
Tags: aliteracy books classic humor


“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
by Marilyn Monroe
Tags: be-yourself inspirational


“Try not to become a man of success. Rather become a man of value.”
by Albert Einstein
Tags: adulthood success value


“It is better to be hated for what you are than to b

## https://books.toscrape.com/catalogue/page-{2}.html

In [28]:
import csv
from bs4 import BeautifulSoup
import requests

base_url = "https://books.toscrape.com/catalogue/page-{}.html"
livres = []

for page in range(1, 6):
    url = base_url.format(page)
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    
    articles = soup.find_all("article")
    
    for article in articles:
        titre = article.h3.a["title"]
        prix = article.find("p", class_="price_color").text[1:]
        stock = article.find("p", class_="instock availability").text.strip()
        livres.append([titre, prix, stock])

# Sauvegarder en CSV
with open("livres.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(["Titre", "Prix", "Stock"])
    writer.writerows(livres)

print("✅ Données sauvegardées dans livres.csv")


✅ Données sauvegardées dans livres.csv
