# Module 27: Web Scraping Ethics
## Module 27 : Éthique du Web Scraping

## 1. Why This Matters / 1. Pourquoi c'est important
- **English:** Scraping responsibly prevents server overload, respects site rules, and avoids legal issues.
- **Français :** Scraper de manière responsable évite de surcharger les serveurs, respecte les règles du site, et prévient les problèmes juridiques.

## 2. Spaced & Interleaved Review / 2. Révision espacée et mélangée
- **Flash-back:** What library do we use to parse HTML? / Quelle bibliothèque utilisons-nous pour parser le HTML ?
- **Interleaving:** How could you add a delay in a scraping loop? / Comment ajouter une pause dans une boucle de scraping ?

## 3. Quick Quiz / 3. Quiz rapide
1. True or False: You must always check `robots.txt` before scraping. / Vrai ou Faux : Vous devez toujours vérifier `robots.txt` avant de scraper.
2. What HTTP status code shows too many requests? / Quel code HTTP indique trop de requêtes ?
3. Name one tool to respect rate limits in Python. / Nommez un outil pour respecter les limites de débit en Python.
4. True or False: Scraping behind a login without permission is legal. / Vrai ou Faux : Scraper un site authentifié sans permission est légal.

## 4. Learning Objectives / 4. Objectifs d'apprentissage
By the end, you can: / À la fin, vous pourrez :
- Read and respect `robots.txt` rules. / Lire et respecter les règles de `robots.txt`.
- Implement rate limiting to avoid overload. / Mettre en place des limites de débit pour éviter la surcharge.
- Understand basic legal considerations. / Comprendre les considérations légales de base.
- Apply ethical scraping best practices. / Appliquer les meilleures pratiques d'éthique de scraping.

## 5. Core Content / 5. Contenu principal
- **robots.txt**:
  ```python
  import requests
  from urllib.robotparser import RobotFileParser

  rp = RobotFileParser()
  rp.set_url('https://example.com/robots.txt')
  rp.read()
  can_fetch = rp.can_fetch('*', 'https://example.com/page')
  ```
- **Rate limiting**:
  ```python
  import time
  for url in urls:
      fetch(url)
      time.sleep(1)  # wait 1 second between requests
  ```
- **Error handling**: catch HTTP 429 and backoff.
- **Legal considerations**:
  - Terms of Service (ToS) of sites. / Conditions d'utilisation du site.
  - Copyright and privacy laws. / Lois sur le droit d'auteur et la vie privée.
  - Use APIs when available. / Utiliser les API quand possible.

## 6. Starter Code (Incomplete) / 6. Code de démarrage (incomplet)
Complete the TODOs to check `robots.txt` and add rate limiting. / Complétez les TODO pour vérifier `robots.txt` et ajouter des limites de débit.

In [None]:
# ethics_starter.py
import time
from urllib.robotparser import RobotFileParser
import requests

rp = RobotFileParser()
rp.set_url('https://example.com/robots.txt')
rp.read()

urls = ['https://example.com/page1', 'https://example.com/page2']
for url in urls:
    # TODO: check if scraping is allowed rp.can_fetch
    # TODO: fetch page with requests.get
    # TODO: wait 2 seconds before next request
    pass


## 7. Hands-On Project: Ethical Scraper / 7. Projet pratique : Scraper éthique
- **Description:** Write a script that:
  1. Reads `robots.txt` of a site.
  2. Scrapes pages listed in a list only if allowed.
  3. Applies a delay of 1 second between requests.
  4. Logs skipped URLs and fetched URLs.
- **Rubric / Barème:**
  - `robots.txt` compliance: 30% / Respect de `robots.txt` : 30%
  - Rate limiting implementation: 30% / Mise en place des limites : 30%
  - Logging of actions: 20% / Journalisation des actions : 20%
  - Code clarity & comments: 20% / Clarté du code et commentaires : 20%

## 8. Stretch Tasks / 8. Tâches supplémentaires
- Implement exponential backoff on 429 errors. / Mettre en place un backoff exponentiel sur les erreurs 429.
- Add header delays and random user-agent rotation. / Ajouter des délais d'en-tête et rotation d'User-Agent.
- Create a report of all scraped URLs and status codes. / Créer un rapport de toutes les URL scrapées et leurs codes.

## 9. Reflection / 9. Réflexion
- **Summary:** Why is `robots.txt` important? / Pourquoi `robots.txt` est-il important ?
- **Muddiest point:** Any legal terms unclear? / Des termes juridiques peu clairs ?

## 10. Resources / 10. Ressources
- https://www.robotstxt.org/
- https://docs.python.org/3/library/urllib.robotparser.html
- https://developers.google.com/search/docs/advanced/robots/intro
- https://realpython.com/python-web-scraping-practical-introduction/