# üìö Projet ‚Äì Books to Scrape

## ‚è±Ô∏è Temps Estim√© : **300 minutes (5 heures)**

Ce projet vous guidera dans la cr√©ation d‚Äôun **web scraper** pour le site [Books to Scrape](https://books.toscrape.com/). Il est con√ßu comme un exercice pratique pour s‚Äôentra√Æner avec **Python, requests, Pandas et l‚Äôanalyse de donn√©es**.

## üéØ Contexte

L‚Äô√©quipe marketing d‚Äôune librairie en ligne souhaite mieux comprendre son catalogue. Elle veut collecter des informations sur tous les livres, analyser les cat√©gories, les prix, les notes et la disponibilit√© en stock.

En tant que data scientist, votre mission est de **scraper le site web** et de livrer des jeux de donn√©es structur√©s ainsi que des premiers insights.

## ‚úÖ Objectifs

1. Scraper le site [Books to Scrape](https://books.toscrape.com/)
2. Extraire pour chaque livre :
   - Titre
   - Prix
   - Disponibilit√© en stock
   - Note
   - URL du produit
   - URL de l‚Äôimage
   - UPC
   - Cat√©gorie
3. G√©rer la **pagination** sur toutes les pages
4. Sauvegarder les r√©sultats dans **un CSV par cat√©gorie**
5. T√©l√©charger les images des couvertures de livres dans des dossiers par cat√©gorie


## üì¶ Livrables

- Fichiers CSV : `outputs/csv/category_<slug>.csv`
- Images : `outputs/images/<category>/<upc>_<slug-title>.jpg`
- Optionnel : Un notebook de nettotage et d‚Äôexploration qui analyse les prix, notes et stocks avec Pandas et Quelques visualisation √† r√©aliser avec les packages que vous pr√©f√©r√©.

## üõ† √âtapes sugg√©r√©es

1. Commencez par scraper **une page produit** et extraire les champs demand√©s
2. √âtendez votre code √† **une cat√©gorie** (gestion de plusieurs pages)
3. G√©n√©ralisez votre scraper √† **toutes les cat√©gories**
4. Sauvegardez les r√©sultats dans des fichiers CSV
5. √âtendez le scraper pour aussi **t√©l√©charger les images**
6. (Optionnel) Explorez le dataset avec Pandas (prix moyen par cat√©gorie, distribution des notes, etc.)

# üõ† √âtapes d√©taill√©es

## üü¢ Phase 1 ‚Äì Construire pas √† pas (dans un seul script au d√©but)
1. **R√©cup√©rer une page** ‚Üí utiliser `requests` pour t√©l√©charger le HTML.  
2. **Extraire les titres** ‚Üí avec `Selector`, r√©cup√©rer les noms des livres sur la page d‚Äôaccueil.  
3. **Extraire les d√©tails** ‚Üí ouvrir la page d‚Äôun livre et extraire :
   - titre  
   - prix  
   - disponibilit√© en stock  
   - note (rating)  
   - UPC  
   - **URL de l‚Äôimage** (utiliser `.css("img::attr(src)")` + `urljoin` pour obtenir le lien absolu)  
4. **G√©rer une cat√©gorie** ‚Üí collecter toutes les URLs de livres dans une page de cat√©gorie.  
5. **G√©rer plusieurs pages** ‚Üí suivre le bouton `"li.next a"` jusqu‚Äô√† ce qu‚Äôil n‚Äôy en ait plus.  
6. **Sauvegarder les r√©sultats** ‚Üí √©crire les r√©sultats dans un fichier CSV (`outputs/csv/category_<name>.csv`).  
7. **T√©l√©charger les images** ‚Üí utiliser l‚ÄôURL de l‚Äôimage pour la t√©l√©charger avec `requests` :
   - Chemin : `outputs/images/<categorie>/<upc>_<slug-title>.jpg`  
8. **G√©rer plusieurs cat√©gories** ‚Üí boucler sur toutes les cat√©gories depuis la page d‚Äôaccueil.  


## üü° Phase 2 ‚Äì Organiser le projet
Une fois que le code fonctionne, s√©parer en plusieurs fichiers :  
- `parsers.py` ‚Üí fonctions de scraping (par ex. `parse_list_page`, `parse_product_page`, `get_category_links`)  
- `utils.py` ‚Üí fonctions utilitaires (par ex. `write_csv`, `download_file`, `ensure_dir`)  
- `settings.py` ‚Üí constantes (`BASE_URL`, `HEADERS`, `DEFAULT_DELAY`, `TIMEOUT`)  
- `scrape.py` ‚Üí script principal (seulement `main()` + argparse), appelle les fonctions des autres fichiers  


## üîµ Phase 3 ‚Äì Automatiser avec la ligne de commande (CLI)
Ajouter des **options argparse** dans `scrape.py` :  
- `--categories Travel,Poetry` ‚Üí scraper seulement certaines cat√©gories  
- `--max-pages 1` ‚Üí limiter le scraping pour des tests rapides  
- `--delay 1` ‚Üí ajouter un d√©lai entre les requ√™tes  
- `--outdir outputs` ‚Üí changer le dossier de sortie  

Exemple d‚Äôutilisation :
```bash
python scrape.py --categories Travel --max-pages 1


In [69]:
import requests
from parsel import Selector
import pandas as pd
import os
import time

# URL de base
url = "https://books.toscrape.com/"


In [70]:
# Faire la requ√™te
r = requests.get(url)
print("Status code:", r.status_code)

# Cr√©er le s√©lecteur
response = Selector(text=r.text)


Status code: 200


In [71]:
# Tester sur un livre
book = response.css('article.product_pod')[0]

# Titre
title = book.css('h3 a::attr(title)').get()
print("Titre:", title)

# Prix
price = book.css('p.price_color::text').get()
print("Prix:", price)

# Note (rating)
rating_class = book.css('p.star-rating::attr(class)').get()
print("Rating class:", rating_class)

# Disponibilit√© (nettoy√©e)
availability = book.css('p.instock.availability::text').getall()
availability_clean = [a.strip() for a in availability if a.strip()]
print("Disponibilit√©:", availability_clean)

# URL du livre
book_url = book.css('h3 a::attr(href)').get()
print("URL:", book_url)

# URL de l'image
image_url = book.css('div.image_container img::attr(src)').get()
print("Image:", image_url)


Titre: A Light in the Attic
Prix: √Ç¬£51.77
Rating class: star-rating Three
Disponibilit√©: ['In stock']
URL: catalogue/a-light-in-the-attic_1000/index.html
Image: media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg


Rating: 3 √©toiles


Nombre de livres sur la page: 20
Total livres extraits: 20

Dix premier livres:
[{'title': 'A Light in the Attic', 'price': '√Ç¬£51.77', 'rating': 3, 'in_stock': True, 'url': 'catalogue/a-light-in-the-attic_1000/index.html', 'image': 'media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg'}, {'title': 'Tipping the Velvet', 'price': '√Ç¬£53.74', 'rating': 1, 'in_stock': True, 'url': 'catalogue/tipping-the-velvet_999/index.html', 'image': 'media/cache/26/0c/260c6ae16bce31c8f8c95daddd9f4a1c.jpg'}, {'title': 'Soumission', 'price': '√Ç¬£50.10', 'rating': 1, 'in_stock': True, 'url': 'catalogue/soumission_998/index.html', 'image': 'media/cache/3e/ef/3eef99c9d9adef34639f510662022830.jpg'}, {'title': 'Sharp Objects', 'price': '√Ç¬£47.82', 'rating': 4, 'in_stock': True, 'url': 'catalogue/sharp-objects_997/index.html', 'image': 'media/cache/32/51/3251cf3a3412f53f339e42cac2134093.jpg'}, {'title': 'Sapiens: A Brief History of Humankind', 'price': '√Ç¬£54.23', 'rating': 5, 'in_stock': True, 'url': '

## üü£ Phase 4 ‚Äì Documenter
- Cr√©er un fichier `README.md` avec :
  - L‚Äôobjectif du projet et son contexte  
  - Comment installer les d√©pendances (`pip install -r requirements.txt`)  
  - Comment ex√©cuter le scraper  
  - Quelques exemples de commandes  


## üî¥ Phase 5 ‚Äì Partager
- Publier votre projet sur GitHub avec :
  - Les fichiers de code (`scrape.py`, `parsers.py`, `utils.py`, `settings.py`)  
  - Un exemple de `README.md`  
  - Un dossier `outputs/` vide avec un fichier `.gitkeep` pour conserver la structure  


## üü† Phase 6 ‚Äì Explorer les donn√©es
Ouvrir un **notebook Jupyter** pour analyser les donn√©es extraites :

1. **Charger un CSV** avec Pandas :
   ```python
   import pandas as pd
   df = pd.read_csv("outputs/csv/category_travel.csv")
   df.head()


## üìù Crit√®res d‚Äô√©valuation

- üí° Effort et compr√©hension :  
  - Je valorise **vos propres essais** plus qu‚Äôun simple copier-coller depuis ChatGPT ou Internet.  
  - M√™me un progr√®s partiel, des commentaires clairs dans le code, ou diff√©rentes tentatives montrent un v√©ritable apprentissage.  
  - Vous devez √™tre capable d‚Äô**expliquer votre code** lors de la relecture ou de la pr√©sentation.  

- üåü Points bonus pour la partie analyse de la donn√©e √† la fin avec un notebook et de la recherche sur itnernet de comment faire des visualisations pertinentes et cr√©ative dans le notebook (vous pouvez explorer la librarie **plotly express**).  
