# Module 33: Challenge — Scraping Project
## Module 33 : Défi — Projet de scraping

## 1. Why This Matters / 1. Pourquoi c'est important
- **English:** Integrating scraping, storage, and analysis solidifies skills and produces meaningful insights.
- **Français :** Intégrer le scraping, le stockage et l'analyse renforce les compétences et produit des résultats exploitables.

## 2. Spaced & Interleaved Review / 2. Révision espacée et mélangée
- **Flash-back:** What libraries help scrape and parse HTML? / Quelles bibliothèques aident à scraper et parser le HTML ?
- **Interleaving:** How could you save scraped data to CSV or JSON? / Comment enregistrer les données scrapées en CSV ou JSON ?

## 3. Quick Quiz / 3. Quiz rapide
1. True or False: You must handle missing data after scraping. / Vrai ou Faux : Il faut gérer les données manquantes après le scraping.
2. Which Pandas method reads a JSON file? / Quelle méthode Pandas lit un fichier JSON ?
3. How do you select all <a> tags with BeautifulSoup? / Comment sélectionner toutes les balises <a> avec BeautifulSoup ?
4. What function writes a DataFrame to CSV? / Quelle fonction écrit un DataFrame en CSV ?

## 4. Learning Objectives / 4. Objectifs d'apprentissage
By the end, you can: / À la fin, vous pourrez :
- Scrape a real website and extract structured data. / Scraper un site réel et extraire des données structurées.
- Store the data in CSV or JSON. / Stocker les données en CSV ou JSON.
- Load and clean the data with Pandas. / Charger et nettoyer les données avec Pandas.
- Analyze and visualize insights. / Analyser et visualiser les résultats.

## 5. Core Content / 5. Contenu principal
- **Scraping with requests and BeautifulSoup**
```python
import requests
from bs4 import BeautifulSoup
r = requests.get('https://quotes.toscrape.com')
soup = BeautifulSoup(r.text, 'lxml')
```  
- **Extracting elements**
```python
quotes = soup.select('.quote')
data = []
for q in quotes:
    text = q.find('span', class_='text').text
    author = q.find('small', class_='author').text
    data.append({'quote': text, 'author': author})
```  
- **Storage**
```python
import pandas as pd
df = pd.DataFrame(data)
df.to_csv('quotes.csv', index=False)
df.to_json('quotes.json', orient='records')
```  
- **Analysis**
```python
df = pd.read_csv('quotes.csv')
df['author'].value_counts().head(10)
```

## 6. Starter Code (Incomplete) / 6. Code de démarrage (incomplet)
Fill in the TODOs to complete the project pipeline. / Remplissez les TODO pour finaliser le pipeline du projet.

In [None]:
# scraping_project_starter.py
import requests
from bs4 import BeautifulSoup
import pandas as pd

# TODO: fetch page https://quotes.toscrape.com
r = None

# TODO: parse with BeautifulSoup and extract quote text and author into a list of dicts
data = []

# TODO: create a DataFrame from data and save to 'quotes.csv'
df = None

# TODO: reload 'quotes.csv' into a new DataFrame and show top 5 authors by count


## 7. Hands-On Project: Scraping and Analysis / 7. Projet pratique : Scraping et analyse
- **Description:**
  1. Scrape quotes from the first 5 pages of https://quotes.toscrape.com.
  2. Extract quote text, author, and tags.
  3. Save the combined results into CSV and JSON.
  4. Load with Pandas, clean any missing tags, and count the most common tags.

**Rubric / Barème :**
- Scraping multiple pages and data extraction: 40% / Scraping multiple pages et extraction de données : 40%
- Storage to CSV/JSON: 20% / Stockage en CSV/JSON : 20%
- Data cleaning and analysis with Pandas: 30% / Nettoyage et analyse avec Pandas : 30%
- Code clarity & comments: 10% / Clarté du code et commentaires : 10%

## 8. Stretch Tasks / 8. Tâches supplémentaires
- Visualize author frequency with a bar chart. / Visualiser la fréquence des auteurs avec un diagramme à barres.
- Handle pagination stops when no next page. / Gérer la pagination quand il n'y a plus de page.
- Save data into a SQLite database and query top tags. / Sauvegarder les données dans SQLite et interroger les tags.

## 9. Reflection / 9. Réflexion
- **Summary:** Which step was most challenging? / Quelle étape a été la plus difficile ?
- **Muddiest point:** Any confusion combining scraping and Pandas? / Des doutes sur la combinaison du scraping et Pandas ?

## 10. Resources / 10. Ressources
- https://quotes.toscrape.com/
- https://docs.python-requests.org/en/latest/
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- https://pandas.pydata.org/docs/