# Module 24: HTML Parsing with BeautifulSoup
## Module 24 : Parse HTML avec BeautifulSoup

## 1. Why This Matters / 1. Pourquoi c'est important
- **English:** BeautifulSoup makes it easy to extract data from HTML, turning web pages into usable data.
- **Français :** BeautifulSoup facilite l'extraction de données depuis le HTML, transformant les pages web en données exploitables.

## 2. Spaced & Interleaved Review / 2. Révision espacée et mélangée
- **Flash-back:** How do you fetch web data with requests? / Comment récupère-t-on des données web avec requests ?
- **Interleaving:** How could you combine loop and parsing to process multiple elements? / Comment combiner boucle et parsing pour traiter plusieurs éléments ?

## 3. Quick Quiz / 3. Quiz rapide
1. True or False: `BeautifulSoup(html, 'lxml')` parses with lxml parser. / Vrai ou Faux : `BeautifulSoup(html, 'lxml')` utilise le parser lxml.
2. Which method finds all matching tags? / Quelle méthode trouve toutes les balises correspondantes ?
3. How do you get the text inside a tag? / Comment obtenir le texte à l'intérieur d'une balise ?
4. What attribute holds the href of an <a> tag? / Quel attribut contient le href d'une balise <a> ?

## 4. Learning Objectives / 4. Objectifs d'apprentissage
By the end, you can: / À la fin, vous pourrez :
- Parse HTML content with BeautifulSoup. / Parser du HTML avec BeautifulSoup.
- Use the lxml parser for speed. / Utiliser le parser lxml pour la vitesse.
- Find tags by name, class, or CSS selector. / Trouver des balises par nom, classe ou sélecteur CSS.
- Extract text and attribute values. / Extraire du texte et des attributs.

## 5. Core Content / 5. Contenu principal
- **Import and parse / import et parse :**
```python
from bs4 import BeautifulSoup
import requests

response = requests.get('https://example.com')
soup = BeautifulSoup(response.text, 'lxml')
```  
- **Finding tags / trouver des balises :**
```python
title = soup.title          # first <title>
links = soup.find_all('a')  # all links
```  
- **Attributes / attributs :**
```python
for a in links:
    print(a.get('href'))
```  
- **CSS selectors / sélecteurs CSS :**
```python
items = soup.select('.item-class > a')
```  
- **Extracting text / extraire le texte :**
```python
for p in soup.find_all('p'):
    print(p.text)
```  
**Example (htmlparsing_finished.py) / Exemple :**
```python
# htmlparsing_finished.py
from bs4 import BeautifulSoup
import requests

url = 'https://news.ycombinator.com/'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')

links = soup.select('.titleline > a')
for link in links:
    print(link.text, '-', link['href'])
```

## 6. Starter Code (Incomplete) / 6. Code de démarrage (incomplet)
Complete the TODOs to parse HTML and extract data. / Complétez les TODO pour parser le HTML et extraire des données.

In [None]:
# html_parsing_starter.py
from bs4 import BeautifulSoup
import requests

url = 'https://example.com'
# TODO: fetch the page with requests
r = None

# TODO: create BeautifulSoup object with 'lxml' parser
soup = None

# TODO: find all <h2> tags and print their text


## 7. Hands-On Project: Simple Scraper / 7. Projet pratique : Scraper simple
- **Description:** Write a script that:
  1. Asks user for a URL.
  2. Fetches the page and parses it.
  3. Extracts all headlines (<h1>, <h2>, <h3>) and prints them.
- **Rubric / Barème:**
  - Correct fetch and parse: 30% / Récupération et parse corrects : 30%
  - Extraction of headings: 40% / Extraction des titres : 40%
  - Handles missing tags gracefully: 20% / Gère les balises manquantes : 20%
  - Code clarity & comments: 10% / Clarté du code et commentaires : 10%

## 8. Stretch Tasks / 8. Tâches supplémentaires
- Allow scraping multiple pages in a loop. / Autoriser le scraping de plusieurs pages en boucle.
- Save the results to CSV or JSON. / Enregistrer les résultats en CSV ou JSON.
- Respect robots.txt before scraping. / Respecter le robots.txt avant le scraping.

## 9. Reflection / 9. Réflexion
- **Summary:** What new techniques did you learn for parsing HTML? / Quelles nouvelles techniques avez-vous apprises pour parser du HTML ?
- **Muddiest point:** Any confusion with selectors? / Des doutes sur les sélecteurs ?

## 10. Resources / 10. Ressources
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- https://lxml.de/
- https://realpython.com/beautiful-soup-web-scraper-python/