# Module 31: Advanced Scraping Techniques
## Module 31 : Techniques de scraping avancées

## 1. Why This Matters / 1. Pourquoi c'est important
- **English:** Many websites load data dynamically with JavaScript. Advanced tools like Selenium or requests-html let you scrape this content.
- **Français :** De nombreux sites chargent des données dynamiquement avec JavaScript. Des outils avancés comme Selenium ou requests-html permettent de scraper ce contenu.

## 2. Spaced & Interleaved Review / 2. Révision espacée et mélangée
- **Flash-back:** How do you parse static HTML with BeautifulSoup? / Comment parser du HTML statique avec BeautifulSoup ?
- **Interleaving:** How could you maintain a login session with requests? / Comment maintenir une session de connexion avec requests ?

## 3. Quick Quiz / 3. Quiz rapide
1. True or False: Selenium can execute JavaScript on pages. / Vrai ou Faux : Selenium peut exécuter du JavaScript sur les pages.
2. Which method clicks a button element in Selenium? / Quelle méthode clique un élément bouton dans Selenium ?
3. How do you create a session object with requests-html? / Comment créer un objet session avec requests-html ?
4. What is required to submit an HTML form programmatically? / Qu'est-ce qui est nécessaire pour soumettre un formulaire HTML par programme ?

## 4. Learning Objectives / 4. Objectifs d'apprentissage
By the end, you can: / À la fin, vous pourrez :
- Use Selenium to interact with dynamic websites. / Utiliser Selenium pour interagir avec des sites dynamiques.
- Use requests-html for simpler dynamic scraping. / Utiliser requests-html pour un scraping dynamique plus simple.
- Submit forms and maintain sessions. / Soumettre des formulaires et maintenir des sessions.
- Handle cookies and authentication in scraping. / Gérer les cookies et l'authentification pendant le scraping.

## 5. Core Content / 5. Contenu principal
- **Selenium setup / mise en place :**
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome()
driver.get('https://example.com')
button = driver.find_element(By.ID, 'load-more')
button.click()
content = driver.page_source
driver.quit()
```
- **requests-html usage / utilisation de requests-html :**
```python
from requests_html import HTMLSession

session = HTMLSession()
r = session.get('https://example.com')
r.html.render()  # executes JavaScript
items = r.html.find('.item')
for item in items:
    print(item.text)
```  
- **Form submission / soumission de formulaire :**
```python
# Selenium form
driver.get('https://example.com/login')
username = driver.find_element(By.NAME, 'username')
password = driver.find_element(By.NAME, 'password')
username.send_keys('user')
password.send_keys('pass')
password.send_keys(Keys.RETURN)
```  
- **Sessions and cookies / sessions et cookies :**
```python
# requests-html session cookies
r = session.get('https://example.com')
session.cookies.load('cookies.pkl')
# after login
session.cookies.save('cookies.pkl')
```

## 6. Starter Code (Incomplete) / 6. Code de démarrage (incomplet)
Complete the TODOs to load dynamic content and submit a form. / Complétez les TODO pour charger du contenu dynamique et soumettre un formulaire.

In [None]:
# advanced_scraping_starter.py
from requests_html import HTMLSession

# TODO: create an HTMLSession and get 'https://example.com'
session = None
r = None

# TODO: render the page to execute JavaScript

# TODO: find elements with class 'product' and print their text

# TODO: use Selenium to submit a login form
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome()
driver.get('https://example.com/login')
# TODO: find username and password fields, send keys, submit form
driver.quit()


## 7. Hands-On Project: Scrape Dynamic Site / 7. Projet pratique : Scraper un site dynamique
- **Description:** Write a script that:
  1. Uses requests-html to render a JavaScript-driven product page and extract product titles.
  2. Uses Selenium to log in to a demo site (e.g., https://quotes.toscrape.com/login) and scrape protected content.
  3. Maintains session cookies for subsequent requests.
- **Rubric / Barème:**
  - Dynamic content rendering: 30% / Rendu de contenu dynamique : 30%
  - Form login automation: 30% / Automatisation de la connexion : 30%
  - Session persistence: 20% / Persistance de session : 20%
  - Code clarity & comments: 20% / Clarté du code et commentaires : 20%

## 8. Stretch Tasks / 8. Tâches supplémentaires
- Implement proxy support in Selenium or requests-html. / Implémentez le support de proxy dans Selenium ou requests-html.
- Use headless mode for Selenium. / Utilisez le mode headless pour Selenium.
- Integrate error handling for stale elements and timeouts. / Intégrez la gestion d'erreurs pour éléments obsolètes et délais.

## 9. Reflection / 9. Réflexion
- **Summary:** What challenges did you face with dynamic scraping? / Quels défis avez-vous rencontrés avec le scraping dynamique ?
- **Muddiest point:** Any confusion with render vs page_source? / Des doutes sur render vs page_source ?

## 10. Resources / 10. Ressources
- https://www.selenium.dev/documentation/
- https://requests-html.kennethreitz.org/
- https://realpython.com/modern-web-automation-with-python-and-selenium/
- https://github.com/psf/requests-html