# Introduction

Aujourd'hui la plupart des sites web utilisent du JavaScript pour rendre le site plus dynamique et agréable mais aussi pour afficher la données. 

Pour ces sites, la première méthode abordée n'est pas efficace, car de nombreuses requêtes sont utilisées pour se connecter, afficher la donnée, naviguer, il faudrait prendre en compte toutes ces requêtes et les assembler pour simuler le comportement du site. 

**C'est le comportement de votre navigateur**, il compile toutes les interactions, les requêtes et génère du HTML permettant d'afficher l'interface graphique d'un site web.

Pour palier ce problème on peut laisser le navigateur faire son travail et contrôler sa surcouche logiciel. Pour cela on peut prendre le contrôle d'un navigateur comme Chrome, Edge, Firefox ou Safari depuis un script Python. 

Pour cela, nous allons utiliser un package Python `Selenium` https://selenium-python.readthedocs.io/ qui permet d'instancier un navigateur et de le contrôler. Sélénium est beaucoup utilisé pour générer des tests automatiques de sites web. 

On peut trouver les drivers des différents browser : 
- Chrome:	https://sites.google.com/a/chromium.org/chromedriver/downloads
- Edge:	https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

In [1]:
!pip install selenium

Collecting selenium
  Obtaining dependency information for selenium from https://files.pythonhosted.org/packages/0e/59/aae37fa93e2d4292c3148efcc3066c8ecfe5cfaa72bf8c0b1a5614622cf7/selenium-4.15.2-py3-none-any.whl.metadata
  Downloading selenium-4.15.2-py3-none-any.whl.metadata (6.9 kB)
Collecting trio~=0.17 (from selenium)
  Obtaining dependency information for trio~=0.17 from https://files.pythonhosted.org/packages/39/46/620fbe56f41fa3ccdda2136d947fb9bacce3d1eb163f057f0262a0ddf5e0/trio-0.23.1-py3-none-any.whl.metadata
  Downloading trio-0.23.1-py3-none-any.whl.metadata (4.9 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Obtaining dependency information for trio-websocket~=0.9 from https://files.pythonhosted.org/packages/48/be/a9ae5f50cad5b6f85bd2574c2c923730098530096e170c1ce7452394d7aa/trio_websocket-0.11.1-py3-none-any.whl.metadata
  Downloading trio_websocket-0.11.1-py3-none-any.whl.metadata (4.7 kB)
Collecting outcome (from trio~=0.17->selenium)
  Obtaining dependency informa

In [1]:
from selenium import webdriver

In [2]:
IS_LINUX = False

In [3]:
chrome = webdriver.Chrome()

Vous devez voir apparaître une nouvelle instance de votre navigateur. Si vous voulez accéder à une page : 

In [4]:
chrome.get("https://www.amazon.fr")

Allez maintenant voir votre fenêtre. Vous êtes sur le site d'amazon. Vous pouvez maintenant vous déplacer dans la page. Pour cela il va falloir inspecter le code source de la page.

Il existe de nombreuse méthode pour récupérer les éléments par exemple `find_element_by_link_text` qui permet de récupérer un élément grâce au text affiché. Ici, si on veut récupérer toutes les `Ventes Flash`

In [5]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

Si on veut entrer dans le lien, il suffit d'appeler la méthode `click`.

In [6]:
link = chrome.find_element(By.LINK_TEXT,"Black Friday Week")
type(link)
link.click()

In [7]:
link2 = chrome.find_element(By.LINK_TEXT,"Sélection de produits Apple")
type(link)
link2.click()

Vous êtes arrivé sur la page des ventes flash. Maintenant nous allons récupérer toutes les ventes actuelles. On remarque que les ventes sont stockés dans des widgets qui porte l'id `widgetContent`.

In [8]:
all_widgets = chrome.find_elements(By.CLASS_NAME,"a-list-item")
type(all_widgets), len(all_widgets)

(list, 37)

On obtient une liste d'éléments décrits par cet identifiant. Il y en a 5, un pour chaque ligne. Pour récupérer les différentes offres de la première ligne. on récupère les sections correspondantes: 

Pour récupérer le text maintenant : 

In [10]:
_ = [print(elt.text+ "\n")  for elt in all_widgets]

High-Tech
Informatique
Jeux vidéo

High-Tech

Informatique

Jeux vidéo

Apple AirPods Pro (2ᵉ génération) avec Boîtier de Charge MagSafe (USB‑C)
425
Offre Black Friday
-14 %
239
00€ Prix récent le plus bas : 279,00 €
Livraison GRATUITE en France métropolitaine. Détails

Apple Magic Mouse : Bluetooth, Rechargeable. Compatible avec Mac et iPad ; Blanc, Surface Multi-Touch
9 871
Offre Black Friday
-20 %
65
00€ Prix récent le plus bas : 80,99 €
Livraison GRATUITE en France métropolitaine. Détails

Apple 2022 iPad 10,9 Pouces (Wi-FI, 256 Go) - Bleu (10ᵉ génération)
559
Offre Black Friday
-9 %
709
00€ Prix récent le plus bas : 781,00 €
Livraison GRATUITE en France métropolitaine. Détails

Apple Magic Mouse : Bluetooth, Rechargeable. Compatible avec Mac et iPad ; Noir, Surface Multi-Touch
9 871
Offre Black Friday
-24 %
75
00€ Prix récent le plus bas : 98,10 €
Livraison GRATUITE en France métropolitaine. Détails

Apple Pencil (2ème Génération)
49 057
Offre Black Friday
-29 %
96
00€ Prix récent

Si vous êtes fan de JavaScript vous pouvez même injecter du code JS dans le navigateur depuis Python pour exécuter des opérations complexes. 

In [49]:
js_script = """
const class_name = 'DRIOC'
console.log(`Hi from ${class_name}`)
"""

In [69]:
chrome.execute_script(js_script)

Vous pouvez aller vérifier dans la console Javascript du navigateur que le message apparait bien. 

# Exercice

## Exercice 1

Extraire le prix des offres :

In [23]:
from selenium.common.exceptions import NoSuchElementException

def extract_price(offer_web_element):
    try:
        price_element = chrome.find_element(By.CLASS_NAME, "a-price-whole")
        price = price_element.text
        price_element_fraction = chrome.find_element(By.CLASS_NAME, "a-price-fraction")
        price_fraction = price_element_fraction.text
        return price + "." + price_fraction
    except NoSuchElementException:
        return "Prix non trouvé"

extract_price(all_widgets[0])

'239.00'

Extraire l'image de l'offre: 

In [24]:
def extract_image(offer_web_element):
    image_element = chrome.find_element(By.CSS_SELECTOR, "div.octopus-dlp-image-section > a > img")
    image_url = image_element.get_attribute('src')

    return image_url

extract_image(all_widgets[0])

'https://m.media-amazon.com/images/I/2110TEYPKnL._AC_SR400,600_AGcontrast_.jpg'

Extraire le titre de l'offre: 

In [26]:
def extract_title(offer_web_element):
    title_element = chrome.find_element(By.CSS_SELECTOR, "div.octopus-dlp-asin-title > a")
    title = title_element.text

    return title
extract_title(all_widgets[0])

'Apple AirPods Pro (2ᵉ génération) avec Boîtier de Charge MagSafe (USB‑C)'

In [28]:
chrome.close()

WebDriverException: Message: disconnected: not connected to DevTools
  (failed to check if window was closed: disconnected: not connected to DevTools)
  (Session info: chrome=119.0.6045.160)
Stacktrace:
	GetHandleVerifier [0x00007FF63CE182B2+55298]
	(No symbol) [0x00007FF63CD85E02]
	(No symbol) [0x00007FF63CC405AB]
	(No symbol) [0x00007FF63CC2D1AA]
	(No symbol) [0x00007FF63CC2D9CE]
	(No symbol) [0x00007FF63CC40AF8]
	(No symbol) [0x00007FF63CC1FB90]
	(No symbol) [0x00007FF63CCAC714]
	(No symbol) [0x00007FF63CCA2070]
	(No symbol) [0x00007FF63CC7670A]
	(No symbol) [0x00007FF63CC77964]
	GetHandleVerifier [0x00007FF63D190AAB+3694587]
	GetHandleVerifier [0x00007FF63D1E728E+4048862]
	GetHandleVerifier [0x00007FF63D1DF173+4015811]
	GetHandleVerifier [0x00007FF63CEB47D6+695590]
	(No symbol) [0x00007FF63CD90CE8]
	(No symbol) [0x00007FF63CD8CF34]
	(No symbol) [0x00007FF63CD8D062]
	(No symbol) [0x00007FF63CD7D3A3]
	BaseThreadInitThunk [0x00007FFE1A67257D+29]
	RtlUserThreadStart [0x00007FFE1B86AA58+40]
