# Introduction

Aujourd'hui la plupart des sites web utilisent du JavaScript pour rendre le site plus dynamique et agréable mais aussi pour afficher la données. 

Pour ces sites, la première méthode abordée n'est pas efficace, car de nombreuses requêtes sont utilisées pour se connecter, afficher la donnée, naviguer, il faudrait prendre en compte toutes ces requêtes et les assembler pour simuler le comportement du site. 

**C'est le comportement de votre navigateur**, il compile toutes les interactions, les requêtes et génère du HTML permettant d'afficher l'interface graphique d'un site web.

Pour palier ce problème on peut laisser le navigateur faire son travail et contrôler sa surcouche logiciel. Pour cela on peut prendre le contrôle d'un navigateur comme Chrome, Edge, Firefox ou Safari depuis un script Python. 

Pour cela, nous allons utiliser un package Python `Selenium` https://selenium-python.readthedocs.io/ qui permet d'instancier un navigateur et de le contrôler. Sélénium est beaucoup utilisé pour générer des tests automatiques de sites web. 

On peut trouver les drivers des différents browser : 
- Chrome:	https://sites.google.com/a/chromium.org/chromedriver/downloads
- Edge:	https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

In [2]:
# pip install selenium

In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By

In [21]:
#chrome = webdriver.Chrome()
mozila = webdriver.Firefox()


Vous devez voir apparaître une nouvelle instance de votre navigateur. Si vous voulez accéder à une page : 

In [22]:
mozila.get("https://www.amazon.fr")

Allez maintenant voir votre fenêtre. Vous êtes sur le site d'amazon. Vous pouvez maintenant vous déplacer dans la page. Pour cela il va falloir inspecter le code source de la page.

Il existe de nombreuse méthode pour récupérer les éléments par exemple `find_element_by_link_text` qui permet de récupérer un élément grâce au text affiché. Ici, si on veut récupérer toutes les `Ventes Flash`

In [7]:
#link = mozila.find_element_by_link_text("Voir tout")
link = mozila.find_element(By.LINK_TEXT, "Ventes Flash")
type(link)

selenium.webdriver.remote.webelement.WebElement

Si on veut entrer dans le lien, il suffit d'appeler la méthode `click`.

In [8]:
link.click()

Vous êtes arrivé sur la page des ventes flash. Maintenant nous allons récupérer toutes les ventes actuelles. On remarque que les ventes sont stockés dans des widgets qui porte l'id `slots-container`.

In [9]:
all_widgets = mozila.find_elements(By.ID, "slots-container")
type(all_widgets), len(all_widgets)

(list, 1)

On obtient une liste d'éléments décrits par cet identifiant. Il y en a 5, un pour chaque ligne. Pour récupérer les différentes offres de la première ligne. on récupère les sections correspondantes: 

In [20]:
first_line = all_widgets[0]
all_first_line_elements = first_line.find_elements(By.CLASS_NAME,'a-section')
len(all_first_line_elements)

StaleElementReferenceException: Message: The element with the reference b6177cc8-086d-4ba4-a126-fad140766a1f is not known in the current browsing context; For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#stale-element-reference-exception
Stacktrace:
RemoteError@chrome://remote/content/shared/RemoteError.sys.mjs:8:8
WebDriverError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:197:5
NoSuchElementError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:527:5
getKnownElement@chrome://remote/content/marionette/json.sys.mjs:387:11
deserializeJSON@chrome://remote/content/marionette/json.sys.mjs:263:20
cloneObject@chrome://remote/content/marionette/json.sys.mjs:59:24
deserializeJSON@chrome://remote/content/marionette/json.sys.mjs:293:16
cloneObject@chrome://remote/content/marionette/json.sys.mjs:59:24
deserializeJSON@chrome://remote/content/marionette/json.sys.mjs:293:16
json.deserialize@chrome://remote/content/marionette/json.sys.mjs:297:10
receiveMessage@chrome://remote/content/marionette/actors/MarionetteCommandsChild.sys.mjs:195:30


Pour récupérer le text maintenant : 

In [11]:
_ = [print(elt.text+ "\n")  for elt in all_first_line_elements]





-10%
Offre à durée limitée

+1

+1





-3%
Offre à durée limitée





-12%
Offre à durée limitée









-7%
Offre à durée limitée





-26%
Offre à durée limitée

7% déjà vendus



Si vous êtes fan de JavaScript vous pouvez même injecter du code JS dans le navigateur depuis Python pour exécuter des opérations complexes. 

In [16]:
js_script = """
const class_name = 'DRIOC'
console.log(`Hi from ${class_name}`)
"""  

In [17]:
mozila.execute_script(js_script)

Vous pouvez aller vérifier dans la console Javascript du navigateur que le message apparait bien. 

# Exercice

### Je dois aller a la page suivante en clickant sur un produit

In [13]:
elt=all_first_line_elements[0]

In [14]:
product_link = elt.find_element(By.TAG_NAME, "a")
mozila.execute_script("arguments[0].click();", product_link)

In [54]:
#recupere le titre
title = mozila.find_element(By.ID, "productTitle").text

In [55]:
title

'Cecotec Micro-ondes ProClean 3160. Revêtement Ready2Clean pour Un Meilleur Nettoyage, Technologie 3D WAVE, Grill 800 W, 20 L. Design élégant avec Porte, 6 Niveaux, Argenté Miroir.'

In [59]:
#recupere le price
price = mozila.find_element(By.CLASS_NAME, "a-price-whole").text
price

'58'

In [58]:
#image
image = mozila.find_element(By.ID, "landingImage").get_attribute("src")
image

'https://m.media-amazon.com/images/I/512FW6IlMuL._AC_SX569_.jpg'

## Exercice 1

Extraire le prix des offres :

class des prix
aok-offscreen

In [62]:
def extract_price(mozila):
    return mozila.find_element(By.CLASS_NAME, "a-price-whole").text
extract_price(mozila)

'58'

Extraire l'image de l'offre: 

In [63]:
def extract_image(mozila):
    return mozila.find_element(By.ID, "landingImage").get_attribute("src")   
extract_image(mozila)

'https://m.media-amazon.com/images/I/512FW6IlMuL._AC_SX569_.jpg'

Extraire le titre de l'offre: 

In [64]:
def extract_title(mozila):
    return mozila.find_element(By.ID, "productTitle").text
extract_title(mozila)

'Cecotec Micro-ondes ProClean 3160. Revêtement Ready2Clean pour Un Meilleur Nettoyage, Technologie 3D WAVE, Grill 800 W, 20 L. Design élégant avec Porte, 6 Niveaux, Argenté Miroir.'

In [None]:
mozila.close()

In [None]:
from selenium import webdriver
from selenium.webdriver.firefox.options import Options

# Créer une instance de FirefoxOptions
options = Options()
options.set_preference("general.useragent.override", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")

# Initialiser le WebDriver avec les options
driver = webdriver.Firefox(options=options)

# Ouvrir la page des ventes flash Amazon
driver.get("https://www.amazon.fr/deals")

# Ajouter un délai de 10 secondes pour s'assurer que la page est chargée
import time
time.sleep(10)

# Récupérer tous les produits affichés sur la page
deals = driver.find_elements(By.CLASS_NAME, "slots-container")

# Vérifier si des éléments ont été trouvés
if len(deals) == 0:
    print("Aucun élément trouvé. Le sélecteur CSS est peut-être incorrect ou Amazon utilise une protection.")
else:
    # Boucle sur chaque vente pour récupérer les informations
    for deal in deals:
        # Récupérer le titre du produit
        product_title = deal.find_element(By.CSS_SELECTOR, "span.a-text-normal").text
        print(f"Produit : {product_title}")

        # Récupérer le prix du produit (s'il est affiché)
        price = deal.find_element(By.CSS_SELECTOR, "span.a-price-whole").text
        print(f"Prix : {price}")

# Fermer le navigateur
driver.quit()


Aucun élément trouvé. Le sélecteur CSS est peut-être incorrect ou Amazon utilise une protection.
