# Introduction

Aujourd'hui la plupart des sites web utilisent du JavaScript pour rendre le site plus dynamique et agréable mais aussi pour afficher la données. 

Pour ces sites, la première méthode abordée n'est pas efficace, car de nombreuses requêtes sont utilisées pour se connecter, afficher la donnée, naviguer, il faudrait prendre en compte toutes ces requêtes et les assembler pour simuler le comportement du site. 

**C'est le comportement de votre navigateur**, il compile toutes les interactions, les requêtes et génère du HTML permettant d'afficher l'interface graphique d'un site web.

Pour palier ce problème on peut laisser le navigateur faire son travail et contrôler sa surcouche logiciel. Pour cela on peut prendre le contrôle d'un navigateur comme Chrome, Edge, Firefox ou Safari depuis un script Python. 

Pour cela, nous allons utiliser un package Python `Selenium` https://selenium-python.readthedocs.io/ qui permet d'instancier un navigateur et de le contrôler. Sélénium est beaucoup utilisé pour générer des tests automatiques de sites web. 

On peut trouver les drivers des différents browser : 
- Chrome:	https://sites.google.com/a/chromium.org/chromedriver/downloads
- Edge:	https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

In [138]:
#!pip install selenium

In [145]:
from selenium import webdriver

In [174]:
IS_LINUX = False

In [175]:
chrome = webdriver.Chrome(executable_path="./chromedriver" if not IS_LINUX else "./chromedriver_linux")

Vous devez voir apparaître une nouvelle instance de votre navigateur. Si vous voulez accéder à une page : 

In [176]:
chrome.get("https://www.amazon.fr")

Allez maintenant voir votre fenêtre. Vous êtes sur le site d'amazon. Vous pouvez maintenant vous déplacer dans la page. Pour cela il va falloir inspecter le code source de la page.

Il existe de nombreuse méthode pour récupérer les éléments par exemple `find_element_by_link_text` qui permet de récupérer un élément grâce au text affiché. Ici, si on veut récupérer toutes les `Ventes Flash`

In [177]:
link = chrome.find_element_by_link_text("Voir tout")
type(link)

selenium.webdriver.remote.webelement.WebElement

Si on veut entrer dans le lien, il suffit d'appeler la méthode `click`.

In [178]:
link.click()

Vous êtes arrivé sur la page des ventes flash. Maintenant nous allons récupérer toutes les ventes actuelles. On remarque que les ventes sont stockés dans des widgets qui porte l'id `widgetContent`.

In [180]:
all_widgets = chrome.find_elements_by_id("widgetContent")
type(all_widgets), len(all_widgets)

(list, 4)

On obtient une liste d'éléments décrits par cet identifiant. Il y en a 5, un pour chaque ligne. Pour récupérer les différentes offres de la première ligne. on récupère les sections correspondantes: 

In [181]:
first_line = all_widgets[0]
all_first_line_elements = first_line.find_elements_by_class_name('a-section')
len(all_first_line_elements)

120

Pour récupérer le text maintenant : 

In [182]:
_ = [print(elt.text+ "\n")  for elt in all_first_line_elements]

OFFRE STAR
49,90 € - 189,90 €
Termine dans 4:22:57
tado°: jusqu'à -40% sur les thermostats et les têtes intellige...
2173
Voir l'offre

OFFRE STAR
49,90 € - 189,90 €
Termine dans 4:22:57
tado°: jusqu'à -40% sur les thermostats et les têtes intellige...
2173
Voir l'offre



OFFRE STAR
49,90 € - 189,90 €
Termine dans 4:22:57
tado°: jusqu'à -40% sur les thermostats et les têtes intellige...
2173
Voir l'offre

OFFRE STAR
14,99 € - 29,24 €
Termine dans 4:17:57
Jusqu'à -25% sur une sélection pour la voiture
857
Voir l'offre

OFFRE STAR
14,99 € - 29,24 €
Termine dans 4:17:57
Jusqu'à -25% sur une sélection pour la voiture
857
Voir l'offre



OFFRE STAR
14,99 € - 29,24 €
Termine dans 4:17:57
Jusqu'à -25% sur une sélection pour la voiture
857
Voir l'offre

OFFRE STAR
34,99 € - 374,99 €
Se termine dans 4 jours
Greenworks: jusqu'à 25% de remise
46
Voir l'offre

OFFRE STAR
34,99 € - 374,99 €
Se termine dans 4 jours
Greenworks: jusqu'à 25% de remise
46
Voir l'offre



OFFRE STAR
34,99 € - 374,99 €
S

34,99 € - 199,99 €
Philips: Jusqu'à -40% sur les produits Beauté et Luminothérapie
1420
Voir l'offre



34,99 € - 199,99 €
Philips: Jusqu'à -40% sur les produits Beauté et Luminothérapie
1420
Voir l'offre

31,99 € - 49,99 €
Brita: jusqu'à -29% sur une sélection des carafes filtrantes
6165
Voir l'offre

31,99 € - 49,99 €
Brita: jusqu'à -29% sur une sélection des carafes filtrantes
6165
Voir l'offre



31,99 € - 49,99 €
Brita: jusqu'à -29% sur une sélection des carafes filtrantes
6165
Voir l'offre

899,00 €
Prix conseillé : 1.328,98 € (-32%)
Microsoft : -32% sur le Pack Exclusif Surface Pro 7
Vendu et expédié par Amazon.fr
1591
Ajouter au panier

899,00 €
Prix conseillé : 1.328,98 € (-32%)
Microsoft : -32% sur le Pack Exclusif Surface Pro 7
Vendu et expédié par Amazon.fr
1591
Ajouter au panier



899,00 €
Prix conseillé : 1.328,98 € (-32%)
Microsoft : -32% sur le Pack Exclusif Surface Pro 7
Vendu et expédié par Amazon.fr
1591
Ajouter au panier

14,90 € - 44,90 €
TP-Link : Jusqu'à -38% su

Si vous êtes fan de JavaScript vous pouvez même injecter du code JS dans le navigateur depuis Python pour exécuter des opérations complexes. 

In [183]:
js_script = """
const class_name = 'DRIOC'
console.log(`Hi from ${class_name}`)
"""

In [184]:
chrome.execute_script(js_script)

Vous pouvez aller vérifier dans la console Javascript du navigateur que le message apparait bien. 

# Exercice

## Exercice 1

Extraire le prix des offres :

In [185]:
def extract_price(offer_web_element):
    liste_prix=offer_web_element.find_elements_by_class_name("dealPriceText")
    return liste_prix[0].text
extract_price(all_first_line_elements[0])

'49,90 € - 189,90 €'

Le but ici est d'extraire les prix des articles vendus par Amazon.

Pour ce faire, on utilise l'outil **"Inspecter"** de Google Chrome. On place notre souris sur les prix, on voit que ces derniers sont présents dans une classe qui les définit : `dealPriceText`.

On sait donc que les éléments présentés seront les prix.

Extraire l'image de l'offre: 

In [189]:
def extract_image(offer_web_element):
    liste_image=[image.get_attribute('src') for image in offer_web_element.find_elements_by_tag_name('img')]
    return liste_image
extract_image(all_first_line_elements[0])

['https://m.media-amazon.com/images/G/08/_tools/1200_Brands_Generic/FR_DOTD._AA210_.png']

Le but ici est d'extraire les images des articles vendus par Amazon.

Pour ce faire, on utilise l'outil **"Inspecter"** de Google Chrome. On place notre souris sur les images, on voit que ces derniers ont pour attribut `src` et sont définits par `img`.

On sait donc que les éléments présentés seront les images.

Extraire le titre de l'offre: 

In [168]:
def extract_title(offer_web_element):
    liste_titre=offer_web_element.find_elements_by_id("dealTitle")
    return liste_titre[0].text
extract_title(all_first_line_elements[0])

"tado°: jusqu'à -40% sur les thermostats et les têtes intellige..."

Le but ici est d'extraire les titres des articles vendus par Amazon.

Pour ce faire, on utilise l'outil **"Inspecter"** de Google Chrome. On place notre souris sur les titres, on voit que ces derniers sont définis par un id : `dealTitle`.

On sait donc que les éléments présentés seront les prix.

In [80]:
chrome.close()