# Introduction

Aujourd'hui la plupart des sites web utilisent du JavaScript pour rendre le site plus dynamique et agréable mais aussi pour afficher la données. 

Pour ces sites, la première méthode abordée n'est pas efficace, car de nombreuses requêtes sont utilisées pour se connecter, afficher la donnée, naviguer, il faudrait prendre en compte toutes ces requêtes et les assembler pour simuler le comportement du site. 

**C'est le comportement de votre navigateur**, il compile toutes les interactions, les requêtes et génère du HTML permettant d'afficher l'interface graphique d'un site web.

Pour palier ce problème on peut laisser le navigateur faire son travail et contrôler sa surcouche logiciel. Pour cela on peut prendre le contrôle d'un navigateur comme Chrome, Edge, Firefox ou Safari depuis un script Python. 

Pour cela, nous allons utiliser un package Python `Selenium` https://selenium-python.readthedocs.io/ qui permet d'instancier un navigateur et de le contrôler. Sélénium est beaucoup utilisé pour générer des tests automatiques de sites web. 

On peut trouver les drivers des différents browser : 
- Chrome:	https://sites.google.com/a/chromium.org/chromedriver/downloads
- Edge:	https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

In [2]:
!pip install selenium==4.0.0





In [3]:
from selenium import webdriver

In [4]:
IS_LINUX = False

In [5]:
!pip list

Package                      Version
---------------------------- -----------
absl-py                      1.4.0
ansi2html                    1.8.0
anyio                        4.0.0
argon2-cffi                  23.1.0
argon2-cffi-bindings         21.2.0
arrow                        1.3.0
ast-scope                    0.3.1
asttokens                    2.2.1
astunparse                   1.6.3
async-lru                    2.0.4
attrs                        23.1.0
autograd                     1.5
Automat                      22.10.0
Babel                        2.13.1
backcall                     0.2.0
beautifulsoup4               4.12.2
bleach                       6.1.0
branca                       0.6.0
cachetools                   5.3.0
certifi                      2019.11.28
cffi                         1.16.0
chardet                      3.0.4
charset-normalizer           3.3.2
click                        8.1.7
click-plugins                1.1.1
cligj                        0.7.2
c

In [6]:
chrome = webdriver.Chrome(executable_path=".\chromedriver.exe")

  chrome = webdriver.Chrome(executable_path=".\chromedriver.exe")


Vous devez voir apparaître une nouvelle instance de votre navigateur. Si vous voulez accéder à une page : 

In [7]:
chrome.get("https://www.amazon.fr")

Allez maintenant voir votre fenêtre. Vous êtes sur le site d'amazon. Vous pouvez maintenant vous déplacer dans la page. Pour cela il va falloir inspecter le code source de la page.

Il existe de nombreuse méthode pour récupérer les éléments par exemple `find_element_by_link_text` qui permet de récupérer un élément grâce au text affiché. Ici, si on veut récupérer toutes les `Ventes Flash`

In [44]:
link = chrome.find_element_by_link_text("Voir toutes les Ventes Flash")
type(link)

  link = chrome.find_element_by_link_text("Voir toutes les Ventes Flash")


NoSuchElementException: Message: no such element: Unable to locate element: {"method":"link text","selector":"Voir toutes les Ventes Flash"}
  (Session info: chrome=119.0.6045.200)
Stacktrace:
	GetHandleVerifier [0x00007FF74E5882B2+55298]
	(No symbol) [0x00007FF74E4F5E02]
	(No symbol) [0x00007FF74E3B05AB]
	(No symbol) [0x00007FF74E3F175C]
	(No symbol) [0x00007FF74E3F18DC]
	(No symbol) [0x00007FF74E42CBC7]
	(No symbol) [0x00007FF74E4120EF]
	(No symbol) [0x00007FF74E42AAA4]
	(No symbol) [0x00007FF74E411E83]
	(No symbol) [0x00007FF74E3E670A]
	(No symbol) [0x00007FF74E3E7964]
	GetHandleVerifier [0x00007FF74E900AAB+3694587]
	GetHandleVerifier [0x00007FF74E95728E+4048862]
	GetHandleVerifier [0x00007FF74E94F173+4015811]
	GetHandleVerifier [0x00007FF74E6247D6+695590]
	(No symbol) [0x00007FF74E500CE8]
	(No symbol) [0x00007FF74E4FCF34]
	(No symbol) [0x00007FF74E4FD062]
	(No symbol) [0x00007FF74E4ED3A3]
	BaseThreadInitThunk [0x00007FFA0C047344+20]
	RtlUserThreadStart [0x00007FFA0C4E26B1+33]


Si on veut entrer dans le lien, il suffit d'appeler la méthode `click`.

In [45]:
link.click()

StaleElementReferenceException: Message: stale element reference: stale element not found
  (Session info: chrome=119.0.6045.200)
Stacktrace:
	GetHandleVerifier [0x00007FF74E5882B2+55298]
	(No symbol) [0x00007FF74E4F5E02]
	(No symbol) [0x00007FF74E3B05AB]
	(No symbol) [0x00007FF74E3BE59A]
	(No symbol) [0x00007FF74E3B59E9]
	(No symbol) [0x00007FF74E3B4298]
	(No symbol) [0x00007FF74E3B6FDF]
	(No symbol) [0x00007FF74E3B70D0]
	(No symbol) [0x00007FF74E3F3265]
	(No symbol) [0x00007FF74E3E8586]
	(No symbol) [0x00007FF74E4120AA]
	(No symbol) [0x00007FF74E3E80CF]
	(No symbol) [0x00007FF74E4122C0]
	(No symbol) [0x00007FF74E42AAA4]
	(No symbol) [0x00007FF74E411E83]
	(No symbol) [0x00007FF74E3E670A]
	(No symbol) [0x00007FF74E3E7964]
	GetHandleVerifier [0x00007FF74E900AAB+3694587]
	GetHandleVerifier [0x00007FF74E95728E+4048862]
	GetHandleVerifier [0x00007FF74E94F173+4015811]
	GetHandleVerifier [0x00007FF74E6247D6+695590]
	(No symbol) [0x00007FF74E500CE8]
	(No symbol) [0x00007FF74E4FCF34]
	(No symbol) [0x00007FF74E4FD062]
	(No symbol) [0x00007FF74E4ED3A3]
	BaseThreadInitThunk [0x00007FFA0C047344+20]
	RtlUserThreadStart [0x00007FFA0C4E26B1+33]


In [46]:
link = chrome.find_element_by_link_text("Philips: une sélection de produits")
type(link)
link.click()

  link = chrome.find_element_by_link_text("Philips: une sélection de produits")


NoSuchElementException: Message: no such element: Unable to locate element: {"method":"link text","selector":"Philips: une sélection de produits"}
  (Session info: chrome=119.0.6045.200)
Stacktrace:
	GetHandleVerifier [0x00007FF74E5882B2+55298]
	(No symbol) [0x00007FF74E4F5E02]
	(No symbol) [0x00007FF74E3B05AB]
	(No symbol) [0x00007FF74E3F175C]
	(No symbol) [0x00007FF74E3F18DC]
	(No symbol) [0x00007FF74E42CBC7]
	(No symbol) [0x00007FF74E4120EF]
	(No symbol) [0x00007FF74E42AAA4]
	(No symbol) [0x00007FF74E411E83]
	(No symbol) [0x00007FF74E3E670A]
	(No symbol) [0x00007FF74E3E7964]
	GetHandleVerifier [0x00007FF74E900AAB+3694587]
	GetHandleVerifier [0x00007FF74E95728E+4048862]
	GetHandleVerifier [0x00007FF74E94F173+4015811]
	GetHandleVerifier [0x00007FF74E6247D6+695590]
	(No symbol) [0x00007FF74E500CE8]
	(No symbol) [0x00007FF74E4FCF34]
	(No symbol) [0x00007FF74E4FD062]
	(No symbol) [0x00007FF74E4ED3A3]
	BaseThreadInitThunk [0x00007FFA0C047344+20]
	RtlUserThreadStart [0x00007FFA0C4E26B1+33]


Vous êtes arrivé sur la page des ventes flash. Maintenant nous allons récupérer toutes les ventes actuelles. On remarque que les ventes sont stockés dans des widgets qui porte l'id `widgetContent`.

In [47]:
all_widgets = chrome.find_elements_by_id("octopus-dlp-asin-stream")
type(all_widgets), len(all_widgets)

  all_widgets = chrome.find_elements_by_id("octopus-dlp-asin-stream")


(list, 1)

On obtient une liste d'éléments décrits par cet identifiant. Il y en a 5, un pour chaque ligne. Pour récupérer les différentes offres de la première ligne. on récupère les sections correspondantes: 

In [48]:
first_line = all_widgets[0]
all_first_line_elements = first_line.find_elements_by_class_name('a-section')
len(all_first_line_elements)

241

Pour récupérer le text maintenant : 

In [49]:
_ = [print(elt.text+ "\n")  for elt in all_first_line_elements]

Philips Electric Shaver Series 3000 - rasoir électrique Wet & Dry pour hommes avec technologie SkinProtect, couleur Noir, tondeuse rétractable, socle de recharge, housse de voyage (modèle S3342/13)
70
Vente flash
-33 %
59
99€ Prix récent le plus bas : 89,99 €
Livraison GRATUITE en France métropolitaine. Détails





Philips Electric Shaver Series 3000 - rasoir électrique Wet & Dry pour hommes avec technologie SkinProtect, couleur Noir, tondeuse rétractable, socle de recharge, housse de voyage (modèle S3342/13)
70
Vente flash
-33 %
59
99€ Prix récent le plus bas : 89,99 €
Livraison GRATUITE en France métropolitaine. Détails

Philips Electric Shaver Series 3000 - rasoir électrique Wet & Dry pour hommes avec technologie SkinProtect, couleur Noir, tondeuse rétractable, socle de recharge, housse de voyage (modèle S3342/13)

Vente flash

Livraison GRATUITE en France métropolitaine. Détails

Livraison GRATUITE en France métropolitaine. Détails

Philips Sonicare ProtectiveClean 5100 Brosse à d

Si vous êtes fan de JavaScript vous pouvez même injecter du code JS dans le navigateur depuis Python pour exécuter des opérations complexes. 

In [31]:
js_script = """
const class_name = 'DRIOC'
console.log(`Hi from ${class_name}`)
"""

In [32]:
chrome.execute_script(js_script)

Vous pouvez aller vérifier dans la console Javascript du navigateur que le message apparait bien. 

# Exercice

## Exercice 1

Extraire le prix des offres :

In [50]:
# Extraire le texte de chaque WebElement
all_texts = [element.text.strip() for element in all_first_line_elements]

# Recherche des montants de prix dans la liste
prices = [re.search(r'\b(\d+,\d+)\b', text).group(1) for text in all_texts if re.search(r'\b(\d+,\d+)\b', text)]

# Afficher les prix extraits
for price in prices:
    print(f"Prix extrait : {price}")



Prix extrait : 89,99
Prix extrait : 89,99
Prix extrait : 120,14
Prix extrait : 120,14
Prix extrait : 11,66
Prix extrait : 11,66
Prix extrait : 26,00
Prix extrait : 26,00
Prix extrait : 56,57
Prix extrait : 56,57
Prix extrait : 3,75
Prix extrait : 3,75
Prix extrait : 65,59
Prix extrait : 65,59
Prix extrait : 139,99
Prix extrait : 139,99
Prix extrait : 29,99
Prix extrait : 29,99
Prix extrait : 37,32
Prix extrait : 37,32
Prix extrait : 62,38
Prix extrait : 62,38
Prix extrait : 276,99
Prix extrait : 276,99
Prix extrait : 20,82
Prix extrait : 20,82
Prix extrait : 37,99
Prix extrait : 37,99
Prix extrait : 119,99
Prix extrait : 119,99
Prix extrait : 20,82
Prix extrait : 20,82
Prix extrait : 54,99
Prix extrait : 54,99
Prix extrait : 165,28
Prix extrait : 165,28
Prix extrait : 97,90
Prix extrait : 97,90
Prix extrait : 0,5
Prix extrait : 0,5
Prix extrait : 0,5
Prix extrait : 19,99
Prix extrait : 19,99
Prix extrait : 39,99
Prix extrait : 39,99
Prix extrait : 64,99
Prix extrait : 64,99
Prix extrai

In [None]:
def extract_price(offer_web_element):
    raise NotImplementedError('Need to be implemented')
    pass

extract_price(all_first_line_elements[0])

Extraire l'image de l'offre: 

In [None]:
def extract_image(offer_web_element):
    raise NotImplementedError('Need to be implemented')
    pass

extract_image(all_first_line_elements[0])

Extraire le titre de l'offre: 

In [None]:
def extract_title(offer_web_element):
    raise NotImplementedError('Need to be implemented')
    pass

extract_title(all_first_line_elements[0])

In [80]:
chrome.close()