# Introduction

Aujourd'hui la plupart des sites web utilisent du JavaScript pour rendre le site plus dynamique et agréable mais aussi pour afficher la données. 

Pour ces sites, la première méthode abordée n'est pas efficace, car de nombreuses requêtes sont utilisées pour se connecter, afficher la donnée, naviguer, il faudrait prendre en compte toutes ces requêtes et les assembler pour simuler le comportement du site. 

**C'est le comportement de votre navigateur**, il compile toutes les interactions, les requêtes et génère du HTML permettant d'afficher l'interface graphique d'un site web.

Pour palier ce problème on peut laisser le navigateur faire son travail et contrôler sa surcouche logiciel. Pour cela on peut prendre le contrôle d'un navigateur comme Chrome, Edge, Firefox ou Safari depuis un script Python. 

Pour cela, nous allons utiliser un package Python `Selenium` https://selenium-python.readthedocs.io/ qui permet d'instancier un navigateur et de le contrôler. Sélénium est beaucoup utilisé pour générer des tests automatiques de sites web. 

On peut trouver les drivers des différents browser : 
- Chrome:	https://sites.google.com/a/chromium.org/chromedriver/downloads
- Edge:	https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

In [1]:
from selenium import webdriver

In [2]:
IS_LINUX = False

In [3]:
!ls

Introduction.ipynb                 archi.rst
Part1_Git.ipynb                    [34mchromedriver-mac-x64[m[m
Part2_Docker.ipynb                 [31mchromedriver_linux[m[m
Part3_Simple_Web_Scraping.ipynb    [31mchromedriver_mac[m[m
Part4_Web_Scraping_WebDriver.ipynb gittest.txt
README.rst                         [34mimages[m[m


In [14]:
chrome = webdriver.Chrome(executable_path="chromedriver-mac-x64/chromedriver" if not IS_LINUX else "./chromedriver_linux")

  chrome = webdriver.Chrome(executable_path="chromedriver-mac-x64/chromedriver" if not IS_LINUX else "./chromedriver_linux")


Vous devez voir apparaître une nouvelle instance de votre navigateur. Si vous voulez accéder à une page : 

In [15]:
chrome.get("https://www.amazon.fr")

Allez maintenant voir votre fenêtre. Vous êtes sur le site d'amazon. Vous pouvez maintenant vous déplacer dans la page. Pour cela il va falloir inspecter le code source de la page.

Il existe de nombreuse méthode pour récupérer les éléments par exemple `find_element_by_link_text` qui permet de récupérer un élément grâce au text affiché. Ici, si on veut récupérer toutes les `Ventes Flash`

In [16]:
link = chrome.find_element_by_link_text("Voir tout")
type(link)

  link = chrome.find_element_by_link_text("Voir tout")


selenium.webdriver.remote.webelement.WebElement

Si on veut entrer dans le lien, il suffit d'appeler la méthode `click`.

In [7]:
link.click()

Vous êtes arrivé sur la page des ventes flash. Maintenant nous allons récupérer toutes les ventes actuelles. On remarque que les ventes sont stockés dans des widgets qui porte l'id `widgetContent`.

In [12]:
all_widgets = chrome.find_elements_by_id("nav-top")
type(all_widgets), len(all_widgets)

  all_widgets = chrome.find_elements_by_id("nav-top")


WebDriverException: Message: disconnected: not connected to DevTools
  (failed to check if window was closed: disconnected: not connected to DevTools)
  (Session info: chrome=119.0.6045.199)
Stacktrace:
0   chromedriver                        0x00000001047ced28 chromedriver + 4795688
1   chromedriver                        0x00000001047c62b3 chromedriver + 4760243
2   chromedriver                        0x000000010439f88d chromedriver + 407693
3   chromedriver                        0x000000010438467e chromedriver + 296574
4   chromedriver                        0x0000000104384573 chromedriver + 296307
5   chromedriver                        0x00000001043a2052 chromedriver + 417874
6   chromedriver                        0x0000000104431117 chromedriver + 1003799
7   chromedriver                        0x0000000104415a73 chromedriver + 891507
8   chromedriver                        0x00000001043e0143 chromedriver + 672067
9   chromedriver                        0x00000001043e131e chromedriver + 676638
10  chromedriver                        0x000000010478f795 chromedriver + 4536213
11  chromedriver                        0x0000000104794853 chromedriver + 4556883
12  chromedriver                        0x0000000104775001 chromedriver + 4427777
13  chromedriver                        0x000000010479559d chromedriver + 4560285
14  chromedriver                        0x000000010476648c chromedriver + 4367500
15  chromedriver                        0x00000001047b50e8 chromedriver + 4690152
16  chromedriver                        0x00000001047b529e chromedriver + 4690590
17  chromedriver                        0x00000001047c5eee chromedriver + 4759278
18  libsystem_pthread.dylib             0x00007ff803d1b1d3 _pthread_start + 125
19  libsystem_pthread.dylib             0x00007ff803d16bd3 thread_start + 15


On obtient une liste d'éléments décrits par cet identifiant. Il y en a 5, un pour chaque ligne. Pour récupérer les différentes offres de la première ligne. on récupère les sections correspondantes: 

In [9]:
first_line = all_widgets[0]
all_first_line_elements = first_line.find_elements_by_class_name('a-section')
len(all_first_line_elements)

IndexError: list index out of range

Pour récupérer le text maintenant : 

In [17]:
_ = [print(elt.text+ "\n")  for elt in all_first_line_elements]

NameError: name 'all_first_line_elements' is not defined

Si vous êtes fan de JavaScript vous pouvez même injecter du code JS dans le navigateur depuis Python pour exécuter des opérations complexes. 

In [68]:
js_script = """
const class_name = 'DRIOC'
console.log(`Hi from ${class_name}`)
"""

In [69]:
chrome.execute_script(js_script)

Vous pouvez aller vérifier dans la console Javascript du navigateur que le message apparait bien. 

# Exercice

## Exercice 1

Extraire le prix des offres :

In [77]:
def extract_price(offer_web_element):
    raise NotImplementedError('Need to be implemented')
    pass

extract_price(all_first_line_elements[0])

NotImplementedError: Need to be implemented

Extraire l'image de l'offre: 

In [78]:
def extract_image(offer_web_element):
    raise NotImplementedError('Need to be implemented')
    pass

extract_image(all_first_line_elements[0])

NotImplementedError: Need to be implemented

Extraire le titre de l'offre: 

In [79]:
def extract_title(offer_web_element):
    raise NotImplementedError('Need to be implemented')
    pass

extract_title(all_first_line_elements[0])

NotImplementedError: Need to be implemented

In [80]:
chrome.close()