# Introduction

Aujourd'hui la plupart des sites web utilisent du JavaScript pour rendre le site plus dynamique et agréable mais aussi pour afficher la données. 

Pour ces sites, la première méthode abordée n'est pas efficace, car de nombreuses requêtes sont utilisées pour se connecter, afficher la donnée, naviguer, il faudrait prendre en compte toutes ces requêtes et les assembler pour simuler le comportement du site. 

**C'est le comportement de votre navigateur**, il compile toutes les interactions, les requêtes et génère du HTML permettant d'afficher l'interface graphique d'un site web.

Pour palier ce problème on peut laisser le navigateur faire son travail et contrôler sa surcouche logiciel. Pour cela on peut prendre le contrôle d'un navigateur comme Chrome, Edge, Firefox ou Safari depuis un script Python. 

Pour cela, nous allons utiliser un package Python `Selenium` https://selenium-python.readthedocs.io/ qui permet d'instancier un navigateur et de le contrôler. Sélénium est beaucoup utilisé pour générer des tests automatiques de sites web. 

On peut trouver les drivers des différents browser : 
- Chrome:	https://sites.google.com/a/chromium.org/chromedriver/downloads
- Edge:	https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

***
<p>今天，大多数网站都使用JavaScript来使网站更加动态和令人愉快，但也用于显示数据。

对于这些网站，所讨论的第一种方法是无效的，因为许多请求是用来连接、显示数据、导航的，它应该考虑到所有这些请求，并将它们组合起来，以模拟网站的行为。

**这是你的浏览器的行为**，它编译所有的互动、请求并生成HTML，使网站的图形界面得以显示。

为了克服这个问题，我们可以让浏览器做它的工作，控制它的软件叠加。要做到这一点，我们可以从Python脚本中控制一个浏览器，如Chrome、Edge、Firefox或Safari。

为了做到这一点，我们将使用一个Python包`Selenium`https://selenium-python.readthedocs.io/，它允许你实例化一个浏览器并控制它。Selenium被大量用于为网站生成自动测试。</p>


In [18]:
!pip install selenium



In [19]:
from selenium import webdriver

In [20]:
IS_LINUX = False

In [59]:
chrome = webdriver.Chrome(executable_path="./chromedriver" if not IS_LINUX else "./chromedriver_linux")

  chrome = webdriver.Chrome(executable_path="./chromedriver" if not IS_LINUX else "./chromedriver_linux")


Vous devez voir apparaître une nouvelle instance de votre navigateur. Si vous voulez accéder à une page : 

In [85]:
chrome.get("https://www.amazon.fr")

Allez maintenant voir votre fenêtre. Vous êtes sur le site d'amazon. Vous pouvez maintenant vous déplacer dans la page. Pour cela il va falloir inspecter le code source de la page.

Il existe de nombreuse méthode pour récupérer les éléments par exemple `find_element_by_link_text` qui permet de récupérer un élément grâce au text affiché. Ici, si on veut récupérer toutes les `Ventes Flash`

现在到你的窗口去。你在亚马逊的网站上。你现在可以在页面上移动。要做到这一点，你将需要检查页面的源代码。

有许多方法来检索元素，例如find_element_by_link_text，它允许你根据显示的文本来检索一个元素。在这里，如果我们想检索所有的Flash销售

In [97]:
link = chrome.find_element_by_link_text("Voir les Ventes Flash")
type(link)

  link = chrome.find_element_by_link_text("Voir les Ventes Flash")


selenium.webdriver.remote.webelement.WebElement

In [98]:
#from selenium.webdriver.common.by import By

In [99]:
#link = chrome.find_element(By.LINK_TEXT,"Ventes Flash")
#type(link)

Si on veut entrer dans le lien, il suffit d'appeler la méthode `click`.

如果你想输入链接，只需调用点击方法。

In [100]:
link


<selenium.webdriver.remote.webelement.WebElement (session="f93a56b7a01ba9ec1e81f41b78cef10e", element="e6d9be33-e9d7-4dcf-ac14-872099b21531")>

In [101]:
link.click()

Vous êtes arrivé sur la page des ventes flash. Maintenant nous allons récupérer toutes les ventes actuelles. On remarque que les ventes sont stockés dans des widgets qui porte l'id `widgetContent`.
>您已到达闪电销售页面。现在我们要检索所有当前的销售情况。请注意，销售被存储在id为`widgetContent`的部件中。

In [105]:
all_widgets = chrome.find_elements_by_id("a-page")
type(all_widgets), len(all_widgets)

  all_widgets = chrome.find_elements_by_id("a-page")


(list, 1)

On obtient une liste d'éléments décrits par cet identifiant. Il y en a 5, un pour chaque ligne. Pour récupérer les différentes offres de la première ligne. on récupère les sections correspondantes: 

In [106]:
first_line = all_widgets[0]
all_first_line_elements = first_line.find_elements_by_class_name('a-section')
len(all_first_line_elements)



7

Pour récupérer le text maintenant : 

In [107]:
_ = [print(elt.text+ "\n")  for elt in all_first_line_elements]

Toutes les offres
Offres éclair
Appareils Amazon
Moins de 20€
Informatique et logiciels
Cuisine et maison
Téléphones et accessoires
Bricolage et jardin

Ventes Flash sur les appareils Amazon
Page 1 sur 9
Offre Black Friday
22,99€
Prix conseillé : 39,99€ -43%
Fire TV Stick
7 382
Termine dans : 6 jours
Offre Black Friday
39,99€
Prix conseillé : 69,99€ -43%
Echo Dot avec horloge (4e génération)
Termine dans : 7 jours
Offre Black Friday
54,99€–64,99€
Kindle
Termine dans : 6 jours

Ventes Flash sur les appareils Amazon
Page 1 sur 9
Offre Black Friday
22,99€
Prix conseillé : 39,99€ -43%
Fire TV Stick
7 382
Termine dans : 6 jours
Offre Black Friday
39,99€
Prix conseillé : 69,99€ -43%
Echo Dot avec horloge (4e génération)
Termine dans : 7 jours
Offre Black Friday
54,99€–64,99€
Kindle
Termine dans : 6 jours

Ventes Flash sur les appareils Amazon
Page 1 sur 9

Ventes Flash sur les marques Amazon
Page 1 sur 12
Offre Black Friday
5,96€–32,35€
Produits du quotidien des marques exclusives Amazon
Ter

Si vous êtes fan de JavaScript vous pouvez même injecter du code JS dans le navigateur depuis Python pour exécuter des opérations complexes. \
>如果你是一个JavaScript爱好者，你甚至可以从Python中向浏览器注入JS代码以执行复杂的操作。

In [108]:
js_script = """
const class_name = 'DRIOC'
console.log(`Hi from ${class_name}`)
"""

In [72]:
chrome.execute_script(js_script)

Vous pouvez aller vérifier dans la console Javascript du navigateur que le message apparait bien. 

# Exercice

## Exercice 1

Extraire le prix des offres :

从报价中提取价格:

In [118]:
def extract_price(offer_web_element):
    
    all_widgets = chrome.find_elements_by_id("slot-6")
    first_line = all_widgets[0]
    all_first_line_elements = first_line.find_elements_by_class_name('a-price-whole')
    offer_web_element = [print(elt.text+ "\n")  for elt in all_first_line_elements]


    raise NotImplementedError('Need to be implemented')
    pass
    
extract_price(all_first_line_elements[0])

  all_widgets = chrome.find_elements_by_id("slot-6")


22,99

39,99

19,99

49,99

267,25

337,88

279,00

1 499,00

199,90

329,90

4,80

999,00

12,99

289,99

249,00

1 699,00

38,99

64,99

44,99

84,99

99,00

599,99

19,99

89,99

799,00

1 299,00

24,90

37,90

98,00

829,00

11,99

789,99

59,99

199,99

10,99

413,99

22,99

319,99

9,90

73,99

21,99

299,99

71,99

209,99

23,90

849,99

99,99

699,00

9,01

224,99

4,54

37,32

199,00

599,00

11,99

269,99

16,99

123,88

5,10

214,99

41,99

369,99

59,90

113,99

299,99

799,00

19,99

149,99

39,99

59,99

4,16

199,99

32,99

143,99

1,25

159,99

399,00

1 499,00

20,99

329,99

129,99

435,90

13,99

119,99

17,99

26,99

2,79

39,92

230,30

329,00

18,59

399,99

21,50

45,00

59,99

899,00

15,65

69,00

73,99

520,99

109,99

169,00

7,99

279,99

96,00

319,00

347,45

838,56

69,99

169,99

2,73

34,50

12,99

199,99

7,90

449,99

18,38

210,04



NotImplementedError: Need to be implemented

Extraire l'image de l'offre: 

>https://blog.csdn.net/seanwang_25/article/details/43317147

In [121]:
def extract_image(offer_web_element):
    all_widgets = chrome.find_elements_by_id("slot-6")
    first_line = all_widgets[0]
    all_first_line_elements = first_line.find_elements_by__name("a-row a-spacing-small")
    offer_web_element = [print(elt.text+ "\n")  for elt in all_first_line_elements]

        
    raise NotImplementedError('Need to be implemented')
    pass

extract_image(all_first_line_elements[0])

  all_widgets = chrome.find_elements_by_id("slot-6")


AttributeError: 'WebElement' object has no attribute 'find_elements_by_src_name'

Extraire le titre de l'offre: 

In [79]:
def extract_title(offer_web_element):
    raise NotImplementedError('Need to be implemented')
    pass

extract_title(all_first_line_elements[0])

NotImplementedError: Need to be implemented

In [80]:
chrome.close()