Aujourd'hui la plupart des sites web utilisent du JavaScript pour rendre le site plus dynamique et agréable, mais aussi pour afficher la donnée. 

Pour ces sites, la première méthode abordée n'est pas efficace, car de nombreuses requêtes sont utilisées pour se connecter, afficher la donnée, naviguer, il faudrait prendre en compte toutes ces requêtes et les assembler pour simuler le comportement du site. 

**C'est le comportement de votre navigateur**, il compile toutes les interactions, les requêtes et génère du HTML permettant d'afficher l'interface graphique d'un site web.

Pour palier ce problème, on peut laisser le navigateur faire son travail et contrôler sa surcouche logicielle. Pour cela, on peut prendre le contrôle d'un navigateur comme Chrome, Edge, Firefox ou Safari depuis un script Python. 

Pour cela, nous allons utiliser un package Python `Selenium` https://selenium-python.readthedocs.io/ qui permet d'instancier un navigateur et de le contrôler. Sélénium est beaucoup utilisé pour générer des tests automatiques de sites web. 

On peut trouver les drivers des différents browser : 
- Chrome:	https://googlechromelabs.github.io/chrome-for-testing/#stable (bien télécharger le "chromedriver" et non pas chrome)
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

---

如今，大多数网站都使用 JavaScript 来使网站更加动态和美观，同时也用于显示数据。

对于这些网站，之前介绍的第一种方法并不有效，因为需要大量的请求来登录、显示数据、导航，我们需要考虑所有这些请求并将它们组合起来以模拟网站的行为。

**这就是浏览器的行为**，它编译所有的交互、请求并生成 HTML，从而显示网站的图形界面。

为了解决这个问题，我们可以让浏览器完成它的工作，并控制其软件层。为此，我们可以通过 Python 脚本控制 Chrome、Edge、Firefox 或 Safari 等浏览器。

为此，我们将使用 Python 包 `Selenium` https://selenium-python.readthedocs.io/，它允许实例化浏览器并对其进行控制。Selenium 常用于生成网站的自动化测试。

我们可以找到不同浏览器的驱动程序：
- Chrome:	https://googlechromelabs.github.io/chrome-for-testing/#stable (请下载 "chromedriver" 而不是 chrome)
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

**Depuis les dernières versions de Selenium, il n'est plus néccessaires de télécharger les driver des browsers car Selenium les manage**

---

**从 Selenium 的最新版本开始，不再需要下载浏览器驱动程序，因为 Selenium 会管理它们**

In [1]:
from selenium import webdriver

In [2]:
chrome = webdriver.Chrome()

Vous devez voir apparaître une nouvelle instance de votre navigateur.
Chrome vous demande depuis peu de selectionner votre navigateur par défaut. Etant donné que notre but est de tout controller depuis notre code, on peut bypass cette demande en ajoutant des options au webdriver de Chrome

---

您应该会看到一个新的浏览器实例出现。
Chrome 最近要求您选择默认浏览器。由于我们的目标是通过代码控制一切，我们可以通过向 Chrome webdriver 添加选项来绕过此请求。

In [None]:
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument("--disable-search-engine-choice-screen")

chrome = webdriver.Chrome(options=chrome_options)

Maintenant, vous avez le controlle du navigateur depuis Python. Si vous voulez accéder à une page :

---

现在，您可以通过 Python 控制浏览器。如果您想访问某个页面：

In [3]:
chrome.get("https://books.toscrape.com/")

Allez maintenant voir votre fenêtre. Vous êtes sur un faux site de vente de livre. Ce site est spécialement concu pour être scrapé et comprendre les bases, mais en réalité scraper un site est un peu plus complexe, comme vous allez vous en rendre compte dans la section 2 sur Scrapy.

Vous pouvez maintenant vous déplacer dans la page. Pour cela, il va falloir inspecter le code source de la page.

Il existe de nombreuse méthode pour récupérer les éléments par exemple `find_element` qui permet de récupérer un élément grâce au texte affiché. Ici, si on veut récupérer cliquer sur la section `Travel` pour récupérer les livres de voyages

---

现在去看看您的窗口。您在一个假的图书销售网站上。该网站专门设计用于爬取和理解基础知识，但实际上爬取网站要复杂一些，正如您将在关于 Scrapy 的第 2 部分中意识到的那样。

您现在可以在页面中移动。为此，需要检查页面的源代码。

有很多方法可以获取元素，例如 `find_element`，它允许通过显示的文本获取元素。在这里，如果我们想点击 `Travel` 部分以获取旅游书籍：

In [18]:
from selenium.webdriver.common.by import By
link = chrome.find_element(By.LINK_TEXT, "Travel")
type(link)

selenium.webdriver.remote.webelement.WebElement

Si on veut entrer dans le lien, il suffit d'appeler la méthode `click`.

---

如果我们想进入链接，只需调用 `click` 方法。

In [6]:
link.click()

Vous êtes arrivé sur la page des livres de voyage. Maintenant nous allons récupérer toutes les livres. On remarque que tous les livres ont une class HTML nommée `product_pod`.

---

您已到达旅游书籍页面。现在我们将获取所有书籍。我们注意到所有书籍都有一个名为 `product_pod` 的 HTML 类。

In [19]:
all_widgets = chrome.find_elements(By.CLASS_NAME, "product_pod")
type(all_widgets), len(all_widgets)
all_widgets[0]

<selenium.webdriver.remote.webelement.WebElement (session="0e7a41b236b42d0c4fc58e4ab7f852db", element="f.B25F98DC7AE1827EC2ADC9EE1FE93DE8.d.050CFD9207FC030DA4F364301F00FAC5.e.213")>

On obtient une liste d'éléments décrits par cette class. Il y en a 11, un pour chaque livre. Pour récupérer le titre du premier livre: 

---

我们获得了一个由该类描述的元素列表。共有 11 个，每本书一个。要获取第一本书的标题：

In [None]:
first_book = all_widgets[0]
first_book_title = first_book.find_element(By.CSS_SELECTOR, "h3")
first_book_title.text

Si vous êtes fan de JavaScript vous pouvez même injecter du code JS dans le navigateur depuis Python pour exécuter des opérations complexes. 

---

如果您是 JavaScript 粉丝，您甚至可以从 Python 向浏览器注入 JS 代码以执行复杂操作。

In [None]:
js_script = """
const class_name = 'DSIA'
alert(`Hi from ${class_name}`)
"""

In [None]:
chrome.execute_script(js_script)

# Exercice

# 练习 (Exercice)

## Exercice 1

## 练习 1 (Exercice 1)

Extraire le prix des livres :

---

提取书籍价格：

In [14]:
def extract_price(book_web_element):
    price_element = book_web_element.find_element(By.CLASS_NAME, "product_price")
    return price_element.text
extract_price(all_widgets[1])

'£49.43\nIn stock\nAdd to basket'

Extraire l'image des livres: 

---

提取书籍图片：

In [17]:
def extract_image(book_web_element):
    img=book_web_element.find_element(By.TAG_NAME, "img")
    url=img.get_attribute("src")
    return url
extract_image(all_widgets[0])

'https://books.toscrape.com/media/cache/27/a5/27a53d0bb95bdd88288eaf66c9230d7e.jpg'

Extraire le nombre d'étoiles d'un livre: 

---

提取书籍的星级数：

In [20]:
def extract_rating(book_web_element):
        rating_element = book_web_element.find_element(By.CLASS_NAME, "star-rating")
        
        rating_class = rating_element.get_attribute("class")
        
        if "One" in rating_class:
            return 1
        elif "Two" in rating_class:
            return 2
        elif "Three" in rating_class:
            return 3
        elif "Four" in rating_class:
            return 4
        elif "Five" in rating_class:
            return 5
        else:
            return 0

extract_rating(all_widgets[0])

2

In [None]:
chrome.close()