# SCRAPING DE PAGE DYNAMIQUE : SELENIUM


*OBJECTIF*: 
  - Utiliser le module **Selenium** de Python pour scraper les pages dynamiques

Prérequis: 
  - Installer `selenium`
  - Télécharger `driver` selon le navigateur de votre choix (l’objet qui gère le navigateur utilisé par Selenium)  

## Introduction

**BeautifulSoup** est une excellente bibliothèque pour récupérer des données sur le Web, mais elle ne traite pas du contenu créé de manière dynamique. Ce n’est en aucun cas une critique - Beautiful Soup fait exactement le travail qu’elle est censée faire et cela n’inclut pas le rendu de la page Web comme le ferait un navigateur.

Afin d'obtenir ce contenu dynamique, la page Web doit être interprétée par un navigateur afin que le Javascript qui crée le contenu dynamique puisse faire son travail. Mais comment arriver au code HTML rendu par le navigateur? Une réponse consiste à utiliser un navigateur auxiliaire et la bibliothèque **Selenium** de Python. 

Nous allons utiliser un fichier HTML très simple qui contient du texte rendu dynamiquement. 

Copiez le code suivant dans un fichier nommé *test.html*

<html>
<head>
   <title>Page Dynamique</title>
</head>
<body>
   <div id="text">Zone de texte</div>
   <script>
      document.getElementById("text").innerHTML="Ceci est notre texte"
   </script>
</body>
</html>

Tout ce que nous avons ici est un fichier HTML avec un seul `<div>` dans le corps qui contient du texte («Zone de texte») mais lorsque la page est chargée, ce texte est remplacé par le texte généré par le Javascript plus bas. Le script localise le `<div>` par son id, `text`, puis définit le texte interne sur: «Ceci est notre texte».

Maintenant voyons ce qui se passe lorsque nous essayons de scraper cette page

In [None]:
from bs4 import BeautifulSoup

# Lecture du fichier
soup_file=open("test.html")
# Parcourrir le code source
soup = BeautifulSoup(soup_file)
print(soup.title.get_text())
print(soup.find(id='text').get_text())
soup_file.close()

Dans le code ci-dessus, nous ouvrons le fichier html et par la suite nous utilisons BS pour parcourir le code source de la page.

Mais comme vous pouvez le voir, nous n'avons récupéré que le contenu static de la page. Le texte généré par le JS n'as pu etre récupéré par BS. **C'est là que selenium rentre en jeu**

## SELENIUM

Selenium est un outil d’automatisation de test pour le web. Il permet de créer des **robots** qui naviguent dans des pages webs comme le ferait un vrai utilisateur. Bien que le premier rôle de Selenium soit le testing de pages webs (développement web), cet outil est beaucoup utilisé pour l’extraction de données.

## Pourquoi utiliser Selenium pour scraper ?

   La démarche habituelle pour scraper est : une requête suivie du parsing de la réponse. Dans la plupart des cas cela marche bien. Mais lorsque l’on a affaire à des sites avec plusieurs redirections ou avec des pop-ups avec lesquels il faut interagir avant d’avoir la page qu’on veut, cette démarche devient beaucoup moins amusante. Car il faut analyser le réseau et simuler les requêtes dans le bon ordre avec les bons arguments. Et parfois il est carrement impossible d’accéder à une page via une simple requête.

   L’avantage de Selenium c’est que l’on (notre script) peut naviguer sur les pages. Du coup, si on voit la donnée dans notre navigateur, on peut la scraper via Selenium. Avec selenium, on peut remplir des formulaire, cliquer sur des boutons, scroller, parser des pages etc.

In [None]:
import os

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

In [None]:
os.getcwd()

In [None]:
#gecko_driver_path = "put_path_to_your_driver.exe"
gecko_driver_path = "../web_drivers/geckodriver.exe"

# Création d'une instance driver
driver = webdriver.Firefox(executable_path=gecko_driver_path)

# On va sur notre page test.html
url = r"file:///C:/Users/FJPN3406/Documents/FORMATIONS/WEB_SCRAPING/Web_Scraping_Dynamique/test.html"
driver.get(url)


L'étape suivante consiste à créer un objet BeautifulSoup et à y charger la source de la page. Nous pouvons ensuite extraire les données de cette source. Dans le code ci-dessous, vous pouvez voir que nous faisons à peu près la même chose que dans l'exercice précédent. Mais cette fois, le résultat sera différent

In [None]:
# Mettez la source de la page dans une variable et créez un objet BS à partir de celle-ci 
soup_file = driver.page_source 
soup = BeautifulSoup (soup_file)
# Charger et imprimer le titre et le texte de <div> 
print (soup.title.get_text ()) 
print(soup.find(id='text').get_text())

Comme vous pouvez le voir, nous utilisons maintenant le code qui a été traité par le navigateur Web driver, le résultat est ce qui serait rendu dans une fenêtre de navigateur, et non la source d'origine comme lors de notre première tentative.

In [None]:
# Fermez le navigateur 
chrome_driver.quit ()

## Exemple

Nous voulons avoir les prix, titres d’offre et images pour toutes les offres concernants les IPhones sur le site de [http://www.ebay.fr]("http://www.ebay.fr"). Pour cela nous allons juste faire une recherche du mot clé “iphone” puis récupérer les informations. Simple non ?

In [None]:
#  Le webdriver est l’objet qui gère le navigateur utilisé par Selenium
from selenium import webdriver

# Pour utiliser toutes les touches du clavier
from selenium.webdriver.common.keys import Keys

# Pour mettre le script en “pause” pour les chargement de page.
from time import sleep

In [None]:
#gecko_driver_path = "put_path_to_your_driver.exe"
gecko_driver_path = "../web_drivers/geckodriver.exe"

# Création d'une instance driver
driver = webdriver.Firefox(executable_path=gecko_driver_path)

# Chargement de la page dans le driver
url = "https://www.ivoiremobiles.net"
driver.get(url)

# En fonction de notre connexion et des performance de notre machine il faudra attendre
# que la page charge avant de passer à la suite
sleep(10)

On recupère, grâce au selecteur de Selenium, l’élément qui correspond au champ “recherche”. Pour trouver le bon élément il faut inspecter la page

In [None]:
# On recupere la bar de recherche, on la remplit avec "iphone" puis on appuie "Entrez"
search_bar = driver.find_element_by_name("search_query")
search_bar.send_keys("iphone")
search_bar.send_keys(Keys.ENTER)


Jetez maintenant un oeil sur le webdriver généré par selenium

In [None]:
# Chargement du code source de la page recherchée
page = driver.page_source
soup = BeautifulSoup(page)

In [None]:
# La liste des articles (Iphone)
products = soup.find_all('div',class_='product-container')

In [None]:
products[0]

In [None]:
soup.find()

In [None]:
# Avoir la balise contenant la description de l'article
products[0].find("h5",itemprop='name')

In [None]:
products[0].find("h5",itemprop='name').get_text()

In [None]:
# Le prix de l'article
products[0].find("span",itemprop='price').get_text()

In [None]:
# L'image de l'article
products[0].find("img",itemprop='image')

In [None]:
# Le lien de l'image
products[0].find("img",itemprop='image')['src']

In [None]:
# Le titre de l'image
products[0].find("img",itemprop='image')['title']

Parcourons maintenant la liste des articles pour avoir les infos sur tous les articles

In [None]:
import pandas as pd
names = []
prices = []
links = []

for prd in products:
        names.append(prd.find("h5",itemprop='name').get_text())
        prices.append(prd.find("span",itemprop='price').get_text())
        links.append(prd.find("img",itemprop='image')["src"])
        
df_iphones = pd.DataFrame({"names":names,"prices":prices,"link_image":links})

In [None]:
df_iphones

In [None]:
Nous avons maintenant un dataframe contenant pour les téléphones Iphone disponible sue le site