# Introduction

Aujourd'hui la plupart des sites web utilisent du JavaScript pour rendre le site plus dynamique et agréable mais aussi pour afficher la données. 

Pour ces sites, la première méthode abordée n'est pas efficace, car de nombreuses requêtes sont utilisées pour se connecter, afficher la donnée, naviguer, il faudrait prendre en compte toutes ces requêtes et les assembler pour simuler le comportement du site. 

**C'est le comportement de votre navigateur**, il compile toutes les interactions, les requêtes et génère du HTML permettant d'afficher l'interface graphique d'un site web.

Pour palier ce problème on peut laisser le navigateur faire son travail et contrôler sa surcouche logiciel. Pour cela on peut prendre le contrôle d'un navigateur comme Chrome, Edge, Firefox ou Safari depuis un script Python. 

Pour cela, nous allons utiliser un package Python `Selenium` https://selenium-python.readthedocs.io/ qui permet d'instancier un navigateur et de le contrôler. Sélénium est beaucoup utilisé pour générer des tests automatiques de sites web. 

On peut trouver les drivers des différents browser : 
- Chrome:	https://sites.google.com/a/chromium.org/chromedriver/downloads
- Edge:	https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Firefox:	https://github.com/mozilla/geckodriver/releases
- Safari:	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

In [1]:
!pip install selenium



In [2]:
from selenium import webdriver

In [3]:
IS_LINUX = False

In [7]:
chrome = webdriver.Chrome(executable_path="./chromedriver" if not IS_LINUX else "./chromedriver_linux")

Vous devez voir apparaître une nouvelle instance de votre navigateur. Si vous voulez accéder à une page : 

In [6]:
chrome.get("https://www.senscritique.com/top/resultats/Les_meilleurs_films_de_2020/2582670")

Allez maintenant voir votre fenêtre. Vous êtes sur le site d'amazon. Vous pouvez maintenant vous déplacer dans la page. Pour cela il va falloir inspecter le code source de la page.

Il existe de nombreuse méthode pour récupérer les éléments par exemple `find_element_by_link_text` qui permet de récupérer un élément grâce au text affiché. Ici, si on veut récupérer toutes les `Ventes Flash`

In [7]:
chrome.execute_script("window.scrollTo(0, document.body.scrollHeight);")
#link = chrome.find_element_by_link_text("Voir tout")
#type(link)

Si on veut entrer dans le lien, il suffit d'appeler la méthode `click`.

In [8]:
link.click()

NameError: name 'link' is not defined

Vous êtes arrivé sur la page des ventes flash. Maintenant nous allons récupérer toutes les ventes actuelles. On remarque que les ventes sont stockés dans des widgets qui porte l'id `widgetContent`.

In [9]:
all_widgets = chrome.find_elements_by_class_name("d-rubric")
type(all_widgets), len(all_widgets)

(list, 6)

On obtient une liste d'éléments décrits par cet identifiant. Il y en a 5, un pour chaque ligne. Pour récupérer les différentes offres de la première ligne. on récupère les sections correspondantes: 

In [14]:
first_line = all_widgets[0]
all_first_line_elements = first_line.find_elements_by_class_name('elpo-item')
len(all_first_line_elements)

Pour récupérer le text maintenant : 

In [15]:
_ = [print(elt.text+ "\n")  for elt in all_first_line_elements]

1
1917 (2020)
Film de Sam Mendes avec George MacKay, Dean-Charles Chapman, Benedict Cumberbatch
Aussi présent dans :
Les meilleurs films de Sam Mendes
Les meilleurs plans-séquences du cinéma
Les films les plus attendus de 2020
Les meilleurs films sur la Première Guerre mondiale
Oscar du meilleur film 2020
Les films à la meilleure photographie
Les meilleurs films de guerre
Les meilleurs films anglais
Les films avec les plus belles scènes de batailles
Les meilleurs films sur des faits historiques

2
Jojo Rabbit (2020)
Film de Taika Waititi avec Roman Griffin Davis, Taika Waititi, Scarlett Johansson
Aussi présent dans :
Les meilleurs films de Taika Waititi
Oscar du meilleur film 2020
Les meilleurs films sur le thème des enfants soldats
Les meilleurs films se déroulant en Allemagne
Les films les plus attendus de 2020
Les meilleurs films néo-zélandais
Les meilleures comédies dramatiques
Les meilleurs films sur la Seconde Guerre mondiale
Les meilleurs films d'humour absurde
Les meilleurs fil

27
Lux Æterna (2020)
Moyen-métrage de Gaspar Noé avec Béatrice Dalle, Charlotte Gainsbourg, Abbey Lee
Aussi présent dans :
Les meilleurs films de Gaspar Noé
Les meilleurs films d'art et d'essai
Les meilleurs films français de 2020
Les films avec les meilleurs split-screen
Les films ayant le meilleur montage
Les meilleurs films du cinéma expérimental
Les meilleurs films avec Charlotte Gainsbourg

28
Adolescentes (2020)
Documentaire de Sébastien Lifshitz
Aussi présent dans :
Les meilleurs films français de 2020

29
Queen & Slim (2020)
Film de Melina Matsoukas avec Daniel Kaluuya, Jodie Turner-Smith, Bokeem Woodbine
Aussi présent dans :
Les meilleurs films avec Chloë Sevigny

30
Un pays qui se tient sage (2020)
Documentaire de David Dufresne
Aussi présent dans :
Les meilleurs films français de 2020

31
Vivarium (2020)
Film de Lorcan Finnegan avec Imogen Poots, Jesse Eisenberg, Eanna Hardwicke

32
Birds of Prey (et la Fantabuleuse Histoire de Harley Quinn) (2020)
Birds of Prey (And the Fan

66
Sonic, le film (2020)
Sonic the Hedgehog
Film de Jeff Fowler avec Ben Schwartz, Malik Bentalha, Jim Carrey
Aussi présent dans :
Les meilleurs films adaptés d'un jeu vidéo
Les meilleurs films mêlant animation et prises de vue réelles
Les films les plus attendus de 2020

67
Hotel by the River (2020)
Gangbyun Hotel
Film de Hong Sang-soo avec Ki Joo-bong, Kim Min-hee, Song Seon-Mi

68
La Femme qui s’est enfuie (2020)
Domangchin yeoja
Film de Hong Sang-soo avec Kim Min-hee, Seo Young-hwa, Song Seon-Mi
Aussi présent dans :
Les meilleurs films de Hong Sang-soo

69
La Cravate (2020)
Documentaire de Mathias Théry et Etienne Chaillou
Aussi présent dans :
Les meilleurs films français de 2020

70
Bad Boys for Life (2020)
Film de Adil El Arbi et Bilall Fallah avec Will Smith, Martin Lawrence, Joe Pantoliano
Aussi présent dans :
Les films les plus attendus de 2020
Les meilleures comédies policières
Les meilleurs films avec Martin Lawrence
Les meilleurs films avec Joe Pantoliano
Les meilleurs film

Si vous êtes fan de JavaScript vous pouvez même injecter du code JS dans le navigateur depuis Python pour exécuter des opérations complexes. 

In [36]:
js_script = """
const class_name = 'DRIOC'
console.log(`Hi from ${class_name}`)
"""

In [37]:
chrome.execute_script(js_script)

Vous pouvez aller vérifier dans la console Javascript du navigateur que le message apparait bien. 

# Exercice

## Exercice 1

Extraire le prix des offres :

In [16]:
def extract_price(offer_web_element): 
    alli = offer_web_element.find_elements_by_class_name("elco-anchor")
    return alli[0].text
#ou 
def extract_price2(offer_web_element):
    lst_prix = []
    l = offer_web_element.text
    l = l.split("\n")
    for elt in l:
        for i in elt:
            if i =="€":
                return elt
    return None
    #raise NotImplementedError('Need to be implemented')
    #pass
lst =  []
for i in range(len(all_first_line_elements)):
    lst.append(extract_price(all_first_line_elements[i]))
#print(all_first_line_elements[19].text)

In [67]:
len(lst)
dico = []

100

In [23]:
link = chrome.find_element_by_link_text('1917')
link.click()

In [25]:
element = chrome.find_element_by_tag_name("h3")

In [46]:
durée = chrome.find_element_by_tag_name("time")
durée.text

'15 janvier 2020'

In [69]:
actors = (chrome.find_elements_by_class_name("d-rubric"))[0].find_elements_by_class_name('d-offset.ecot-contact-label')
actor = []
for i in range(len(actors)):
    actor.append((actors[i].text))

['George MacKay',
 'Dean-Charles Chapman',
 'Benedict Cumberbatch',
 'Colin Firth',
 'Mark Strong']

In [34]:
link = chrome.find_element_by_link_text('1917')
link.click()

element = chrome.find_element_by_tag_name("h3")

durée = chrome.find_element_by_tag_name("time")
durée.text

actors = (chrome.find_elements_by_class_name("d-rubric"))[0].find_elements_by_class_name('d-offset.ecot-contact-label')
actor = []
for i in range(len(actors)):
    actor.append((actors[i].text))
    
direct = chrome.find_element_by_xpath("/html/body/div[3]/div[2]/div[3]/div/section[1]/ul/li[1]/span")
direct.text

'Sam Mendes'

Extraire l'image de l'offre: 

In [206]:
def extract_image(offer_web_element):
    alli = [ image.get_attribute("src") for image in offer_web_element.find_elements_by_tag_name("img")]
    return alli
    
extract_image(all_first_line_elements[0])

['https://m.media-amazon.com/images/G/08/_tools/1200_Brands_Generic/FR_DOTD._AA210_.png']

Extraire le titre de l'offre: 

In [53]:
def extract_title(offer_web_element):
    alli = offer_web_element.find_elements_by_class_name("d-heading4 elpt-product-title size160")
    return alli[0].text

extract_title(all_first_line_elements[0])

IndexError: list index out of range

In [80]:
chrome.close()