# Gérer les éléments avec Selenium

Il existe différentes stratégies pour localiser des éléments dans une page. Vous pouvez utiliser celui qui convient le mieux à votre cas. Selenium fournit les méthodes suivantes pour localiser des éléments dans une page:

- **find_element** : Pour trouver le 1er élément recherché. 
- **find_elements** : Pour trouver tous les éléments recherchés  (dans une liste).


les ATTRIBUTS pour trouver des éléments sur une page sont les suivants : 
- ID = "id"  
- NAME = "name"  
- XPATH = "xpath"  
- LINK_TEXT = "link text"  
- PARTIAL_LINK_TEXT = "partial link text"  
- TAG_NAME = "tag name"  
- CLASS_NAME = "class name"  
- CSS_SELECTOR = "css selector"  

Ces attributs sont accessible dans la classe *By* :  ***from selenium.webdriver.common.by import By*** .   
La classe *By* fournit des moyens de localiser des éléments sur une page. Ci-dessous quelques exemples:  

- --> find_element(By.ID, "id")   
- --> find_element(By.NAME, "name")   
- --> find_element(By.XPATH, "xpath")  
- --> find_element(By.LINK_TEXT, "link text")  
- --> find_element(By.PARTIAL_LINK_TEXT, "partial link text")  
- --> find_element(By.TAG_NAME, "tag name")  
- --> find_element(By.CLASS_NAME, "class name")  
- --> find_element(By.CSS_SELECTOR, "css selector")  

Vous trouverez une documentation complète [ici](https://selenium-python.readthedocs.io/locating-elements.html)

La recherche de plusieurs éléments se fait par la méthodes **find_elements** avec les mêmes arguments que la méthode précédente. 

{*id, name, xpath, link_text, partial_link_text, tag_name, class_name, css_selector*}

<html>
 <body>
  <form id="loginForm">
   <input name="username" type="text" />
   <input name="password" type="password" />
   <input name="continue" type="submit" value="Login" />
  </form>
 </body>
</html>

In [1]:
from bs4 import BeautifulSoup
from selenium import webdriver 
from selenium.webdriver.common.by import By 

## Localisation des éléments

In [5]:
import os
from selenium.webdriver.firefox.options import Options

options = Options()
options.binary_location = "C:/Program Files/Mozilla Firefox/firefox.exe"
driver = webdriver.Firefox()

# On va sur notre page test.html
# url = r"file:///C:/Users/Utilisateur/Documents/FORMATIONS/WEB_SCRAPING/PRATIQUES_WEB_SCRAPING/SCRAPING_DYNAMIQUE/test.html"
dirPath = str(os.getcwd() + "\\locating_elements.html")
dirPath = dirPath.replace("\\", "/")
url = r"file:///"+dirPath
print(url)
driver.get(url)



file:///d:/Data Science/semestre9/Webscraping/SCRAPING_DYNAMIQUE/locating_elements.html


In [4]:
url = "https://www.ivoiremobiles.net/"

### 1. Recherche/Localisation par *ID*

L'attribut *`By.ID`* est à utiliser lorsque vous connaissez l' attribut **id** d'un élément.

   - Le premier élément avec un attribut id correspondant sera renvoyé.  
   - Une exception `NoSuchElementException` sera renvoyée si aucune correspondance n'est faite


Par exemple, l'élément ***loginForm*** peut être répéré/localisé par :

In [6]:
login_form = driver.find_element(By.ID, 'loginForm')

In [7]:
login_form

<selenium.webdriver.remote.webelement.WebElement (session="c665dfce-b5b6-4faf-b092-3bbc27796b7e", element="1c63122e-9870-42f7-835a-5892bdd7ac8e")>

In [8]:
login_form.get_attribute('id')

'loginForm'

In [9]:
login_form.tag_name

'form'

In [10]:
login_form.text

'text login form'

In [11]:
login_forms = driver.find_elements(By.ID, 'loginForm')
login_forms

[<selenium.webdriver.remote.webelement.WebElement (session="c665dfce-b5b6-4faf-b092-3bbc27796b7e", element="1c63122e-9870-42f7-835a-5892bdd7ac8e")>]

### 2. Localisation par *NAME*

L'attribut *`By.NAME`* est à utiliser lorsque vous connaissez l' attribut **name** d'un élément.

Le *username* et le *password* peuvent être localisés comme suit :

In [12]:
username = driver.find_element(By.NAME, 'username')
username

<selenium.webdriver.remote.webelement.WebElement (session="c665dfce-b5b6-4faf-b092-3bbc27796b7e", element="75c9c992-5453-4071-8b14-708371757145")>

In [13]:

password = driver.find_element(By.NAME, 'password')
password

<selenium.webdriver.remote.webelement.WebElement (session="c665dfce-b5b6-4faf-b092-3bbc27796b7e", element="24b8132d-8bef-4e15-bc9d-1eb35fdd2906")>

In [14]:
print(username.tag_name, username.get_attribute("type"))
print(password.tag_name, password.get_attribute("type"))

input text
input password


In [15]:
continue_ = driver.find_element(By.NAME, 'continue')

In [16]:
print(continue_.tag_name, continue_.get_attribute("value"), continue_.get_attribute("type"))

input Login submit


Pour retourner plusieurs éléments ayant le même nom d'attribut

In [17]:
continues = driver.find_elements(By.NAME, 'continue')
continues

[<selenium.webdriver.remote.webelement.WebElement (session="c665dfce-b5b6-4faf-b092-3bbc27796b7e", element="05a70c5c-7e1e-48a8-a2b3-3aa24afdae3a")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c665dfce-b5b6-4faf-b092-3bbc27796b7e", element="69b2e5e7-ba48-4e45-a496-74f07d29070a")>]

In [18]:
len(continues)

2

In [19]:
for i, cont_elt in enumerate(continues) :
    print(f'ELEMENT : {i} , TAG_NAME : {cont_elt.tag_name}, VALUE : {cont_elt.get_attribute("value")}, TYPE : {cont_elt.get_attribute("type")}')

ELEMENT : 0 , TAG_NAME : input, VALUE : Login, TYPE : submit
ELEMENT : 1 , TAG_NAME : input, VALUE : Clear, TYPE : button


### 3. Localisation par *xpath*

**XPath** est un langage utilisé pour les noeuds/elements dans un document XML. Comme HTML peut être une implémentation de XML (**XHTML**). Les users Selenium se servent aussi de cette stratégie pour cibler les éléments dans leurs applications Web.  

Dans notre document HTML :  


 - les éléments de formulaire peuvent être localisés des manières suivantes

<html>
 <body>
  <form id="loginForm">
   <input name="username" type="text" />
   <input name="password" type="password" />
   <input name="continue" type="submit" value="Login" />
  </form>
 </body>
</html>

In [20]:
# Chemin absolu (Peut echouer si le code HTML est légèrement modifié)
login_form = driver.find_element(By.XPATH, "/html/body/form[1]")
print(login_form.tag_name)
# //*[@id="loginForm"]
# /html/body/form

# Accès au premier élément de formulaire dans le HTML
login_form = driver.find_element(By.XPATH, "//form[1]")
print(login_form.tag_name, login_form.get_attribute("id"))

# Accès à l'élément du formulaire avec l'attribut id défini sur loginForm 
login_form = driver.find_element(By.XPATH, "//form[@id='loginForm']")
print(login_form.tag_name)


form
form loginForm
form


 -  l'élément username peut être obtenu comme ceci:

In [21]:
# Premier élément de formulaire avec un élément enfant d'entrée dont 
#le nom est défini sur nom d' utilisateur
username = driver.find_element(By.XPATH, "//form[input/@name='username']")
print(username.tag_name, username.text)

#Premier élément enfant d'entrée de l'élément de formulaire avec 
#l'attribut id défini sur loginForm
username = driver.find_element(By.XPATH, "//form[@id='loginForm']/input[1]")
print(username.tag_name, username.text)

#Premier élément d'entrée avec le nom d'attribut défini sur nom d' utilisateur
username = driver.find_element(By.XPATH, "//input[@name='username']")
print(username.tag_name, username.text)

form text login form
input 
input 


In [22]:
#Trosième élément enfant d'entrée de l'élément de formulaire avec 
#l'attribut id défini sur loginForm
username = driver.find_element(By.XPATH, "//form[@id='loginForm']/input[3]")
print(username.tag_name, username.text, username.get_attribute('name'), username.get_attribute('type'))

input  continue submit


In [23]:
paragraph = driver.find_element(By.XPATH, "//p")
print(paragraph.tag_name, "****", paragraph.text)

p **** Are you sure you want to do this?


 -  l'élément de boutton **Clear** peut être obtenu comme ceci:

In [24]:
# Entrée avec le nom d'attribut défini sur continuer et 
# le type d'attribut défini sur bouton
clear_button = driver.find_element(By.XPATH, "//input[@name='continue'][@type='button']")


# Quatrième élément enfant d'entrée de l'élément de formulaire avec
# l'attribut id défini sur loginForm
clear_button = driver.find_element(By.XPATH, "//form[@id='loginForm']/input[4]")

In [25]:
clear_button.get_attribute("type")

'button'

En résumé, Les expressions XPath peuvent être écrites pour localiser des éléments en utilisant le chemin **absolu** et le chemin **relatif**.

- ``Le chemin absolu`` contient le chemin complet de la racine du document HTML à la position de l'élément recherché.  
        Dans ce cas, l'expression commence par l'élément racine du document ou par une barre oblique simple indiquant que le chemin commence à la racine du document.    
        
      /html/body/div[1]/header/div/div[1]/div[3]/div/form/div[3]/div[1]/input       
    
- ``Le chemin relatif`` quant à lui, permet de commencer le chemin vers élément récherché depuis n'importe quel endroit du document HTML.
        Dans ce cas,  l'expression commence par deux barres obliques ``//`` et peut ne pas commencer à la racine du document.  

                //input[@name=’username’]
                

Les liens suivants vous aideront bien comprendre la logique de la recherche par XPath.
- https://saucelabs.com/resources/blog/xpath-locators-cheat-sheet
- https://saucelabs.com/resources/blog/xpath-in-selenium-getting-started

Exmples d'expression XPath.

### 4. Localisation des hyperliens par le texte du lien

Utile lorsque vous connaissez le texte du lien utilisé dans une balise d'ancrage. 

Cette méthode renvoie  le premier élément avec le texte du lien correspondant à la valeur fournie.

In [26]:
import time
time.sleep(10)
driver.refresh()

In [27]:
continue_link = driver.find_element(By.LINK_TEXT, 'Continue')
continue_link



<selenium.webdriver.remote.webelement.WebElement (session="ef32ccc0-6f98-41da-b866-f9141d8738c5", element="3999f291-fdcc-4b37-b3cd-6b17551502a2")>

In [28]:
continue_link.tag_name, continue_link.text, continue_link.get_attribute('href')  

('a',
 'Continue',
 'file:///d:/Data%20Science/semestre9/Webscraping/SCRAPING_DYNAMIQUE/continue.html')

In [29]:
continue_link.get_attribute('name')

''

In [51]:
continue_link = driver.find_element(By.LINK_TEXT, 'Continu')



NoSuchElementException: Message: Unable to locate element: Continu
Stacktrace:
RemoteError@chrome://remote/content/shared/RemoteError.sys.mjs:8:8
WebDriverError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:189:5
NoSuchElementError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:507:5
dom.find/</<@chrome://remote/content/shared/DOM.sys.mjs:132:16


In [34]:
continue_link = driver.find_element(By.PARTIAL_LINK_TEXT, 'Continu')
continue_link

<selenium.webdriver.remote.webelement.WebElement (session="ef32ccc0-6f98-41da-b866-f9141d8738c5", element="3999f291-fdcc-4b37-b3cd-6b17551502a2")>

In [33]:
continue_link = driver.find_element(By.PARTIAL_LINK_TEXT, 'Continu')
continue_link

<selenium.webdriver.remote.webelement.WebElement (session="ef32ccc0-6f98-41da-b866-f9141d8738c5", element="3999f291-fdcc-4b37-b3cd-6b17551502a2")>

In [35]:
driver.refresh()
continue_link = driver.find_elements(By.PARTIAL_LINK_TEXT, 'Cont')
len(continue_link)

2

In [36]:
continue_link[1].get_attribute('href')

'file:///d:/Data%20Science/semestre9/Webscraping/SCRAPING_DYNAMIQUE/continue.html'

### 5. Localisation par **Tag Name**
Utile lorsque l'on souhaite localiser un élément par Tag Name de balise.

Le premier élément d'en-tête **h1** peut être atteint de la manière suivante 

In [37]:
driver.refresh()

heading1 = driver.find_element(By.TAG_NAME, 'h1')

In [38]:
heading1.text

'Welcome'

In [39]:
headings = driver.find_elements(By.TAG_NAME, 'h1')
len(headings)

1

In [40]:
headings = driver.find_elements(By.TAG_NAME, 'a')
len(headings)

4

### 6. Localisation par Nom de Classe

l'attribut `By.CLASS_NAME` est utilisé pour localiser un élément par nom de classe

In [37]:
content = driver.find_element(By.CLASS_NAME, 'content')

In [38]:
content.text

'vas-y'

In [39]:
content.tag_name

'a'

### 7. Localisation des éléments par les sélecteurs CSS 

`By.CSS_SELECTOR` est utilisé pour atteindre un élément à l'aide de la syntaxe du sélecteur CSS.  

Un sélecteur CSS est une combinaison d'un sélecteur d'élément et d'une valeur qui identifie l'élément web dans une page web. Ce sont des représentations sous forme de chaîne des balises HTML, des attributs, des identifiants (Id) et des classes (Class).  

Se référer aux  [tips de selenium avec css selectors](https://saucelabs.com/resources/blog/selenium-tips-css-selectors) pour une compréhension rapide. 

In [41]:
content = driver.find_element(By.CSS_SELECTOR, 'a.content')

In [42]:
content.text

'vas-y'

Quitter/Ferme le navigateur

In [43]:
time.sleep(10)
driver.quit()


### Connexion a Facebook

In [44]:
# Création de l'instance driver chrome
from selenium.webdriver.chrome.options import Options
from selenium import webdriver 
options = Options()
driver = webdriver.Chrome()

# Demander au driver d'appler sur Facebook
driver.get("https://www.facebook.com/")

# import time
# time.sleep(10)
# driver.quit()

 Une nouvelle instance de Google Chrome devrait apparaître et vous amener sur le site demandé.
 
 Revenons à notre code, en supposant que nous ayions déjà des informations d'identification Facebook. Nous voulons dire à Selenium de cliquer sur le  lien de Connexion en bleu
 
Dans la fenêtre de Google Chrome, faites un clic droit sur le lien bleu de connexion. Vous voulez cliquer sur **inspecter**, et copier le Xpath.

Vous devriez avoir un truc de ce genre : `//*[@id="u_0_d_zc"]`

De même, il s'agit du même processus pour les champs de saisie du nom d'utilisateur, du mot de passe et du bouton de connexion.

In [45]:
username_input = '//*[@id="email"]'

password_input = '//*[@id="pass"]'

# login_submit = '//*[@id="u_0_d_/e"]'

login_submit = '//*[@id="u_0_5_2B"]'

Maintenant nous voulons que Selenium remplisse ces champs avec notre nom d'utilisateur et notre mot de passe. 

Selenium a une méthode appelée **send_keys** qui nous permet d'automatiser facilement la saisie. Nous avons juste mis une chaîne là-dedans et elle tapera pour nous. Nous pouvons simplement essayer des variables factices, pour l'instant, pour voir si cela fonctionne. Essayez également de vous connecter en sachant que nous serons rejetés.

In [48]:

import acces_connexion
email = acces_connexion.login
password = acces_connexion.password
# from acces import email, password
time.sleep(5)
driver.find_element(By.XPATH, username_input).send_keys(email)
time.sleep(5)
driver.find_element(By.XPATH, password_input).send_keys(password)


Cliquer pour se connecter

In [49]:
time.sleep(8)
driver.find_element(By.XPATH, login_submit).click()

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="u_0_5_2B"]"}
  (Session info: chrome=130.0.6723.119); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
	GetHandleVerifier [0x00007FF711D938A5+3004357]
	(No symbol) [0x00007FF711A29970]
	(No symbol) [0x00007FF7118D582A]
	(No symbol) [0x00007FF711925B8E]
	(No symbol) [0x00007FF711925E7C]
	(No symbol) [0x00007FF71196EC27]
	(No symbol) [0x00007FF71194BC1F]
	(No symbol) [0x00007FF71196BA4C]
	(No symbol) [0x00007FF71194B983]
	(No symbol) [0x00007FF711917628]
	(No symbol) [0x00007FF711918791]
	GetHandleVerifier [0x00007FF711DBA00D+3161901]
	GetHandleVerifier [0x00007FF711E0E060+3506048]
	GetHandleVerifier [0x00007FF711E0400D+3465005]
	GetHandleVerifier [0x00007FF711B80EEB+830987]
	(No symbol) [0x00007FF711A3467F]
	(No symbol) [0x00007FF711A309D4]
	(No symbol) [0x00007FF711A30B6D]
	(No symbol) [0x00007FF711A20149]
	BaseThreadInitThunk [0x00007FFF94A37374+20]
	RtlUserThreadStart [0x00007FFF94B7CC91+33]


In [50]:
time.sleep(8)
driver.quit()