# Prise en main de `selenium`

<div class="alert alert-block alert-info">
<bObjectif p:</b>Ce notebook permet de découvrir les commandes de base de la navigation Web pilotée par <code>selenium</code>. Les ⌛ indiquent qu'il peut être nécessaire d'attendre un peu avant d'obtenir le résultat escompté. 
.</div>

## Import des modules

Les modules à importer sont à la fois `selenium`, son `webdriver` et des constantes traduisant le module de recherche des éléments constituant une page (par identifiant, par classe, par règle CSS, ...) :

In [1]:
import selenium.webdriver # les pilotes des navigateurs
from selenium.webdriver.common.by import By # les modes de recherche des éléments

## Lancement d'un navigateur Web dont la navigation est pilotée par `selenium`

Lancez le navigateur Chrome piloté par `selenium` avec : 

In [2]:
options = selenium.webdriver.ChromeOptions()
driver = selenium.webdriver.Chrome(options=options)  

⌛ Une instance de Chrome portant la mention _Chrome est contrôlé par un logiciel de test automatisé_ s'ouvre. Elle peut être manipulée indifféremment : 
* par le code (cf. suite du notebook) 
* par vos actions-utilisateur usuelles (clic de souris, saisie de texte, icônes de navigations, outils de développement, ...)

🛟 Pour la suite, affichez à l'écran **en parallèle** l'instance de Chrome ouverte et ce notebook.

## Chargement d'une page

Pour charger une page à partir de son URL (ici le site de l'IUT1) :

In [3]:
url = "https://iut1.univ-grenoble-alpes.fr/"
driver.get(url)

👓 Vous constaterez que l'instance de Chrome affiche le site de l'IUT, comme si un utilisateur avait saisi l'url et avait validé sa requête. 

## Accèder à un élément Web

Le site de l'IUT utilisant des cookies, un bandeau d'acceptation apparait (gênant pour voir le contenu de la page). Il est possible (par le code) d'interagir le bouton `Accepter tous les cookies` pour s'en débarrasser en simulant ce qu'aurait fait un utilisateur : "cliquer dessus". 

### Accès par un identifiant

🔍 Cherchez (en éditant les outils de développement dans le _Chrome_ piloté par `selenium` et en utilisant l'outil _Inspecter_) l'identifiant (`id`) du bouton. 

Pour récupérer l'élement (de type `selenium.WebElement`) associé à ce bouton par son identifiant (`By.ID`), utilisez (après avoir remplacé `identifiant_recherche` par l'identifiant trouvé plus haut) : 

In [4]:
# ici le code
bouton = driver.find_element(By.ID, "tarteaucitronPersonalize2")
print(bouton)

<selenium.webdriver.remote.webelement.WebElement (session="97f689c21c99f9d0b38bd2838451754f", element="09a032e0-9042-4b37-9b01-94047fc56d35")>


Différentes informations peuvent être récupérées :

In [5]:
# Contenu textuel du bouton (incluant les données des balises encapsulées)
print("Contenu ->", bouton.text)
# Attributs du bouton, par exemple
print("Classes ->", bouton.get_attribute("class"))

Contenu -> ACCEPTER TOUS LES COOKIES
Classes -> tarteaucitronCTAButton tarteaucitronAllow


Cliquez par le code sur le bouton avec : 

In [6]:
bouton.click()

👓 Le navigateur a exécuté vos actions, comme un utilisateur l'aurait fait manuellement

### Accès par classe, règles css 

`selenium` permet de récupérer plusieurs éléments avec : 

```python
liste_elements = driver.find_elements(mode_recherche, "descripteur de la recherche")
```

Différents _modes de recherche_ peuvent être utilisés (en plus de `By.ID` vu précédemment) : 

* par classe avec `By.CLASS_NAME`
* par règles CSS avec `By.CSS_SELECTOR`

❓Dans la cellule qui suit, écrivez le code qui : 

* recherche les titres des 4 actualités du portail de l'IUT (texte bleu en dessous de chaque image), en effectuant une recherche par classe,
* affiche sur la console le texte du titre et le lien (attribut `href`) vers lequel il pointe,
* stocke les liens obtenus dans une liste `liens`.

**Attention** : seul les liens des 4 actus (et non ceux de l'agenda devront être affichés)

In [13]:
# ici le code
liste_actus = driver.find_elements(By.CLASS_NAME, 'liste__objets__titre')
liens = []
for actu in liste_actus:
    print(actu.text + " " + actu.get_attribute('href'))
    liens.append(actu.get_attribute('href'))
    

BUT : calendrier des candidatures 2024 https://iut1.univ-grenoble-alpes.fr/iut1/candidature-en-but-196864.kjsp?RH=6044288375922512
Nos formations pour la prochaine rentrée https://iut1.univ-grenoble-alpes.fr/iut1/nos-formations-pour-la-prochaine-rentree-1321419.kjsp?RH=6044288375922512
L'IUT1 sera présent au Salon de l'Étudiant 2023 https://iut1.univ-grenoble-alpes.fr/iut1/l-iut1-sera-present-au-salon-de-l-etudiant-2023-1287479.kjsp?RH=6044288375922512
Alternance en BUT2 GMP : les étudiants rencontrent les entreprises https://iut1.univ-grenoble-alpes.fr/iut1/alternance-en-but2-gmp-les-etudiants-rencontrent-les-entreprises-1304455.kjsp?RH=6044288375922512
L'IUT1 sera présent au Salon de l'Étudiant 2023 https://iut1.univ-grenoble-alpes.fr/evenements-/l-iut1-sera-present-au-salon-de-l-etudiant-2023-1287479.kjsp
Save the date ! Journée Portes Ouvertes IUT1 2024 https://iut1.univ-grenoble-alpes.fr/evenements-/save-the-date-journee-portes-ouvertes-iut1-2024-1321992.kjsp


### Accès par XPATH

Trouvez le sélecteur adéquat (id, class, css) surtout pour les sites dynamiques peut vite devenir une gajeure ! `selenium` propose une recherche bien plus efficace : par **XPATH**.

<div class="alert alert-warning">
🔍 XPath (<i>XML Path Language</i>) est un langage de requête permettant de sélectionner efficacement des éléments dans des documents XML, en s'appuyant sur le DOM (<i>Document Object Model</i>) donc sur l'arborescence des balises du document. Sa syntaxe s'appare à celle des chemins dans les systèmes de fichier (jokers et expressions régulières compris). Voir <a href="https://www.w3schools.com/xml/xpath_syntax.asp">https://www.w3schools.com/xml/xpath_syntax.asp</a> pour une documentation complète.
</div>

#### XPATH d'un élément cible

🔍 Pour obtenir le XPath d'un élément cible de l'IUT : 

* Pointez l'élément avec les outils de développement de Chrome
* Sélectionnez le code source de l'élément dans l'onglet `Elements` des outils de développement → clic droit → _Copy_ → _Copy XPath_
* Collez le XPath copié dans n'importe quel éditeur de texte pour l'utiliser par la suite

❓Faites cette manip avec la 1ère actu du site Web de l'IUT et copiez-le XPath dans la cellule qui suit. Vous devriez obtenir : `//*[@id="contenu_sans_nav_sans_encadres"]/div/div/div[3]/div/div[2]/div[1]/div/ul/li[1]/div[2]/em/a`

In [44]:
XPath = '/html/body/main/div/div[1]/div/div/div/div[3]/div/div[2]/div[1]/div/ul/li[2]/div[2]/em/a'

👓 Le XPath décrit finalement la succession des noeuds (au sens de l'arborescence des balises) partant de la racine du document (`//`) et amenant (ordre de déclaration `[i]` dans l'arborescence à l'appui) la position du noeud/élément visé.

❓En vous aidant de https://www.w3schools.com/xml/xpath_syntax.asp, réécrivez le code affichant les titres et les liens des 4 actus du portail de l'IUT en utilisant une recherche par **XPath**. 

In [51]:
# ici le code
for i in range(1,5):
    XPath = f'/html/body/main/div/div[1]/div/div/div/div[3]/div/div[2]/div[1]/div/ul/li[{i}]/div[2]/em/a'
    actu = driver.find_element(By.XPATH, XPath)
    print(f"{actu.text} {actu.get_attribute('href')}")

BUT : calendrier des candidatures 2024 https://iut1.univ-grenoble-alpes.fr/iut1/candidature-en-but-196864.kjsp?RH=6044288375922512
Nos formations pour la prochaine rentrée https://iut1.univ-grenoble-alpes.fr/iut1/nos-formations-pour-la-prochaine-rentree-1321419.kjsp?RH=6044288375922512
L'IUT1 sera présent au Salon de l'Étudiant 2023 https://iut1.univ-grenoble-alpes.fr/iut1/l-iut1-sera-present-au-salon-de-l-etudiant-2023-1287479.kjsp?RH=6044288375922512
Alternance en BUT2 GMP : les étudiants rencontrent les entreprises https://iut1.univ-grenoble-alpes.fr/iut1/alternance-en-but2-gmp-les-etudiants-rencontrent-les-entreprises-1304455.kjsp?RH=6044288375922512


## Navigation

Nous allons naviguer vers la 1ère actualité du site de l'IUT. Si vos codes précédents sont correctes, elle est à l'URL :

In [52]:
url_actu1 = liens[0]
print("1ère actu:", url_actu1)

1ère actu: https://iut1.univ-grenoble-alpes.fr/iut1/candidature-en-but-196864.kjsp?RH=6044288375922512


Il suffit donc, pour s'y rendre, d'exécuter :  

In [63]:
driver.get(url_actu1)

⌛👓 Le navigateur doit maintenant éditer la 1ère actu.

❓Identifiez les Xpath du titre et du sous-titre (texte blanc sur fond noir) de l'actu. Ecrivez le code qui les récupère par leur XPath, les stocke dans un dictionnaire de la forme 
```python
{"titre": <le_titre>, 
 "sous-titre": <le_sous-titre>}
```
puis les affiche sur la console.

In [64]:
# ici le code
dico = {}
for i in range(1,5):
    XPathT = f'/html/body/main/div[2]/div[1]/div[1]/h1'
    XPathST = f'/html/body/main/div[2]/div[1]/div[1]/div[2]/div/span'
    titre = driver.find_element(By.XPATH, XPathT)
    sous_titre = driver.find_element(By.XPATH, XPathST)
    dico["titre"] = titre.text
    dico["sous-titre"] = sous_titre.text
print(dico)

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"/html/body/main/div[2]/div[1]/div[1]/div[2]/div/span"}
  (Session info: chrome=93.0.4577.63)


## Crawling

❓Déplacez le navigateur sur la page de la 2ème actualité.

In [66]:
# ici le code
driver.get(liens[1])


{'titre': 'Nos formations pour la prochaine rentrée', 'sous-titre': 'Documentation, Formation'}


<div class="alert alert-warning">
Les actu étant théoriquement toutes structurées de la même façon (merci les systèmes de gestion de contenu type Wordpress 😃), le code de récupération du titre et du résumé de la 2ème actu doit rester valable (avec les même XPath _relatifs_). 
</div>

❓Testez en dupliquant le code dans la cellule qui suit.

In [67]:
# ici le code
dico = {}
for i in range(1,5):
    XPathT = f'/html/body/main/div[2]/div[1]/div[1]/h1'
    XPathST = f'/html/body/main/div[2]/div[1]/div[1]/div[2]/div/span'
    titre = driver.find_element(By.XPATH, XPathT)
    sous_titre = driver.find_element(By.XPATH, XPathST)
    dico["titre"] = titre.text
    dico["sous-titre"] = sous_titre.text
print(dico)

{'titre': 'Nos formations pour la prochaine rentrée', 'sous-titre': 'Documentation, Formation'}


## Fermer la navigateur

Fermer proprement votre navigateur avec : 

In [68]:
driver.quit()

⛐ Revenez au sujet de TP.