# Prise en main de `selenium`

<div class="alert alert-block alert-info">
<bObjectif p:</b>Ce notebook permet de d√©couvrir les commandes de base de la navigation Web pilot√©e par <code>selenium</code>. Les ‚åõ indiquent qu'il peut √™tre n√©cessaire d'attendre un peu avant d'obtenir le r√©sultat escompt√©. 
.</div>

## Import des modules

Les modules √† importer sont √† la fois `selenium`, son `webdriver` et des constantes traduisant le module de recherche des √©l√©ments constituant une page (par identifiant, par classe, par r√®gle CSS, ...) :

In [1]:
import selenium.webdriver # les pilotes des navigateurs
from selenium.webdriver.common.by import By # les modes de recherche des √©l√©ments

## Lancement d'un navigateur Web dont la navigation est pilot√©e par `selenium`

Lancez le navigateur Chrome pilot√© par `selenium` avec : 

In [2]:
options = selenium.webdriver.ChromeOptions()
driver = selenium.webdriver.Chrome(options=options)  

‚åõ Une instance de Chrome portant la mention _Chrome est contr√¥l√© par un logiciel de test automatis√©_ s'ouvre. Elle peut √™tre manipul√©e indiff√©remment : 
* par le code (cf. suite du notebook) 
* par vos actions-utilisateur usuelles (clic de souris, saisie de texte, ic√¥nes de navigations, outils de d√©veloppement, ...)

üõü Pour la suite, affichez √† l'√©cran **en parall√®le** l'instance de Chrome ouverte et ce notebook.

## Chargement d'une page

Pour charger une page √† partir de son URL (ici le site de l'IUT1) :

In [3]:
url = "https://iut1.univ-grenoble-alpes.fr/"
driver.get(url)

üëì Vous constaterez que l'instance de Chrome affiche le site de l'IUT, comme si un utilisateur avait saisi l'url et avait valid√© sa requ√™te. 

## Acc√®der √† un √©l√©ment Web

Le site de l'IUT utilisant des cookies, un bandeau d'acceptation apparait (g√™nant pour voir le contenu de la page). Il est possible (par le code) d'interagir le bouton `Accepter tous les cookies` pour s'en d√©barrasser en simulant ce qu'aurait fait un utilisateur : "cliquer dessus". 

### Acc√®s par un identifiant

üîç Cherchez (en √©ditant les outils de d√©veloppement dans le _Chrome_ pilot√© par `selenium` et en utilisant l'outil _Inspecter_) l'identifiant (`id`) du bouton. 

Pour r√©cup√©rer l'√©lement (de type `selenium.WebElement`) associ√© √† ce bouton par son identifiant (`By.ID`), utilisez (apr√®s avoir remplac√© `identifiant_recherche` par l'identifiant trouv√© plus haut) : 

In [4]:
# ici le code
bouton = driver.find_element(By.ID, "tarteaucitronPersonalize2")
print(bouton)

<selenium.webdriver.remote.webelement.WebElement (session="97f689c21c99f9d0b38bd2838451754f", element="09a032e0-9042-4b37-9b01-94047fc56d35")>


Diff√©rentes informations peuvent √™tre r√©cup√©r√©es :

In [5]:
# Contenu textuel du bouton (incluant les donn√©es des balises encapsul√©es)
print("Contenu ->", bouton.text)
# Attributs du bouton, par exemple
print("Classes ->", bouton.get_attribute("class"))

Contenu -> ACCEPTER TOUS LES COOKIES
Classes -> tarteaucitronCTAButton tarteaucitronAllow


Cliquez par le code sur le bouton avec : 

In [6]:
bouton.click()

üëì Le navigateur a ex√©cut√© vos actions, comme un utilisateur l'aurait fait manuellement

### Acc√®s par classe, r√®gles css 

`selenium` permet de r√©cup√©rer plusieurs √©l√©ments avec : 

```python
liste_elements = driver.find_elements(mode_recherche, "descripteur de la recherche")
```

Diff√©rents _modes de recherche_ peuvent √™tre utilis√©s (en plus de `By.ID` vu pr√©c√©demment) : 

* par classe avec `By.CLASS_NAME`
* par r√®gles CSS avec `By.CSS_SELECTOR`

‚ùìDans la cellule qui suit, √©crivez le code qui : 

* recherche les titres des 4 actualit√©s du portail de l'IUT (texte bleu en dessous de chaque image), en effectuant une recherche par classe,
* affiche sur la console le texte du titre et le lien (attribut `href`) vers lequel il pointe,
* stocke les liens obtenus dans une liste `liens`.

**Attention** : seul les liens des 4 actus (et non ceux de l'agenda devront √™tre affich√©s)

In [13]:
# ici le code
liste_actus = driver.find_elements(By.CLASS_NAME, 'liste__objets__titre')
liens = []
for actu in liste_actus:
    print(actu.text + " " + actu.get_attribute('href'))
    liens.append(actu.get_attribute('href'))
    

BUT : calendrier des candidatures 2024 https://iut1.univ-grenoble-alpes.fr/iut1/candidature-en-but-196864.kjsp?RH=6044288375922512
Nos formations pour la prochaine rentr√©e https://iut1.univ-grenoble-alpes.fr/iut1/nos-formations-pour-la-prochaine-rentree-1321419.kjsp?RH=6044288375922512
L'IUT1 sera pr√©sent au Salon de l'√âtudiant 2023 https://iut1.univ-grenoble-alpes.fr/iut1/l-iut1-sera-present-au-salon-de-l-etudiant-2023-1287479.kjsp?RH=6044288375922512
Alternance en BUT2 GMP : les √©tudiants rencontrent les entreprises https://iut1.univ-grenoble-alpes.fr/iut1/alternance-en-but2-gmp-les-etudiants-rencontrent-les-entreprises-1304455.kjsp?RH=6044288375922512
L'IUT1 sera pr√©sent au Salon de l'√âtudiant 2023 https://iut1.univ-grenoble-alpes.fr/evenements-/l-iut1-sera-present-au-salon-de-l-etudiant-2023-1287479.kjsp
Save the date ! Journ√©e Portes Ouvertes IUT1 2024 https://iut1.univ-grenoble-alpes.fr/evenements-/save-the-date-journee-portes-ouvertes-iut1-2024-1321992.kjsp


### Acc√®s par XPATH

Trouvez le s√©lecteur ad√©quat (id, class, css) surtout pour les sites dynamiques peut vite devenir une gajeure ! `selenium` propose une recherche bien plus efficace : par **XPATH**.

<div class="alert alert-warning">
üîç XPath (<i>XML Path Language</i>) est un langage de requ√™te permettant de s√©lectionner efficacement des √©l√©ments dans des documents XML, en s'appuyant sur le DOM (<i>Document Object Model</i>) donc sur l'arborescence des balises du document. Sa syntaxe s'appare √† celle des chemins dans les syst√®mes de fichier (jokers et expressions r√©guli√®res compris). Voir <a href="https://www.w3schools.com/xml/xpath_syntax.asp">https://www.w3schools.com/xml/xpath_syntax.asp</a> pour une documentation compl√®te.
</div>

#### XPATH d'un √©l√©ment cible

üîç Pour obtenir le XPath d'un √©l√©ment cible de l'IUT : 

* Pointez l'√©l√©ment avec les outils de d√©veloppement de Chrome
* S√©lectionnez le code source de l'√©l√©ment dans l'onglet `Elements` des outils de d√©veloppement ‚Üí clic droit ‚Üí _Copy_ ‚Üí _Copy XPath_
* Collez le XPath copi√© dans n'importe quel √©diteur de texte pour l'utiliser par la suite

‚ùìFaites cette manip avec la 1√®re actu du site Web de l'IUT et copiez-le XPath dans la cellule qui suit. Vous devriez obtenir : `//*[@id="contenu_sans_nav_sans_encadres"]/div/div/div[3]/div/div[2]/div[1]/div/ul/li[1]/div[2]/em/a`

In [44]:
XPath = '/html/body/main/div/div[1]/div/div/div/div[3]/div/div[2]/div[1]/div/ul/li[2]/div[2]/em/a'

üëì Le XPath d√©crit finalement la succession des noeuds (au sens de l'arborescence des balises) partant de la racine du document (`//`) et amenant (ordre de d√©claration `[i]` dans l'arborescence √† l'appui) la position du noeud/√©l√©ment vis√©.

‚ùìEn vous aidant de https://www.w3schools.com/xml/xpath_syntax.asp, r√©√©crivez le code affichant les titres et les liens des 4 actus du portail de l'IUT en utilisant une recherche par **XPath**. 

In [51]:
# ici le code
for i in range(1,5):
    XPath = f'/html/body/main/div/div[1]/div/div/div/div[3]/div/div[2]/div[1]/div/ul/li[{i}]/div[2]/em/a'
    actu = driver.find_element(By.XPATH, XPath)
    print(f"{actu.text} {actu.get_attribute('href')}")

BUT : calendrier des candidatures 2024 https://iut1.univ-grenoble-alpes.fr/iut1/candidature-en-but-196864.kjsp?RH=6044288375922512
Nos formations pour la prochaine rentr√©e https://iut1.univ-grenoble-alpes.fr/iut1/nos-formations-pour-la-prochaine-rentree-1321419.kjsp?RH=6044288375922512
L'IUT1 sera pr√©sent au Salon de l'√âtudiant 2023 https://iut1.univ-grenoble-alpes.fr/iut1/l-iut1-sera-present-au-salon-de-l-etudiant-2023-1287479.kjsp?RH=6044288375922512
Alternance en BUT2 GMP : les √©tudiants rencontrent les entreprises https://iut1.univ-grenoble-alpes.fr/iut1/alternance-en-but2-gmp-les-etudiants-rencontrent-les-entreprises-1304455.kjsp?RH=6044288375922512


## Navigation

Nous allons naviguer vers la 1√®re actualit√© du site de l'IUT. Si vos codes pr√©c√©dents sont correctes, elle est √† l'URL :

In [52]:
url_actu1 = liens[0]
print("1√®re actu:", url_actu1)

1√®re actu: https://iut1.univ-grenoble-alpes.fr/iut1/candidature-en-but-196864.kjsp?RH=6044288375922512


Il suffit donc, pour s'y rendre, d'ex√©cuter :  

In [63]:
driver.get(url_actu1)

‚åõüëì Le navigateur doit maintenant √©diter la 1√®re actu.

‚ùìIdentifiez les Xpath du titre et du sous-titre (texte blanc sur fond noir) de l'actu. Ecrivez le code qui les r√©cup√®re par leur XPath, les stocke dans un dictionnaire de la forme 
```python
{"titre": <le_titre>, 
 "sous-titre": <le_sous-titre>}
```
puis les affiche sur la console.

In [64]:
# ici le code
dico = {}
for i in range(1,5):
    XPathT = f'/html/body/main/div[2]/div[1]/div[1]/h1'
    XPathST = f'/html/body/main/div[2]/div[1]/div[1]/div[2]/div/span'
    titre = driver.find_element(By.XPATH, XPathT)
    sous_titre = driver.find_element(By.XPATH, XPathST)
    dico["titre"] = titre.text
    dico["sous-titre"] = sous_titre.text
print(dico)

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"/html/body/main/div[2]/div[1]/div[1]/div[2]/div/span"}
  (Session info: chrome=93.0.4577.63)


## Crawling

‚ùìD√©placez le navigateur sur la page de la 2√®me actualit√©.

In [66]:
# ici le code
driver.get(liens[1])


{'titre': 'Nos formations pour la prochaine rentr√©e', 'sous-titre': 'Documentation, Formation'}


<div class="alert alert-warning">
Les actu √©tant th√©oriquement toutes structur√©es de la m√™me fa√ßon (merci les syst√®mes de gestion de contenu type Wordpress üòÉ), le code de r√©cup√©ration du titre et du r√©sum√© de la 2√®me actu doit rester valable (avec les m√™me XPath _relatifs_). 
</div>

‚ùìTestez en dupliquant le code dans la cellule qui suit.

In [67]:
# ici le code
dico = {}
for i in range(1,5):
    XPathT = f'/html/body/main/div[2]/div[1]/div[1]/h1'
    XPathST = f'/html/body/main/div[2]/div[1]/div[1]/div[2]/div/span'
    titre = driver.find_element(By.XPATH, XPathT)
    sous_titre = driver.find_element(By.XPATH, XPathST)
    dico["titre"] = titre.text
    dico["sous-titre"] = sous_titre.text
print(dico)

{'titre': 'Nos formations pour la prochaine rentr√©e', 'sous-titre': 'Documentation, Formation'}


## Fermer la navigateur

Fermer proprement votre navigateur avec : 

In [68]:
driver.quit()

‚õê Revenez au sujet de TP.