# Utiliser la navigation web automatique pour constituer un corpus

**Dans cet exercice, vous allez constituer un corpus textuel à partir de données du web. Mais ces données se cachent derrière quelques obstacles : vous allez devoir mettre en place une navigation automatique avant de pouvoir y accéder !** ⛵

## Avant de commencer

## Quelques mots à propos des notebooks Jupyter

Ce TP se présente sous forme de notebook Jupyter. C'est un format de document interactif qui se divise en cellules de différents types. 

Dans cet exercice, vous allez rencontrer :

* Des cellules `Markdown`, qui contiennent du texte structuré au format markdown. Ces cellules correspondent aux consignes et explications.
* Des cellules `Code`, qui contiennent du code en Python que vous pouvez exécuter en exécutant la cellule correspondante. 

Pour exécuter une cellule, vous pouvez utiliser différentes méthodes :

* Appuyer sur `Shift` + `Enter` pour exécuter la cellule courante et passer à la cellule suivante.
* Appuyer sur `Ctrl` + `Enter` pour exécuter la cellule courante sans passer à la cellule suivante.
* Cliquer sur le bouton ▶️ pour exécuter la cellule courante et passer à la cellule suivante (équivalent à `Shift` + `Enter`).

✍️ ***Le contenu du notebook est entièrement interactif et modifiable : selon vos besoins, vous pouvez modifier le contenu des cellules, ajouter de nouvelles cellules, réorganiser ou supprimer des cellules existantes. N'hésitez pas à faire des essais et ajouter vos annotations !***

## Quelques mots à propos de Python

Nous n'avons ni l'espace ni le temps pour une introduction complète à Python, mais voici ce dont vous avez besoin pour réaliser l'exercice.

### Librairies et modules

Les *modules* sont des fichiers Python préexistants que vous pouvez importer dans votre propre programme avec l'instruction `import`. Les modules peuvent être regroupés en *librairies*. Certains modules font partie de la librairie standard de Python, c'est-à-dire qu'ils sont préinstallés et peuvent directement être importés dans tout programme Python. Pour les autres modules et librairies, il faudra les installer dans votre environnement avant de pouvoir les importer.

### Types de données

Parmi les nombreux [types de données](https://docs.python.org/fr/3.13/library/datatypes.html) disponibles, vous allez manipuler trois types natifs de Python : `str`, `list` et `dict`.

#### Chaînes de caractères (type `str`)

Le type `str` correspond aux chaînes de caractères ([documentation](https://docs.python.org/fr/3.13/library/stdtypes.html#str)). Pour déclarer une nouvelle chaîne de caractères, celle-ci doit être entourée de guillemets (`""` ou `''`).

Par exemple :

In [None]:
petite_loutre = "La loutre cendrée est la plus petite des loutres."

In [None]:
grande_loutre = 'La loutre géante est la plus grande des loutres.'

Il est possible de concaténer des chaînes de caractères avec l'opérateur `+`.

In [None]:
petite_loutre + grande_loutre

Les deux chaînes ont été concaténées l'une à l'autre, mais il manque quelque chose, non ? Éditez la cellule ci-dessus pour ajouter un caractère *espace* entre les deux.

Une autre façon de concaténer des `str`, notamment lorsqu'elles sont associées à des variables, est d'utiliser les *f-strings*. Il s'agit de chaînes formatées, qui se déclarent en ajoutant un *f* devant les guillemets (`f""` ou `f''`). Pour y intégrer la valeur de variables, il faut entourer d'accolades (`{}`) le nom de la variable.

In [None]:
# Solution
petite_loutre + " " + grande_loutre

In [None]:
message = f"Vous voulez apprendre quelque chose à propos des loutres ?\n\n{petite_loutre} {grande_loutre}"
print(message)

#### Listes (type `list`)

Le type `list` correspond aux listes simples ([documentation](https://docs.python.org/fr/3.13/library/stdtypes.html#list)). Pour déclarer une liste, il faut l'entourer de crochets : `[]` permet de déclarer une nouvelle liste vide, mais il est également possible d'y inclure des éléments.

Par exemple :

In [None]:
loutres = ["loutre cendrée", "loutre d'Europe", "loutre à cou tacheté", "loutre de mer", "loutre de rivière", "loutre du Chili", "loutre géante"]

In [None]:
loutres

Les éléments des listes ont un indice, qui débute à 0.

Premier élément de la liste `loutres` :

In [None]:
loutres[0]

Dernier élément de la liste `loutres` :

In [None]:
loutres[-1]

Plusieurs éléments de la liste `loutres`, du quatrième au sixième :

In [None]:
loutres[3:6]

Plusieurs éléménts de la liste `loutres`, à partir du deuxième :

In [None]:
loutres[1:]

Plusieurs éléments de la liste `loutres`, jusqu'au sixième :

In [None]:
loutres[:6]

#### Dictionnaires (type `dict`)

Le type `dict` correspond aux dictionnaires ([documentation](https://docs.python.org/fr/3.13/library/stdtypes.html#dict)) : il s'agit de listes associatives, permettant d'établir une correspondance entre des clés et des valeurs. Pour déclarer un nouveau dictionnaire il faut l'entourer d'accolades (`{}`). `{}` permet de déclarer un nouveau dictionnaire vide, mais comme pour les `list`, il est possible de l'instancier avec des éléments. Il faudra alors utiliser la syntaxe suivante :

```python
mon_dictionnaire = {clé1: valeur1,
                   clé2: valeur2,
                   clé3: valeur3} # (etc.)
```

Voici par exemple un dictionnaire `dict` représentant la classification de la loutre d'Europe (cf [*Loutre d'Europe* sur Wikipédia](https://fr.wikipedia.org/wiki/Loutre_d%27Europe)) :

In [None]:
loutre_d_europe = {"Règne": "Animalia",
                   "Embranchement": "Chordata",
                   "Sous-embranchement": "Vertebrata",
                   "Classe": "Mammalia",
                   "Sous-classe": "Theria",
                   "Super-ordre": "Eutheria",
                   "Ordre": "Carnivora",
                   "Sous-ordre": "Caniformia",
                   "Famille": "Mustelidae",
                   "Sous-famille": "Lutrinae",
                   "Genre": "Lutra"}

On peut retrouver la valeur correspondant à une clé donnée avec la syntaxe `nom_dictionnaire[clé]`.

In [None]:
loutre_d_europe["Famille"]

### Fonctions et méthodes

Comme dans d'autres langages de programmation, en Python une *fonction* est un bloc d'instructions qui peut être réutilisé à différents endroits du code. Une fonction peut prendre des paramètres ou non, et doit être déclarée avant de pouvoir être appelée dans le programme. 

Une *méthode* est une fonction propre à une classe d'objets. Elle agit sur les instances issues de cette classe et doit être déclarée à l'intérieur de la classe.

#### Appeler une fonction ou une méthode

La syntaxe n'est pas la même selon si ce qu'on veut utiliser est une fonction ou une méthode.

Appeler une fonction se fait avec la syntaxe `nom_fonction()` si la fonction ne prend pas de paramètres, et `nom_fonction(paramètres)` si elle en prend.

Par exemple, la fonction `len()` ([documentation](https://docs.python.org/3/library/functions.html#len)) qui renvoie la longueur de l'objet qu'on lui passe en paramètre :

In [None]:
len(loutres)

In [None]:
len("Les loutres de mer ont une poche où elles rangent leur caillou préféré.")

Les méthodes s'appliquant aux instances d'une classe d'objets donnée, la syntaxe pour appeler une méthode est `nom_instance.nom_méthode()` si la méthode ne prend pas de paramètres, et `nom_instance.nom_méthode(paramètres)` si elle en prend.

Par exemple, la classe `str` comporte une méthode `replace()` qui permet de remplacer une sous-chaîne de caractères. Elle prend en paramètres obligatoires la sous-chaîne à remplacer, et la suite de caractères à lui substituer :

In [None]:
loutre = "Loutre d'Europe"
loutre.replace("d'Europe", "cendrée")

Une autre méthode de la classe `str`est `split()`, qui renvoie une liste (type `list`) représentant le texte segmenté suivant un séparateur donné.

Sans paramètre, l'espace est le séparateur par défaut :

In [None]:
texte = "Les loutres de mer font partie de la famille des mustélidés."
texte.split()

Mais il est aussi possible de passer en paramètre un caractère ou une chaîne de caractères au choix, qui deviendra alors le séparateur :

In [None]:
texte.split("de")

La classe `list` a une méthode `append()` qui permet d'ajouter un élément à la fin de la liste. Elle prend en paramètre obligatoire l'élément à ajouter.

In [None]:
loutres.append("Moustillon")

In [None]:
loutres

... Et une méthode `pop()` qui supprime le dernier élément de la liste si on ne lui donne pas de paramètre :

In [None]:
loutres.pop()

(vous remarquerez qu'elle renvoie également la valeur de l'élément supprimé de la liste)

In [None]:
loutres

#### Définir une fonction

La définition d'une fonction se fait avec l'instruction `def`. En Python, **les indentations structurent le code et sont obligatoires**, il est donc impératif d'indenter correctement les instructions qui font partie de la fonction. 

In [None]:
def bienvenue():
    print("Bonjour et bienvenue dans le fan-club des loutres cendrées !")

Maintenant que la fonction est définie, elle peut être appelée avec `bienvenue()`.

In [None]:
bienvenue()

Petite modification de la fonction `bienvenue()` en ajoutant un paramètre :

In [None]:
def bienvenue(nom):
    print(f"Bonjour et bienvenue dans le fan-club des loutres cendrées, {nom} !")

In [None]:
bienvenue("Moustillon")

Pour information, une méthode se déclare de la même façon mais à l'intérieur de la définition d'une classe.

***Vous n'aurez pas besoin de définir de classe ni de méthode dans cet exercice, et la définition de fonctions sera facultative.***

### Boucles et conditions

La boucle `for` permet de parcourir des séquences, telles que des listes (`list`) ou des chaînes de caractères (`str`).

In [None]:
for loutre in loutres:
    print(loutre)

In [None]:
for i in range(len(loutres)):
    print(f"Loutre n°{i+1} : {loutres[i]}")

Ici aussi l'indentation est très importante. Il en est de même avec les conditions, où il faudra indenter les instructions à effectuer si la condition est réalisée. 

Exemple avec `if/else`:

In [None]:
ma_loutre = "Moustillon"

print(f"Loutre = {ma_loutre}")

if ma_loutre in loutres:
    print("Cette loutre est bien enregistrée dans la base de données des loutres.")
else:
    print(f"Cette loutre n'est pas enregistrée dans la base de données des loutres.")
    print(f'Voulez-vous ajouter "{ma_loutre}" à la base de données ?')

## Objectifs

Votre objectif principal est de **produire un corpus textuel multilingue à partir de données du web** afin de comparer différentes versions d'un même texte.

Vous disposez de l'URL d'un site web qui regroupe toutes les données dont vous avez besoin : https://alxdrdelaporte.github.io/works/manchot_empereur.html.

Pour gagner du temps et limiter les risques d'erreur, vous décidez de les collecter automatiquement à l'aide d'un programme en Python. Le problème ? Les textes ne sont pas directement affichés sur la page ! Pour les consulter, il faut d'abord interagir avec la page web : compléter un formulaire, cliquer sur des boutons... Facile à faire en navigant manuellement, mais l'opération peut devenir extrêment longue et fastidieuse, surtout si les textes sont nombreux. 

Comme les textes que vous voulez extraire ne figurent pas dans le code source de la page, les [techniques "classiques" de web-scraping](https://github.com/alxdrdelaporte/LTTAC_2023_TP/tree/main) ne fonctionnent pas. Êtes-vous alors condamné(e) à *remplir-le-champ-texte-puis-cocher-la-case-puis-cliquer-sur-le-bouton-du-formulaire-puis-cliquer-sur-le-bouton-qui-ouvre-le-pop-up-puis-copier-coller-le-texte-puis-fermer-le-pop-up-puis-recommencer* éternellement ? Que nenni. Il est quand même possible d'effectuer cette tâche automatiquement grâce à un navigateur virtuel.

Voici les étapes à suivre :

1. Déclarer un navigateur virtuel pour accéder à la page de départ.
2. Compléter et valider le formulaire pour accéder à la liste des textes disponibles.
3. Ouvrir chaque fenêtre de texte pour en récupérer le contenu.
4. Traiter les données textuelles obtenues.

C'est parti ! 🚀

## Installation

Si vous utilisez votre propre installation pour réaliser cet exercice, vous aurez besoin d'y ajouter `selenium` et `webdriver-manager` en utilisant les commandes montrées ci-dessous.

Avec Conda :

```cmd
conda install conda-forge::selenium
conda install conda-forge::webdriver-manager
```

Avec Pip :

```cmd
pip install selenium
pip install webdriver-manager
```

Si ce n'est pas le cas (par exemple, si vous avez ouvert ce notebook via [Binder](https://mybinder.org/)) vous pouvez ignorer cette étape.

## Imports

Exécutez la cellule ci-dessous pour importer les librairies et modules dont vous aurez besoin.

In [None]:
# Selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.firefox.service import Service

# Webdriver manager
from webdriver_manager.firefox import GeckoDriverManager

## Déclarer un navigateur virtuel pour accéder à la page de départ

### Se familiariser avec la navigation automatique

Nous allons d'abord faire un essai pour tester la navigation automatique sur une tâche simple.

Voici une fonction permettant de déclarer un nouvel objet `webdriver.Firefox()`, issu de la librairie `selenium`. Celui-ci simule un navigateur web Firefox et va permettre de mettre en place la navigation automatique.

Cette fonction est prête à être utilisée, exécutez la cellule ci-dessous sans la modifier. 

In [None]:
def set_driver():
    """Crée un webdriver Firefox avec option headless"""
    options = webdriver.FirefoxOptions()
    options.add_argument("--headless")
    new_driver = webdriver.Firefox(service=Service(GeckoDriverManager().install()), options=options)
    return new_driver

La fonction `set_driver()` est maintenant disponible pour créer un nouveau webdriver, c'est-à-dire un navigateur virtuel. 

Stocker le résultat de `set_driver()` dans une variable va permettre de manipuler le webdriver et lui envoyer des commandes. Dans la cellule ci-dessous, déclarez une variable `driver` et associez-lui le résultat de la fonction `set_driver()`.

In [None]:
driver = set_driver() 

Si tout s'est bien passé, `driver` peut accéder à des pages web et en lire le contenu. C'est ce à quoi sert la méthode `get()`, qui prend en paramètre une chaîne de caractères correspondant à l'URL à interroger.

Dans la cellule suivante, utilisez `get()` pour accéder à [ce site](https://alxdrdelaporte.github.io/).

* Il s'agit d'une méthode de `driver`, la syntaxe à utiliser sera donc `driver.get(url)`.
* Selon votre préférence, vous pouvez ou non préalablement associer l'URL à une variable.

In [None]:
driver.get("https://alxdrdelaporte.github.io")

En l'état, difficile de savoir si ça a fonctionné ou non. Essayons de récupérer des informations !

Vous pouvez ouvrir manuellement [la page](https://alxdrdelaporte.github.io/) dans le navigateur de votre choix pour en inspecter le code source avec les outils de développement, ou consulter directement le [code source de la page web sur Github](https://github.com/alxdrdelaporte/alxdrdelaporte.github.io/blob/master/index.html).

Nous allons nous attaquer au nom de l'auteur du site (et du présent exercice). Lorsqu'on observe la page web, celui-ci se trouve sous la photo, dans l'encart présenté en colonne de gauche. Le voici dans le code source :

```html
<h4 class="card-title"><strong>Alexander Delaporte</strong></h4>
```

Pour cibler un élément particulier, il faut utiliser la méthode `find_element()` de `driver`. Celle-ci prend deux paramètres :

* Un objet de la classe `By` qui définit sur quelle caractéristique se baser pour identifier l'élément ([*locator*](https://www.selenium.dev/documentation/webdriver/elements/locators/), dans le jargon de `selenium`). Par exemple, si l'on essaie de récupérer un élément HTML sur la base de son identifiant, ce sera `By.ID`. 
* La valeur du *locator* de l'élément dans le code source.

Concrètement, l'élément que nous avons ici a 2 locators facilement repérables : son tag *h4* et sa classe *card-title*. 

In [None]:
nom_element = driver.find_element(By.TAG_NAME, "h4")
print(nom_element.text)

In [None]:
nom_element = driver.find_element(By.CLASS_NAME, "card-title")
print(nom_element.text)

In [None]:
# Un autre locator pourrait être exploité, l'avez-vous trouvé ? 
# Faites des essais en remplaçant les XXX dans l'extrait de code ci-dessous

nom_element = driver.find_element(By.TAG_NAME, "strong")
print(nom_element.text)

*Note* : la syntaxe `.text` indique que `text` est un attribut de `nom_element`. Celui-ci correspond au contenu textuel de l'élément, lorsqu'il existe.

In [None]:
nom = nom_element.text

In [None]:
f"Le site alxdrdelaporte.github.io appartient à {nom}"

Mais qu'est-ce que l'option `--headless` ? Commentez la ligne `options.add_argument('--headless')` dans la déclaration de la fonction `set_driver()` et regardez ce qu'il se passe, la différence devrait vous sauter aux yeux ! N'oubliez pas de commencer par réexécuter les cellules contenant la déclaration de `set_driver()` et celle de `driver` pour les actualiser.

### Planifier la navigation à automatiser

Mettons notre `driver` de côté pour le moment.

Avant de mettre en place la navigation automatique, le plus simple est de commencer par effectuer le parcours manuellement. Ouvrez [ce joli site web](https://alxdrdelaporte.github.io/works/manchot_empereur.html) dans votre navigateur et promenez-vous dessus jusqu'à trouver comment afficher un court texte sur les manchots empereurs, disponible en huit langues différentes. Ce sont ces huit versions du texte qui vont composer notre corpus textuel multilingue.

![Page web montrant la liste des textes](textes_manchot.png "La liste des textes")

Maintenant que vous avez une idée assez claire du parcours à suivre pour récupérer les données, vous pouvez vous pencher sur l'automatisation. Gardez quand même votre navigateur ouvert pour consulter le code source, vous en aurez besoin.

### Préparer le navigateur virtuel

... En fait, c'est déjà fait !

Vous pouvez reprendre le `driver` que vous avez utilisé précédemment. Il est généralement plus prudent d'activer l'option `--headless` pour ne pas interagir par erreur avec le navigateur virtuel, mais vous pouvez la désactiver pendant la réalisation de l'exercice pour avoir une meilleure visibilité sur votre travail.

Si vous voulez modifier votre choix d'option pour `driver`, pensez à actualiser `set_driver()` et `driver` en réexécutant les cellules correspondantes.

Dans la cellule ci-dessous, faites en sorte que `driver` accède à l'URL du site.

In [None]:
# Envoyez driver sur l'URL du lien "ce joli site web"

url = "https://alxdrdelaporte.github.io/works/manchot_empereur.html"
driver.get(url)

## Compléter et valider le formulaire pour accéder à la liste des textes disponibles

La page d'accueil du site comporte un formulaire, qu'il faut remplir pour accéder à la liste des textes. Le formulaire se compose de 3 éléments :

1. Un champ texte à compléter avec le texte demandé
2. Une checkbox à cocher
3. Un bouton sur lequel cliquer pour valider le tout

### Remplir le champ texte

Commençons par le champ texte. Utilisez la méthode `find_element()` pour identifier l'élément HTML correspondant et l'associer à la variable `champ_texte`.

In [None]:
# Associez à la variable champ_texte le champ texte du formulaire

# Note : si un élément HTML a un attribut id, c'est souvent le meilleur locator à exploiter
champ_texte = driver.find_element(By.ID, "textInput")

S'il n'y a pas d'erreur, `driver` a bien trouvé un élément, mais comment s'assurer qu'il s'agit bien de ce champ texte ? 

La méthode `find_element()` retourne un objet `WebElement`. Ces objets ont une méthode `get_dom_attribute()` qui permet de consulter la valeur d'un attribut de l'élément. Sa syntaxe est la suivante : `nom_webelement.get_dom_attribute("nom de l'attribut")`.

Il se trouve qu'un des attributs du champ texte du formulaire est particulièrement efficace pour l'identifier sans doute possible. Repérez-le dans le code source et complétez la cellule ci-dessous.

In [None]:
# Utilisez get_dom_attribute() pour afficher la valeur de l'attribut qui permet de confirmer que champ_texte correspond bien au champ texte

champ_texte.get_dom_attribute("placeholder")

C'est bien lui ? Parfait !

Il faut maintenant le compléter avec le texte demandé. Concrètement, ceci nécessite d'appuyer sur une série de touches du clavier : c'est ce à quoi sert la méthode `send_keys()`, qui prend en paramètre la séquence de touches à envoyer. C'est une méthode de la classe `WebElement`, elle est donc disponible pour `champ_texte`. 

Utilisez `send_keys()` pour remplir le champ texte. Le type `str` est accepté en paramètre.

In [None]:
# Complétez le champ texte

champ_texte.send_keys("J'aime les manchots empereurs !")

Si vous n'avez pas activé l'option `--headless` de votre `driver`, vous pouvez voir directement si ça a fonctionné ou non. Sinon, ce sera au moment de valider le formulaire que vous saurez s'il n'y a pas de problème.

### Cocher la checkbox

Le champ texte est correctement rempli, mais ce n'est pas suffisant : avant de valider, il faut encore cocher la checkbox, c'est-à-dire cliquer dessus.

Le principe reste le même, il faut en premier lieu repérer l'élément dans le code source et l'associer à une variable. Dans la cellule ci-dessous, associez l'élément correspondant à la checkbox à la variable `checkbox`.

In [None]:
# Associez la checkbox du formulaire à la variable checkbox

checkbox = driver.find_element(By.ID, "checkInput")

C'était le plus compliqué pour cette étape, puisque la méthode `click()` (de la classe `WebElement`) va nous permettre de cliquer dessus.

Cliquez sur la checkbox :

In [None]:
# Cliquez sur la checkbox

checkbox.click()

Comme pour le champ texte, si votre `driver` n'a pas l'option `--headless` vous pouvez vérifier immédiatement que la case est bien cochée, sinon il faudra attendre un peu.

### Valider le formulaire

Si tout s'est bien passé, le formulaire est prêt à être envoyé et devrait nous permettre d'accéder à la liste des textes. 

En utilisant la même méthode que pour la checkbox, cliquez sur le bouton d'envoi du formulaire. *Note :* pour vérifier que vous avez bien récupéré le bouton, l'attribut `text` évoqué précédemment pourrait vous être utile.


In [None]:
# Associez le bouton à la variable
# Passez en paramètre de print() de quoi vérifier que bouton_valider correspond effectivement au bouton d'envoi du formulaire
# Cliquez sur le bouton

bouton_valider = driver.find_element(By.ID, "submitBtn")
print(bouton_valider.text)
bouton_valider.click()

## Ouvrir chaque fenêtre de texte pour en récupérer le contenu

**Bravo, vous êtes digne d'accéder à la connaissance ! 🐧** ***... Mais êtes-vous digne d'extraire automatiquement les huit textes qui se cachent derrière ces boutons ?***

Commençons par un petit échauffement :

1. Utilisez `find_element()` pour associer un bouton à la variable `un_bouton`.
2. À l'aide de la méthode `get_dom_attribute()` ou de l'attribut `text`, vérifiez de quel bouton il s'agit.

In [None]:
# Associez un bouton à la variable un_bouton

# Je vous montre plusieurs possibilités avec leurs résultats respectifs dans la cellule suivante
un_bouton = driver.find_element(By.ID, "testButton")
un_autre_bouton = driver.find_element(By.CLASS_NAME, "btn")
meme_valeur_que_un_bouton = driver.find_element(By.CSS_SELECTOR, "button[lang]")
meme_valeur_que_un_autre_bouton = driver.find_element(By.TAG_NAME, "button")

In [None]:
# Vérifiez de quel bouton il s'agit

print(f"Texte du bouton associé à la variable un_bouton = '{un_bouton.text}'")
print(f"(et en utilisant get_dom_attribute = '{un_bouton.get_dom_attribute("lang")}')")
print(f"Texte du bouton associé à la variable un_autre_bouton = '{un_autre_bouton.text}'")
print(f"Texte du bouton associé à la variable meme_valeur_que_un_bouton = '{meme_valeur_que_un_bouton.text}'")
print(f"Texte du bouton associé à la variable meme_valeur_que_un_autre_bouton = '{meme_valeur_que_un_autre_bouton.text}'")

print(f"\n\nBonus ! Quel est le bouton dont l'attribut text renvoie une chaîne vide ? Vérifions s'il a un attribut id.")
print(f"Valeur de l'attribut id du bouton sans texte = {un_autre_bouton.get_dom_attribute('id')}")

Quels paramètres avez-vous utilisé pour la méthode `find_element()`, et quel bouton avez-vous récupéré ?

### Obtenir la liste des boutons

Avec `find_element()`, d'une façon ou d'une autre vous avez probablement fini par récupérer le premier bouton... voire un autre bouton dont l'attribut `text` est vide si vous avez essayé de passer `By.TAG_NAME, "button"` en paramètres (si c'est le cas, avez-vous compris de quel bouton il s'agit ? **Réponse :** c'est le bouton de validation du formulaire, qui n'apparaît plus sur la page mais est encore présent dans le code source, cf vérification faite dans la cellule ci-dessus). Et les autres ? `find_element()` renvoie un élément unique, et comme le code source de ces boutons est très similaire, difficile d'en viser un en particulier.

Vous avez certainement compris que récupérer individuellement chaque bouton n'est pas adapté dans ce cas, d'autant plus qu'il va falloir ensuite leur appliquer un traitement identique. Nous allons plutôt utiliser la méthode `find_elements()` de `driver`, semblable à `find_element()` mais qui retourne une liste (type `list`) de l'ensemble des éléments du code source correspondant au critère passé en paramètre.

Complétez la cellule ci-dessous pour que `boutons` corresponde à la liste des boutons :

In [None]:
# Remplacez XXX pour que boutons corresponde à l'ensemble des boutons

# Plusieurs solutions possibles
# Les solutions ci-dessous inluent le bouton d'envoi du formulaire
boutons = driver.find_elements(By.TAG_NAME, "button")
boutons = driver.find_elements(By.CLASS_NAME, "btn")

# Les solutions ci-dessous inluent le bouton d'envoi du formulaire
# Elles seront plus efficaces pour ce que nous voulons faire ici
boutons = driver.find_elements(By.CLASS_NAME, "btn-secondary")
boutons = driver.find_elements(By.CSS_SELECTOR, "button[lang]")

Il y a huit boutons, la liste `bouton` devrait donc contenir 8 éléments. Dans la cellule ci-dessous, affichez le nombre d'éléments que comporte la liste `boutons` :

In [None]:
# Affichez le nombre d'éléments contenus dans la liste boutons
# Note : c'est la dernière valeur déclarée pour la variable boutons qui est retenue

len(boutons)

Avant de traiter l'ensemble des boutons, nous allons en choisir un avec lequel travailler dans un premier temps. Dans la cellule ci-dessous, associez le bouton de votre choix à la variable `bouton_test` et donnez l'instruction de cliquer dessus.

Pour la valeur de `bouton_test`, vous pouvez au choix :

* Reprendre la valeur de la variable `un_bouton` déclarée précédemment (sauf s'il s'agit du bouton dont l'attribut `text` n'a pas de valeur associée)
* Utiliser la méthode `find_element()`
* Ou, plus simple, sélectionner un item de la liste `boutons`

In [None]:
# Exemples de possibilités pour récupérer un bouton en particulier

bouton_francais = boutons[0]
bouton_coreen = driver.find_element(By.CSS_SELECTOR, '[lang="coréen"]')
bouton_japonais = driver.find_element(By.XPATH, '//*[@lang="japonais"]')

# Associez le bouton de votre choix à la variable bouton_test
# Cliquez dessus

bouton_test = boutons[3]
bouton_test.click()



La fenêtre contenant le texte est apparue, mais à quel élément correspond-t-elle dans le code source ?

Ouvrez manuellement [le site web](https://alxdrdelaporte.github.io/works/manchot_empereur.html) dans un onglet de votre navigateur, puis naviguez jusqu'à cliquer sur le même bouton et afficher la fenêtre de texte. Observez le code source de la page à l'aide de l'inspecteur de code de votre navigateur (`Ctrl + Shift + k` sous Firefox, `Ctrl + Shift + j` sous Chrome ou Edge).

... La fenêtre n'y est pas ! Vous l'aviez peut-être déjà deviné en voyant son aspect graphique :

![Page web avec une pop-up de texte](popup.png "Pop-up version coréenne")

Il s'agit d'une fenêtre pop-up, c'est-à-dire une fenêtre modale dont l'ouverture est déclenchée par un script JavaScript.

Comme `driver` ne change pas automatiquement de fenêtre, il est encore en train d'explorer la page qui se trouve maintenant en arrière-plan. Heureusement, il dispose d'un attribut `switch_to` qui permet de lui indiquer explicitement sur quoi se focaliser. La syntaxe à utiliser est  `driver.switch_to.focus`, où la propriété `focus` est à choisir parmi une liste de possibilités, par exemple `driver.switch_to.active_element` pour cibler l'élément actif.

En vous aidant de la [documentation](https://www.selenium.dev/selenium/docs/api/py/webdriver_remote/selenium.webdriver.remote.switch_to.html#selenium.webdriver.remote.switch_to.SwitchTo), complétez la cellule ci-dessous pour forcer `driver` à explorer la fenêtre modale.

In [None]:
# Remplacez XXX pour que driver se focalise sur la fenêtre modale
# Faites un print du contenu textuel de la fenêtre modale pour vérifier que ça a fonctionné

fenetre_modale = driver.switch_to.alert
print(fenetre_modale.text)

Si le texte a été récupéré correctement, vous pouvez refermer le pop-up en utilisant sa méthode `accept()` (action équivalente à cliquer sur son bouton *OK*).

In [None]:
# Refermez le pop-up

fenetre_modale.accept()

Maintenant que nous avons un traitement qui fonctionne pour un bouton, il est temps de l'appliquer à l'ensemble des boutons à l'aide d'une boucle `for` !

Dans la cellule ci-dessous, commencez par écrire une boucle qui affiche le texte de chaque bouton (c'est-à-dire les noms des langues présents sur les boutons, pas le texte contenu dans le pop-up).

In [None]:
# Affichez le texte de chaque bouton à l'aide d'une boucle for

for bouton in boutons:
    print(bouton.text)

Ça fonctionne ? Il ne reste plus qu'à tout rassembler. Conservez la boucle, mais remplacez l'instruction `print()` par le traitement que vous aviez appliqué à `bouton_test` pour afficher le texte de la fenêtre modale.

<details>
<summary>💡 Indice</summary>

Les instructions à reporter sont, dans l'odre :

1. Cliquer sur le bouton.
2. Passer le focus de `driver` sur la fenêtre modale.
3. Afficher le texte de la fenêtre modale.
4. Refermer la fenêtre modale.

</details>

**Facultatif : Vous devrez perfectionner cette boucle à plusieurs reprises par la suite. Vous pouvez tout à fait simplement copier-coller le code d'une cellule à l'autre, mais si vous préférez vous pouvez également créer une ou plusieurs fonctions.**

In [None]:
# En vous basant sur la boucle précédente, appliquez votre traitement de bouton_test à l'ensemble des boutons

for bouton in boutons:
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    print(fenetre_modale.text)
    fenetre_modale.accept()

Pas mal ! Cependant, extraire le texte ne constitue pas un corpus : en l'état, on ne pourrait pas effectuer d'analyse exploitable de ces contenus qui mélangent données et métadonnées, dans la plupart des cas exprimées dans des langues différentes.

Regardez la sortie produite par la cellule précédente et/ou l'aspect du texte directement dans son pop-up sur le site. Voyez-vous un séparateur qui vous permettrait de séparer les différents éléments composant le contenu textuel ? Le texte extrait de la fenêtre modale étant de type `str`, vous pouvez utiliser la méthode `split()` vue précédemment pour le segmenter.

In [None]:
# Copiez-collez le code de la cellule précédente
# Modifiez-le pour segmenter le texte avant de l'afficher

# Il y a une ligne vide entre les différents composants du texte (= 2 sauts de ligne)
# Il faut donc passer '\n\n' comme paramètre de split() pour obtenir le résultat voulu
for bouton in boutons:
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    print(donnees)
    fenetre_modale.accept()

Vous devriez avoir, pour chaque version du texte, une liste dans laquelle chaque item correspond soit à une métadonnée, soit au texte à proprement parler. Modifiez votre boucle pour y associer les données et métadonnées à des variables, puis utilisez un `print()` pour vérifier que vos variables sont associées à la valeur attendue.

<details>
<summary>💡 Indice</summary>

En plus du texte, chaque pop-up comporte un titre, une URL source et une licence. Vous pouvez donc par exemple utiliser les noms de variables `texte`, `titre`, `source` et `licence`.

</details>

In [None]:
# Copiez-collez le code de la cellule précédente
# Modifiez-le pour associer les (méta)données à des variables

for bouton in boutons:
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    titre = donnees[0]
    texte = donnees[1]
    source = donnees[2]
    licence = donnees[3]
    message = f"TITRE = {titre}\nTEXTE = {texte}\nSOURCE = {source}\nLICENCE = {licence}\n"
    print(message)
    fenetre_modale.accept()

En fait, il y a une autre métadonnée intéressante à récupérer : l'indication de la langue à laquelle correspond chaque texte. Elle ne fait pas partie du contenu du pop-up, mais vous pouvez la récupérer dans le bouton. Dans la cellule ci-dessous, reprenez votre code et ajoutez-y la déclaration de la variable `langue`, dont la valeur est la langue dans laquelle est rédigée le texte correspondant à chaque bouton.

Vous savez déjà récupérer l'indication telle qu'elle apparaît sur le bouton, mais il y a aussi un moyen d'obtenir le nom de la langue traduit en français. Pour l'extraire, la méthode `get_dom_attribute()` des objets `WebElement` vous sera utile : pour rappel, elle prend en paramètre le nom de l'attribut d'un `WebElement` et en retourne la valeur.

In [None]:
# Copiez-collez le code de la cellule précédente
# Modifiez-le pour ajouter la variable langue

# Langue indiquée sur le bouton = attribut text du bouton
# Nom de la langue traduit en français = attribut lang de l'élément HTML auquel correspond le bouton
for bouton in boutons:
    # Attention, ne pas cliquer avant de récupérer la langue
    # Une fois le click() effectué, le bouton est n'est plus accessible à cause de la fenêtre modale
    langue = bouton.text
    langue_fr = bouton.get_dom_attribute("lang")
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    titre = donnees[0]
    texte = donnees[1]
    source = donnees[2]
    licence = donnees[3]
    message = f"TITRE = {titre}\nTEXTE = {texte}\nSOURCE = {source}\nLICENCE = {licence}\nLANGUE = {langue} ({langue_fr})\n"
    print(message)
    fenetre_modale.accept()

Dernier détail, les indications de l'URL source et de la licence telles qu'elles se présentent dans le pop-up comportent du texte superflu pour notre corpus.

Dans la cellule suivante, reprenez à nouveau votre code et modifiez la déclaration des variables correspondant à l'URL source et à la licence pour que leurs valeurs respectives correspondent uniquement à l'URL (par exemple, *https://fr.wikipedia.org/wiki/Manchot_empereur* à la place de *Source : https://fr.wikipedia.org/wiki/Manchot_empereur*) et uniquement à la licence (par exemple, *CC BY-SA 4.0* à la place de *Licence = Sous licence CC BY-SA 4.0*). Une méthode de la classe `str` vue plus tôt vous permettra d'effectuer facilement cette modification.

In [None]:
# Copiez-collez le code de la cellule précédente
# Modifiez-le pour nettoyer le texte de l'URL source et de la licence

for bouton in boutons:
    # Attention, ne pas cliquer avant de récupérer la langue
    # Une fois le click() effectué, le bouton est n'est plus accessible à cause de la fenêtre modale
    langue = bouton.text
    langue_fr = bouton.get_dom_attribute("lang")
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    titre = donnees[0]
    texte = donnees[1]
    source = donnees[2].replace("Source : ", "")
    licence = donnees[3].replace("Sous licence ", "")
    message = f"TITRE = {titre}\nTEXTE = {texte}\nSOURCE = {source}\nLICENCE = {licence}\nLANGUE = {langue} ({langue_fr})\n"
    print(message)
    fenetre_modale.accept()

Le plus dur est fait : nous avons toutes les données nécessaires pour constituer notre corpus. Seulement, elles ne sont pour l'instant stockées nulle part, ce qui n'est pas pratique et va grandement compliquer les choses pour leurs appliquer d'éventuels traitements par la suite. 

Dans la cellule ci-dessous, une liste vide `donnees_corpus` est déjà déclarée. Sans modifier la déclaration de la liste, utilisez à nouveau votre boucle `for` afin d'extraire les données, en ma modifiant de cette façon :

* Remplacez l'instruction `print()` par la déclaration d'un dictionnaire `donnees_texte` contenant les (méta)données extraites.
* Ajoutez `donnees_texte` à la liste `donnees_corpus`.

In [None]:
donnees_corpus = []

# Copiez-collez le code de la cellule précédente
# Modifiez-le pour stocker les données dans un dictionnaire donnees_texte, puis ajouter le dictionnaire à la liste donnees_corpus

for bouton in boutons:
    # Attention, ne pas cliquer avant de récupérer la langue
    # Une fois le click() effectué, le bouton est n'est plus accessible à cause de la fenêtre modale
    langue = bouton.text
    langue_fr = bouton.get_dom_attribute("lang")
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    titre = donnees[0]
    texte = donnees[1]
    source = donnees[2].replace("Source : ", "")
    licence = donnees[3].replace("Sous licence ", "")
    # Construire le dictionnaire
    donnees_texte = {
        "titre": titre,
        "texte": texte,
        "source": source,
        "licence": licence,
        "langue": langue,
        "langue_francais": langue_fr
    }
    # L'ajouter à la liste donnees_corpus
    donnees_corpus.append(donnees_texte)
    fenetre_modale.accept()

Vérifiez le résultat obtenu en appelant la variable `donnees_corpus` :

In [None]:
# Appelez donnees_corpus pour vérifier son contenu
# (Si la lecture est trop inconfortable, vous pouvez aussi utiliser les 2 cellules suivantes sans les modifier pour l'exporter dans un fichier)

donnees_corpus

Voici une fonction qui vous permettra d'exporter les données dans un fichier texte. Vous pouvez l'utiliser, sans la modifier, pour visualiser plus confortablement le contenu de `donnees_corpus`. 

In [None]:
def dicos2fichier(liste_dicos, fichier):
    with open(fichier, "w", encoding="utf-8") as cible:
        for dico in liste_dicos:
            for cle, valeur in dico.items():
                cible.write(f"{cle} = {valeur}\n")
            cible.write("\n----------\n\n")

In [None]:
# Décommentez la ligne ci-dessous pour exporter le contenu de donnees_corpus dans le fichier donnees_corpus.txt
# dicos2fichier(donnees_corpus, "donnees_corpus.txt")

<div class="alert alert-block alert-success"><center>🎉 Bravo, vous avez mis en place une navigation web automatique pour constituer les données d'un corpus textuel !</center></div>

## Aller plus loin

Vous avez terminé mais vous voulez encore vous amuser avec Python pour la constitution de corpus linguistique ?

Voici quelques suggestions :

* Essayez d'écrire des fonctions, si vous ne l'avez pas déjà fait. Vous pouvez répartir les traitements entre plusieurs fonctions ; pour information, il est possible d'appeler une fonction à l'intérieur d'une autre fonction.
* Ajoutez une étape de validation de l'URL source, par exemple en vérifiant que le titre principal de la page web et celui du texte extrait du pop-up sont identiques.
* Ici, les données ont été extraites et nettoyées mais pas vraiment structurées. Il ne manque pas grand chose pour en faire un corpus réellement exploitable, au format XML. Si vous souhaitez essayer, je vous conseille de partir de la liste `donnees_corpus` que vous avez déjà constituée, et de l'intégrer à une structure XML en vous aidant des documents suivants :
  * [TP *Construire un corpus XML à partir du web*](https://github.com/alxdrdelaporte/LTTAC_2023_TP) (en particulier son [corrigé](https://github.com/alxdrdelaporte/LTTAC_2023_TP/blob/main/LTTAC_2023_TP_Solution.ipynb)).
  * [Article *Produire un corpus web format XML en 15 lignes de code*](https://tekipaki.hypotheses.org/1758) sur [Tekipaki](https://tekipaki.hypotheses.org/).
  * [Article *Déclaration XML automatique*](https://tekipaki.hypotheses.org/1897) sur [Tekipaki](https://tekipaki.hypotheses.org/).
* Tout ce que vous voulez ! Si vous avez une autre idée, vous pouvez essayer de la mettre en place.  

In [None]:
# Voici 2 exemples de fonctions que vous pouvez écrire à partir de vos réponses

def go_to_text_list(active_driver):
    """Remplit et envoie le formulaire permettant d'accéder à la liste des textes"""
    active_driver.get("https://alxdrdelaporte.github.io/works/manchot_empereur.html")
    
    champ_texte = active_driver.find_element(By.ID, "textInput")
    champ_texte.send_keys("J'aime les manchots empereurs")
    
    checkbox = active_driver.find_element(By.ID, "checkInput")
    checkbox.click()
    
    bouton_valider = active_driver.find_element(By.ID, "submitBtn")
    bouton_valider.click()


def get_corpus_data(active_driver):
    """Récupère les données pour construire le corpus"""
    donnees_corpus = []
    
    boutons = driver.find_elements(By.CSS_SELECTOR, "button[lang]")
    
    for bouton in boutons:
        langue = bouton.text
        langue_fr = bouton.get_dom_attribute("lang")
        bouton.click()
        fenetre_modale = driver.switch_to.alert
        donnees = fenetre_modale.text.split('\n\n')
        titre = donnees[0]
        texte = donnees[1]
        source = donnees[2].replace("Source : ", "")
        licence = donnees[3].replace("Sous licence ", "")
        donnees_texte = {
            "titre": titre,
            "texte": texte,
            "source": source,
            "licence": licence,
            "langue": langue,
            "langue_francais": langue_fr
        }
        donnees_corpus.append(donnees_texte)
        fenetre_modale.accept()

    return donnees_corpus

In [None]:
# Et voici comment les utiliser

mon_driver = set_driver()
go_to_text_list(mon_driver)
mes_donnees = get_corpus_data(mon_driver)
print(mes_donnees)

In [None]:
# Vous pouvez même réunir le tout dans une autre fonction

def make_corpus():
    active_driver = set_driver()
    go_to_text_list(active_driver)
    donnees = get_corpus_data(active_driver)
    return donnees

mes_donnees = make_corpus()
print(mes_donnees)

---

*Utiliser la navigation web automatique pour constituer un corpus* par Alexander Delaporte est mis à disposition selon les termes de la licence [Creative Commons CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).

[![CC BY-SA 4.0][cc-by-sa-image]][cc-by-sa]

[cc-by-sa]: http://creativecommons.org/licenses/by-sa/4.0/
[cc-by-sa-image]: https://licensebuttons.net/l/by-sa/4.0/88x31.png
[cc-by-sa-shield]: https://img.shields.io/badge/License-CC%20BY--SA%204.0-lightgrey.svg