# Utiliser la navigation web automatique pour constituer un corpus

**Dans cet exercice, vous allez constituer un corpus textuel √† partir de donn√©es du web. Mais ces donn√©es se cachent derri√®re quelques obstacles : vous allez devoir mettre en place une navigation automatique avant de pouvoir y acc√©der !** ‚õµ

## Avant de commencer

## Quelques mots √† propos des notebooks Jupyter

Ce TP se pr√©sente sous forme de notebook Jupyter. C'est un format de document interactif qui se divise en cellules de diff√©rents types. 

Dans cet exercice, vous allez rencontrer :

* Des cellules `Markdown`, qui contiennent du texte structur√© au format markdown. Ces cellules correspondent aux consignes et explications.
* Des cellules `Code`, qui contiennent du code en Python que vous pouvez ex√©cuter en ex√©cutant la cellule correspondante. 

Pour ex√©cuter une cellule, vous pouvez utiliser diff√©rentes m√©thodes :

* Appuyer sur `Shift` + `Enter` pour ex√©cuter la cellule courante et passer √† la cellule suivante.
* Appuyer sur `Ctrl` + `Enter` pour ex√©cuter la cellule courante sans passer √† la cellule suivante.
* Cliquer sur le bouton ‚ñ∂Ô∏è pour ex√©cuter la cellule courante et passer √† la cellule suivante (√©quivalent √† `Shift` + `Enter`).

‚úçÔ∏è ***Le contenu du notebook est enti√®rement interactif et modifiable : selon vos besoins, vous pouvez modifier le contenu des cellules, ajouter de nouvelles cellules, r√©organiser ou supprimer des cellules existantes. N'h√©sitez pas √† faire des essais et ajouter vos annotations !***

## Quelques mots √† propos de Python

Nous n'avons ni l'espace ni le temps pour une introduction compl√®te √† Python, mais voici ce dont vous avez besoin pour r√©aliser l'exercice.

### Librairies et modules

Les *modules* sont des fichiers Python pr√©existants que vous pouvez importer dans votre propre programme avec l'instruction `import`. Les modules peuvent √™tre regroup√©s en *librairies*. Certains modules font partie de la librairie standard de Python, c'est-√†-dire qu'ils sont pr√©install√©s et peuvent directement √™tre import√©s dans tout programme Python. Pour les autres modules et librairies, il faudra les installer dans votre environnement avant de pouvoir les importer.

### Types de donn√©es

Parmi les nombreux [types de donn√©es](https://docs.python.org/fr/3.13/library/datatypes.html) disponibles, vous allez manipuler trois types natifs de Python : `str`, `list` et `dict`.

#### Cha√Ænes de caract√®res (type `str`)

Le type `str` correspond aux cha√Ænes de caract√®res ([documentation](https://docs.python.org/fr/3.13/library/stdtypes.html#str)). Pour d√©clarer une nouvelle cha√Æne de caract√®res, celle-ci doit √™tre entour√©e de guillemets (`""` ou `''`).

Par exemple :

In [None]:
petite_loutre = "La loutre cendr√©e est la plus petite des loutres."

In [None]:
grande_loutre = 'La loutre g√©ante est la plus grande des loutres.'

Il est possible de concat√©ner des cha√Ænes de caract√®res avec l'op√©rateur `+`.

In [None]:
petite_loutre + grande_loutre

Les deux cha√Ænes ont √©t√© concat√©n√©es l'une √† l'autre, mais il manque quelque chose, non ? √âditez la cellule ci-dessus pour ajouter un caract√®re *espace* entre les deux.

Une autre fa√ßon de concat√©ner des `str`, notamment lorsqu'elles sont associ√©es √† des variables, est d'utiliser les *f-strings*. Il s'agit de cha√Ænes format√©es, qui se d√©clarent en ajoutant un *f* devant les guillemets (`f""` ou `f''`). Pour y int√©grer la valeur de variables, il faut entourer d'accolades (`{}`) le nom de la variable.

In [None]:
# Solution
petite_loutre + " " + grande_loutre

In [None]:
message = f"Vous voulez apprendre quelque chose √† propos des loutres ?\n\n{petite_loutre} {grande_loutre}"
print(message)

#### Listes (type `list`)

Le type `list` correspond aux listes simples ([documentation](https://docs.python.org/fr/3.13/library/stdtypes.html#list)). Pour d√©clarer une liste, il faut l'entourer de crochets : `[]` permet de d√©clarer une nouvelle liste vide, mais il est √©galement possible d'y inclure des √©l√©ments.

Par exemple :

In [None]:
loutres = ["loutre cendr√©e", "loutre d'Europe", "loutre √† cou tachet√©", "loutre de mer", "loutre de rivi√®re", "loutre du Chili", "loutre g√©ante"]

In [None]:
loutres

Les √©l√©ments des listes ont un indice, qui d√©bute √† 0.

Premier √©l√©ment de la liste `loutres` :

In [None]:
loutres[0]

Dernier √©l√©ment de la liste `loutres` :

In [None]:
loutres[-1]

Plusieurs √©l√©ments de la liste `loutres`, du quatri√®me au sixi√®me :

In [None]:
loutres[3:6]

Plusieurs √©l√©m√©nts de la liste `loutres`, √† partir du deuxi√®me :

In [None]:
loutres[1:]

Plusieurs √©l√©ments de la liste `loutres`, jusqu'au sixi√®me :

In [None]:
loutres[:6]

#### Dictionnaires (type `dict`)

Le type `dict` correspond aux dictionnaires ([documentation](https://docs.python.org/fr/3.13/library/stdtypes.html#dict)) : il s'agit de listes associatives, permettant d'√©tablir une correspondance entre des cl√©s et des valeurs. Pour d√©clarer un nouveau dictionnaire il faut l'entourer d'accolades (`{}`). `{}` permet de d√©clarer un nouveau dictionnaire vide, mais comme pour les `list`, il est possible de l'instancier avec des √©l√©ments. Il faudra alors utiliser la syntaxe suivante :

```python
mon_dictionnaire = {cl√©1: valeur1,
                   cl√©2: valeur2,
                   cl√©3: valeur3} # (etc.)
```

Voici par exemple un dictionnaire `dict` repr√©sentant la classification de la loutre d'Europe (cf [*Loutre d'Europe* sur Wikip√©dia](https://fr.wikipedia.org/wiki/Loutre_d%27Europe)) :

In [None]:
loutre_d_europe = {"R√®gne": "Animalia",
                   "Embranchement": "Chordata",
                   "Sous-embranchement": "Vertebrata",
                   "Classe": "Mammalia",
                   "Sous-classe": "Theria",
                   "Super-ordre": "Eutheria",
                   "Ordre": "Carnivora",
                   "Sous-ordre": "Caniformia",
                   "Famille": "Mustelidae",
                   "Sous-famille": "Lutrinae",
                   "Genre": "Lutra"}

On peut retrouver la valeur correspondant √† une cl√© donn√©e avec la syntaxe `nom_dictionnaire[cl√©]`.

In [None]:
loutre_d_europe["Famille"]

### Fonctions et m√©thodes

Comme dans d'autres langages de programmation, en Python une *fonction* est un bloc d'instructions qui peut √™tre r√©utilis√© √† diff√©rents endroits du code. Une fonction peut prendre des param√®tres ou non, et doit √™tre d√©clar√©e avant de pouvoir √™tre appel√©e dans le programme. 

Une *m√©thode* est une fonction propre √† une classe d'objets. Elle agit sur les instances issues de cette classe et doit √™tre d√©clar√©e √† l'int√©rieur de la classe.

#### Appeler une fonction ou une m√©thode

La syntaxe n'est pas la m√™me selon si ce qu'on veut utiliser est une fonction ou une m√©thode.

Appeler une fonction se fait avec la syntaxe `nom_fonction()` si la fonction ne prend pas de param√®tres, et `nom_fonction(param√®tres)` si elle en prend.

Par exemple, la fonction `len()` ([documentation](https://docs.python.org/3/library/functions.html#len)) qui renvoie la longueur de l'objet qu'on lui passe en param√®tre :

In [None]:
len(loutres)

In [None]:
len("Les loutres de mer ont une poche o√π elles rangent leur caillou pr√©f√©r√©.")

Les m√©thodes s'appliquant aux instances d'une classe d'objets donn√©e, la syntaxe pour appeler une m√©thode est `nom_instance.nom_m√©thode()` si la m√©thode ne prend pas de param√®tres, et `nom_instance.nom_m√©thode(param√®tres)` si elle en prend.

Par exemple, la classe `str` comporte une m√©thode `replace()` qui permet de remplacer une sous-cha√Æne de caract√®res. Elle prend en param√®tres obligatoires la sous-cha√Æne √† remplacer, et la suite de caract√®res √† lui substituer :

In [None]:
loutre = "Loutre d'Europe"
loutre.replace("d'Europe", "cendr√©e")

Une autre m√©thode de la classe `str`est `split()`, qui renvoie une liste (type `list`) repr√©sentant le texte segment√© suivant un s√©parateur donn√©.

Sans param√®tre, l'espace est le s√©parateur par d√©faut :

In [None]:
texte = "Les loutres de mer font partie de la famille des must√©lid√©s."
texte.split()

Mais il est aussi possible de passer en param√®tre un caract√®re ou une cha√Æne de caract√®res au choix, qui deviendra alors le s√©parateur :

In [None]:
texte.split("de")

La classe `list` a une m√©thode `append()` qui permet d'ajouter un √©l√©ment √† la fin de la liste. Elle prend en param√®tre obligatoire l'√©l√©ment √† ajouter.

In [None]:
loutres.append("Moustillon")

In [None]:
loutres

... Et une m√©thode `pop()` qui supprime le dernier √©l√©ment de la liste si on ne lui donne pas de param√®tre :

In [None]:
loutres.pop()

(vous remarquerez qu'elle renvoie √©galement la valeur de l'√©l√©ment supprim√© de la liste)

In [None]:
loutres

#### D√©finir une fonction

La d√©finition d'une fonction se fait avec l'instruction `def`. En Python, **les indentations structurent le code et sont obligatoires**, il est donc imp√©ratif d'indenter correctement les instructions qui font partie de la fonction. 

In [None]:
def bienvenue():
    print("Bonjour et bienvenue dans le fan-club des loutres cendr√©es !")

Maintenant que la fonction est d√©finie, elle peut √™tre appel√©e avec `bienvenue()`.

In [None]:
bienvenue()

Petite modification de la fonction `bienvenue()` en ajoutant un param√®tre :

In [None]:
def bienvenue(nom):
    print(f"Bonjour et bienvenue dans le fan-club des loutres cendr√©es, {nom} !")

In [None]:
bienvenue("Moustillon")

Pour information, une m√©thode se d√©clare de la m√™me fa√ßon mais √† l'int√©rieur de la d√©finition d'une classe.

***Vous n'aurez pas besoin de d√©finir de classe ni de m√©thode dans cet exercice, et la d√©finition de fonctions sera facultative.***

### Boucles et conditions

La boucle `for` permet de parcourir des s√©quences, telles que des listes (`list`) ou des cha√Ænes de caract√®res (`str`).

In [None]:
for loutre in loutres:
    print(loutre)

In [None]:
for i in range(len(loutres)):
    print(f"Loutre n¬∞{i+1} : {loutres[i]}")

Ici aussi l'indentation est tr√®s importante. Il en est de m√™me avec les conditions, o√π il faudra indenter les instructions √† effectuer si la condition est r√©alis√©e. 

Exemple avec `if/else`:

In [None]:
ma_loutre = "Moustillon"

print(f"Loutre = {ma_loutre}")

if ma_loutre in loutres:
    print("Cette loutre est bien enregistr√©e dans la base de donn√©es des loutres.")
else:
    print(f"Cette loutre n'est pas enregistr√©e dans la base de donn√©es des loutres.")
    print(f'Voulez-vous ajouter "{ma_loutre}" √† la base de donn√©es ?')

## Objectifs

Votre objectif principal est de **produire un corpus textuel multilingue √† partir de donn√©es du web** afin de comparer diff√©rentes versions d'un m√™me texte.

Vous disposez de l'URL d'un site web qui regroupe toutes les donn√©es dont vous avez besoin : https://alxdrdelaporte.github.io/works/manchot_empereur.html.

Pour gagner du temps et limiter les risques d'erreur, vous d√©cidez de les collecter automatiquement √† l'aide d'un programme en Python. Le probl√®me ? Les textes ne sont pas directement affich√©s sur la page ! Pour les consulter, il faut d'abord interagir avec la page web : compl√©ter un formulaire, cliquer sur des boutons... Facile √† faire en navigant manuellement, mais l'op√©ration peut devenir extr√™ment longue et fastidieuse, surtout si les textes sont nombreux. 

Comme les textes que vous voulez extraire ne figurent pas dans le code source de la page, les [techniques "classiques" de web-scraping](https://github.com/alxdrdelaporte/LTTAC_2023_TP/tree/main) ne fonctionnent pas. √ätes-vous alors condamn√©(e) √† *remplir-le-champ-texte-puis-cocher-la-case-puis-cliquer-sur-le-bouton-du-formulaire-puis-cliquer-sur-le-bouton-qui-ouvre-le-pop-up-puis-copier-coller-le-texte-puis-fermer-le-pop-up-puis-recommencer* √©ternellement ? Que nenni. Il est quand m√™me possible d'effectuer cette t√¢che automatiquement gr√¢ce √† un navigateur virtuel.

Voici les √©tapes √† suivre :

1. D√©clarer un navigateur virtuel pour acc√©der √† la page de d√©part.
2. Compl√©ter et valider le formulaire pour acc√©der √† la liste des textes disponibles.
3. Ouvrir chaque fen√™tre de texte pour en r√©cup√©rer le contenu.
4. Traiter les donn√©es textuelles obtenues.

C'est parti ! üöÄ

## Installation

Si vous utilisez votre propre installation pour r√©aliser cet exercice, vous aurez besoin d'y ajouter `selenium` et `webdriver-manager` en utilisant les commandes montr√©es ci-dessous.

Avec Conda :

```cmd
conda install conda-forge::selenium
conda install conda-forge::webdriver-manager
```

Avec Pip :

```cmd
pip install selenium
pip install webdriver-manager
```

Si ce n'est pas le cas (par exemple, si vous avez ouvert ce notebook via [Binder](https://mybinder.org/)) vous pouvez ignorer cette √©tape.

## Imports

Ex√©cutez la cellule ci-dessous pour importer les librairies et modules dont vous aurez besoin.

In [None]:
# Selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.firefox.service import Service

# Webdriver manager
from webdriver_manager.firefox import GeckoDriverManager

## D√©clarer un navigateur virtuel pour acc√©der √† la page de d√©part

### Se familiariser avec la navigation automatique

Nous allons d'abord faire un essai pour tester la navigation automatique sur une t√¢che simple.

Voici une fonction permettant de d√©clarer un nouvel objet `webdriver.Firefox()`, issu de la librairie `selenium`. Celui-ci simule un navigateur web Firefox et va permettre de mettre en place la navigation automatique.

Cette fonction est pr√™te √† √™tre utilis√©e, ex√©cutez la cellule ci-dessous sans la modifier. 

In [None]:
def set_driver():
    """Cr√©e un webdriver Firefox avec option headless"""
    options = webdriver.FirefoxOptions()
    options.add_argument("--headless")
    new_driver = webdriver.Firefox(service=Service(GeckoDriverManager().install()), options=options)
    return new_driver

La fonction `set_driver()` est maintenant disponible pour cr√©er un nouveau webdriver, c'est-√†-dire un navigateur virtuel. 

Stocker le r√©sultat de `set_driver()` dans une variable va permettre de manipuler le webdriver et lui envoyer des commandes. Dans la cellule ci-dessous, d√©clarez une variable `driver` et associez-lui le r√©sultat de la fonction `set_driver()`.

In [None]:
driver = set_driver() 

Si tout s'est bien pass√©, `driver` peut acc√©der √† des pages web et en lire le contenu. C'est ce √† quoi sert la m√©thode `get()`, qui prend en param√®tre une cha√Æne de caract√®res correspondant √† l'URL √† interroger.

Dans la cellule suivante, utilisez `get()` pour acc√©der √† [ce site](https://alxdrdelaporte.github.io/).

* Il s'agit d'une m√©thode de `driver`, la syntaxe √† utiliser sera donc `driver.get(url)`.
* Selon votre pr√©f√©rence, vous pouvez ou non pr√©alablement associer l'URL √† une variable.

In [None]:
driver.get("https://alxdrdelaporte.github.io")

En l'√©tat, difficile de savoir si √ßa a fonctionn√© ou non. Essayons de r√©cup√©rer des informations !

Vous pouvez ouvrir manuellement [la page](https://alxdrdelaporte.github.io/) dans le navigateur de votre choix pour en inspecter le code source avec les outils de d√©veloppement, ou consulter directement le [code source de la page web sur Github](https://github.com/alxdrdelaporte/alxdrdelaporte.github.io/blob/master/index.html).

Nous allons nous attaquer au nom de l'auteur du site (et du pr√©sent exercice). Lorsqu'on observe la page web, celui-ci se trouve sous la photo, dans l'encart pr√©sent√© en colonne de gauche. Le voici dans le code source :

```html
<h4 class="card-title"><strong>Alexander Delaporte</strong></h4>
```

Pour cibler un √©l√©ment particulier, il faut utiliser la m√©thode `find_element()` de `driver`. Celle-ci prend deux param√®tres :

* Un objet de la classe `By` qui d√©finit sur quelle caract√©ristique se baser pour identifier l'√©l√©ment ([*locator*](https://www.selenium.dev/documentation/webdriver/elements/locators/), dans le jargon de `selenium`). Par exemple, si l'on essaie de r√©cup√©rer un √©l√©ment HTML sur la base de son identifiant, ce sera `By.ID`. 
* La valeur du *locator* de l'√©l√©ment dans le code source.

Concr√®tement, l'√©l√©ment que nous avons ici a 2 locators facilement rep√©rables : son tag *h4* et sa classe *card-title*. 

In [None]:
nom_element = driver.find_element(By.TAG_NAME, "h4")
print(nom_element.text)

In [None]:
nom_element = driver.find_element(By.CLASS_NAME, "card-title")
print(nom_element.text)

In [None]:
# Un autre locator pourrait √™tre exploit√©, l'avez-vous trouv√© ? 
# Faites des essais en rempla√ßant les XXX dans l'extrait de code ci-dessous

nom_element = driver.find_element(By.TAG_NAME, "strong")
print(nom_element.text)

*Note* : la syntaxe `.text` indique que `text` est un attribut de `nom_element`. Celui-ci correspond au contenu textuel de l'√©l√©ment, lorsqu'il existe.

In [None]:
nom = nom_element.text

In [None]:
f"Le site alxdrdelaporte.github.io appartient √† {nom}"

Mais qu'est-ce que l'option `--headless` ? Commentez la ligne `options.add_argument('--headless')` dans la d√©claration de la fonction `set_driver()` et regardez ce qu'il se passe, la diff√©rence devrait vous sauter aux yeux ! N'oubliez pas de commencer par r√©ex√©cuter les cellules contenant la d√©claration de `set_driver()` et celle de `driver` pour les actualiser.

### Planifier la navigation √† automatiser

Mettons notre `driver` de c√¥t√© pour le moment.

Avant de mettre en place la navigation automatique, le plus simple est de commencer par effectuer le parcours manuellement. Ouvrez [ce joli site web](https://alxdrdelaporte.github.io/works/manchot_empereur.html) dans votre navigateur et promenez-vous dessus jusqu'√† trouver comment afficher un court texte sur les manchots empereurs, disponible en huit langues diff√©rentes. Ce sont ces huit versions du texte qui vont composer notre corpus textuel multilingue.

![Page web montrant la liste des textes](textes_manchot.png "La liste des textes")

Maintenant que vous avez une id√©e assez claire du parcours √† suivre pour r√©cup√©rer les donn√©es, vous pouvez vous pencher sur l'automatisation. Gardez quand m√™me votre navigateur ouvert pour consulter le code source, vous en aurez besoin.

### Pr√©parer le navigateur virtuel

... En fait, c'est d√©j√† fait !

Vous pouvez reprendre le `driver` que vous avez utilis√© pr√©c√©demment. Il est g√©n√©ralement plus prudent d'activer l'option `--headless` pour ne pas interagir par erreur avec le navigateur virtuel, mais vous pouvez la d√©sactiver pendant la r√©alisation de l'exercice pour avoir une meilleure visibilit√© sur votre travail.

Si vous voulez modifier votre choix d'option pour `driver`, pensez √† actualiser `set_driver()` et `driver` en r√©ex√©cutant les cellules correspondantes.

Dans la cellule ci-dessous, faites en sorte que `driver` acc√®de √† l'URL du site.

In [None]:
# Envoyez driver sur l'URL du lien "ce joli site web"

url = "https://alxdrdelaporte.github.io/works/manchot_empereur.html"
driver.get(url)

## Compl√©ter et valider le formulaire pour acc√©der √† la liste des textes disponibles

La page d'accueil du site comporte un formulaire, qu'il faut remplir pour acc√©der √† la liste des textes. Le formulaire se compose de 3 √©l√©ments :

1. Un champ texte √† compl√©ter avec le texte demand√©
2. Une checkbox √† cocher
3. Un bouton sur lequel cliquer pour valider le tout

### Remplir le champ texte

Commen√ßons par le champ texte. Utilisez la m√©thode `find_element()` pour identifier l'√©l√©ment HTML correspondant et l'associer √† la variable `champ_texte`.

In [None]:
# Associez √† la variable champ_texte le champ texte du formulaire

# Note : si un √©l√©ment HTML a un attribut id, c'est souvent le meilleur locator √† exploiter
champ_texte = driver.find_element(By.ID, "textInput")

S'il n'y a pas d'erreur, `driver` a bien trouv√© un √©l√©ment, mais comment s'assurer qu'il s'agit bien de ce champ texte ? 

La m√©thode `find_element()` retourne un objet `WebElement`. Ces objets ont une m√©thode `get_dom_attribute()` qui permet de consulter la valeur d'un attribut de l'√©l√©ment. Sa syntaxe est la suivante : `nom_webelement.get_dom_attribute("nom de l'attribut")`.

Il se trouve qu'un des attributs du champ texte du formulaire est particuli√®rement efficace pour l'identifier sans doute possible. Rep√©rez-le dans le code source et compl√©tez la cellule ci-dessous.

In [None]:
# Utilisez get_dom_attribute() pour afficher la valeur de l'attribut qui permet de confirmer que champ_texte correspond bien au champ texte

champ_texte.get_dom_attribute("placeholder")

C'est bien lui ? Parfait !

Il faut maintenant le compl√©ter avec le texte demand√©. Concr√®tement, ceci n√©cessite d'appuyer sur une s√©rie de touches du clavier : c'est ce √† quoi sert la m√©thode `send_keys()`, qui prend en param√®tre la s√©quence de touches √† envoyer. C'est une m√©thode de la classe `WebElement`, elle est donc disponible pour `champ_texte`. 

Utilisez `send_keys()` pour remplir le champ texte. Le type `str` est accept√© en param√®tre.

In [None]:
# Compl√©tez le champ texte

champ_texte.send_keys("J'aime les manchots empereurs !")

Si vous n'avez pas activ√© l'option `--headless` de votre `driver`, vous pouvez voir directement si √ßa a fonctionn√© ou non. Sinon, ce sera au moment de valider le formulaire que vous saurez s'il n'y a pas de probl√®me.

### Cocher la checkbox

Le champ texte est correctement rempli, mais ce n'est pas suffisant : avant de valider, il faut encore cocher la checkbox, c'est-√†-dire cliquer dessus.

Le principe reste le m√™me, il faut en premier lieu rep√©rer l'√©l√©ment dans le code source et l'associer √† une variable. Dans la cellule ci-dessous, associez l'√©l√©ment correspondant √† la checkbox √† la variable `checkbox`.

In [None]:
# Associez la checkbox du formulaire √† la variable checkbox

checkbox = driver.find_element(By.ID, "checkInput")

C'√©tait le plus compliqu√© pour cette √©tape, puisque la m√©thode `click()` (de la classe `WebElement`) va nous permettre de cliquer dessus.

Cliquez sur la checkbox :

In [None]:
# Cliquez sur la checkbox

checkbox.click()

Comme pour le champ texte, si votre `driver` n'a pas l'option `--headless` vous pouvez v√©rifier imm√©diatement que la case est bien coch√©e, sinon il faudra attendre un peu.

### Valider le formulaire

Si tout s'est bien pass√©, le formulaire est pr√™t √† √™tre envoy√© et devrait nous permettre d'acc√©der √† la liste des textes. 

En utilisant la m√™me m√©thode que pour la checkbox, cliquez sur le bouton d'envoi du formulaire. *Note :* pour v√©rifier que vous avez bien r√©cup√©r√© le bouton, l'attribut `text` √©voqu√© pr√©c√©demment pourrait vous √™tre utile.


In [None]:
# Associez le bouton √† la variable
# Passez en param√®tre de print() de quoi v√©rifier que bouton_valider correspond effectivement au bouton d'envoi du formulaire
# Cliquez sur le bouton

bouton_valider = driver.find_element(By.ID, "submitBtn")
print(bouton_valider.text)
bouton_valider.click()

## Ouvrir chaque fen√™tre de texte pour en r√©cup√©rer le contenu

**Bravo, vous √™tes digne d'acc√©der √† la connaissance ! üêß** ***... Mais √™tes-vous digne d'extraire automatiquement les huit textes qui se cachent derri√®re ces boutons ?***

Commen√ßons par un petit √©chauffement :

1. Utilisez `find_element()` pour associer un bouton √† la variable `un_bouton`.
2. √Ä l'aide de la m√©thode `get_dom_attribute()` ou de l'attribut `text`, v√©rifiez de quel bouton il s'agit.

In [None]:
# Associez un bouton √† la variable un_bouton

# Je vous montre plusieurs possibilit√©s avec leurs r√©sultats respectifs dans la cellule suivante
un_bouton = driver.find_element(By.ID, "testButton")
un_autre_bouton = driver.find_element(By.CLASS_NAME, "btn")
meme_valeur_que_un_bouton = driver.find_element(By.CSS_SELECTOR, "button[lang]")
meme_valeur_que_un_autre_bouton = driver.find_element(By.TAG_NAME, "button")

In [None]:
# V√©rifiez de quel bouton il s'agit

print(f"Texte du bouton associ√© √† la variable un_bouton = '{un_bouton.text}'")
print(f"(et en utilisant get_dom_attribute = '{un_bouton.get_dom_attribute("lang")}')")
print(f"Texte du bouton associ√© √† la variable un_autre_bouton = '{un_autre_bouton.text}'")
print(f"Texte du bouton associ√© √† la variable meme_valeur_que_un_bouton = '{meme_valeur_que_un_bouton.text}'")
print(f"Texte du bouton associ√© √† la variable meme_valeur_que_un_autre_bouton = '{meme_valeur_que_un_autre_bouton.text}'")

print(f"\n\nBonus ! Quel est le bouton dont l'attribut text renvoie une cha√Æne vide ? V√©rifions s'il a un attribut id.")
print(f"Valeur de l'attribut id du bouton sans texte = {un_autre_bouton.get_dom_attribute('id')}")

Quels param√®tres avez-vous utilis√© pour la m√©thode `find_element()`, et quel bouton avez-vous r√©cup√©r√© ?

### Obtenir la liste des boutons

Avec `find_element()`, d'une fa√ßon ou d'une autre vous avez probablement fini par r√©cup√©rer le premier bouton... voire un autre bouton dont l'attribut `text` est vide si vous avez essay√© de passer `By.TAG_NAME, "button"` en param√®tres (si c'est le cas, avez-vous compris de quel bouton il s'agit ? **R√©ponse :** c'est le bouton de validation du formulaire, qui n'appara√Æt plus sur la page mais est encore pr√©sent dans le code source, cf v√©rification faite dans la cellule ci-dessus). Et les autres ? `find_element()` renvoie un √©l√©ment unique, et comme le code source de ces boutons est tr√®s similaire, difficile d'en viser un en particulier.

Vous avez certainement compris que r√©cup√©rer individuellement chaque bouton n'est pas adapt√© dans ce cas, d'autant plus qu'il va falloir ensuite leur appliquer un traitement identique. Nous allons plut√¥t utiliser la m√©thode `find_elements()` de `driver`, semblable √† `find_element()` mais qui retourne une liste (type `list`) de l'ensemble des √©l√©ments du code source correspondant au crit√®re pass√© en param√®tre.

Compl√©tez la cellule ci-dessous pour que `boutons` corresponde √† la liste des boutons :

In [None]:
# Remplacez XXX pour que boutons corresponde √† l'ensemble des boutons

# Plusieurs solutions possibles
# Les solutions ci-dessous inluent le bouton d'envoi du formulaire
boutons = driver.find_elements(By.TAG_NAME, "button")
boutons = driver.find_elements(By.CLASS_NAME, "btn")

# Les solutions ci-dessous inluent le bouton d'envoi du formulaire
# Elles seront plus efficaces pour ce que nous voulons faire ici
boutons = driver.find_elements(By.CLASS_NAME, "btn-secondary")
boutons = driver.find_elements(By.CSS_SELECTOR, "button[lang]")

Il y a huit boutons, la liste `bouton` devrait donc contenir 8 √©l√©ments. Dans la cellule ci-dessous, affichez le nombre d'√©l√©ments que comporte la liste `boutons` :

In [None]:
# Affichez le nombre d'√©l√©ments contenus dans la liste boutons
# Note : c'est la derni√®re valeur d√©clar√©e pour la variable boutons qui est retenue

len(boutons)

Avant de traiter l'ensemble des boutons, nous allons en choisir un avec lequel travailler dans un premier temps. Dans la cellule ci-dessous, associez le bouton de votre choix √† la variable `bouton_test` et donnez l'instruction de cliquer dessus.

Pour la valeur de `bouton_test`, vous pouvez au choix :

* Reprendre la valeur de la variable `un_bouton` d√©clar√©e pr√©c√©demment (sauf s'il s'agit du bouton dont l'attribut `text` n'a pas de valeur associ√©e)
* Utiliser la m√©thode `find_element()`
* Ou, plus simple, s√©lectionner un item de la liste `boutons`

In [None]:
# Exemples de possibilit√©s pour r√©cup√©rer un bouton en particulier

bouton_francais = boutons[0]
bouton_coreen = driver.find_element(By.CSS_SELECTOR, '[lang="cor√©en"]')
bouton_japonais = driver.find_element(By.XPATH, '//*[@lang="japonais"]')

# Associez le bouton de votre choix √† la variable bouton_test
# Cliquez dessus

bouton_test = boutons[3]
bouton_test.click()



La fen√™tre contenant le texte est apparue, mais √† quel √©l√©ment correspond-t-elle dans le code source ?

Ouvrez manuellement [le site web](https://alxdrdelaporte.github.io/works/manchot_empereur.html) dans un onglet de votre navigateur, puis naviguez jusqu'√† cliquer sur le m√™me bouton et afficher la fen√™tre de texte. Observez le code source de la page √† l'aide de l'inspecteur de code de votre navigateur (`Ctrl + Shift + k` sous Firefox, `Ctrl + Shift + j` sous Chrome ou Edge).

... La fen√™tre n'y est pas ! Vous l'aviez peut-√™tre d√©j√† devin√© en voyant son aspect graphique :

![Page web avec une pop-up de texte](popup.png "Pop-up version cor√©enne")

Il s'agit d'une fen√™tre pop-up, c'est-√†-dire une fen√™tre modale dont l'ouverture est d√©clench√©e par un script JavaScript.

Comme `driver` ne change pas automatiquement de fen√™tre, il est encore en train d'explorer la page qui se trouve maintenant en arri√®re-plan. Heureusement, il dispose d'un attribut `switch_to` qui permet de lui indiquer explicitement sur quoi se focaliser. La syntaxe √† utiliser est  `driver.switch_to.focus`, o√π la propri√©t√© `focus` est √† choisir parmi une liste de possibilit√©s, par exemple `driver.switch_to.active_element` pour cibler l'√©l√©ment actif.

En vous aidant de la [documentation](https://www.selenium.dev/selenium/docs/api/py/webdriver_remote/selenium.webdriver.remote.switch_to.html#selenium.webdriver.remote.switch_to.SwitchTo), compl√©tez la cellule ci-dessous pour forcer `driver` √† explorer la fen√™tre modale.

In [None]:
# Remplacez XXX pour que driver se focalise sur la fen√™tre modale
# Faites un print du contenu textuel de la fen√™tre modale pour v√©rifier que √ßa a fonctionn√©

fenetre_modale = driver.switch_to.alert
print(fenetre_modale.text)

Si le texte a √©t√© r√©cup√©r√© correctement, vous pouvez refermer le pop-up en utilisant sa m√©thode `accept()` (action √©quivalente √† cliquer sur son bouton *OK*).

In [None]:
# Refermez le pop-up

fenetre_modale.accept()

Maintenant que nous avons un traitement qui fonctionne pour un bouton, il est temps de l'appliquer √† l'ensemble des boutons √† l'aide d'une boucle `for` !

Dans la cellule ci-dessous, commencez par √©crire une boucle qui affiche le texte de chaque bouton (c'est-√†-dire les noms des langues pr√©sents sur les boutons, pas le texte contenu dans le pop-up).

In [None]:
# Affichez le texte de chaque bouton √† l'aide d'une boucle for

for bouton in boutons:
    print(bouton.text)

√áa fonctionne ? Il ne reste plus qu'√† tout rassembler. Conservez la boucle, mais remplacez l'instruction `print()` par le traitement que vous aviez appliqu√© √† `bouton_test` pour afficher le texte de la fen√™tre modale.

<details>
<summary>üí° Indice</summary>

Les instructions √† reporter sont, dans l'odre :

1. Cliquer sur le bouton.
2. Passer le focus de `driver` sur la fen√™tre modale.
3. Afficher le texte de la fen√™tre modale.
4. Refermer la fen√™tre modale.

</details>

**Facultatif : Vous devrez perfectionner cette boucle √† plusieurs reprises par la suite. Vous pouvez tout √† fait simplement copier-coller le code d'une cellule √† l'autre, mais si vous pr√©f√©rez vous pouvez √©galement cr√©er une ou plusieurs fonctions.**

In [None]:
# En vous basant sur la boucle pr√©c√©dente, appliquez votre traitement de bouton_test √† l'ensemble des boutons

for bouton in boutons:
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    print(fenetre_modale.text)
    fenetre_modale.accept()

Pas mal ! Cependant, extraire le texte ne constitue pas un corpus : en l'√©tat, on ne pourrait pas effectuer d'analyse exploitable de ces contenus qui m√©langent donn√©es et m√©tadonn√©es, dans la plupart des cas exprim√©es dans des langues diff√©rentes.

Regardez la sortie produite par la cellule pr√©c√©dente et/ou l'aspect du texte directement dans son pop-up sur le site. Voyez-vous un s√©parateur qui vous permettrait de s√©parer les diff√©rents √©l√©ments composant le contenu textuel ? Le texte extrait de la fen√™tre modale √©tant de type `str`, vous pouvez utiliser la m√©thode `split()` vue pr√©c√©demment pour le segmenter.

In [None]:
# Copiez-collez le code de la cellule pr√©c√©dente
# Modifiez-le pour segmenter le texte avant de l'afficher

# Il y a une ligne vide entre les diff√©rents composants du texte (= 2 sauts de ligne)
# Il faut donc passer '\n\n' comme param√®tre de split() pour obtenir le r√©sultat voulu
for bouton in boutons:
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    print(donnees)
    fenetre_modale.accept()

Vous devriez avoir, pour chaque version du texte, une liste dans laquelle chaque item correspond soit √† une m√©tadonn√©e, soit au texte √† proprement parler. Modifiez votre boucle pour y associer les donn√©es et m√©tadonn√©es √† des variables, puis utilisez un `print()` pour v√©rifier que vos variables sont associ√©es √† la valeur attendue.

<details>
<summary>üí° Indice</summary>

En plus du texte, chaque pop-up comporte un titre, une URL source et une licence. Vous pouvez donc par exemple utiliser les noms de variables `texte`, `titre`, `source` et `licence`.

</details>

In [None]:
# Copiez-collez le code de la cellule pr√©c√©dente
# Modifiez-le pour associer les (m√©ta)donn√©es √† des variables

for bouton in boutons:
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    titre = donnees[0]
    texte = donnees[1]
    source = donnees[2]
    licence = donnees[3]
    message = f"TITRE = {titre}\nTEXTE = {texte}\nSOURCE = {source}\nLICENCE = {licence}\n"
    print(message)
    fenetre_modale.accept()

En fait, il y a une autre m√©tadonn√©e int√©ressante √† r√©cup√©rer : l'indication de la langue √† laquelle correspond chaque texte. Elle ne fait pas partie du contenu du pop-up, mais vous pouvez la r√©cup√©rer dans le bouton. Dans la cellule ci-dessous, reprenez votre code et ajoutez-y la d√©claration de la variable `langue`, dont la valeur est la langue dans laquelle est r√©dig√©e le texte correspondant √† chaque bouton.

Vous savez d√©j√† r√©cup√©rer l'indication telle qu'elle appara√Æt sur le bouton, mais il y a aussi un moyen d'obtenir le nom de la langue traduit en fran√ßais. Pour l'extraire, la m√©thode `get_dom_attribute()` des objets `WebElement` vous sera utile : pour rappel, elle prend en param√®tre le nom de l'attribut d'un `WebElement` et en retourne la valeur.

In [None]:
# Copiez-collez le code de la cellule pr√©c√©dente
# Modifiez-le pour ajouter la variable langue

# Langue indiqu√©e sur le bouton = attribut text du bouton
# Nom de la langue traduit en fran√ßais = attribut lang de l'√©l√©ment HTML auquel correspond le bouton
for bouton in boutons:
    # Attention, ne pas cliquer avant de r√©cup√©rer la langue
    # Une fois le click() effectu√©, le bouton est n'est plus accessible √† cause de la fen√™tre modale
    langue = bouton.text
    langue_fr = bouton.get_dom_attribute("lang")
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    titre = donnees[0]
    texte = donnees[1]
    source = donnees[2]
    licence = donnees[3]
    message = f"TITRE = {titre}\nTEXTE = {texte}\nSOURCE = {source}\nLICENCE = {licence}\nLANGUE = {langue} ({langue_fr})\n"
    print(message)
    fenetre_modale.accept()

Dernier d√©tail, les indications de l'URL source et de la licence telles qu'elles se pr√©sentent dans le pop-up comportent du texte superflu pour notre corpus.

Dans la cellule suivante, reprenez √† nouveau votre code et modifiez la d√©claration des variables correspondant √† l'URL source et √† la licence pour que leurs valeurs respectives correspondent uniquement √† l'URL (par exemple, *https://fr.wikipedia.org/wiki/Manchot_empereur* √† la place de *Source : https://fr.wikipedia.org/wiki/Manchot_empereur*) et uniquement √† la licence (par exemple, *CC BY-SA 4.0* √† la place de *Licence = Sous licence CC BY-SA 4.0*). Une m√©thode de la classe `str` vue plus t√¥t vous permettra d'effectuer facilement cette modification.

In [None]:
# Copiez-collez le code de la cellule pr√©c√©dente
# Modifiez-le pour nettoyer le texte de l'URL source et de la licence

for bouton in boutons:
    # Attention, ne pas cliquer avant de r√©cup√©rer la langue
    # Une fois le click() effectu√©, le bouton est n'est plus accessible √† cause de la fen√™tre modale
    langue = bouton.text
    langue_fr = bouton.get_dom_attribute("lang")
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    titre = donnees[0]
    texte = donnees[1]
    source = donnees[2].replace("Source : ", "")
    licence = donnees[3].replace("Sous licence ", "")
    message = f"TITRE = {titre}\nTEXTE = {texte}\nSOURCE = {source}\nLICENCE = {licence}\nLANGUE = {langue} ({langue_fr})\n"
    print(message)
    fenetre_modale.accept()

Le plus dur est fait : nous avons toutes les donn√©es n√©cessaires pour constituer notre corpus. Seulement, elles ne sont pour l'instant stock√©es nulle part, ce qui n'est pas pratique et va grandement compliquer les choses pour leurs appliquer d'√©ventuels traitements par la suite. 

Dans la cellule ci-dessous, une liste vide `donnees_corpus` est d√©j√† d√©clar√©e. Sans modifier la d√©claration de la liste, utilisez √† nouveau votre boucle `for` afin d'extraire les donn√©es, en ma modifiant de cette fa√ßon :

* Remplacez l'instruction `print()` par la d√©claration d'un dictionnaire `donnees_texte` contenant les (m√©ta)donn√©es extraites.
* Ajoutez `donnees_texte` √† la liste `donnees_corpus`.

In [None]:
donnees_corpus = []

# Copiez-collez le code de la cellule pr√©c√©dente
# Modifiez-le pour stocker les donn√©es dans un dictionnaire donnees_texte, puis ajouter le dictionnaire √† la liste donnees_corpus

for bouton in boutons:
    # Attention, ne pas cliquer avant de r√©cup√©rer la langue
    # Une fois le click() effectu√©, le bouton est n'est plus accessible √† cause de la fen√™tre modale
    langue = bouton.text
    langue_fr = bouton.get_dom_attribute("lang")
    bouton.click()
    fenetre_modale = driver.switch_to.alert
    donnees = fenetre_modale.text.split('\n\n')
    titre = donnees[0]
    texte = donnees[1]
    source = donnees[2].replace("Source : ", "")
    licence = donnees[3].replace("Sous licence ", "")
    # Construire le dictionnaire
    donnees_texte = {
        "titre": titre,
        "texte": texte,
        "source": source,
        "licence": licence,
        "langue": langue,
        "langue_francais": langue_fr
    }
    # L'ajouter √† la liste donnees_corpus
    donnees_corpus.append(donnees_texte)
    fenetre_modale.accept()

V√©rifiez le r√©sultat obtenu en appelant la variable `donnees_corpus` :

In [None]:
# Appelez donnees_corpus pour v√©rifier son contenu
# (Si la lecture est trop inconfortable, vous pouvez aussi utiliser les 2 cellules suivantes sans les modifier pour l'exporter dans un fichier)

donnees_corpus

Voici une fonction qui vous permettra d'exporter les donn√©es dans un fichier texte. Vous pouvez l'utiliser, sans la modifier, pour visualiser plus confortablement le contenu de `donnees_corpus`. 

In [None]:
def dicos2fichier(liste_dicos, fichier):
    with open(fichier, "w", encoding="utf-8") as cible:
        for dico in liste_dicos:
            for cle, valeur in dico.items():
                cible.write(f"{cle} = {valeur}\n")
            cible.write("\n----------\n\n")

In [None]:
# D√©commentez la ligne ci-dessous pour exporter le contenu de donnees_corpus dans le fichier donnees_corpus.txt
# dicos2fichier(donnees_corpus, "donnees_corpus.txt")

<div class="alert alert-block alert-success"><center>üéâ Bravo, vous avez mis en place une navigation web automatique pour constituer les donn√©es d'un corpus textuel !</center></div>

## Aller plus loin

Vous avez termin√© mais vous voulez encore vous amuser avec Python pour la constitution de corpus linguistique ?

Voici quelques suggestions :

* Essayez d'√©crire des fonctions, si vous ne l'avez pas d√©j√† fait. Vous pouvez r√©partir les traitements entre plusieurs fonctions ; pour information, il est possible d'appeler une fonction √† l'int√©rieur d'une autre fonction.
* Ajoutez une √©tape de validation de l'URL source, par exemple en v√©rifiant que le titre principal de la page web et celui du texte extrait du pop-up sont identiques.
* Ici, les donn√©es ont √©t√© extraites et nettoy√©es mais pas vraiment structur√©es. Il ne manque pas grand chose pour en faire un corpus r√©ellement exploitable, au format XML. Si vous souhaitez essayer, je vous conseille de partir de la liste `donnees_corpus` que vous avez d√©j√† constitu√©e, et de l'int√©grer √† une structure XML en vous aidant des documents suivants :
  * [TP *Construire un corpus XML √† partir du web*](https://github.com/alxdrdelaporte/LTTAC_2023_TP) (en particulier son [corrig√©](https://github.com/alxdrdelaporte/LTTAC_2023_TP/blob/main/LTTAC_2023_TP_Solution.ipynb)).
  * [Article *Produire un corpus web format XML en 15 lignes de code*](https://tekipaki.hypotheses.org/1758) sur [Tekipaki](https://tekipaki.hypotheses.org/).
  * [Article *D√©claration XML automatique*](https://tekipaki.hypotheses.org/1897) sur [Tekipaki](https://tekipaki.hypotheses.org/).
* Tout ce que vous voulez ! Si vous avez une autre id√©e, vous pouvez essayer de la mettre en place.  

In [None]:
# Voici 2 exemples de fonctions que vous pouvez √©crire √† partir de vos r√©ponses

def go_to_text_list(active_driver):
    """Remplit et envoie le formulaire permettant d'acc√©der √† la liste des textes"""
    active_driver.get("https://alxdrdelaporte.github.io/works/manchot_empereur.html")
    
    champ_texte = active_driver.find_element(By.ID, "textInput")
    champ_texte.send_keys("J'aime les manchots empereurs")
    
    checkbox = active_driver.find_element(By.ID, "checkInput")
    checkbox.click()
    
    bouton_valider = active_driver.find_element(By.ID, "submitBtn")
    bouton_valider.click()


def get_corpus_data(active_driver):
    """R√©cup√®re les donn√©es pour construire le corpus"""
    donnees_corpus = []
    
    boutons = driver.find_elements(By.CSS_SELECTOR, "button[lang]")
    
    for bouton in boutons:
        langue = bouton.text
        langue_fr = bouton.get_dom_attribute("lang")
        bouton.click()
        fenetre_modale = driver.switch_to.alert
        donnees = fenetre_modale.text.split('\n\n')
        titre = donnees[0]
        texte = donnees[1]
        source = donnees[2].replace("Source : ", "")
        licence = donnees[3].replace("Sous licence ", "")
        donnees_texte = {
            "titre": titre,
            "texte": texte,
            "source": source,
            "licence": licence,
            "langue": langue,
            "langue_francais": langue_fr
        }
        donnees_corpus.append(donnees_texte)
        fenetre_modale.accept()

    return donnees_corpus

In [None]:
# Et voici comment les utiliser

mon_driver = set_driver()
go_to_text_list(mon_driver)
mes_donnees = get_corpus_data(mon_driver)
print(mes_donnees)

In [None]:
# Vous pouvez m√™me r√©unir le tout dans une autre fonction

def make_corpus():
    active_driver = set_driver()
    go_to_text_list(active_driver)
    donnees = get_corpus_data(active_driver)
    return donnees

mes_donnees = make_corpus()
print(mes_donnees)

---

*Utiliser la navigation web automatique pour constituer un corpus* par Alexander Delaporte est mis √† disposition selon les termes de la licence [Creative Commons CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).

[![CC BY-SA 4.0][cc-by-sa-image]][cc-by-sa]

[cc-by-sa]: http://creativecommons.org/licenses/by-sa/4.0/
[cc-by-sa-image]: https://licensebuttons.net/l/by-sa/4.0/88x31.png
[cc-by-sa-shield]: https://img.shields.io/badge/License-CC%20BY--SA%204.0-lightgrey.svg