# Web scraping avec Python

Lino Galiana  
2025-10-06

<div class="badge-container"><div class="badge-text">Pour essayer les exemples pr√©sents dans ce tutoriel :</div><a href="https://github.com/linogaliana/python-datascientist-notebooks/blob/main/notebooks/manipulation/04a_webscraping_TP.ipynb" target="_blank" rel="noopener"><img src="https://img.shields.io/static/v1?logo=github&label=&message=View%20on%20GitHub&color=181717" alt="View on GitHub"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/vscode-python?autoLaunch=true&name=¬´04a_webscraping_TP¬ª&init.personalInit=¬´https%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmain%2Fsspcloud%2Finit-vscode.sh¬ª&init.personalInitArgs=¬´manipulation%2004a_webscraping_TP%20correction¬ª" target="_blank" rel="noopener"><img src="https://custom-icon-badges.demolab.com/badge/SSP%20Cloud-Lancer_avec_VSCode-blue?logo=vsc&logoColor=white" alt="Onyxia"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&name=¬´04a_webscraping_TP¬ª&init.personalInit=¬´https%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmain%2Fsspcloud%2Finit-jupyter.sh¬ª&init.personalInitArgs=¬´manipulation%2004a_webscraping_TP%20correction¬ª" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSP%20Cloud-Lancer_avec_Jupyter-orange?logo=Jupyter&logoColor=orange" alt="Onyxia"></a>
<a href="https://colab.research.google.com/github/linogaliana/python-datascientist-notebooks-colab//blob/main//notebooks/manipulation/04a_webscraping_TP.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a><br></div>

> **Note**
>
> Ceci est la version fran√ßaise üá´üá∑ de ce chapitre, pour voir la version anglaise allez <a href="/home/runner/work/python-datascientist/python-datascientist/en/content/manipulation/04a_webscraping_TP.qmd">ici</a>.

> **Comp√©tences √† l‚Äôissue de ce chapitre**
>
> -   Comprendre les enjeux du web scraping, en particulier les questions de l√©galit√© (RGPD, zone grise), de stabilit√© des sites, et de fiabilit√© des donn√©es ;
> -   Appliquer de bonnes pratiques lors du scraping : consulter le fichier `robots.txt`, espacer les requ√™tes, √©viter de surcharger les sites, privil√©gier les p√©riodes creuses ;
> -   Saisir la structure HTML d‚Äôune page (balises, parent-enfant) pour cibler correctement les √©l√©ments √† extraire ;
> -   Utiliser le package `requests` pour r√©cup√©rer le contenu d‚Äôune page web, et `BeautifulSoup` pour analyser et naviguer dans le HTML (m√©thodes `find`, `find_all`) ;
> -   Mettre en pratique le scraping avec un exercice concret (liste des √©quipes de Ligue 1) ;
> -   D√©couvrir Selenium pour simuler le comportement d‚Äôun utilisateur sur des pages dynamiques g√©n√©r√©es par JavaScript ;
> -   √âvaluer les limites du web scraping et justifier l‚Äôusage d‚ÄôAPI plus robustes quand elles sont disponibles.

Le [*web scraping*](https://fr.wikipedia.org/wiki/Web_scraping) d√©signe les techniques d‚Äôextraction du contenu des sites internet.
C‚Äôest une pratique tr√®s utile pour toute personne souhaitant travailler sur des informations disponibles en ligne, mais n‚Äôexistant pas forc√©ment sous la forme d‚Äôun tableau *Excel*.

Ce TP vous pr√©sente comment cr√©er et ex√©cuter des robots afin de recup√©rer rapidement des informations utiles √† vos projets actuels ou futurs.
Il part de quelques cas d‚Äôusages concret.
Ce chapitre est tr√®s fortement inspir√© et r√©adapt√© √† partir de [celui de Xavier Dupr√©](http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/notebooks/TD2A_Eco_Web_Scraping.html), l‚Äôancien professeur de la mati√®re.

# 1. Enjeux

Un certain nombre d‚Äôenjeux du *web scraping* ne seront √©voqu√©s
que superficiellement dans le cadre de ce chapitre.

## 1.1 La zone grise de la l√©galit√© du *web scraping*

En premier lieu, en ce qui concerne la question de la l√©galit√©
de la r√©cup√©ration d‚Äôinformation par *scraping*, il existe
une zone grise. Ce n‚Äôest pas parce qu‚Äôune information est
disponible sur internet, directement ou avec un peu de recherche,
qu‚Äôelle peut √™tre r√©cup√©r√©e et r√©utilis√©e.

L‚Äôexcellent [cours d‚ÄôAntoine Palazzolo](https://inseefrlab.github.io/formation-webscraping/) √©voque un certain nombre de cas
m√©diatiques et judiciaires sur cette question.
Dans le champ fran√ßais, la CNIL a publi√© en 2020
de nouvelles directives sur le *web scraping* repr√©cisant
que toute donn√©e ne peut √™tre r√©utilis√©e √† l‚Äôinsu de la personne
√† laquelle ces donn√©es appartiennent. Autrement dit, en principe,
les donn√©es collect√©es par *web scraping* sont soumises au
RGPD, c‚Äôest-√†-dire n√©cessitent le consentement des personnes
√† partir desquelles la r√©utilisation des donn√©es est faite.

Il est donc recommand√© d‚Äô**√™tre vigilant avec les donn√©es r√©cup√©r√©es**
par *web scraping* pour ne pas se mettre en faute l√©galement.

## 1.2 Stabilit√© et fiabilit√© des informations re√ßues

La r√©cup√©ration de donn√©es par *web scraping*
est certes pratique mais elle ne correspond pas n√©cessairement
√† un usage pens√©, ou d√©sir√©, par un fournisseur de donn√©es.
Les donn√©es √©tant co√ªteuses √† collecter et √† mettre √† disposition,
certains sites ne d√©sirent pas n√©cessairement que celles-ci soient
extraites gratuitement et facilement. *A fortiori* lorsque la donn√©e
peut permettre √† un concurrent de disposer d‚Äôune information
utile d‚Äôun point de vue commercial (prix d‚Äôun produit concurrent, etc.).

Les acteurs mettent donc souvent en oeuvre des strat√©gies pour bloquer ou
limiter la quantit√© de donn√©es scrap√©es. La m√©thode la plus
classique est la d√©tection et le blocage
des requ√™tes faites par des robots plut√¥t que par des humains.
Pour des acteurs sp√©cialis√©s, cette d√©tection est tr√®s facile car
de nombreuses preuves permettent d‚Äôidentifier si une visite du site *web*
provient d‚Äôun utilisateur
humain derri√®re un navigateur ou d‚Äôun robot. Pour ne citer que quelques indices :
vitesse de la navigation entre pages, rapidit√© √† extraire la donn√©e,
empreinte digitale du navigateur utilis√©, capacit√© √† r√©pondre √† des
questions al√©atoires (captcha)‚Ä¶
Les bonnes pratiques, √©voqu√©es par la suite, ont pour objectif de faire
en sorte qu‚Äôun robot se comporte de mani√®re civile en adoptant un comportement
proche de celui de l‚Äôhumain mais sans contrefaire le fait qu‚Äôil ne s‚Äôagit
pas d‚Äôun humain.

Il convient d‚Äôailleurs
d‚Äô√™tre prudent quant aux informations re√ßues par *web scraping*.
La donn√©e √©tant au coeur du mod√®le √©conomique de certains acteurs, certains
n‚Äôh√©sitent pas √† renvoyer des donn√©es fausses aux robots
plut√¥t que les bloquer. C‚Äôest de bonne guerre !
Une autre technique pi√®ge s‚Äôappelle le *honey pot*. Il s‚Äôagit de pages qu‚Äôun humain
n‚Äôirait jamais visiter - par exemple parce qu‚Äôelles n‚Äôapparaissent pas dans
l‚Äôinterface graphique - mais sur lesquelles un robot, en recherche automatique
de contenu, va rester bloquer.

Sans aller jusqu‚Äô√† la strat√©gie de blocage du *web scraping*, d‚Äôautres raisons
peuvent expliquer qu‚Äôune r√©cup√©ration de donn√©es ait fonctionn√© par
le pass√© mais ne fonctionne plus. La plus fr√©quente est un changement dans la structure
d‚Äôun site *web*. Le *web scraping* pr√©sente en effet l‚Äôinconv√©nient d‚Äôaller chercher
de l‚Äôinformation dans une structure tr√®s hi√©rarchis√©e. Un changement dans cette structure
peut suffire √† rendre un robot incapable de r√©cup√©rer du contenu. Or, pour rester
attractifs, les sites *web* changent fr√©quemment ce qui peut facilement
rendre inop√©rant un robot.

De mani√®re g√©n√©rale, l‚Äôun des principaux messages de ce
chapitre, √† retenir, est que le
**web scraping est une solution de dernier ressort, pour des r√©cup√©rations ponctuelles de donn√©es sans garantie de fonctionnement ult√©rieur**. Il est pr√©f√©rable de **privil√©gier les API lorsque celles-ci sont disponibles**.
Ces derni√®res ressemblent √† un contrat (formel ou non) entre un fournisseur de donn√©es
et un utilisateur o√π sont d√©finis des besoins (les donn√©es) mais aussi des
conditions d‚Äôacc√®s (nombre de requ√™tes, volum√©trie, authentification‚Ä¶) l√†
o√π le *web scraping* est plus proche du comportement dans le *Far West*.

## 1.3 Les bonnes pratiques

La possibilit√© de r√©cup√©rer des donn√©es par l‚Äôinterm√©diaire
d‚Äôun robot ne signifie pas qu‚Äôon peut se permettre de ne pas √™tre
civilis√©. En effet, lorsqu‚Äôil est non-ma√Ætris√©, le
*web scraping* peut ressembler √† une attaque informatique
classique pour faire sauter un site *web* : le d√©ni de service.
Le [cours d‚ÄôAntoine Palazzolo](https://inseefrlab.github.io/formation-webscraping/) revient
sur certaines bonnes pratiques qui ont √©merg√© dans la communaut√©
des *scrapeurs*. Il est recommand√© de lire cette ressource
pour en apprendre plus sur ce sujet. Y sont √©voqu√©es
plusieurs conventions, parmi lesquelles :

-   Se rendre, depuis la racine du site,
    sur le fichier `robots.txt` pour v√©rifier les consignes
    propos√©es par les d√©veloppeurs du site *web* pour
    cadrer le comportement des robots ;
-   Espacer chaque requ√™tes de plusieurs secondes, comme le ferait
    un humain, afin d‚Äô√©viter de surcharger le site *web* et de le
    faire sauter par d√©ni de service ;
-   Faire les requ√™tes dans les heures creuses de fr√©quentation du
    site *web* s‚Äôil ne s‚Äôagit pas d‚Äôun site consult√© internationalement.
    Par exemple, pour un site en fran√ßais, lancer le robot
    pendant la nuit en France m√©tropolitaine, est une bonne pratique.
    Pour lancer un robot depuis `Python` √† une heure programm√©e
    √† l‚Äôavance, il existe les `cronjobs`.

# 2. Un d√©tour par le Web : comment fonctionne un site ?

M√™me si ce TP ne vise pas √† faire un cours de web, il vous faut n√©anmoins certaines bases sur la mani√®re dont un site internet fonctionne afin de comprendre comment sont structur√©es les informations sur une page.

Un site Web est un ensemble de pages cod√©es en *HTML* qui permet de d√©crire √† la fois le contenu et la forme d‚Äôune page *Web*.

Pour voir cela, ouvrez n‚Äôimporte quelle page web et faites un clic-droit dessus.

-   Sous `Chrome` <i class="fab fa-chrome"></i> : Cliquez ensuite sur *‚ÄúAffichez le code source de la page‚Äù* (<kbd>CTRL</kbd>+<kbd>U</kbd>) ;
-   Sous `Firefox` <i class="fab fa-firefox"></i> : *‚ÄúCode source de la page‚Äù* (<kbd>CTRL</kbd>+<kbd>MAJ</kbd>+<kbd>K</kbd>) ;
-   Sous `Edge` <i class="fab fa-edge"></i> : *‚ÄúAffichez la page source‚Äù* (<kbd>CTRL</kbd>+<kbd>U</kbd>) ;
-   Sous `Safari` <i class="fab fa-safari"></i> : voir comment faire [ici](https://fr.wikihow.com/voir-le-code-source)

Si vous savez quel √©l√©ment vous int√©resse, vous pouvez √©galement ouvrir l‚Äôinspecteur du navigateur (clic droit sur l‚Äô√©l√©ment + ‚ÄúInspecter‚Äù),
pour afficher les balises encadrant votre √©l√©ment de fa√ßon plus ergonomique, un peu comme un zoom.

## 2.1 Les balises

Sur une page web, vous trouverez toujours √† coup s√ªr des √©l√©ments comme `<head>`, `<title>`, etc. Il s‚Äôagit des codes qui vous permettent de structurer le contenu d‚Äôune page *HTML* et qui s‚Äôappellent des **balises**.
Citons, par exemple, les balises `<p>`, `<h1>`, `<h2>`, `<h3>`, `<strong>` ou `<em>`.
Le symbole `< >` est une balise : il sert √† indiquer le d√©but d‚Äôune partie. Le symbole `</ >` indique la fin de cette partie. La plupart des balises vont par paires, avec une *balise ouvrante* et une *balise fermante* (par exemple `<p>` et `</p>`).

Par exemple, les principales balises
d√©finissant la structure d‚Äôun tableau sont les suivantes :

| Balise      | Description                     |
|-------------|---------------------------------|
| `<table>`   | Tableau                         |
| `<caption>` | Titre du tableau                |
| `<tr>`      | Ligne de tableau                |
| `<th>`      | Cellule d‚Äôen-t√™te               |
| `<td>`      | Cellule                         |
| `<thead>`   | Section de l‚Äôen-t√™te du tableau |
| `<tbody>`   | Section du corps du tableau     |
| `<tfoot>`   | Section du pied du tableau      |

### 2.1.1 Application : un tableau en HTML

Le code `HTML` du tableau suivant :

``` {html}
<table>
    <caption> Le Titre de mon tableau </caption>
    <tr>
        <th>Nom</th>
        <th>Profession</th>
    </tr>
    <tr>
        <td>Ast√©rix</td>
        <td></td>
    </tr>
    <tr>
        <td>Ob√©lix</td>
        <td>Tailleur de Menhir</td>
    </tr>
</table>
```

Donnera dans le navigateur :

|         |                    |
|---------|--------------------|
| Nom     | Profession         |
| Ast√©rix |                    |
| Ob√©lix  | Tailleur de Menhir |

Le Titre de mon tableau

### 2.1.2 Parent et enfant

Dans le cadre du langage HTML, les termes de parent (*parent*) et enfant (*child*) servent √† d√©signer des √©lements embo√Æt√©s les uns dans les autres. Dans la construction suivante, par exemple :

``` html
<div>
    <p>
       bla,bla
    </p>
</div>
```

Sur la page web, cela apparaitra de la mani√®re suivante :

<div>
    <p>
       bla,bla
    </p>
</div>

On dira que l‚Äô√©l√©ment `<div>` est le parent de l‚Äô√©l√©ment `<p>` tandis que l‚Äô√©l√©ment `<p>` est l‚Äôenfant de l‚Äô√©l√©ment `<div>`.

> *Mais pourquoi apprendre √ßa pour ‚Äúscraper‚Äù ?*

Parce que, pour bien r√©cup√©rer les informations d‚Äôun site internet, il faut pouvoir comprendre sa structure et donc son code HTML. Les fonctions `Python` qui servent au *scraping* sont principalement construites pour vous permettre de naviguer entre les balises.
Avec `Python`, vous allez en fait reproduire votre comportement manuel de recherche de mani√®re
√† l‚Äôautomatiser.

# 3. Scraper avec `Python`: le package `BeautifulSoup`

## 3.1 Les packages disponibles

Dans la premi√®re partie de ce chapitre,
nous allons essentiellement utiliser le package [`BeautifulSoup4`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/),
en conjonction avec [`requests`](https://requests.readthedocs.io/en/latest/). Ce dernier *package* permet de r√©cup√©rer le texte
brut d‚Äôune page qui sera ensuite
inspect√© via [`BeautifulSoup4`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

`BeautifulSoup` sera suffisant quand vous voudrez travailler sur des pages HTML statiques. D√®s que les informations que vous recherchez sont g√©n√©r√©es via l‚Äôex√©cution de scripts [Javascript](https://fr.wikipedia.org/wiki/JavaScript), il vous faudra passer par des outils comme [Selenium](https://selenium-python.readthedocs.io/).

De m√™me, si vous ne connaissez pas l‚ÄôURL, il faudra passer par un *framework* comme [Scrapy](https://scrapy.org/), qui passe facilement d‚Äôune page √† une autre. On appelle
cette technique le *‚Äúweb crawling‚Äù*. `Scrapy` est plus complexe √† manipuler que `BeautifulSoup` : si vous voulez plus de d√©tails, rendez-vous sur la page du [tutoriel `Scrapy`](https://doc.scrapy.org/en/latest/intro/tutorial.html).

Le *web scraping* est un domaine o√π la reproductibilit√© est compliqu√©e √† mettre en oeuvre.
Une page *web* √©volue
potentiellement r√©guli√®rement et d‚Äôune page web √† l‚Äôautre, la structure peut
√™tre tr√®s diff√©rente ce qui rend certains codes difficilement exportables.
Par cons√©quent, la meilleure mani√®re d‚Äôavoir un programme fonctionnel est
de comprendre la structure d‚Äôune page web et dissocier les √©l√©ments exportables
√† d‚Äôautres cas d‚Äôusages des requ√™tes *ad hoc*.

In [None]:
!pip install lxml
!pip install bs4

> **Note**
>
> Pour √™tre en mesure d‚Äôutiliser `Selenium`, il est n√©cessaire
> de faire communiquer `Python` avec un navigateur *web* (Firefox ou Chromium).
> Le *package* `webdriver-manager` permet de faire savoir √† `Python` o√π
> se trouve ce navigateur s‚Äôil est d√©j√† install√© dans un chemin standard.
> Pour l‚Äôinstaller, le code de la cellule ci-dessous peut √™tre utilis√©.

Pour faire fonctionner `Selenium`, il faut utiliser un package
nomm√© `webdriver-manager`. On va donc l‚Äôinstaller, ainsi que `selenium` :

In [None]:
!pip install selenium
!pip install webdriver-manager

## 3.2 R√©cup√©rer le contenu d‚Äôune page HTML

On va commencer doucement. Prenons une page *wikipedia*,
par exemple celle de la Ligue 1 de football, mill√©sime 2019-2020 : [Championnat de France de football 2019-2020](https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020). On va souhaiter r√©cup√©rer la liste des √©quipes, ainsi que les url des pages Wikipedia de ces √©quipes.

Etape 1Ô∏è‚É£ : se connecter √† la page wikipedia et obtenir le code source.
Pour cela, le plus simple est d‚Äôutiliser le package `requests`. Celui-ci permet, au niveau de `Python` de faire la requ√™te HTTP ad√©quate pour avoir le contenu d‚Äôune page √† partir de son URL:

In [None]:
import requests
url_ligue_1 = "https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020"

request_text = requests.get(
    url_ligue_1,
    headers={"User-Agent": "Python for data science tutorial"}
).content

In [None]:
request_text

b'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="fr" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Championnat de France de football 2019-2020 \xe2\x80\x94 Wikip\xc3\xa9dia</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 ve

> **Warning**
>
> Pour limiter le volume de *bot* r√©cup√©rant les informations depuis Wikipedia (tr√®s utilis√© par exemple par les LLM), il faut dor√©navant indiquer un *user agent* par le biais de `request`. C‚Äôest d‚Äôailleurs une bonne pratique qui permet aux sites de conna√Ætre les consommateurs de ses ressources.

Etape 2Ô∏è‚É£ : rechercher, dans ce code source foisonnant, les balises qui permettent d‚Äôextraire l‚Äôinformation qui nous int√©resse. C‚Äôest l‚Äôint√©r√™t principal du package `BeautifulSoup` que d‚Äôoffrir des m√©thodes simples d‚Äôusage pour chercher, dans des textes pourtant complexes, des chaines de caract√®res √† partir de balises HTML ou XML.

In [None]:
import bs4
page = bs4.BeautifulSoup(request_text, "lxml")

Si on *print* l‚Äôobjet `page` cr√©√©e avec `BeautifulSoup`,
on voit que ce n‚Äôest plus une chaine de caract√®res mais bien une page HTML avec des balises.
On peut √† pr√©sent chercher des √©lements √† l‚Äôint√©rieur de ces balises.

## 3.3 La m√©thode `find`

Comme premi√®re illustration de la puissance de `BeautifulSoup`, on veut conna√Ætre le titre de la page. Pour cela, on utilise la m√©thode `.find` et on lui demande *‚Äútitle‚Äù*

In [None]:
print(page.find("title"))

<title>Championnat de France de football 2019-2020 ‚Äî Wikip√©dia</title>

La m√©thode `.find` ne renvoie que la premi√®re occurrence de l‚Äô√©l√©ment.

Pour vous en assurer, vous pouvez :

-   copier le bout de code source obtenu lorsque vous cherchez une `table`,
-   le coller dans une cellule de votre notebook,
-   et passer la cellule en *‚ÄúMarkdown‚Äù*.

La cellule avec le copier-coller du code source donne :

In [None]:
print(page.find("table"))

<table><caption style="background-color:#99cc99;color:#000000;">G√©n√©ralit√©s</caption><tbody><tr>
<th scope="row" style="width:10.5em;">Sport</th>
<td>
<a href="/wiki/Football" title="Football">Football</a></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Organisateur(s)</th>
<td>
<a href="/wiki/Ligue_de_football_professionnel_(France)" title="Ligue de football professionnel (France)">LFP</a></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">√âdition</th>
<td>
<abbr class="abbr" title="Quatre-vingt-deuxi√®me (huitante-deuxi√®me / octante-deuxi√®me)">82<sup>e</sup></abbr></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Lieu(x)</th>
<td>
<span class="datasortkey" data-sort-value="France"><span class="flagicon"><span class="mw-image-border noviewer" typeof="mw:File"><a class="mw-file-description" href="/wiki/Fichier:Flag_of_France_(1976%E2%80%932020).svg" title="Drapeau de la France"><img alt="Drapeau de la France" class="mw-file-element" data-file-height="600" data-file-

ce qui est le texte source permettant de g√©n√©rer le tableau suivant :

<table>

<caption style="background-color:#99cc99;color:#000000;">

G√©n√©ralit√©s

</caption>

<tbody>

<tr>

<th scope="row" style="width:10.5em;">

Sport

</th>

<td>

<a href="/wiki/Football" title="Football">Football</a>

</td>

</tr>

<tr>

<th scope="row" style="width:10.5em;">

Organisateur(s)

</th>

<td>

<a href="/wiki/Ligue_de_football_professionnel_(France)" title="Ligue de football professionnel (France)">LFP</a>

</td>

</tr>

<tr>

<th scope="row" style="width:10.5em;">

√âdition

</th>

<td>

<abbr class="abbr" title="Quatre-vingt-deuxi√®me (huitante-deuxi√®me / octante-deuxi√®me)">82<sup>e</sup></abbr>

</td>

</tr>

<tr>

<th scope="row" style="width:10.5em;">

Lieu(x)

</th>

<td>

<span class="datasortkey" data-sort-value="France"><span class="flagicon"><span class="mw-image-border noviewer" typeof="mw:File"><a class="mw-file-description" href="/wiki/Fichier:Flag_of_France_(1976%E2%80%932020).svg" title="Drapeau de la France"><img alt="Drapeau de la France" class="mw-file-element" data-file-height="600" data-file-width="900" decoding="async" height="13" src="//upload.wikimedia.org/wikipedia/commons/thumb/d/d1/Flag_of_France_%281976%E2%80%932020%29.svg/20px-Flag_of_France_%281976%E2%80%932020%29.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/d/d1/Flag_of_France_%281976%E2%80%932020%29.svg/40px-Flag_of_France_%281976%E2%80%932020%29.svg.png 1.5x" width="20"/></a></span> </span><a href="/wiki/France" title="France">France</a></span> et <br/><span class="datasortkey" data-sort-value="Monaco"><span class="flagicon"><span class="mw-image-border noviewer" typeof="mw:File"><a class="mw-file-description" href="/wiki/Fichier:Flag_of_Monaco.svg" title="Drapeau de Monaco"><img alt="Drapeau de Monaco" class="mw-file-element" data-file-height="800" data-file-width="1000" decoding="async" height="16" src="//upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Flag_of_Monaco.svg/20px-Flag_of_Monaco.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Flag_of_Monaco.svg/40px-Flag_of_Monaco.svg.png 1.5x" width="20"/></a></span> </span><a href="/wiki/Monaco" title="Monaco">Monaco</a></span>

</td>

</tr>

<tr>

<th scope="row" style="width:10.5em;">

Date

</th>

<td>

Du <time class="nowrap date-lien" data-sort-value="2019-08-09" datetime="2019-08-09"><a href="/wiki/9_ao%C3%BBt_en_sport" title="9 ao√ªt en sport">9</a> <a class="mw-redirect" href="/wiki/Ao%C3%BBt_2019_en_sport" title="Ao√ªt 2019 en sport">ao√ªt</a> <a href="/wiki/2019_en_football" title="2019 en football">2019</a></time><br/>au <time class="nowrap date-lien" data-sort-value="2020-03-08" datetime="2020-03-08"><a href="/wiki/8_mars_en_sport" title="8 mars en sport">8 mars</a> <a href="/wiki/2020_en_football" title="2020 en football">2020</a></time> <small>(arr√™t d√©finitif)</small>

</td>

</tr>

<tr>

<th scope="row" style="width:10.5em;">

Participants

</th>

<td>

20 √©quipes

</td>

</tr>

<tr>

<th scope="row" style="width:10.5em;">

Matchs jou√©s

</th>

<td>

279 (sur 380 pr√©vus)

</td>

</tr>

<tr>

<th scope="row" style="width:10.5em;">

Site web officiel

</th>

<td>

<cite class="ouvrage" id="site_officiel" style="font-style: normal;"><a class="external text" href="https://www.ligue1.fr/" rel="nofollow">Site officiel</a></cite>

</td>

</tr>

</tbody>

</table>

## 3.4 La m√©thode `find_all`

Pour trouver toutes les occurrences, on utilise `.find_all()`.

In [None]:
print("Il y a", len(page.find_all("table")), "√©l√©ments dans la page qui sont des <table>")

Il y a 34 √©l√©ments dans la page qui sont des <table>

> **Tip**
>
> `Python` n‚Äôest pas le seul langage qui permet de r√©cup√©rer des √©l√©ments issus d‚Äôune page web. C‚Äôest l‚Äôun des objectifs principaux de `Javascript`, qui est accessible par le biais de n‚Äôimporte quel navigateur web.
>
> Par exemple, pour faire le parall√®le avec `page.find('title')` que nous avons utilis√© au niveau de `Python`, vous pouvez ouvrir la page [pr√©c√©demment mentionn√©e](https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020) avec votre navigateur. Apr√®s avoir ouvert les outils de d√©veloppement du navigateur (<kbd>CTRL</kbd>+<kbd>MAJ</kbd>+<kbd>K</kbd> sur `Firefox`), vous pouvez taper dans la console `document.querySelector("title")` qui vous permettra d‚Äôobtenir le contenu du noeud HTML recherch√©:
>
> ![](attachment:./04_webscraping/console_log.png)
>
> Si vous √™tes amen√©s √† utiliser `Selenium` pour faire du *web scraping*, vous retrouverez, en fait, ces verbes `Javascript` dans n‚Äôimporte quelle m√©thode que vous allez utiliser.
>
> La compr√©hension de la structure d‚Äôune page et de l‚Äôinteraction de celle-ci avec le navigateur est extr√™mement utile lorsqu‚Äôon fait du *scraping*, y compris lorsque le site est purement statique, c‚Äôest-√†-dire qu‚Äôil ne comporte pas d‚Äô√©l√©ments r√©agissant √† une action d‚Äôun navigateur web.

# 4. Exercice guid√© : obtenir la liste des √©quipes de Ligue 1

Dans le premier paragraphe de la page *‚ÄúParticipants‚Äù*,
on a le tableau avec les r√©sultats de l‚Äôann√©e.

> **Exercice 1 : R√©cup√©rer les participants de la Ligue 1**
>
> Pour cela, nous allons proc√©der en 6 √©tapes:
>
> 1.  Trouver le tableau
> 2.  R√©cup√©rer chaque ligne du tableau
> 3.  Nettoyer les sorties en ne gardant que le texte sur une ligne
> 4.  G√©n√©raliser sur toutes les lignes
> 5.  R√©cup√©rer les ent√™tes du tableau
> 6.  Finalisation du tableau

1Ô∏è‚É£ Trouver le tableau

In [None]:
# on identifie le tableau en question : c'est le premier qui a cette classe "wikitable sortable"
tableau_participants = page.find('table', {'class' : 'wikitable sortable'})

``` python
print(tableau_participants)
```

2Ô∏è‚É£ R√©cup√©rer chaque ligne du tableau

On recherche d‚Äôabord toutes les lignes du tableau avec la balise `tr`

In [None]:
table_body = tableau_participants.find('tbody')
rows = table_body.find_all('tr')

On obtient une liste o√π chaque √©l√©ment est une des lignes du tableau
Pour illustrer cela, on va d‚Äôabord afficher la premi√®re ligne.
Celle-ci correspond aux ent√™tes de colonne:

In [None]:
print(rows[0])

<tr>
<th scope="col">Club
</th>
<th scope="col">Derni√®re<br/>mont√©e
</th>
<th scope="col">Budget<sup class="reference" id="cite_ref-3"><a href="#cite_note-3"><span class="cite-bracket">[</span>3<span class="cite-bracket">]</span></a></sup><br/>en M<a href="/wiki/Euro" title="Euro">‚Ç¨</a>
</th>
<th scope="col">Classement<br/><a href="/wiki/Championnat_de_France_de_football_2018-2019" title="Championnat de France de football 2018-2019">2018-2019</a>
</th>
<th scope="col">Entra√Æneur
</th>
<th scope="col">Depuis
</th>
<th scope="col">Stade
</th>
<th scope="col">Capacit√©<br/>en L1<sup class="reference" id="cite_ref-4"><a href="#cite_note-4"><span class="cite-bracket">[</span>4<span class="cite-bracket">]</span></a></sup>
</th>
<th scope="col">Nombre<br/>de saisons<br/>en L1
</th></tr>

La seconde ligne va correspondre √† la ligne du premier club pr√©sent dans le tableau :

In [None]:
print(rows[1])

<tr bgcolor="#97DEFF">
<td><a href="/wiki/Paris_Saint-Germain_Football_Club" title="Paris Saint-Germain Football Club">Paris Saint-Germain</a>
</td>
<td>1974
</td>
<td>637
</td>
<td><span data-sort-value="101 !"></span><abbr class="abbr" title="Premier">1<sup>er</sup></abbr>
</td>
<td align="left"><span class="flagicon"><span class="mw-image-border noviewer" typeof="mw:File"><a class="mw-file-description" href="/wiki/Fichier:Flag_of_Germany.svg" title="Drapeau : Allemagne"><img alt="" class="mw-file-element" data-file-height="600" data-file-width="1000" decoding="async" height="12" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Flag_of_Germany.svg/20px-Flag_of_Germany.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Flag_of_Germany.svg/40px-Flag_of_Germany.svg.png 1.5x" width="20"/></a></span></span> <a href="/wiki/Thomas_Tuchel" title="Thomas Tuchel">Thomas Tuchel</a>
</td>
<td>2018
</td>
<td><a href="/wiki/Parc_des_Princes" title="Parc des Princes">Parc 

3Ô∏è‚É£ Nettoyer les sorties en ne gardant que le texte sur une ligne

On va utiliser l‚Äôattribut `text` afin de se d√©barrasser de toute la couche de HTML qu‚Äôon obtient √† l‚Äô√©tape 2.

Un exemple sur la ligne du premier club :
- on commence par prendre toutes les cellules de cette ligne, avec la balise `td`.
- on fait ensuite une boucle sur chacune des cellules et on ne garde que le texte de la cellule avec l‚Äôattribut `text`.
- enfin, on applique la m√©thode `strip()` pour que le texte soit bien mis en forme (sans espace inutile etc).

In [None]:
cols = rows[1].find_all('td')
print(cols[0])
print(cols[0].text.strip())

<td><a href="/wiki/Paris_Saint-Germain_Football_Club" title="Paris Saint-Germain Football Club">Paris Saint-Germain</a>
</td>
Paris Saint-Germain

In [None]:
for ele in cols : 
    print(ele.text.strip())

Paris Saint-Germain
1974
637
1er
Thomas Tuchel
2018
Parc des Princes
47¬†929
46

4Ô∏è‚É£ G√©n√©raliser sur toutes les lignes :

In [None]:
for row in rows:
    cols = row.find_all('td')
    cols = [ele.text.strip() for ele in cols]
    print(cols)

[]
['Paris Saint-Germain', '1974', '637', '1er', 'Thomas Tuchel', '2018', 'Parc des Princes', '47\xa0929', '46']
['LOSC Lille', '2000', '120', '2e', 'Christophe Galtier', '2017', 'Stade Pierre-Mauroy', '49\xa0712', '59']
['Olympique lyonnais', '1989', '310', '3e', 'Rudi Garcia', '2019', 'Groupama Stadium', '57\xa0206', '60']
['AS Saint-√âtienne', '2004', '100', '4e', 'Claude Puel', '2019', 'Stade Geoffroy-Guichard', '41\xa0965', '66']
['Olympique de Marseille', '1996', '110', '5e', 'Andr√© Villas-Boas', '2019', 'Orange V√©lodrome', '66\xa0226', '69']
['Montpellier HSC', '2009', '40', '6e', 'Michel Der Zakarian', '2017', 'Stade de la Mosson', '22\xa0000', '27']
['OGC Nice', '2002', '50', '7e', 'Patrick Vieira', '2018', 'Allianz Riviera', '35\xa0596', '60']
['Stade de Reims', '2018', '45', '8e', 'David Guion', '2017', 'Stade Auguste-Delaune', '20\xa0546', '35']
['N√Æmes Olympique', '2018', '27', '9e', 'Bernard Blaquart', '2015', 'Stade des Costi√®res', '15\xa0788', '35']
['Stade rennais 

On a bien r√©ussi √† avoir les informations contenues dans le tableau des participants du championnat.
Mais la premi√®re ligne est √©trange : c‚Äôest une liste vide ‚Ä¶

Il s‚Äôagit des en-t√™tes : elles sont reconnues par la balise `th` et non `td`.

On va mettre tout le contenu dans un dictionnaire, pour le transformer ensuite en DataFrame pandas :

In [None]:
dico_participants = dict()
for row in rows:
    cols = row.find_all('td')
    cols = [ele.text.strip() for ele in cols]
    if len(cols) > 0 : 
        dico_participants[cols[0]] = cols[1:]
dico_participants

{'Paris Saint-Germain': ['1974',
  '637',
  '1er',
  'Thomas Tuchel',
  '2018',
  'Parc des Princes',
  '47\xa0929',
  '46'],
 'LOSC Lille': ['2000',
  '120',
  '2e',
  'Christophe Galtier',
  '2017',
  'Stade Pierre-Mauroy',
  '49\xa0712',
  '59'],
 'Olympique lyonnais': ['1989',
  '310',
  '3e',
  'Rudi Garcia',
  '2019',
  'Groupama Stadium',
  '57\xa0206',
  '60'],
 'AS Saint-√âtienne': ['2004',
  '100',
  '4e',
  'Claude Puel',
  '2019',
  'Stade Geoffroy-Guichard',
  '41\xa0965',
  '66'],
 'Olympique de Marseille': ['1996',
  '110',
  '5e',
  'Andr√© Villas-Boas',
  '2019',
  'Orange V√©lodrome',
  '66\xa0226',
  '69'],
 'Montpellier HSC': ['2009',
  '40',
  '6e',
  'Michel Der Zakarian',
  '2017',
  'Stade de la Mosson',
  '22\xa0000',
  '27'],
 'OGC Nice': ['2002',
  '50',
  '7e',
  'Patrick Vieira',
  '2018',
  'Allianz Riviera',
  '35\xa0596',
  '60'],
 'Stade de Reims': ['2018',
  '45',
  '8e',
  'David Guion',
  '2017',
  'Stade Auguste-Delaune',
  '20\xa0546',
  '35'],
 'N

In [None]:
import pandas as pd
data_participants = pd.DataFrame.from_dict(dico_participants,orient='index')
data_participants.head()

5Ô∏è‚É£ R√©cup√©rer les en-t√™tes du tableau :

In [None]:
for row in rows:
    cols = row.find_all('th')
    print(cols)
    if len(cols) > 0 : 
        cols = [ele.get_text(separator=' ').strip().title() for ele in cols]
        columns_participants = cols

[<th scope="col">Club
</th>, <th scope="col">Derni√®re<br/>mont√©e
</th>, <th scope="col">Budget<sup class="reference" id="cite_ref-3"><a href="#cite_note-3"><span class="cite-bracket">[</span>3<span class="cite-bracket">]</span></a></sup><br/>en M<a href="/wiki/Euro" title="Euro">‚Ç¨</a>
</th>, <th scope="col">Classement<br/><a href="/wiki/Championnat_de_France_de_football_2018-2019" title="Championnat de France de football 2018-2019">2018-2019</a>
</th>, <th scope="col">Entra√Æneur
</th>, <th scope="col">Depuis
</th>, <th scope="col">Stade
</th>, <th scope="col">Capacit√©<br/>en L1<sup class="reference" id="cite_ref-4"><a href="#cite_note-4"><span class="cite-bracket">[</span>4<span class="cite-bracket">]</span></a></sup>
</th>, <th scope="col">Nombre<br/>de saisons<br/>en L1
</th>]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]

In [None]:
columns_participants

['Club',
 'Derni√®re Mont√©e',
 'Budget [ 3 ] En M ‚Ç¨',
 'Classement 2018-2019',
 'Entra√Æneur',
 'Depuis',
 'Stade',
 'Capacit√© En L1 [ 4 ]',
 'Nombre De Saisons En L1']

6Ô∏è‚É£ Finalisation du tableau

In [None]:
data_participants.columns = columns_participants[1:]

In [None]:
data_participants.head()

# 5. Pour aller plus loin

## 5.1 R√©cup√©ration des localisations des stades

Essayez de comprendre pas √† pas ce qui est fait dans les √©tapes qui suivent (la r√©cup√©ration d‚Äôinformations suppl√©mentaires en naviguant dans les pages des diff√©rents clubs).

In [None]:
import requests
import bs4
import pandas as pd


def retrieve_page(url: str) -> bs4.BeautifulSoup:
    """
    Retrieves and parses a webpage using BeautifulSoup.

    Args:
        url (str): The URL of the webpage to retrieve.

    Returns:
        bs4.BeautifulSoup: The parsed HTML content of the page.
    """
    r = requests.get(url, headers={"User-Agent": "Python for data science tutorial"})
    page = bs4.BeautifulSoup(r.content, 'html.parser')
    return page


def extract_team_name_url(team: bs4.element.Tag) -> dict:
    """
    Extracts the team name and its corresponding Wikipedia URL.

    Args:
        team (bs4.element.Tag): The BeautifulSoup tag containing the team information.

    Returns:
        dict: A dictionary with the team name as the key and the Wikipedia URL as the value, or None if not found.
    """
    try:
        team_url = team.find('a').get('href')
        equipe = team.find('a').get('title')
        url_get_info = f"http://fr.wikipedia.org{team_url}"
        print(f"Retrieving information for {equipe}")
        return {equipe: url_get_info}
    except AttributeError:
        print(f"No <a> tag for \"{team}\"")
        return None


def explore_team_page(wikipedia_team_url: str) -> bs4.BeautifulSoup:
    """
    Retrieves and parses a team's Wikipedia page.

    Args:
        wikipedia_team_url (str): The URL of the team's Wikipedia page.

    Returns:
        bs4.BeautifulSoup: The parsed HTML content of the team's Wikipedia page.
    """
    r = requests.get(
        wikipedia_team_url, headers={"User-Agent": "Python for data science tutorial"}
    )
    page = bs4.BeautifulSoup(r.content, 'html.parser')
    return page


def extract_stadium_info(search_team: bs4.BeautifulSoup) -> tuple:
    """
    Extracts stadium information from a team's Wikipedia page.

    Args:
        search_team (bs4.BeautifulSoup): The parsed HTML content of the team's Wikipedia page.

    Returns:
        tuple: A tuple containing the stadium name, latitude, and longitude, or (None, None, None) if not found.
    """
    for stadium in search_team.find_all('tr'):
        try:
            header = stadium.find('th', {'scope': 'row'})
            if header and header.contents[0].string == "Stade":
                name_stadium, url_get_stade = extract_stadium_name_url(stadium)
                if name_stadium and url_get_stade:
                    latitude, longitude = extract_stadium_coordinates(url_get_stade)
                    return name_stadium, latitude, longitude
        except (AttributeError, IndexError) as e:
            print(f"Error processing stadium information: {e}")
    return None, None, None


def extract_stadium_name_url(stadium: bs4.element.Tag) -> tuple:
    """
    Extracts the stadium name and URL from a stadium element.

    Args:
        stadium (bs4.element.Tag): The BeautifulSoup tag containing the stadium information.

    Returns:
        tuple: A tuple containing the stadium name and its Wikipedia URL, or (None, None) if not found.
    """
    try:
        url_stade = stadium.find_all('a')[1].get('href')
        name_stadium = stadium.find_all('a')[1].get('title')
        url_get_stade = f"http://fr.wikipedia.org{url_stade}"
        return name_stadium, url_get_stade
    except (AttributeError, IndexError) as e:
        print(f"Error extracting stadium name and URL: {e}")
        return None, None


def extract_stadium_coordinates(url_get_stade: str) -> tuple:
    """
    Extracts the coordinates of a stadium from its Wikipedia page.

    Args:
        url_get_stade (str): The URL of the stadium's Wikipedia page.

    Returns:
        tuple: A tuple containing the latitude and longitude of the stadium, or (None, None) if not found.
    """
    try:
        soup_stade = retrieve_page(url_get_stade)
        kartographer = soup_stade.find('a', {'class': "mw-kartographer-maplink"})
        if kartographer:
            coordinates = kartographer.get('data-lat') + "," + kartographer.get('data-lon')
            latitude, longitude = coordinates.split(",")
            return latitude.strip(), longitude.strip()
        else:
            return None, None
    except Exception as e:
        print(f"Error extracting stadium coordinates: {e}")
        return None, None


def extract_team_info(url_team_tag: bs4.element.Tag, division: str) -> dict:
    """
    Extracts information about a team, including its stadium and coordinates.

    Args:
        url_team_tag (bs4.element.Tag): The BeautifulSoup tag containing the team information.
        division (str): Team league

    Returns:
        dict: A dictionary with details about the team, including its division, name, stadium, latitude, and longitude.
    """

    team_info = extract_team_name_url(url_team_tag)
    url_team_wikipedia = next(iter(team_info.values()))
    name_team = next(iter(team_info.keys()))
    search_team = explore_team_page(url_team_wikipedia)
    name_stadium, latitude, longitude = extract_stadium_info(search_team)
    dict_stadium_team = {
        'division': division,
        'equipe': name_team,
        'stade': name_stadium,
        'latitude': latitude,
        'longitude': longitude
    }
    return dict_stadium_team


def retrieve_all_stadium_from_league(url_list: dict, division: str = "L1") -> pd.DataFrame:
    """
    Retrieves information about all stadiums in a league.

    Args:
        url_list (dict): A dictionary mapping divisions to their Wikipedia URLs.
        division (str): The division for which to retrieve stadium information.

    Returns:
        pd.DataFrame: A DataFrame containing information about the stadiums in the specified division.
    """
    page = retrieve_page(url_list[division])
    teams = page.find_all('span', {'class': 'toponyme'})
    all_info = []

    for team in teams:
        all_info.append(extract_team_info(team, division))

    stadium_df = pd.DataFrame(all_info)
    return stadium_df


# URLs for different divisions
url_list = {
    "L1": "http://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020",
    "L2": "http://fr.wikipedia.org/wiki/Championnat_de_France_de_football_de_Ligue_2_2019-2020"
}

# Retrieve stadiums information for Ligue 1
stades_ligue1 = retrieve_all_stadium_from_league(url_list, "L1")
stades_ligue2 = retrieve_all_stadium_from_league(url_list, "L2")

stades = pd.concat(
    [stades_ligue1, stades_ligue2]
)

In [None]:
stades.head(5)

Tous les √©l√©ments sont en place pour faire une belle carte √† ce stade. On
va utiliser `folium` pour celle-ci, qui est pr√©sent√© dans la partie
[visualisation](../../conent/visualisation/index.qmd).

## 5.2 Carte des stades avec `folium`

In [None]:
import geopandas as gpd
import folium

stades = stades.dropna(subset = ['latitude', 'longitude'])
stades.loc[:, ['latitude', 'longitude']] = (
    stades
    .loc[:, ['latitude', 'longitude']]
    .astype(float)
)
stadium_locations = gpd.GeoDataFrame(
    stades, geometry = gpd.points_from_xy(stades.longitude, stades.latitude)
)

center = stadium_locations[['latitude', 'longitude']].mean().values.tolist()
sw = stadium_locations[['latitude', 'longitude']].min().values.tolist()
ne = stadium_locations[['latitude', 'longitude']].max().values.tolist()

m = folium.Map(location = center, tiles='openstreetmap')

# I can add marker one by one on the map
for i in range(0,len(stadium_locations)):
    folium.Marker(
        [stadium_locations.iloc[i]['latitude'], stadium_locations.iloc[i]['longitude']],
        popup=stadium_locations.iloc[i]['stade']
    ).add_to(m)

m.fit_bounds([sw, ne])

La carte obtenue doit ressembler √† la suivante :

# 6. R√©cup√©rer des informations sur les pokemons

Le prochain exercice pour mettre en pratique le *web scraping*
consiste √† r√©cup√©rer des informations sur les
pokemons √† partir du
site internet [pokemondb.net](http://pokemondb.net/pokedex/national).

## 6.1 Version non guid√©e

> **Important**
>
> Comme pour Wikipedia, ce site demande √† `request` d‚Äôindiquer un param√®tre pour contr√¥ler l‚Äô*user-agent*. Par exemple,
>
> ``` python
> requests.get(... , headers = {'User-Agent': 'Mozilla/5.0'})
> ```

> **Exercice 2 : Les pok√©mon (version non guid√©e)**
>
> Pour cet exercice, nous vous demandons d‚Äôobtenir diff√©rentes informations sur les pok√©mons :
>
> 1.  les informations personnelles des **893** pokemons sur le site internet [pokemondb.net](http://pokemondb.net/pokedex/national).
>     Les informations que nous aimerions obtenir au final dans un `DataFrame` sont celles contenues dans 4 tableaux :
>
>     -   Pok√©dex data
>     -   Training
>     -   Breeding
>     -   Base stats
>
> 2.  Nous aimerions que vous r√©cup√©riez √©galement les images de chacun des pok√©mons et que vous les enregistriez dans un dossier.
>
> -   Petit indice : utilisez les modules `request` et [`shutil`](https://docs.python.org/3/library/shutil.html)
> -   Pour cette question, il faut que vous cherchiez de vous m√™me certains √©l√©ments, tout n‚Äôest pas pr√©sent dans le TD.

Pour la question 1, l‚Äôobjectif est d‚Äôobtenir le code source d‚Äôun tableau comme celui qui suit (Pok√©mon [Nincada](http://pokemondb.net/pokedex/nincada)).

<h2>

Pok√©dex data

</h2>

<table class="vitals-table">

<tbody>

<tr>

<th>

National ‚Ññ

</th>

<td>

<strong>290</strong>

</td>

</tr>

<tr>

<th>

Type

</th>

<td>

<a class="type-icon type-bug" href="/type/bug">Bug</a> <a class="type-icon type-ground" href="/type/ground">Ground</a>

</td>

</tr>

<tr>

<th>

Species

</th>

<td>

Trainee Pok√©mon

</td>

</tr>

<tr>

<th>

Height

</th>

<td>

0.5¬†m (1‚Ä≤08‚Ä≥)

</td>

</tr>

<tr>

<th>

Weight

</th>

<td>

5.5¬†kg (12.1¬†lbs)

</td>

</tr>

<tr>

<th>

Abilities

</th>

<td>

<span class="text-muted">1. <a href="/ability/compound-eyes" title="The Pok√©mon's accuracy is boosted.">Compound Eyes</a></span><br><small class="text-muted"><a href="/ability/run-away" title="Enables a sure getaway from wild Pok√©mon.">Run Away</a> (hidden ability)</small><br>

</td>

</tr>

<tr>

<th>

Local ‚Ññ

</th>

<td>

042 <small class="text-muted">(Ruby/Sapphire/Emerald)</small><br>111 <small class="text-muted">(X/Y ‚Äî Central Kalos)</small><br>043 <small class="text-muted">(Omega Ruby/Alpha Sapphire)</small><br>104 <small class="text-muted">(Sword/Shield)</small><br>

</td>

</tr>

</tbody>

</table>

<h2>

Training

</h2>

<table class="vitals-table">

<tbody>

<tr>

<th>

EV yield

</th>

<td class="text">

1 Defense

</td>

</tr>

<tr>

<th>

Catch rate

</th>

<td>

255 <small class="text-muted">(33.3% with Pok√©Ball, full HP)</small>

</td>

</tr>

<tr>

<th>

Base <a href="/glossary#def-friendship">Friendship</a>

</th>

<td>

70 <small class="text-muted">(normal)</small>

</td>

</tr>

<tr>

<th>

Base Exp.

</th>

<td>

53

</td>

</tr>

<tr>

<th>

Growth Rate

</th>

<td>

Erratic

</td>

</tr>

</tbody>

</table>

<h2>

Breeding

</h2>

<table class="vitals-table">

<tbody>

<tr>

<th>

Egg Groups

</th>

<td>

<a href="/egg-group/bug">Bug</a>

</td>

</tr>

<tr>

<th>

Gender

</th>

<td>

<span class="text-blue">50% male</span>, <span class="text-pink">50% female</span>

</td>

</tr>

<tr>

<th>

<a href="/glossary#def-eggcycle">Egg cycles</a>

</th>

<td>

15 <small class="text-muted">(3,599‚Äì3,855 steps)</small>

</td>

</tr>

</tbody>

</table>

<h2>

Base stats

</h2>

<table class="vitals-table">

<tbody>

<tr>

<th>

HP

</th>

<td class="cell-num">

31

</td>

<td class="cell-barchart">

</td>

<td class="cell-num">

172

</td>

<td class="cell-num">

266

</td>

</tr>

<tr>

<th>

Attack

</th>

<td class="cell-num">

45

</td>

<td class="cell-barchart">

</td>

<td class="cell-num">

85

</td>

<td class="cell-num">

207

</td>

</tr>

<tr>

<th>

Defense

</th>

<td class="cell-num">

90

</td>

<td class="cell-barchart">

</td>

<td class="cell-num">

166

</td>

<td class="cell-num">

306

</td>

</tr>

<tr>

<th>

Sp. Atk

</th>

<td class="cell-num">

30

</td>

<td class="cell-barchart">

</td>

<td class="cell-num">

58

</td>

<td class="cell-num">

174

</td>

</tr>

<tr>

<th>

Sp. Def

</th>

<td class="cell-num">

30

</td>

<td class="cell-barchart">

</td>

<td class="cell-num">

58

</td>

<td class="cell-num">

174

</td>

</tr>

<tr>

<th>

Speed

</th>

<td class="cell-num">

40

</td>

<td class="cell-barchart">

</td>

<td class="cell-num">

76

</td>

<td class="cell-num">

196

</td>

</tr>

</tbody>

<tfoot>

<tr>

<th>

Total

</th>

<td class="cell-total">

<b>266</b>

</td>

<th class="cell-barchart">

</th>

<th>

Min

</th>

<th>

Max

</th>

</tr>

</tfoot>

</table>

Pour la question 2, l‚Äôobjectif est d‚Äôobtenir
les images des pok√©mons comme dans la @fig

## 6.2 Version guid√©e

Les prochaines parties permettront de faire l‚Äôexercice ci-dessus
√©tape par √©tape,
de mani√®re guid√©e.

Nous souhaitons tout d‚Äôabord obtenir les
informations personnelles de tous
les pokemons sur [pokemondb.net](http://pokemondb.net/pokedex/national).

Les informations que nous aimerions obtenir au final pour les pokemons sont celles contenues dans 4 tableaux :

-   Pok√©dex data
-   Training
-   Breeding
-   Base stats

Nous proposons ensuite de r√©cup√©rer et afficher les images.

### 6.2.1 Etape 1: constituer un DataFrame de caract√©ristiques

> **Exercice 2b : Les pok√©mons (version guid√©e)**
>
> Pour r√©cup√©rer les informations, le code devra √™tre divis√© en plusieurs √©tapes :
>
> 1.  Trouvez la page principale du site et la transformer en un objet intelligible pour votre code. Les fonctions suivantes vous seront utiles :
>
>     -   `requests.get`
>     -   `bs4.BeautifulSoup`
>
> 2.  A partir de ce code, cr√©er une fonction qui permet de r√©cup√©rer le copntenu page d‚Äôun pok√©mon √† partir de son nom. Vous pouvez nommer cette fonction `get_name`.
>
> 3.  √Ä partir de la page de `bulbasaur`, obtenez les 4 tableaux qui nous int√©ressent :
>
>     -   on va chercher l‚Äô√©l√©ment suivant : `('table', { 'class' : "vitals-table"})`
>     -   puis stocker ses √©l√©ments dans un dictionnaire
>
> 4.  R√©cup√©rez par ailleurs la liste de noms des pok√©mons qui nous permettra de faire une boucle par la suite. Combien trouvez-vous de pok√©mons ?
>
> 5.  √âcrivez une fonction qui r√©cup√®re l‚Äôensemble des informations sur les dix premiers pok√©mons de la liste et les int√®gre dans un `DataFrame`.

√Ä l‚Äôissue de la question 3,
vous devriez obtenir une liste de caract√©ristiques proche de celle-ci :

La structure est ici en dictionnaire, ce qui est pratique.

Enfin, vous pouvez int√©grer les informations
des dix premiers pok√©mons √† un
`DataFrame`, qui aura l‚Äôaspect suivant :

### 6.2.2 Etape 2: r√©cup√©rer et afficher des photos de Pok√©mon

Nous aimerions que vous r√©cup√©riez √©galement les images des 5 premiers pok√©mons
et que vous les enregistriez dans un dossier.

> **Exercice 2b : Les pok√©mons (version guid√©e)**
>
> -   Les URL des images des pok√©mons prennent la forme *‚Äúhttps://img.pokemondb.net/artwork/{pokemon}.jpg‚Äù*.
>     Utilisez les modules `requests` et `shutil` pour t√©l√©charger
>     et enregistrer localement les images.
> -   Importez ces images stock√©es au format JPEG dans `Python` gr√¢ce √† la fonction `imread` du package `skimage.io`.

In [None]:
!pip install scikit-image

# 7. `Selenium` : mimer le comportement d‚Äôun utilisateur internet

Jusqu‚Äô√† pr√©sent,
nous avons raisonn√© comme si nous connaissions toujours l‚ÄôURL qui nous int√©resse.
De plus, les pages que nous visitons sont **‚Äústatiques‚Äù**,
elles ne d√©pendent pas d‚Äôune action ou d‚Äôune recherche de l‚Äôinternaute.

Nous allons voir √† pr√©sent comment nous en sortir pour remplir
des champs sur un site *web* et r√©cup√©rer ce qui nous int√©resse.
La r√©action d‚Äôun site *web* √† l‚Äôaction d‚Äôun utilisateur passe r√©guli√®rement par
l‚Äôusage de `JavaScript` dans le monde du d√©veloppement *web*.
Le *package* [Selenium](https://pypi.python.org/pypi/selenium) permet
de reproduire, depuis un code automatis√©, le comportement
manuel d‚Äôun utilisateur. Il permet ainsi
d‚Äôobtenir des informations du site qui ne sont pas dans le
code `HTML` mais qui apparaissent uniquement √† la suite de
l‚Äôex√©cution de script `JavaScript` en arri√®re-plan.

`Selenium` se comporte comme un utilisateur *lambda* sur internet :
il clique sur des liens, il remplit des formulaires, etc.

## 7.1 Premier exemple en scrapant un moteur de recherche

Dans cet exemple, nous allons essayer d‚Äôaller sur le
site de [Bing Actualit√©s](https://www.bing.com/news)
et entrer dans la barre de recherche un sujet donn√©.
Pour tester, nous allons faire une recherche avec le mot-cl√© **‚ÄúTrump‚Äù**.

L‚Äôinstallation de `Selenium` n√©cessite d‚Äôavoir `Chromium` qui est un
navigateur Google Chrome minimaliste.
La version de [chromedriver](https://sites.google.com/a/chromium.org/chromedriver/)
doit √™tre `>= 2.36` et d√©pend de la version de `Chrome` que vous avez sur votre environnement
de travail. Pour installer cette version minimaliste de `Chrome` sur un environnement
`Linux`, vous pouvez vous r√©f√©rer √† l‚Äôencadr√© d√©di√©.

> **Installation de `Selenium`**
>
> Sur `Colab`, vous pouvez utiliser les commandes suivantes :
>
> ``` python
> !sudo apt-get update
> !sudo apt install -y unzip xvfb libxi6 libgconf-2-4 -y
> !sudo apt install chromium-chromedriver -y
> !cp /usr/lib/chromium-browser/chromedriver /usr/bin
> ```
>
> <br>
>
> Si vous √™tes sur le `SSP Cloud`, vous pouvez
> ex√©cuter les commandes suivantes :
>
> ``` python
> !wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb -O /tmp/chrome.deb
> !sudo apt-get update
> !sudo -E apt-get install -y /tmp/chrome.deb
> !pip install chromedriver-autoinstaller selenium
>
> import chromedriver_autoinstaller
> path_to_web_driver = chromedriver_autoinstaller.install()
> ```
>
> <br>
>
> Vous pouvez ensuite installer `Selenium`.
> Par exemple, depuis une
> cellule de `Notebook` :

En premier lieu, il convient d‚Äôinitialiser le comportement
de `Selenium` en r√©pliquant les param√®tres
du navigateur. Pour cela, on va d‚Äôabord initialiser
notre navigateur avec quelques options :

In [None]:
import time

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
#chrome_options.add_argument('--verbose')

Puis on lance le navigateur :

In [None]:
from selenium.webdriver.chrome.service import Service
service = Service(executable_path=path_to_web_driver)

browser = webdriver.Chrome(
    service=service,
    options=chrome_options
)

On va sur le site de `Bing Actualit√©s`,
et on lui indique le mot-cl√© que nous souhaitons chercher.
En l‚Äôoccurrence, on s‚Äôint√©resse aux actualit√©s de Donald Trump.
Apr√®s avoir inspect√© la page depuis les outils de d√©veloppement du navigateur,
on voit que la barre de recherche est un √©l√©ment du code appel√© `q` (comme *query*).
On va ainsi demander √† `selenium` de chercher cet √©l√©ment:

In [None]:
browser.get('https://www.bing.com/news')

In [None]:
search = browser.find_element("name", "q")
print(search)
print([search.text, search.tag_name, search.id])

# on envoie √† cet endroit le mot qu'on aurait tap√© dans la barre de recherche
search.send_keys("Trump")

search_button = browser.find_element("xpath", "//input[@id='sb_form_go']")
search_button.click()

`Selenium` permet de capturer l‚Äôimage qu‚Äôon verrait dans le navigateur
avec `get_screenshot_as_png`. Cela peut √™tre utile pour v√©rifier qu‚Äôon
a fait la bonne action :

Enfin, on peut extraire les r√©sultats. Plusieurs
m√©thodes sont disponibles. La m√©thode la plus
pratique, lorsqu‚Äôelle est disponible,
est d‚Äôutiliser le `XPath` qui est un chemin
non ambigu pour acc√©der √† un √©l√©ment. En effet,
plusieurs √©l√©ments peuvent partager la m√™me classe ou
le m√™me attribut, ce qui peut faire qu‚Äôune recherche
de ce type renvoie plusieurs √©chos.
Pour d√©terminer le `XPath` d‚Äôun objet, les outils
de d√©veloppeur de votre site *web* sont pratiques.
Par exemple, sous `Firefox`, une fois que vous
avez trouv√© un √©l√©ment dans l‚Äôinspecteur, vous
pouvez faire `click droit > Copier > XPath`.

Enfin, pour mettre fin √† notre session, on demande √† `Python` de quitter le navigateur:

In [None]:
browser.quit()

On a obtenu les r√©sultats suivants :

Les autres m√©thodes utiles de `Selenium`:

| M√©thode | R√©sultat |
|-------------------------------------------------|-----------------------|
| `find_element(****).click()` | Une fois qu‚Äôon a trouv√© un √©l√©ment r√©actif, notamment un bouton, on peut cliquer dessus pour activer une nouvelle page |
| `find_element(****).send_keys("toto")` | Une fois qu‚Äôon a trouv√© un √©l√©ment, notamment un champ o√π s‚Äôauthentifier, on peut envoyer une valeur, ici *‚Äútoto‚Äù*. |

## 7.2 Exercice suppl√©mentaire

Pour d√©couvrir une autre application possible du *web scraping*, vous pouvez √©galement vous lancer dans le sujet 5 de l‚Äô√©dition 2023 d‚Äôun hackathon non comp√©titif organis√© par l‚ÄôInsee :

-   Sur [`Github`](https://github.com/InseeFrLab/funathon2023_sujet5)
-   Sur le [`SSPCloud`](https://www.sspcloud.fr/formation?search=funat&path=%5B%22Funathon%202023%22%5D)

Le contenu de la section NLP du cours pourra vous √™tre utile pour la seconde partie du sujet !