# 1. Les expressions régulières : à quoi ça sert ?

Chercher un mot dans un texte est une tâche facile, c'est l'objectif de la méthode find attachée aux chaînes de caractères, elle suffit encore lorsqu'on cherche un mot au pluriel ou au singulier mais il faut l'appeler au moins deux fois pour chercher ces deux formes. Pour des expressions plus compliquées, il est conseillé d'utiliser les expressions régulières. C'est une fonctionnalité qu'on retrouve dans beaucoup de langages. C'est une forme de grammaire qui permet de rechercher des expressions.


Lorsqu'on remplit un formulaire, on voit souvent le format ``"MM/JJ/AAAA"`` qui précise sous quelle forme on s'attend à ce qu’une date soit écrite. Les expressions régulières permettent de définir également ce format et de chercher dans un texte toutes les chaînes de caractères qui sont conformes à ce format.

La liste qui suit contient des dates de naissance. On cherche à obtenir toutes les dates de cet exemple sachant que les jours ou les mois contiennent un ou deux chiffres, les années deux ou quatre.

In [None]:
s = """date 0 : 14/9/2000
date 1 : 20/04/1971     date 2 : 14/09/1913     date 3 : 2/3/1978
date 4 : 1/7/1986     date 5 : 7/3/47     date 6 : 15/10/1914
date 7 : 08/03/1941     date 8 : 8/1/1980     date 9 : 30/6/1976"""

Le premier chiffre du jour est soit 0, 1, 2, ou 3 ; ceci se traduit par ``[0-3]``. Le second chiffre est compris entre 0 et 9, soit ``[0-9]``. Le format des jours est traduit par ``[0-3][0-9]``. Mais le premier jour est facultatif, ce qu'on précise avec le symbole ? : ``[0-3]?[0-9]``. Les mois suivent le même principe : ``[0-1]?[0-9]``. Pour les années, ce sont les deux premiers chiffres qui sont facultatifs, le symbole ? s'appliquent sur les deux premiers chiffres, ce qu'on précise avec des parenthèses : ``([0-2][0-9])?[0-9][0-9]``. Le format final d'une date devient :

In [None]:
"[0-3]?[0-9]/[0-1]?[0-9]/([0-2][0-9])?[0-9][0-9]"

Le module re gère les expressions régulières, celui-ci traite différemment les parties de l'expression régulière qui sont entre parenthèses de celles qui ne le sont pas : c'est un moyen de dire au module re que nous nous intéressons à telle partie de l'expression qui est signalée entre parenthèses. Comme la partie qui nous intéresse - une date - concerne l'intégralité de l'expression régulière, il faut insérer celle-ci entre parenthèses.

La première étape consiste à construire l'expression régulière, la seconde à rechercher toutes les fois qu'un morceau de la chaîne s définie plus haut correspond à l’expression régulière.

In [None]:
import re
# première étape : construction
expression = re.compile("([0-3]?[0-9]/[0-1]?[0-9]/([0-2][0-9])?[0-9][0-9])")
# seconde étape : recherche
res = expression.findall(s)
print(res)

In [None]:
res

In [None]:
expression.findall?

Le résultat une liste de couples dont chaque élément correspond aux parties comprises entre parenthèses qu'on appelle des groupes. Lorsque les expressions régulières sont utilisées, on doit d'abord se demander comment définir ce qu’on cherche puis quelles fonctions utiliser pour obtenir les résultats de cette recherche. Les deux paragraphes qui suivent y répondent.

## 1.1 Syntaxe

La syntaxe des expressions régulières est décrite sur le site officiel de python. La page [Regular Expression Syntax](https://docs.python.org/3/library/re.html?highlight=re#regular-expression-syntax) décrit comment se servir des expressions régulières, les deux pages sont en anglais. Comme toute grammaire, celle des expressions régulières est susceptible d’évoluer au fur et à mesure des versions du langage python.

## 1.2 Les ensembles de caractères
Lors d’une recherche, on s’intéresse aux caractères et souvent aux classes de caractères : on cherche un chiffre, une lettre, un caractère dans un ensemble précis ou un caractère qui n’appartient pas à un ensemble précis. Certains ensembles sont prédéfinis, d’autres doivent être définis à l’aide de crochets.

Pour définir un ensemble de caractères, il faut écrire cet ensemble entre crochets : [0123456789] désigne un chiffre. Comme c’est une séquence de caractères consécutifs, on peut résumer cette écriture en [0-9]. Pour inclure les symboles -, +, il suffit d’écrire : [-0-9+]. Il faut penser à mettre le symbole - au début pour éviter qu’il ne désigne une séquence.

Le caractère ^ inséré au début du groupe signifie que le caractère cherché ne doit pas être un de ceux qui suivent. Le tableau suivant décrit les ensembles prédéfinis et leur équivalent en terme d’ensemble de caractères :

* ``.`` désigne tout caractère non spécial quel qu'il soit.
* ``\d`` désigne tout chiffre, est équivalent à ``[0-9]``.
* ``\D`` désigne tout caractère différent d'un chiffre, est équivalent à ``[^0-9]``.
* ``\s`` désigne tout espace ou caractère approché, est équivalent à ``[\; \t\n\r\f\v]``. Ces caractères sont spéciaux, les plus utilisés sont ``\t`` qui est une tabulation, ``\n`` qui est une fin de ligne et qui ``\r`` qui est un retour à la ligne.
* ``\S`` désigne tout caractère différent d'un espace, est équivalent à ``[^ \t\n\r\f\v]``.
* ``\w`` désigne tout lettre ou chiffre, est équivalent à ``[a-zA-Z0-9_]``.
* ``\W`` désigne tout caractère différent d'une lettre ou d'un chiffre, est équivalent à ``[^a-zA-Z0-9_]``.
* ``^`` désigne le début d'un mot sauf s'il est placé entre crochets.
* ``$`` désigne la fin d'un mot sauf s'il est placé entre crochets.

A l'instar des chaînes de caractères, comme le caractère ``\`` est un caractère spécial, il faut le doubler : ``[\\]``.

Le caractère ``\`` est déjà un caractère spécial pour les chaînes de caractères en python, il faut donc le quadrupler pour l'insérer dans un expression régulière. L'expression suivante filtre toutes les images dont l’extension est png et qui sont enregistrées dans un répertoire image.

In [None]:
import re
s = "something\\support\\vba\\image/vbatd1_4.png"
print(re.compile("[\\\\/]image[\\\\/].*[.]png").search(s))  # résultat positif
print(re.compile("[\\\\/]image[\\\\/].*[.]png").search(s))  # même résultat

## 1.3 Les multiplicateurs
Les multiplicateurs permettent de définir des expressions régulières comme : un mot entre six et huit lettres qu’on écrira ``[\w]{6,8}``. Le tableau suivant donne la liste des multiplicateurs principaux :

* ``*`` présence de l'ensemble de caractères qui précède entre 0 fois et l'infini
* ``+`` présence de l'ensemble de caractères qui précède entre 1 fois et l'infini
* ``?`` présence de l'ensemble de caractères qui précède entre 0 et 1 fois
* ``{m,n}`` présence de l'ensemble de caractères qui précède entre *m* et *n* fois, si *m=n*, cette expression peut être résumée par ``{n}``.
* ``(?!(...))`` absence du groupe désigné par les points de suspensions.

L’algorithme des expressions régulières essaye toujours de faire correspondre le plus grand morceau à l’expression régulière. 

In [None]:
"<h1>mot</h1>"

``<.*>`` correspond avec ``<h1>``, ``</h1>`` ou encore ``<h1>mot</h1>``.

Par conséquent, l’expression régulière correspond à trois morceaux. Par défaut, il prendra le plus grand. Pour choisir les plus petits, il faudra écrire les multiplicateurs comme ceci : ``*?``, ``+?``

In [None]:
import re
s = "<h1>mot</h1>"
print(re.compile("(<.*>)").match(s).groups())   # ('<h1>mot</h1>',)
print(re.compile("(<.*?>)").match(s).groups())  # ('<h1>',)
print(re.compile("(<.+?>)").match(s).groups())  # ('<h1>',)

### Exercice 1

Recherchez les dates présentes dans la phrase suivante

In [None]:
texte = """Je suis né le 28/12/1903 et je suis mort le 08/02/1957. Ma seconde femme est morte le 10/11/1963. 
J'ai écrit un livre intitulé 'Comprendre les fractions : les exemples en page 12/46/83' """

Puis dans celle-ci : 

In [None]:
texte = """Je suis né le 28/12/1903 et je suis mort le 08/02/1957. Je me suis marié le 8/5/45. 
J'ai écrit un livre intitulé 'Comprendre les fractions : les exemples en page 12/46/83' """

# 2. Web Scrapping

Sous ce nom se cache une pratique très utile pour toute personne souhaitant travailler sur des informations disponibles en ligne, mais n'existant pas forcément sous la forme d'un tableau *Excel*... Bref, il s'agit de récupérer des informations depuis *Internet*.

Le [webscraping](https://fr.wikipedia.org/wiki/Web_scraping) désigne les techniques d'extraction du contenu des sites internet. Via un programme informatique : nous allons aujourd'hui vous présenter comme créer et exécuter ces robots afin de recupérer rapidement des informations utiles à vos projets actuels ou futurs.

## 2.1 Un détour par le Web : comment fonctionne un site ?

Même si nous n'allons pas aujourd'hui faire un cours de web, il vous faut néanmoins certaines bases pour comprendre comment un site internet fonctionne et comment sont structurées les informations sur une page.

Un site Web est un ensemble de pages codées en *HTML* qui permet de décrire à la fois le contenu et la forme d'une page *Web*.

###  HTML 

### Les balises


Sur une page web, vous trouverez toujours à coup sûr des éléments comme ``<head>``, ``<title>``, etc. Il  s'agit des codes qui vous permettent de structurer le contenu d'une page *HTML* et qui s'appellent des balises. 
Citons, par exemple, les balises ``<p>``, ``<h1>``, ``<h2>``, ``<h3>``, ``<strong>`` ou ``<em>``.
Le symbole ``< >`` est une balise : il sert à indiquer le début d'une partie. Le symbole ``</ >`` indique la fin de cette partie. La plupart des balises vont par paires, avec une *balise ouvrante* et une *balise fermante* (par exemple ``<p>`` et ``</p>``).

#### Exemple : les balise des tableaux

$$
\begin{array}{rr} \hline
Balise  & \text{Description} \\ \hline
< table> & \text{Tableau} \\
< caption>& \text{Titre du tableau} \\
< tr> & \text{Ligne de tableau} \\
< th> & \text{Cellule d'en-tête}\\
< td> & \text{Cellule} \\
< thead> & \text{Section de l'en-tête du tableau} \\
< tbody> & \text{Section du corps du tableau} \\
< tfoot> & \text{Section du pied du tableau} \\
\end{array}
$$

#### Exemple 

<table>
   <tr>
      <th>Prénom</th>
      <th>Nom</th>
      <th>Profession</th>
   </tr>
   <tr>
      <td>Mike</td>
      <td>Stuntman</td>
      <td>Cascadeur</td>
   </tr>
   <tr>
      <td>Mister</td>
      <td>Pink</td>
      <td>Gangster</td>
   </tr>
</table>

#### Parent et enfant

Dans le cadre du langage HTML, les termes de parents (parent) et enfants (child) servent à désigner des élements emboîtés les uns dans les autres. Dans la construction suivante, par exemple :

On dira que l'élément ``<div>`` est le parent de l'élément ``<p>`` tandis que l'élément ``<p>`` est l'enfant de l'élément ``<div>``.

----------

Mais pourquoi apprendre ça pour scraper me direz-vous ?

Pour bien récupérer les informations d'un site internet, il faut pouvoir comprendre sa structure et donc son code HTML. Les fonctions python qui servent au scrapping sont principalement construites pour vous permettre de naviguer entre les balises.

## 2.2 Scrapper avec python

Nous allons essentiellement utiliser le package [BeautifulSoup4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) pour cet atelier, mais d'autres packages existent ([Selenium](https://selenium-python.readthedocs.io/), [Scrapy](https://scrapy.org/)...).

[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) sera suffisant quand vous voudrez travailler sur des pages HTML statiques, dès que les informations que vous recherchez sont générées via l'exécution de scripts [Javascript](https://fr.wikipedia.org/wiki/JavaScript), il vous faudra passer par des outils comme Selenium.

De même, si vous ne connaissez pas l'URL, il faudra passer par un framework comme [Scrapy](https://scrapy.org/), qui passe facilement d'une page à une autre ("crawl"). Scrapy est plus complexe à manipuler que [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) : si vous voulez plus de détails, rendez-vous sur la page du tutorial [Scrapy Tutorial](https://doc.scrapy.org/en/latest/intro/tutorial.html).

### Utiliser BeautifulSoup

Les packages pour scrapper des pages HTML : 
- [BeautifulSoup4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) (``pip install bs4``)
- [urllib](https://docs.python.org/3/library/urllib.html#module-urllib)

In [1]:
import urllib
import bs4
#help(bs4)

#### 1ere page HTML

On va commencer facilement, prenons une page wikipedia, par exemple celle de la Ligue 1 de football : [Championnat de France de football 2019-2020](https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020). On va souhaiter récupérer la liste des équipes, ainsi que les url des pages Wikipedia de ces équipes.

In [2]:
# Etape 1 : se connecter à la page wikipedia et obtenir le code source

url_ligue_1 = "https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020"
    
from urllib import request

request_text = request.urlopen(url_ligue_1).read()
print(request_text[:1000])    

b'<!DOCTYPE html>\n<html class="client-nojs" lang="fr" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Championnat de France de football 2019-2020 \xe2\x80\x94 Wikip\xc3\xa9dia</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\\t.","\xc2\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janvier","f\xc3\xa9vrier","mars","avril","mai","juin","juillet","ao\xc3\xbbt","septembre","octobre","novembre","d\xc3\xa9cembre"],"wgRequestId":"508c6dc9-450e-4457-b16b-ba56ddda24cb","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"Championnat_de_France_de_football_2019-2020","wgTitle":"Championnat de France de football 2019-2020","wgCurRevisionId":181084403,"wgRevisionId":181084403,"wgArticleId":12518858,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Page utilisant u

In [5]:
# Etape 2 : utiliser le package BeautifulSoup
# qui "comprend" les balises contenues dans la chaine de caractères renvoyée par la fonction request

page = bs4.BeautifulSoup(request_text, "lxml")

print(page)

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="fr">
<head>
<meta charset="utf-8"/>
<title>Championnat de France de football 2019-2020 — Wikipédia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janvier","février","mars","avril","mai","juin","juillet","août","septembre","octobre","novembre","décembre"],"wgRequestId":"508c6dc9-450e-4457-b16b-ba56ddda24cb","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"Championnat_de_France_de_football_2019-2020","wgTitle":"Championnat de France de football 2019-2020","wgCurRevisionId":181084403,"wgRevisionId":181084403,"wgArticleId":12518858,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Page utilisant une frise chronologique","Article utilisant une Infobox"

Si on print l'objet, page créée avec BeautifulSoup, on voit que ce n'est plus une chaine de caractères mais bien une page HTML avec des balises. On peut à présenter chercher des élements à l'intérieur de ces balises.


par exemple, si on veut connaire le titre de la page, on utilise la méthode .find et on lui demande "title"

In [6]:
print(page.find("title"))

<title>Championnat de France de football 2019-2020 — Wikipédia</title>


La methode ``.find`` ne renvoie que la première occurence de l'élément

In [7]:
print(page.find("table"))

<table><caption style="background:#99cc99;color:#000000;">Généralités</caption><tbody><tr>
<th scope="row" style="width:10.5em;">Sport</th>
<td>
<a href="/wiki/Football" title="Football">Football</a></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Organisateur(s)</th>
<td>
<a href="/wiki/Ligue_de_football_professionnel" title="Ligue de football professionnel">LFP</a></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Édition</th>
<td>
<abbr class="abbr" title="Quatre-vingt-deuxième (huitante-deuxième / octante-deuxième)">82<sup>e</sup></abbr></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Lieu(x)</th>
<td>
<span class="datasortkey" data-sort-value="France"><span class="flagicon"><a class="image" href="/wiki/Fichier:Flag_of_France.svg" title="Drapeau de la France"><img alt="Drapeau de la France" class="noviewer thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="13" src="//upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Flag_of_France.svg

---------------
Pour trouver toutes les occurences, on utilise ``.findAll()``.

In [8]:
print("Il y a", len(page.findAll("table")), "éléments dans la page qui sont des <table>")

Il y a 34 éléments dans la page qui sont des <table>


In [9]:
print(" Le 2eme tableau de la page : Hiérarchie \n", page.findAll("table")[1])
print("--------------------------------------------------------")
print("Le 3eme tableau de la page : Palmarès \n",page.findAll("table")[2])

 Le 2eme tableau de la page : Hiérarchie 
 <table><caption style="background:#99cc99;color:#000000;">Hiérarchie</caption><tbody><tr>
<th scope="row" style="width:10.5em;">Hiérarchie</th>
<td>
<abbr class="abbr" title="Premier">1<sup>er</sup></abbr> échelon</td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Niveau inférieur</th>
<td>
<a class="mw-redirect" href="/wiki/Championnat_de_France_de_football_de_Ligue_2_2019-2020" title="Championnat de France de football de Ligue 2 2019-2020">Ligue 2 2019-2020</a></td>
</tr></tbody></table>
--------------------------------------------------------
Le 3eme tableau de la page : Palmarès 
 <table><caption style="background:#99cc99;color:#000000;">Palmarès</caption>
<tbody><tr>
<th scope="row" style="width:10.5em;">Tenant du titre</th>
<td>
<a href="/wiki/Paris_Saint-Germain_Football_Club" title="Paris Saint-Germain Football Club">Paris Saint-Germain</a> (8)</td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Promu(s) en début de saison</th>
<t

### Exercice guidé : obtenir la liste des équipes de Ligue 1

La liste des équipes est dans le tableau ``"Participants"`` : dans le code source, on voit que ce tableau est celui qui a ``class="DebutCarte"``. On voit également que les balises qui encerclent les noms et les urls des clubs sont de la forme suivante

```
<a href="url_club" title="nom_club"> Nom du club </a>
```

In [10]:
for item in page.find('table', {'class' : 'DebutCarte'}).findAll({'a'})[0:5] : 
    print(item, "\n-------")

<a class="image" href="/wiki/Fichier:France_location_map-Regions-2016.svg"><img alt="France location map-Regions-2016.svg" data-file-height="1922" data-file-width="2000" decoding="async" height="288" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/b1/France_location_map-Regions-2016.svg/300px-France_location_map-Regions-2016.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/b1/France_location_map-Regions-2016.svg/450px-France_location_map-Regions-2016.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/b/b1/France_location_map-Regions-2016.svg/600px-France_location_map-Regions-2016.svg.png 2x" width="300"/></a> 
-------
<a href="/wiki/Paris_Saint-Germain_Football_Club" title="Paris Saint-Germain Football Club">Paris SG</a> 
-------
<a href="/wiki/LOSC_Lille" title="LOSC Lille">LOSC Lille</a> 
-------
<a href="/wiki/Olympique_lyonnais" title="Olympique lyonnais">Olympique lyonnais</a> 
-------
<a href="/wiki/Association_sportive_de_Saint-%C3%89tienne" titl

On n'a pas envie de prendre le premier élément qui ne correspond pas à un club mais à une image.
Or cet élément est le seul qui n'ait pas de ``title=""``. Il est conseillé d'exclure les élements qui ne nous intéressent pas en indiquant les éléments que la ligne doit avoir au lieu de les exclure en fonction de leur place dans la liste.

In [11]:
### condition sur la place dans la liste >>>> MAUVAIS
for e, item in enumerate(page.find('table', {'class' : 'DebutCarte'}).findAll({'a'})[0:5]) : 
    if  e == 0: 
        pass
    else : 
        print(item)

<a href="/wiki/Paris_Saint-Germain_Football_Club" title="Paris Saint-Germain Football Club">Paris SG</a>
<a href="/wiki/LOSC_Lille" title="LOSC Lille">LOSC Lille</a>
<a href="/wiki/Olympique_lyonnais" title="Olympique lyonnais">Olympique lyonnais</a>
<a href="/wiki/Association_sportive_de_Saint-%C3%89tienne" title="Association sportive de Saint-Étienne">AS Saint-Étienne</a>


In [12]:
#### condition sur les éléments que doit avoir la ligne >>>> BIEN 
for item in page.find('table', {'class' : 'DebutCarte'}).findAll({'a'})[0:5] : 
    if item.get("title") :
        print(item)

<a href="/wiki/Paris_Saint-Germain_Football_Club" title="Paris Saint-Germain Football Club">Paris SG</a>
<a href="/wiki/LOSC_Lille" title="LOSC Lille">LOSC Lille</a>
<a href="/wiki/Olympique_lyonnais" title="Olympique lyonnais">Olympique lyonnais</a>
<a href="/wiki/Association_sportive_de_Saint-%C3%89tienne" title="Association sportive de Saint-Étienne">AS Saint-Étienne</a>


Enfin la dernière étape, consiste à obtenir les informations souhaitées, c'est à dire dans notre cas, le nom et l'url des 20 clubs. Pour cela, nous allons utiliser deux méthodes de l'élement item :

- ``getText()`` qui permet d'obtenir le texte qui est sur la page web et dans la balise  ``<a>``
- ``get('xxxx')`` qui permet d'obtenir l'élément qui est égal à ``xxxx``

Dans notre cas, nous allons vouloir le nom du club ainsi que l'url : on va donc utiliser ``__getText__`` et ``__get("href")__``.

In [13]:
for item in page.find('table', {'class' : 'DebutCarte'}).findAll({'a'})[0:5] : 
    if item.get("title") :
        print(item.get("href"))
        print(item.getText())

/wiki/Paris_Saint-Germain_Football_Club
Paris SG
/wiki/LOSC_Lille
LOSC Lille
/wiki/Olympique_lyonnais
Olympique lyonnais
/wiki/Association_sportive_de_Saint-%C3%89tienne
AS Saint-Étienne


In [14]:
# pour avoir le nom officiel, on aurait utiliser l'élément <title>
for item in page.find('table', {'class' : 'DebutCarte'}).findAll({'a'})[0:5] : 
    if item.get("title") :
        print(item.get("title"))

Paris Saint-Germain Football Club
LOSC Lille
Olympique lyonnais
Association sportive de Saint-Étienne


Toutes ces informations, on souhaite les conserver dans un tableau *Excel* pour pouvoir les réuitiliser à l'envie : pour cela, rien de plus simple, on va passer par pandas, parce qu'on le maitrise parfaitement à ce stade de la formation.

In [15]:
import pandas

liste_noms = []
liste_urls = []

for item in page.find('table', {'class' : 'DebutCarte'}).findAll({'a'}) : 
    if item.get("title") :
        liste_urls.append(item.get("href"))
        liste_noms.append(item.getText())
        
df = pandas.DataFrame.from_dict( {"clubs" : liste_noms, 'url' : liste_urls})
df.head()

Unnamed: 0,clubs,url
0,Paris SG,/wiki/Paris_Saint-Germain_Football_Club
1,LOSC Lille,/wiki/LOSC_Lille
2,Olympique lyonnais,/wiki/Olympique_lyonnais
3,AS Saint-Étienne,/wiki/Association_sportive_de_Saint-%C3%89tienne
4,Olympique deMarseille,/wiki/Olympique_de_Marseille


### Exercice de web scraping avec BeautifulSoup

Pour cet exercice, nous vous demandons d'obtenir 1) les informations personnelles des 721 pokemons sur le site internet [pokemondb.net](http://pokemondb.net/pokedex/national). Les informations que nous aimerions obtenir au final pour les pokemons sont celles contenues dans 4 tableaux :

- Pokédex data
- Training
- Breeding
- Base stats

Pour exemple : [Pokemon Database](http://pokemondb.net/pokedex/nincada).

2) Nous aimerions que vous récupériez également les images de chacun des pokémons et que vous les enregistriez dans un dossier  (indice : utilisez les modules request et [shutil](https://docs.python.org/3/library/shutil.html))
_pour cette question ci, il faut que vous cherchiez de vous même certains éléments, tout n'est pas présent dans le TD_.

#### Récupération des infos sur un pokemon

In [117]:
# Récupération des infos sur un pokemon https://pokemondb.net/pokedex/bulbasaur
import urllib
import bs4
from urllib.request import Request, urlopen

# Etape 1 : se connecter à la page et obtenir le code source
# utilisation de l'objet requête avec en-tête pour éviter une erreur "HTTP Error 403: Forbidden"

url_pokemon = "https://pokemondb.net/pokedex/bulbasaur"

req = Request(url_pokemon, headers={'User-Agent': 'Mozilla/5.0'})
html = urlopen(req).read().decode('utf-8')
print(html[:1000])

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8">
<title>Bulbasaur Pokédex: stats, moves, evolution &amp; locations | Pokémon Database</title>
<link rel="preconnect" href="https://img.pokemondb.net">
<style>@font-face{font-family:'Fira Sans';font-style:normal;font-weight:400;font-display:swap;src:url("/static/fonts/fira-sans-v10-latin-400.woff2") format("woff2");unicode-range:U+0000-00FF, U+0131, U+0152-0153, U+02BB-02BC, U+02C6, U+02DA, U+02DC, U+2000-206F, U+2074, U+20AC, U+2122, U+2191, U+2193, U+2212, U+2215, U+FEFF, U+FFFD}@font-face{font-family:'Fira Sans';font-style:italic;font-weight:400;font-display:swap;src:url("/static/fonts/fira-sans-v10-latin-400i.woff2") format("woff2");unicode-range:U+0000-00FF, U+0131, U+0152-0153, U+02BB-02BC, U+02C6, U+02DA, U+02DC, U+2000-206F, U+2074, U+20AC, U+2122, U+2191, U+2193, U+2212, U+2215, U+FEFF, U+FFFD}@font-face{font-family:'Fira Sans';font-style:normal;font-weight:700;font-display:swap;src:url("/static/fonts/fira-sans-v10-l

In [118]:
# Etape 2 : utiliser le package BeautifulSoup
# qui "comprend" les balises contenues dans la chaine de caractères renvoyée par la fonction request
# utilisation du parser de la doc de bs 'html.parser'

page = bs4.BeautifulSoup(html, 'html.parser')

In [119]:
# Etape 3: les données recherchées sont dans des tables du type <table class="vitals-table">
len(page.findAll('table', {'class' : 'vitals-table'}))

7

Donées recherchées:
- Pokédex data
- Training
- Breeding
- Base stats

In [90]:
# les données recherchées sont stockées dans un dictionnaire de caractéristiques
# `feature` = {nom de la caractéristique: valeur}
feature = {}

In [120]:
# Affichage du code html de la première table qui contient les "Pokédex data"
table = page.findAll('table', {'class' : 'vitals-table'})[0]
print(table.prettify())

# Dans une ligne du tableau <tr> ... </tr>
# on récupère l'information de l'en-tête qui servira de clé <th> ... </th>
# la valeur sera le contenu de du <td> ... </td> correpondant

<table class="vitals-table">
 <tbody>
  <tr>
   <th>
    National №
   </th>
   <td>
    <strong>
     001
    </strong>
   </td>
  </tr>
  <tr>
   <th>
    Type
   </th>
   <td>
    <a class="type-icon type-grass" href="/type/grass">
     Grass
    </a>
    <a class="type-icon type-poison" href="/type/poison">
     Poison
    </a>
   </td>
  </tr>
  <tr>
   <th>
    Species
   </th>
   <td>
    Seed Pokémon
   </td>
  </tr>
  <tr>
   <th>
    Height
   </th>
   <td>
    0.7 m (2′04″)
   </td>
  </tr>
  <tr>
   <th>
    Weight
   </th>
   <td>
    6.9 kg (15.2 lbs)
   </td>
  </tr>
  <tr>
   <th>
    Abilities
   </th>
   <td>
    <span class="text-muted">
     1.
     <a href="/ability/overgrow" title="Powers up Grass-type moves in a pinch.">
      Overgrow
     </a>
    </span>
    <br/>
    <small class="text-muted">
     <a href="/ability/chlorophyll" title="Boosts the Pokémon's Speed in sunshine.">
      Chlorophyll
     </a>
     (hidden ability)
    </small>
    <br/>
   </td>
 

In [123]:
# Dans une ligne du tableau <tr> ... </tr>
# on récupère l'information de l'en-tête qui servira de clé <th> ... </th>
# la valeur sera le contenu de du <td> ... </td> correpondant
for row in table.findAll({'tr'}) :
    print(row.th.string)
    print(row.td.getText())
    print("---")

National №
001
---
Type

Grass Poison 
---
Species
Seed Pokémon
---
Height
0.7 m (2′04″)
---
Weight
6.9 kg (15.2 lbs)
---
Abilities
1. OvergrowChlorophyll (hidden ability)
---
Local №
001 (Red/Blue/Yellow)226 (Gold/Silver/Crystal)001 (FireRed/LeafGreen)231 (HeartGold/SoulSilver)080 (X/Y — Central Kalos)001 (Let's Go Pikachu/Let's Go Eevee)068 (The Isle of Armor)
---


In [125]:
feature.clear()

In [126]:
# Alimentation du dictionnaire de caractéristiques
for row in table.findAll({'tr'}) :
    key = row.th.string
    value = row.td.getText()
    feature[key] = value

feature

{'National №': '001',
 'Type': '\nGrass Poison ',
 'Species': 'Seed Pokémon',
 'Height': '0.7\xa0m (2′04″)',
 'Weight': '6.9\xa0kg (15.2\xa0lbs)',
 'Abilities': '1. OvergrowChlorophyll (hidden ability)',
 'Local №': "001 (Red/Blue/Yellow)226 (Gold/Silver/Crystal)001 (FireRed/LeafGreen)231 (HeartGold/SoulSilver)080 (X/Y — Central Kalos)001 (Let's Go Pikachu/Let's Go Eevee)068 (The Isle of Armor)"}

In [127]:
# Récupération des 4 tables souhaitées:
feature.clear()
tables = page.findAll('table', {'class' : 'vitals-table'})
for table in tables[:4]:
    for row in table.findAll({'tr'}) :
        key = row.th.string
        value = row.td.getText()
        feature[key] = value
feature

{'National №': '001',
 'Type': '\nGrass Poison ',
 'Species': 'Seed Pokémon',
 'Height': '0.7\xa0m (2′04″)',
 'Weight': '6.9\xa0kg (15.2\xa0lbs)',
 'Abilities': '1. OvergrowChlorophyll (hidden ability)',
 'Local №': "001 (Red/Blue/Yellow)226 (Gold/Silver/Crystal)001 (FireRed/LeafGreen)231 (HeartGold/SoulSilver)080 (X/Y — Central Kalos)001 (Let's Go Pikachu/Let's Go Eevee)068 (The Isle of Armor)",
 'EV yield': '\n1 Special Attack ',
 'Catch rate': '\n45 (5.9% with PokéBall, full HP)\n',
 None: '\n50 (normal)\n',
 'Base Exp.': '64',
 'Growth Rate': 'Medium Slow',
 'Egg Groups': 'Grass, Monster',
 'Gender': '87.5% male, 12.5% female',
 'Egg cycles': '20 (4,884–5,140 steps)\n',
 'HP': '45',
 'Attack': '49',
 'Defense': '49',
 'Sp. Atk': '65',
 'Sp. Def': '65',
 'Speed': '45',
 'Total': '318'}

In [128]:
# Fonction de récupération des caractéristiques pour un pokémon
def get_features(url_pokemon):
    feature = {}

    req = Request(url_pokemon, headers={'User-Agent': 'Mozilla/5.0'})
    html = urlopen(req).read().decode('utf-8')
    page = bs4.BeautifulSoup(html, 'html.parser')

    tables = page.findAll('table', {'class' : 'vitals-table'})
    for table in tables[:4]:
        for row in table.findAll({'tr'}) :
            key = row.th.string
            value = row.td.getText()
            feature[key] = value
    return feature

In [129]:
get_features("https://pokemondb.net/pokedex/bulbasaur")

{'National №': '001',
 'Type': '\nGrass Poison ',
 'Species': 'Seed Pokémon',
 'Height': '0.7\xa0m (2′04″)',
 'Weight': '6.9\xa0kg (15.2\xa0lbs)',
 'Abilities': '1. OvergrowChlorophyll (hidden ability)',
 'Local №': "001 (Red/Blue/Yellow)226 (Gold/Silver/Crystal)001 (FireRed/LeafGreen)231 (HeartGold/SoulSilver)080 (X/Y — Central Kalos)001 (Let's Go Pikachu/Let's Go Eevee)068 (The Isle of Armor)",
 'EV yield': '\n1 Special Attack ',
 'Catch rate': '\n45 (5.9% with PokéBall, full HP)\n',
 None: '\n50 (normal)\n',
 'Base Exp.': '64',
 'Growth Rate': 'Medium Slow',
 'Egg Groups': 'Grass, Monster',
 'Gender': '87.5% male, 12.5% female',
 'Egg cycles': '20 (4,884–5,140 steps)\n',
 'HP': '45',
 'Attack': '49',
 'Defense': '49',
 'Sp. Atk': '65',
 'Sp. Def': '65',
 'Speed': '45',
 'Total': '318'}

#### Récupération de la liste des pokemons

In [130]:
# Récupération de la liste des pokemons et des liens vers leur page de caractéristiques
# https://pokemondb.net/pokedex/all

In [131]:
url_pokemons_list = "https://pokemondb.net/pokedex/all"

req = Request(url_pokemons_list, headers={'User-Agent': 'Mozilla/5.0'})
html = urlopen(req).read().decode('utf-8')
print(html[:1000])
page = bs4.BeautifulSoup(html, 'html.parser')

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8">
<title>Pokémon Pokédex: list of Pokémon with stats | Pokémon Database</title>
<link rel="preconnect" href="https://img.pokemondb.net">
<style>@font-face{font-family:'Fira Sans';font-style:normal;font-weight:400;font-display:swap;src:url("/static/fonts/fira-sans-v10-latin-400.woff2") format("woff2");unicode-range:U+0000-00FF, U+0131, U+0152-0153, U+02BB-02BC, U+02C6, U+02DA, U+02DC, U+2000-206F, U+2074, U+20AC, U+2122, U+2191, U+2193, U+2212, U+2215, U+FEFF, U+FFFD}@font-face{font-family:'Fira Sans';font-style:italic;font-weight:400;font-display:swap;src:url("/static/fonts/fira-sans-v10-latin-400i.woff2") format("woff2");unicode-range:U+0000-00FF, U+0131, U+0152-0153, U+02BB-02BC, U+02C6, U+02DA, U+02DC, U+2000-206F, U+2074, U+20AC, U+2122, U+2191, U+2193, U+2212, U+2215, U+FEFF, U+FFFD}@font-face{font-family:'Fira Sans';font-style:normal;font-weight:700;font-display:swap;src:url("/static/fonts/fira-sans-v10-latin-600.woff2"

In [106]:
# <table id="pokedex" class="data-table block-wide">
table = page.find('table', id = 'pokedex')
for item in table.findAll('a', {'class':'ent-name'})[:10]:
    print(item)

<a class="ent-name" href="/pokedex/bulbasaur" title="View Pokedex for #001 Bulbasaur">Bulbasaur</a>
<a class="ent-name" href="/pokedex/ivysaur" title="View Pokedex for #002 Ivysaur">Ivysaur</a>
<a class="ent-name" href="/pokedex/venusaur" title="View Pokedex for #003 Venusaur">Venusaur</a>
<a class="ent-name" href="/pokedex/venusaur" title="View Pokedex for #003 Venusaur">Venusaur</a>
<a class="ent-name" href="/pokedex/charmander" title="View Pokedex for #004 Charmander">Charmander</a>
<a class="ent-name" href="/pokedex/charmeleon" title="View Pokedex for #005 Charmeleon">Charmeleon</a>
<a class="ent-name" href="/pokedex/charizard" title="View Pokedex for #006 Charizard">Charizard</a>
<a class="ent-name" href="/pokedex/charizard" title="View Pokedex for #006 Charizard">Charizard</a>
<a class="ent-name" href="/pokedex/charizard" title="View Pokedex for #006 Charizard">Charizard</a>
<a class="ent-name" href="/pokedex/squirtle" title="View Pokedex for #007 Squirtle">Squirtle</a>


In [110]:
pokemons = {}  # { name : url}
table = page.find('table', id = 'pokedex')
for item in table.findAll('a', {'class':'ent-name'}):
    name = item.getText()
    url = item.get("href")
    pokemons[name] = url
len(pokemons)

898

In [114]:
#### Récupération des informations pour tous les pokemons
infos = {}  # { pokemon name : features }
for name, end_of_url in pokemons.items():
    url_pokemon = "https://pokemondb.net" + end_of_url
    infos[name] = get_features(url_pokemon)

In [115]:
infos

{'Bulbasaur': {'National №': '001',
  'Type': '\nGrass Poison ',
  'Species': 'Seed Pokémon',
  'Height': '0.7\xa0m (2′04″)',
  'Weight': '6.9\xa0kg (15.2\xa0lbs)',
  'Abilities': '1. OvergrowChlorophyll (hidden ability)',
  'Local №': "001 (Red/Blue/Yellow)226 (Gold/Silver/Crystal)001 (FireRed/LeafGreen)231 (HeartGold/SoulSilver)080 (X/Y — Central Kalos)001 (Let's Go Pikachu/Let's Go Eevee)068 (The Isle of Armor)",
  'EV yield': '\n1 Special Attack ',
  'Catch rate': '\n45 (5.9% with PokéBall, full HP)\n',
  None: '\n50 (normal)\n',
  'Base Exp.': '64',
  'Growth Rate': 'Medium Slow',
  'Egg Groups': 'Grass, Monster',
  'Gender': '87.5% male, 12.5% female',
  'Egg cycles': '20 (4,884–5,140 steps)\n',
  'HP': '45',
  'Attack': '49',
  'Defense': '49',
  'Sp. Atk': '65',
  'Sp. Def': '65',
  'Speed': '45',
  'Total': '318'},
 'Ivysaur': {'National №': '002',
  'Type': '\nGrass Poison ',
  'Species': 'Seed Pokémon',
  'Height': '1.0\xa0m (3′03″)',
  'Weight': '13.0\xa0kg (28.7\xa0lbs)',


#### Récupération des images de chacun des pokémons et enregistrement dans un dossier

In [139]:
url_pokemons_list = "https://pokemondb.net/pokedex/all"
icon_url_list = []  # Liste des url des images de pokemons (sous forme d'icônes)

req = Request(url_pokemons_list, headers={'User-Agent': 'Mozilla/5.0'})
html = urlopen(req).read().decode('utf-8')
page = bs4.BeautifulSoup(html, 'html.parser')

table = page.find('table', id = 'pokedex')
for item in table.findAll('span', {'class':'img-fixed icon-pkmn'}):
    icon_url_list.append(item.get("data-src"))
icon_url_list[:10]

['https://img.pokemondb.net/sprites/sword-shield/icon/bulbasaur.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/ivysaur.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/venusaur.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/venusaur-mega.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/charmander.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/charmeleon.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/charizard.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/charizard-mega-x.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/charizard-mega-y.png',
 'https://img.pokemondb.net/sprites/sword-shield/icon/squirtle.png']

How to Download an Image Using Python : https://towardsdatascience.com/how-to-download-an-image-using-python-38a75cfa21c

In [137]:
## Importing Necessary Modules
import requests # to get image from the web
import shutil # to save it locally

## Set up the image URL and filename
image_url = "https://img.pokemondb.net/sprites/sword-shield/icon/bulbasaur.png"
filename = image_url.split("/")[-1]

# Open the url image, set stream to True, this will return the stream content.
r = requests.get(image_url, stream = True)

# Check if the image was retrieved successfully
if r.status_code == 200:
    # Set decode_content value to True, otherwise the downloaded image file's size will be zero.
    r.raw.decode_content = True
    
    # Open a local file with wb ( write binary ) permission.
    with open(filename,'wb') as f:
        shutil.copyfileobj(r.raw, f)
        
    print('Image sucessfully Downloaded: ',filename)
else:
    print('Image Couldn\'t be retreived')

Image sucessfully Downloaded:  bulbasaur.png


Enregistrement de toutes les images dans un dossier `icon` dans le répertoire courant

In [140]:
# Création du dossier `icon`
import os
if not os.path.exists('icon'):
    os.makedirs('icon')

# Récupération des images
for icon_url in icon_url_list:
    filename = icon_url.split("/")[-1]

    # Open the url image, set stream to True, this will return the stream content.
    r = requests.get(icon_url, stream = True)

    # Check if the image was retrieved successfully
    if r.status_code == 200:
        # Set decode_content value to True, otherwise the downloaded image file's size will be zero.
        r.raw.decode_content = True
    
        # Open a local file with wb ( write binary ) permission.
        with open(os.path.join('icon',filename) ,'wb') as f:
            shutil.copyfileobj(r.raw, f)