<p style="color:#FFF; background:#06D; padding:12px; font-size:20px; font-style:italic; text-align:center">
<span style="width:49%; display:inline-block; text-align:left">Version 2025-06</span>
<span style="width:49%; display:inline-block; text-align:right">Licence CC–BY–NC–ND</span>
<span style="font-size:40px; font-style:normal"><b>EXTRACTION&ensp;DE&ensp;DONNÉES</b></span><br>
<span style="width:49%; display:inline-block; text-align:left">Christophe Schlick</span>
<span style="width:49%; display:inline-block; text-align:right">schlick ಄ u<b>-</b>bordeaux • fr</p>

De nos jours, la plupart des jeux de données utilisés dans le domaine des Sciences des Données sont disponibles sur le web. Avec l'avènement du mouvement ***Open Data*** depuis une dizaine d'années, ces jeux de données sont regroupés sur des sites dédiés (j'en ai listé un certain nombre dans la page consacrée au sujet de projet) et facilement téléchargeables dans des formats standardisés, les plus fréquents étant les formats **CSV**, **JSON** et **XML**.

Néanmoins, il existe de très nombreuses données qui ne sont pas explicitement formatés pour être facilement téléchargées, la plupart du temps parce que ***leurs auteurs ont organisé ces données pour faciliter leur lecture sur une page web, mais pas forcément leur traitement par des outils d'automatisation***. Lorsqu'on souhaite récupérer et structurer ce type de données, il faut mettre en oeuvre des outils spécifiques, qui se regroupent dans deux catégories principales :

- Les outils de **web scraping** (en français, ***gratter ou racler le web***) permettent d'identifier et de récupérer des données spécifiques au sein d'une page web
- Les outils de **web crawling** (en français, ***ramper ou crapahuter sur le web***) permettent de naviguer récursivement (soit en largeur, soit en profondeur) à partir d'une page web, en suivant certains des liens qui sont définis sur cette page

Les deux techniques combinées permettent de récupérer une énorme masse de données : globalement tout ce qui est affichable sur le web est récupérable avec ce type d'outils d'automatisation. L'objectif de ce chapitre est de lister quelques techniques simples pour réaliser cette extraction de données.

In [1]:
import warnings; warnings.filterwarnings('ignore') # suppression des 'warning' de l'interpréteur
from SRC.tools import show, load, fetch, inspect, cutcut # import fonctions utilitaires du module 'tools'
import IPython.display as dp, pandas as pd # packages usuels

<h2 style="padding:16px; color:#FFF; background:#06D">A - Extraction de données en mode texte</h2>

### 1 - Données au format TXT

Dans le chapitre 3, nous avons vu l'utilisation de la fonction **`load`** du module **`tools`** qui permet de récupérer le contenu de n'importe quel fichier texte, aussi bien dans un dossier stocké en local sur le disque de l'utilisateur, que sur un serveur distant, via une URL indiquant l'adresse du fichier à télécharger. Par défaut la fonction **`load`** va découper le contenu du fichier ligne par ligne, supprimer les lignes vides et les lignes de commentaires, et enfin retourner les lignes restantes sous la forme d'une liste de chaînes de caractères, ce qui est le traitement le plus intéressant pour les fichiers semi-structurés :

In [2]:
url = 'https://www.labri.fr/perso/schlick/outinfo/TEST/test-TXT.txt'

lines = load(url) # lecture des données avec suppression des commentaires et un 'split' à chaque ligne
show("lines#") # les données sont structurées sous forme d'une liste de lignes

lines ➤
['Nom         Hugo', 'Prénom      Victor', 'Naissance   26/02/1802 Besançon', 'Décès       22/05/1885 Paris', 'Nom         Baudelaire', 'Prénom      Charles', 'Naissance   09/04/1821 Paris', 'Décès       31/08/1867 Paris', 'Nom         Rimbaud', 'Prénom      Arthur', 'Naissance   20/10/1854 Charleville', 'Décès       10/11/1891 Marseille']


Mais si nécessaire, on peut garder le contenu au format brut en définissant le second paramètre de la fonction comme une chaîne vide **`''`** ou la valeur **`None`**. Ce paramètre, appelé **`split`**, permet de spécifier le motif utilisé comme séparateur de lignes, donc si on le met à **`''`** cela signifie qu'on ne souhaite pas séparer les lignes et garder le texte en un seul morceau :

In [3]:
text = load(url, '') # lecture des données au format brut (= préservation du contenu intégral)
show("text#") # les données sont structurées sous forme d'une chaîne multi-lignes

text ➤
#
# Auteurs français du XIXe siècle
#

Nom         Hugo
Prénom      Victor
Naissance   26/02/1802 Besançon
Décès       22/05/1885 Paris

Nom         Baudelaire
Prénom      Charles
Naissance   09/04/1821 Paris
Décès       31/08/1867 Paris

Nom         Rimbaud
Prénom      Arthur
Naissance   20/10/1854 Charleville
Décès       10/11/1891 Marseille


A l'inverse, il est souvent utile d'appliquer un post-traitement sur les lignes renvoyées par **`load`**. Dans cet exemple, on voit que chaque ligne se compose d'une paire **`clé valeur`**, il est donc naturel de vouloir convertir ces données en dictionnaire. De plus, on constate que le fichier se compose de plusieurs blocs séparés par des lignes vides, il est donc assez logique de créer une liste qui va stocker ces différents dictionnaires, pour obtenir une ***structure de table*** facile à manipuler.

La fonction **`load`** est justement prévue pour traiter ce type de fichiers semi-structurés à deux niveaux, organisation qui apparait très souvent dans les fichiers de données. En plus du paramètre **`split`**, elle possède également un paramètre **`subsplit`** qui définit le motif utilisé pour la séparation de second niveau. Voici ce que ça donne sur notre exemple :

In [4]:
blocks = load(url, split='\n\n', subsplit='\n') # séparation en blocs puis en lignes
show("blocks#;") # les données sont structurées sous forme d'une liste de listes de lignes

blocks = [[line.split() for line in block] for block in blocks] # séparation des lignes en mots
show("blocks#;") # les données sont structurées sous forme d'une liste de listes de listes de mots

table = [dict((key, ' '.join(val)) for key,*val in block) for block in blocks] # création des dictionnaires
show("table#") # les données sont finalement structurées sous forme d'une liste de dictionnaires

blocks ➤
[['Nom         Hugo', 'Prénom      Victor', 'Naissance   26/02/1802 Besançon', 'Décès       22/05/1885 Paris'], ['Nom         Baudelaire', 'Prénom      Charles', 'Naissance   09/04/1821 Paris', 'Décès       31/08/1867 Paris'], ['Nom         Rimbaud', 'Prénom      Arthur', 'Naissance   20/10/1854 Charleville', 'Décès       10/11/1891 Marseille']]

blocks ➤
[[['Nom', 'Hugo'], ['Prénom', 'Victor'], ['Naissance', '26/02/1802', 'Besançon'], ['Décès', '22/05/1885', 'Paris']], [['Nom', 'Baudelaire'], ['Prénom', 'Charles'], ['Naissance', '09/04/1821', 'Paris'], ['Décès', '31/08/1867', 'Paris']], [['Nom', 'Rimbaud'], ['Prénom', 'Arthur'], ['Naissance', '20/10/1854', 'Charleville'], ['Décès', '10/11/1891', 'Marseille']]]

table ➤
[{'Nom': 'Hugo', 'Prénom': 'Victor', 'Naissance': '26/02/1802 Besançon', 'Décès': '22/05/1885 Paris'}, {'Nom': 'Baudelaire', 'Prénom': 'Charles', 'Naissance': '09/04/1821 Paris', 'Décès': '31/08/1867 Paris'}, {'Nom': 'Rimbaud', 'Prénom': 'Arthur', 'Naissance': 

---
### 2 - Données aux formats CSV et JSON

La même fonction **`load`** permet de lire des **fichiers CSV** en définissant le second séparateur avec le paramètre **`subsplit`** :

In [5]:
url = 'https://www.labri.fr/perso/schlick/outinfo/TEST/test-CSV.csv'

csv = load(url) # lecture des données CSV avec suppression des commentaires
show("csv#;") # les données sont structurées sous forme d'une liste de lignes CSV

table = load(url, subsplit=', ') # découpage de chaque ligne CSV selon les virgules
show("table#") # les données sont structurées sous forme d'une liste de listes de mots

csv ➤
['Nom, Prénom, NaissanceDate, NaissanceLieu, DécèsDate, DécèsLieu', 'Hugo, Victor, 26/02/1802, Besançon, 22/05/1885, Paris', 'Baudelaire, Charles, 09/04/1821, Paris, 31/08/1867, Paris', 'Rimbaud, Arthur, 20/10/1854, Charleville, 10/11/1891, Marseille']

table ➤
[['Nom', 'Prénom', 'NaissanceDate', 'NaissanceLieu', 'DécèsDate', 'DécèsLieu'], ['Hugo', 'Victor', '26/02/1802', 'Besançon', '22/05/1885', 'Paris'], ['Baudelaire', 'Charles', '09/04/1821', 'Paris', '31/08/1867', 'Paris'], ['Rimbaud', 'Arthur', '20/10/1854', 'Charleville', '10/11/1891', 'Marseille']]


Mais comme on l'a vu au chapitre 7, les fichiers CSV se lisent très simplement avec la fonction **`read_csv`** de **pandas** :

In [6]:
table = pd.read_csv(url, comment='#') # il faut définir le caractère préfixe utilisé pour les commentaires
table # les données sont structurées sous forme d'une table 'pandas' (3 lignes et 4 colonnes)

Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


Le processus de lecture et de conversion est très similaire pour les **fichiers JSON** :

In [7]:
url = 'https://www.labri.fr/perso/schlick/outinfo/TEST/test-JSON.json'

json = load(url, '') # lecture des données JSON au format brut (= chaîne multi-lignes)
show("json#;") # les données sont formatées sous la forme d'une chaîne JSON multi-lignes

table = eval(json, {}, {}) # transformation de la chaîne en liste de dictionnaires avec la fonction 'eval'
show("table#") # les données sont finalement structurées sous forme d'une liste de dictionnaires

json ➤
[
  {
    "Nom" : "Hugo",
    "Prénom" : "Victor",
    "Naissance" : "26/02/1802 Besançon",
    "Décès" : "22/05/1885 Paris"
  },
  {
    "Nom" : "Baudelaire",
    "Prénom" : "Charles",
    "Naissance" : "09/04/1821 Paris",
    "Décès" : "31/08/1867 Paris"
  },
  {
    "Nom" : "Rimbaud",
    "Prénom" : "Arthur",
    "Naissance" : "20/10/1854 Charleville",
    "Décès" : "10/11/1891 Marseille"
  }
]

table ➤
[{'Nom': 'Hugo', 'Prénom': 'Victor', 'Naissance': '26/02/1802 Besançon', 'Décès': '22/05/1885 Paris'}, {'Nom': 'Baudelaire', 'Prénom': 'Charles', 'Naissance': '09/04/1821 Paris', 'Décès': '31/08/1867 Paris'}, {'Nom': 'Rimbaud', 'Prénom': 'Arthur', 'Naissance': '20/10/1854 Charleville', 'Décès': '10/11/1891 Marseille'}]


La fonction **`eval`** est un moyen rapide de convertir une chaîne JSON en listes ou en dictionnaires Python. Elle s'appuie sur le fait que la syntaxe JSON et la syntaxe Python sont très proches (même délimiteurs pour les chaînes, les listes et les dictionnaires). Il y a néanmoins quelques différences (par exemple, **`true/false`** en JSON, **`True/False`** en Python) qui peuvent entraîner des erreurs de conversion. Une solution plus robuste consiste à utiliser le module **`json`** de la bibliothèque standard de Python, qui propose, entre autres, les fonctions **`loads`** pour convertir une chaîne JSON vers une structure Python, et **`dumps`** pour effectuer l'opération inverse, comme le montre l'exemple suivant :

In [8]:
from json import loads as js2py, dumps as py2js # import des fonctions avec alias 'js2py' et 'py2js'
show("js2py(json)#;") # conversion de la chaîne JSON vers une liste de dictionnaires
show("py2js(table, ensure_ascii=False, indent=2)#") # conversion en chaîne JSON unicode avec indentation
# comme on peut le constater, on retrouve exactement le contenu du fichier JSON de départ

js2py(json) ➤
[{'Nom': 'Hugo', 'Prénom': 'Victor', 'Naissance': '26/02/1802 Besançon', 'Décès': '22/05/1885 Paris'}, {'Nom': 'Baudelaire', 'Prénom': 'Charles', 'Naissance': '09/04/1821 Paris', 'Décès': '31/08/1867 Paris'}, {'Nom': 'Rimbaud', 'Prénom': 'Arthur', 'Naissance': '20/10/1854 Charleville', 'Décès': '10/11/1891 Marseille'}]

py2js(table, ensure_ascii=False, indent=2) ➤
[
  {
    "Nom": "Hugo",
    "Prénom": "Victor",
    "Naissance": "26/02/1802 Besançon",
    "Décès": "22/05/1885 Paris"
  },
  {
    "Nom": "Baudelaire",
    "Prénom": "Charles",
    "Naissance": "09/04/1821 Paris",
    "Décès": "31/08/1867 Paris"
  },
  {
    "Nom": "Rimbaud",
    "Prénom": "Arthur",
    "Naissance": "20/10/1854 Charleville",
    "Décès": "10/11/1891 Marseille"
  }
]


Mais comme on l'a vu également au chapitre 7, lorsque le fichier JSON ne contient que des données matricielles et non hiérarchiques (ce qui est le cas ici), il peut être lu très simplement avec la fonction **`read_json`** de **pandas** :

In [9]:
table = pd.read_json(url) # pas de préfixe pour identifier les commentaires, car ils n'existent pas en JSON
table # les données sont structurées sous forme d'une table 'pandas' (3 lignes et 4 colonnes)

Unnamed: 0,Nom,Prénom,Naissance,Décès
0,Hugo,Victor,26/02/1802 Besançon,22/05/1885 Paris
1,Baudelaire,Charles,09/04/1821 Paris,31/08/1867 Paris
2,Rimbaud,Arthur,20/10/1854 Charleville,10/11/1891 Marseille


---
### 3 - Données aux formats XML ou HTML

Pour les fichiers XML, la fonction **`load`** permet de récupérer directement le code source :

In [10]:
url = 'https://www.labri.fr/perso/schlick/outinfo/TEST/test-XML.xml'

xml = load(url, '') # lecture des données XML au format brut (= chaîne multi-lignes)
show("xml#") # les données sont structurées sous forme d'une chaîne XML multi-lignes

xml ➤
<?xml version="1.0" encoding="UTF-8" ?>

<!-- Auteurs français du XIXe siècle -->

<auteurs>
  <auteur Nom="Hugo" Prénom="Victor"
    Naissance="26/02/1802 Besançon" Décès="22/05/1885 Paris" />
  <auteur Nom="Baudelaire" Prénom="Charles"
    Naissance="09/04/1821 Paris" Décès="31/08/1867 Paris" />
  <auteur Nom="Rimbaud" Prénom="Arthur"
    Naissance="20/10/1854 Charleville" Décès="10/11/1891 Marseille" />
</auteurs>


Comme la structure d'un fichier XML est souvent assez régulière, l'extraction des données par post-traitement de la chaîne XML consiste le plus souvent à identifier les balises XML qui apparaissent autour des données à récupérer. Pour simplifier un peu les opérations, on va définir une fonction **`cutstr(text,head,tail)`** qui permet de découper itérativement toutes les zones d'un texte **`text`** qui se trouvent entre deux séquences de caractères **`head`** et **`tail`** fournies par l'utilisateur :

In [11]:
def cutstr(text, head, tail):
  """return all cuts from 'text' found between string patterns defined by 'head' and 'tail'"""
  cuts, stop, offset = [], 0, len(head) # offset is used to skip the length of the 'head' pattern
  while True: # loop until all patterns have been found
    start = text.find(head, stop); stop = text.find(tail, start) # find 'head' and 'tail' patterns
    if start == -1: break # break loop if no more pattern
    cuts.append(text[start+offset:stop]) # cut 'text' between patterns and append it to 'cuts'
  return cuts # return all cuts as a list of strings

In [12]:
cuts = cutstr(xml.replace('\n',' '), '<auteur ', '" />') # extraction des balises <auteur ... />
show("cuts#;") # les données sont structurées sous forme d'une liste de chaînes contenant clé="valeur"

# comme il y a des espaces entre les guillemets, on ne peut pas faire un simple 'split()' mais il faut
# combiner un split('" ') pour séparer les propriétés et un split('="') pour séparer les paires clé="valeur"
table = [dict(item.strip().split('="') for item in cut.split('" ')) for cut in cuts]
show("table#") # les données sont finalement structurées sous forme d'une liste de dictionnaires

cuts ➤
['Nom="Hugo" Prénom="Victor"     Naissance="26/02/1802 Besançon" Décès="22/05/1885 Paris', 'Nom="Baudelaire" Prénom="Charles"     Naissance="09/04/1821 Paris" Décès="31/08/1867 Paris', 'Nom="Rimbaud" Prénom="Arthur"     Naissance="20/10/1854 Charleville" Décès="10/11/1891 Marseille']

table ➤
[{'Nom': 'Hugo', 'Prénom': 'Victor', 'Naissance': '26/02/1802 Besançon', 'Décès': '22/05/1885 Paris'}, {'Nom': 'Baudelaire', 'Prénom': 'Charles', 'Naissance': '09/04/1821 Paris', 'Décès': '31/08/1867 Paris'}, {'Nom': 'Rimbaud', 'Prénom': 'Arthur', 'Naissance': '20/10/1854 Charleville', 'Décès': '10/11/1891 Marseille'}]


Comme pour les fichiers JSON, lorsque le fichier XML ne contient que des données matricielles et non hiérarchiques (ce qui est à nouveau le cas ici), la fonction **`read_xml`** de **pandas** permet de faire cette conversion directement :

In [13]:
table = pd.read_xml(url) # lecture des données XML et suppression automatique des commentaires
table # les données sont structurées sous forme d'une table 'pandas' (3 lignes et 4 colonnes)

Unnamed: 0,Nom,Prénom,Naissance,Décès
0,Hugo,Victor,26/02/1802 Besançon,22/05/1885 Paris
1,Baudelaire,Charles,09/04/1821 Paris,31/08/1867 Paris
2,Rimbaud,Arthur,20/10/1854 Charleville,10/11/1891 Marseille


Par contre, lorsque la structure du fichier contient de nombreux niveaux hiérarchiques, ce qui sera le cas pour la très grande majorité des fichiers XML, il faut des outils complémentaires pour effectuer l'analyse de son contenu :

- Si le nombre de données à extraire du fichier est petit ou si ces données sont toutes structurées exactement de la même manière, un outil efficace d'analyse de chaînes de caractères tel que le module **`re`** (cf. section B de ce chapitre) permet d'obtenir les données de manière plus flexible que ce qui a été fait avec la fonction  **`cutstr`**
- Si les données à extraire sont nombreuses et variées, il est généralement plus efficace de mettre en oeuvre des outils de plus haut niveau, comme la bibliothèque **`BeautifulSoup`** (cf. section C de ce chapitre)

Bien évidemment, toutes les remarques précédentes s'appliquent également aux fichiers HTML, qui ne constituent qu'une variante particulière du format XML :

In [14]:
url = 'https://www.labri.fr/perso/schlick/outinfo/TEST/test-HTML.html'

html = load(url, '') # lecture des données HTML au format brut (= chaîne multi-lignes)
show("html#") # les données sont structurées sous forme d'une chaîne HTML multi-lignes

html ➤
<html><head><meta charset="utf-8"/>
<style>
body {font-family:arial;}
table {border:2px solid black; border-spacing:0px; text-align:center;}
th,td {border:1px solid black;}
</style></head>
<body>
<h2>Auteurs français du XIXe siècle</h2>
<table cellpadding=5>
<tr>
<th>Nom <th>Prénom
<th>NaissanceDate <th>NaissanceLieu
<th>DécèsDate <th>DécèsLieu
<tr>
<td>Hugo <td>Victor
<td>26/02/1802 <td>Besançon
<td>22/05/1885 <td>Paris
<tr>
<td>Baudelaire <td>Charles
<td>09/04/1821 <td>Paris
<td>31/08/1867 <td>Paris
<tr>
<td>Rimbaud <td>Arthur
<td>20/10/1854 <td>Charleville
<td>10/11/1891 <td>Marseille
</table>
</body></html>


Pour l'extraction des données, on va à nouveau utiliser la fonction **`cutstr`**, une première fois pour extraire le code HTML correspondant à la table, puis une seconde fois pour extraire les lignes de cette table, en recherchant les balise **`<tr>`** :

In [15]:
table = cutstr(html, '<table cellpadding=5>', '</table>')[0] # extraction du code HTML de la table
table = table.replace('<th>','').replace('<td>','') # suppression des balises <th> et <td>
rows = cutstr(table, '<tr>\n', '\n<tr>') # séparation de la table en liste de lignes selon les balises <tr>
show("rows#;") # les données sont structurées en liste de lignes contenant un mot par propriété

table = [row.split() for row in rows] # séparation des lignes en liste de mots
show("table#") # les données finalement structurées sous forme d'une liste de listes

rows ➤
['Nom Prénom\nNaissanceDate NaissanceLieu\nDécèsDate DécèsLieu', 'Hugo Victor\n26/02/1802 Besançon\n22/05/1885 Paris', 'Baudelaire Charles\n09/04/1821 Paris\n31/08/1867 Paris', 'Rimbaud Arthur\n20/10/1854 Charleville\n10/11/1891 Marseille']

table ➤
[['Nom', 'Prénom', 'NaissanceDate', 'NaissanceLieu', 'DécèsDate', 'DécèsLieu'], ['Hugo', 'Victor', '26/02/1802', 'Besançon', '22/05/1885', 'Paris'], ['Baudelaire', 'Charles', '09/04/1821', 'Paris', '31/08/1867', 'Paris'], ['Rimbaud', 'Arthur', '20/10/1854', 'Charleville', '10/11/1891', 'Marseille']]


Comme on l'a vu dans le chapitre 7, lorsqu'un fichier HTML contient des données structurées par les balises **`<table> ... </table>`** (ce qui est bien le cas ici), la fonction **`read_html`** de **pandas** permet de récupérer le contenu de toutes ces tables et de les retourner sous forme d'une liste de tables **pandas** :

In [16]:
tables = pd.read_html(url) # création d'une table 'pandas' pour chaque table HTML définie dans le fichier
tables[0] # affichage de la table d'indice 0 (c'est la seule qui est présente dans le fichier)

Unnamed: 0,Nom,Prénom,NaissanceDate,NaissanceLieu,DécèsDate,DécèsLieu
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


Lorsque l'on souhaite récupérer des données sur des pages HTML, il est important de savoir qu'une partie non négligeable ***des sites web appliquent une politique anti-scraping***, en interdisant l'accès à leurs pages pour les logiciels robots. Par exemple, le site **Transfermarkt** utilisé dans l'exercice G3, va bloquer l'utilisation de la fonction **`read_html`** de **pandas**, alors que la même page s'affiche sans difficulté si on charge directement cette page dans un navigateur web :

In [17]:
url = 'https://www.transfermarkt.fr/vereins-statistik/wertvollstemannschaften/marktwertetop'

#tables = pd.read_html(url) # HTTP error 403 : forbidden (= accès interdit hors navigateur)

Pour contourner ce blocage, le module **`tools`** contient une fonction **`fetch`** qui permet de faire croire au site que c'est bien un navigateur web et non un robot, qui est en train de se connecter. Il suffit ainsi de filter l'URL avec cette fonction **`fetch`** pour pouvoir utiliser la fonction **`read_html`** de manière classique :

In [18]:
tables = pd.read_html(fetch(url)) # utilisation de 'read_html' en filtrant l'URL avec 'fetch'
teams = tables[1] # extraction de la table d'indice 1 (c'est elle qui nous intéresse sur cette page web)
teams.index = teams['#']; teams.index.name = None # transformation la colonne '#' en index
del teams['#']; del teams['Unnamed: 1'] # suppression des colonnes inutiles
teams[:10] # affichage des 10 premières lignes, pour vérification

Unnamed: 0,Club,Compétition,Valeur marchande
1,Manchester City,Premier League,"1,31 mrd. €"
2,Real Madrid,LaLiga,"1,27 mrd. €"
3,Arsenal FC,Premier League,"1,13 mrd. €"
4,FC Barcelone,LaLiga,"1,02 mrd. €"
5,FC Liverpool,Premier League,"993,50 mio. €"
6,Paris Saint-Germain,Ligue 1,"923,50 mio. €"
7,Chelsea FC,Premier League,"922,00 mio. €"
8,Bayern Munich,Bundesliga,"859,00 mio. €"
9,Tottenham Hotspur,Premier League,"836,10 mio. €"
10,Manchester United,Premier League,"694,25 mio. €"


<h2 style="padding:16px; color:#FFF; background:#06D">B - Package 're' (regular expression)</h2>

Le module **`re`** (*regular expression*) de la bibliothèque standard de Python permet de manipuler les [**expressions régulières**](https://fr.wikipedia.org/wiki/Expression_r%C3%A9guli%C3%A8re), un modèle formel en théorie des langages destiné à ***décrire de manière compacte des motifs spécifiques apparaissant dans des chaînes de caractères***. Si vous n'avez jamais entendu parler des expressions régulières, il est fortement conseillé de faire un détour par l'excellent [**tutoriel par Andrew Kuchling**](https://docs.python.org/fr/3/howto/regex.html) qui se trouve dans la documentation standard du langage Python. Une fois que vous aurez compris les bases, un simple mémo rappelant la syntaxe vous suffira pour construire les motifs, par exemple celui édité par DataQuest qui existe en [**version courte**](https://www.labri.fr/perso/schlick/outinfo/PDF/MemoRegEx.pdf) et en [**version longue**](https://www.labri.fr/perso/schlick/outinfo/PDF/TutoRegEx.pdf).

> **Note :** Comme le caractère **`\`** apparait très souvent dans les expressions régulières, il est fortement conseillé d'utiliser des chaînes de caractères brutes **`r'...'`** pour éviter d'avoir à mettre des doubles backslash partout

Il faut noter que les IAG sont particulièrement performantes pour la création d'expressions régulières exprimées dans ce modèle formel. Ce qui signifie que la partie (vraiment) pénible lors de l'utilisation du module **re**, qui consiste à maîtriser la syntaxe très aride de ce mini-langage pour créer la bonne expression permettant d'identifier le bon motif, peut aujourd'hui être totalement sous-traitée par l'IAG. D'ailleurs la quasi-totalité des motifs figurant dans cette section ont été produits par l'IAG, pilotée par des prompts précis sur la description des motifs à détecter et les cas particuliers à ne pas détecter.

In [19]:
import re
inspect(re, detail=0) # augmenter la valeur de 'detail' pour avoir plus d'information

● NAME = re / TYPE = module
● ROLE = Support for regular expressions (RE).

● MODULES : use 'inspect(re.xxx)' to get additional info for each inner module
copyreg    enum       functools  

● TYPES : use 'inspect(re.xxx)' to get additional info for each inner type
Match      Pattern    RegexFlag  Scanner    error      

● CONSTANTS
A           ASCII       DEBUG       DOTALL      I           IGNORECASE  L           LOCALE      
M           MULTILINE   NOFLAG      S           T           TEMPLATE    U           UNICODE     
VERBOSE     X           

● FUNCTIONS
compile    escape     findall    finditer   fullmatch  match      purge      search     
split      sub        subn       template   


Le module **re** est très compact, comme on peut le voir avec l'exécution de la fonction **`inspect`** ci-dessus. On y trouve quelques constantes permettant de modifier le fonction de l'algorithme de recherche de motifs à l'aide d'un paramètre optionnel **`flags`**, ainsi qu'un liste de douze fonctions, mais seules six d'entre elles sont réellement utiles en pratique :

- **`match(pattern, string, flags)`** : Vérifie si une chaîne **`string`** commence par un motif **`pattern`** donné
- **`fullmatch(pattern, string, flags)`** : Vérifie si la totalité d'une chaîne est égale à un motif donné
- **`search(pattern, string, flags)`** : Recherche la première occurrence d'un motif donné dans une chaîne
- **`findall(pattern, string, flags)`** : Recherche toutes les occurrences d'un motif donné dans une chaîne
- **`sub(pattern, replace, string, flags)`** : Remplace un motif donné par un motif de remplacement
- **`split(pattern, string, maxsplit, flags)`** : Découpe une chaîne en fonction d'un motif

A cette liste se rajoute une fonction **`compile(pattern, flags)`** qui permet de précompiler une expression régulière pour optimiser les performances lorsqu'un même motif est utilisé dans plusieurs requêtes successives. Il s'avère que les gains de performances obtenus sont assez anecdotiques, surtout lorsqu'on utilise les requêtes globales, **`findall`**, **`sub`** et **`split`**, qui vont être les cas d'utilisation les plus fréquents, pour la plupart des applications

En plus du module **re** inclus dans la bibliothèque standard, il faut signaler qu'il existe également un module appelé [**regex**](https://pypi.org/project/regex) qui doit être installé séparément à l'aide de **`pip`**. Ce module est totalement compatible avec le module standard mais offre des fonctionnalités plus avancées, dont les deux plus importantes sont la possibilité de définir des ***motifs flous*** (permettant de détecter des motifs proches mais pas totalement similaires) ou la possibilité de définir des ***motifs récursifs*** (autorisant un motif à être défini par une relation de récurrence). Ces extensions sont d'un usage assez limité en pratique, et engendrent un surcroît de complexité pour la syntaxe à mettre en oeuvre, c'est pourquoi elles ne seront pas détaillées dans ce chapitre

---
### 1 - Extraction de motifs dans un texte

L'utilisation la plus fréquente du module **re** dans le domaine des Sciences des Données consiste à extraire, de manière automatisée, certaines données ciblées se trouvant à l'intérieur d'un fichier texte, local ou distant. L'idée est d'arriver à définir un motif avec la syntaxe du mini-langage des expressions régulières pour identifier spécifiquement les données à extraire. Selon la nature de ces données, le motif à écrire peut être plus ou moins complexe. L'extraction peut s'effectuer donnée par données, avec la fonction **`search`**, mais si l'on doit extraire l'ensemble des données qui vérifient un motif spécifique, il est plus efficace d'employer la fonction **`findall`** qui récupère toutes les données et les regroupe dans une liste.

On donne ci-dessous quelques exemples d'extractions, de complexité croissante, appliquées à la même chaîne de test :

In [20]:
# chaîne de caractères utilisée pour les tests d'extraction
test = """
Version : Python 3.12 (date de développement : 2022-10-25, date de sortie : 2023/10/02)
Web : accueil = https://www.python.org   téléchargement = https://www.python.org/downloads
Accueil en français : téléphone = 01 23 45 67 89 / +33 1-23-45-67-89 / email = contact@python.org
Support en français : téléphone = 01.32.54.76.98 / +33 132.547.698 / email = support@python.org
Compte personnel : https://user:password@www.python.org:8888/perso?login=user#homepage
Accès FTPS : ftps://user:password@ftp.python.org / Canaux IRC : #python et #python-fr
GPS : 12°34'56.7"N, 76°54'32.1"E ou (12.582417,-76.908917)
""" # les dates et les numéros de téléphone utilisent volontairement des formats variés

In [21]:
# mot sans accents = série de caractères composée uniquement de majuscules ou minuscules non-accentuées

# le méta-caractère '\b' (= 'boundary') signifie que l'un des deux caractères voisins n'est pas une lettre
# en mettant '\b' aux deux extrémités du motif, cela garantit de ne détecter que des mots entiers
# la syntaxe [...] définit une classe de caractères, et le '-' désigne un intervalle de caractères
word = r'\b[A-Za-z]+\b' # motif pour détecter un mot écrit avec des lettres sans accents

words = re.findall(word, test) # recherche de tous les mots dans 'test' vérifiant le motif 'word'
show("words;") # les mots 'développement', 'français', 'téléchargement' et 'téléphone' ne sont pas détectés

words ➤ ['Version', 'Python', 'date', 'de', 'date', 'de', 'sortie', 'Web', 'accueil', 'https', 'www', 'python', 'org', 'https', 'www', 'python', 'org', 'downloads', 'Accueil', 'en', 'email', 'contact', 'python', 'org', 'Support', 'en', 'email', 'support', 'python', 'org', 'Compte', 'personnel', 'https', 'user', 'password', 'www', 'python', 'org', 'perso', 'login', 'user', 'homepage', 'FTPS', 'ftps', 'user', 'password', 'ftp', 'python', 'org', 'Canaux', 'IRC', 'python', 'et', 'python', 'fr', 'GPS', 'N', 'E', 'ou']



In [22]:
# mot avec accents = on rajoute les lettres des principales langues d'Europe de l'Ouest (ISO-8859-15)

word = r'\b[A-Za-zÀ-ÖØ-öø-ÿŒœ]+\b' # ajout de toutes les lettres accentuées de la table ISO-8859-15

words = re.findall(word, test) # recherche de tous les mots dans 'test' vérifiant le motif 'word'
show("words;") # les mots avec accent ou cédille sont bien détectés

words ➤ ['Version', 'Python', 'date', 'de', 'développement', 'date', 'de', 'sortie', 'Web', 'accueil', 'https', 'www', 'python', 'org', 'téléchargement', 'https', 'www', 'python', 'org', 'downloads', 'Accueil', 'en', 'français', 'téléphone', 'email', 'contact', 'python', 'org', 'Support', 'en', 'français', 'téléphone', 'email', 'support', 'python', 'org', 'Compte', 'personnel', 'https', 'user', 'password', 'www', 'python', 'org', 'perso', 'login', 'user', 'homepage', 'Accès', 'FTPS', 'ftps', 'user', 'password', 'ftp', 'python', 'org', 'Canaux', 'IRC', 'python', 'et', 'python', 'fr', 'GPS', 'N', 'E', 'ou']



In [23]:
# mot-dièse (hashtag) = séquence arbitraire de caractères (sauf whitespace) commençant par un '#'

# le méta-caractère \s est équivalent au motif [ \t\n\r\v\f] (aussi appelé 'whitespace')
# le méta-caractère \S est équivalent au motif [^\s] (autrement dit, tout sauf whitespace)
hashtag = r'(?:\s)(#\S+)' # motif pour détecter un hashtag arbitraire

# les parenthèses définissent un 'groupe' de caractères qui peut être 'capturant' ou 'non-capturant'
# dans cet exemple, (#\S+) définit un groupe capturant (qui va être renvoyé par la fonction 'findall')
# alors que (?:\s) définit un groupe non-capturant (qui doit être présent mais qui ne sera pas renvoyé)
# concrètement, cela signifie que le '#' doit être précédé d'un whitespace pour que le motif soit valide
# mais ce whitespace ne fait pas partie de la capture et ne sera donc pas renvoyé par la fonction 'findall'

# la convention des regex dit que "tout ce qui n'est pas non-capturant est capturant" et "tout ce qui n'est
# pas non-capturant est capturant", donc mettre les parenthèses dans les deux cas est généralement inutile
# dans ce cas précis, on a un résultat parfaitement équivalent avec : r'\s(#\S+)' ou r'(?:\s)#\S+'

hashtags = re.findall(hashtag, test) # recherche de tous les mots dans 'test' vérifiant le motif 'hashtag'
show("hashtags;") # le '#' présent dans l'avant-dernière

hashtags ➤ ['#python', '#python-fr']



In [24]:
# numéro de téléphone en France = (0 ou +33) puis 9 chiffres, séparés par '-' ou '.' ou ' ' ou rien

# le méta-caractère \d est équivalent au motif [0-9] (aussi appelé 'digit')
# la clause {9} signifie que le motif entre parenthèses qui précède doit être répété exactement 9 fois
# ici, comme il n'y a que des groupes non-capturants, c'est le motif global qui va être renvoyé in fine
phone = r'(?:\+33|0)(?:[\s.-]?\d){9}' # motif pour détecter les numéros de téléphone en France

phones = re.findall(phone, test) # recherche de tous les mots dans 'test' vérifiant le motif 'phone'
show("phones;") # toutes les versions des numéros de téléphone sont reconnues

phones ➤ ['01 23 45 67 89', '+33 1-23-45-67-89', '01.32.54.76.98', '+33 132.547.698']



In [25]:
# nombre = séquence de chiffres, encadré par des espaces, avec point décimal optionnel et signe optionnel

# à nouveau il n'y a que des groupes non-capturants, c'est donc le motif global qui va être renvoyé in fine
number = r'(?:\s)([+-]?\d+(?:\.\d+)?)(?=\s)' # motif pour détecter un nombre entier ou réel signé

numbers = re.findall(number, test) # recherche de tous les mots dans 'test' vérifiant le motif 'number'
show("numbers;") # les dates et les numéros de téléphone avec '.' ou '-' ne sont pas des nombres valides
# mais les coordonnées GPS ne sont pas identifiés car elles ne sont pas encadrés par des espaces

numbers ➤ ['3.12', '01', '23', '45', '67', '89', '+33', '+33']



In [26]:
# il est souvent nécessaire d'être plus flexible et ne pas imposer d'avoir un espace avant et après un motif
# on va donc définir des motifs 'head' et 'tail' pour contrôler le voisinage autorisé à gauche et à droite

# les méta-caractères '^' et '$' signifient respectivement début de chaîne et fin de chaîne
head = r'(?:[\s,;:\(\[\{]|^)' # ajout de , ; : ( [ { et début de chaîne, comme voisins autorisés à gauche
tail = r'(?=[\s,;:\)\]\}]|$)' # ajout de , ; : ) ] } et fin de chaîne, comme voisins autorisés à droite
number = rf"{head}([+-]?\d+(?:\.\d+)?){tail}" # inclusion des critères de voisinage 'head' et 'tail'

numbers = re.findall(number, test) # recherche de tous les mots dans 'test' vérifiant le motif 'number'
show("numbers;") # cette fois-ci, on détecte bien les coordonnées GPS en décimal

numbers ➤ ['3.12', '01', '23', '45', '67', '89', '+33', '+33', '12.582417', '-76.908917']



In [27]:
# nombre en notation scientifique = idem à 'number' mais avec un exposant optionnel (lettre 'e' ou 'E')

number = rf"{head}([+-]?(?:\d+(?:\.\d*)?|\.\d+)(?:[eE][+-]?\d+)?){tail}" # ajout de l'exposant

numbers = re.findall(number, test) # recherche de tous les mots dans 'test' vérifiant le motif 'number'
show("numbers;") # dans cet exemple, cela ne change rien puisqu'il n'y a pas d'exposant

numbers ➤ ['3.12', '01', '23', '45', '67', '89', '+33', '+33', '12.582417', '-76.908917']



In [28]:
# date = format YYYY-MM-DD ou YY-MM-DD ou YYYY/MM/DD ou YY/MM/DD, en vérifiant les intervalles valides

year = r'(?:\d{2}|\d{4})' # motif pour détecter l'année sur 2 ou 4 chiffres
month = r'(?:0[1-9]|1[0-2])' # motif pour détecter le mois entre 01 et 12
day = r'(?:0[1-9]|[12]\d|3[01])' # motif pour détecter le jour entre 01 et 31
date = f"{year}[-/]{month}[-/]{day}" # assemblage des 3 motifs précédents, avec '-' ou '/' en séparateurs

dates = re.findall(date, test) # recherche de tous les mots dans 'test' vérifiant le motif 'date'
show("dates;") # les numéros de téléphone avec '-' ne sont pas des dates valides

dates ➤ ['2022-10-25', '2023/10/02']



In [29]:
# adresse mail = une séquence de lettres, de chiffres, et de caractères '.' '+' '-' '_' et '%' puis un '@'
# et enfin une autre séquence similaire, qui finit avec 2 ou 3 lettres précédées par un '.' (= domaine)

# Le méta-caractère \w, appelé 'alphanum', contient toutes les lettres (accentuées ou non) ainsi que [0-9_]
email = r'(?<![:\w.%+-])[\w.%+-]+@[\w.-]+\.[a-zA-Z]{2,}' # motif pour détecter les adresses email

emails = re.findall(email, test) # recherche de tous les mots dans 'test' vérifiant le motif 'email'
show("emails;") # dans la dernière URL, la fausse adresse 'password@ftp.python.org' est bien écartée

emails ➤ ['contact@python.org', 'support@python.org']



In [30]:
# URL simple = correspond au motif "scheme://host:port/path" où 'scheme' est le nom du schéma ou protocole,
# 'host' le nom du serveur, 'port' le numéro du port de connexion et 'path' le chemin de la page web

scheme = r'(?:https?|ftps?|wss?|sftp|file)://' # motif pour détecter les 8 protocoles les plus fréquents
host = r'(?:[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)*)' # motif pour détecter le nom du serveur (sans accents)
port = r'(?:\:\d{1,5})?' # motif pour détecter le port du serveur
path = r'(?:/[^\s?#]*)?' # motif pour détecter le chemin d'accès au dossier ou au fichier concerné
url = rf'{scheme}{host}{port}{path}' # assemblage des 4 motifs précédents

urls = re.findall(url, test) # recherche de tous les mots dans 'test' vérifiant le motif 'url'
show("urls;") # les deux dernières URL ne sont extraites que de manière partielle

urls ➤ ['https://www.python.org', 'https://www.python.org/downloads', 'https://user', 'ftps://user']



In [31]:
# URL généralisée = correspond au motif "scheme://user:password@host:port/path?query#fragment"

uspw = r'(?:[a-zA-Z0-9._~%-]+:[a-zA-Z0-9._~%-]+@)?' # motif pour détecter l'utilisateur et le mot de passe
hostname = r'(?:[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)*)' # motif pour détecter le nom du serveur
hostIPv4 = r'(?:\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})' # motif pour détecter l'adresse IPv4 (192.168.1.1)
hostIPv6 = r'(?:\[[0-9a-fA-F:.]+\])' # motif pour détecter l'adresse IPv6 [2001:DB8::FF00:42:8329]
host = rf'(?:{hostname}|{hostIPv4}|{hostIPv6})' # nom de domaien ou IPv4 ou IPv6 pour le serveur
query = r'(?:\?[^\s#]*)?' # motif pour détecter les paramètres de la requête
fragment = r'(?:#[^\s]*)?' # motif pour détecter le fragment (= ancre) à l'intérieur de la page
url = rf'{scheme}{uspw}{host}{port}{path}{query}{fragment}' # assemblage des 7 motifs précédents

urls = re.findall(url, test) # recherche de tous les mots dans 'test' vérifiant le motif 'url'
show("urls;") # les deux dernières URL sont maintenant correctement extraites

urls ➤ ['https://www.python.org', 'https://www.python.org/downloads', 'https://user:password@www.python.org:8888/perso?login=user#homepage', 'ftps://user:password@ftp.python.org']



---
### 2 - Vérification de la robustesse d'un mot de passe

Par leur capacité d'identification des classes de caractères définies par l'utilisateur, les expressions régulières permettent également de vérifier qu'une chaîne de caractères respecte un certain nombre de contraintes. Parmi les exemples classiques, figure celui de la vérification de la robustesse d'un mot de passe pour éviter un piratage trop facile. Parmi les règles données par les systèmes en ligne pour les mots de passe des utilisateurs, on trouve notamment ces deux niveaux de robustesse :

- un mot de passe de 8 caractères ou plus, qui doit contenir au moins un chiffre, une lettre majuscule, une lettre minuscule, et un signe de ponctuation (ce qui donne environ $2.81\times10^{15}$ possibilités pour 8 caractères)

- un mot de passe de 10 caractères ou plus, qui doit contenir au moins un chiffre, trois lettres majuscules, trois lettres minuscules, et un signe de ponctuation (ce qui donne environ $2.93\times10^{19}$ possibilités pour 10 caractères)

Pour vérifier ce type de contraintes, il suffit de créer une expression régulière pour chaque contrainte, les combiner ensemble et demander à la fonction **`match`** si le mot de passe fourni est bien conforme à cette combinaison de motifs :

In [32]:
# niveau 1 : 8 caractères minimum avec au moins 1 chiffre, 1 majuscule, 1 minuscule, 1 signe de ponctuation

# pour chaque contrainte, le motif vérifie qu'il y a au moins un exemplaire de la classe concernée
# et celle sur la longueur vérifie s'il y a 8 caractères ou plus entre le début (^) et la fin ($) de chaîne
digit, upper, lower, punct = r".*[0-9] .*[A-Z] .*[a-z] .*[!-/:-@\[-`\{-~]".split()
constraints = rf"^(?={digit})(?={upper})(?={lower})(?={punct}).{{8,}}$" # 5 contraintes à respecter

for password in "weak Weak Weak1 We@k1 Str|ong1 StrO0N|gEr".split(): # on teste 6 mots de passe successifs
  check = re.match(constraints, password) # si 'match' retourne None, c'est que le test n'a pas été validé
  print(f"● {password} : {bool(check)}") # conversion du retour de 'match' en booléen pour l'affichage

# seuls les deux derniers mots de passe vérifient les 5 contraintes du test de robustesse

● weak : False
● Weak : False
● Weak1 : False
● We@k1 : False
● Str|ong1 : True
● StrO0N|gEr : True


In [33]:
# niveau 2 : 10 caractères minimum avec au moins 1 chiffre, 3 majuscules, 3 minuscules, 1 ponctuation

# comme les classes 'upper' et 'lower' sont déjà définies, il suffit de les insérer 3 fois dans le motif
constraints = rf"^(?={digit})(?={upper}{upper}{upper})(?={lower}{lower}{lower})(?={punct}).{{10,}}$"

for password in "weak Weak Weak1 We@k1 Str|ong1 StrO0N|gEr".split(): # on teste 6 mots de passe successifs
  check = re.match(constraints, password) # si 'match' retourne None, c'est que le test n'a pas été validé
  print(f"● {password} : {bool(check)}") # conversion du retour de 'match' en booléen pour l'affichage

# cette fois-ci, seul le dernier mot de passe est considéré comme suffisamment robuste

● weak : False
● Weak : False
● Weak1 : False
● We@k1 : False
● Str|ong1 : False
● StrO0N|gEr : True


---
### 3 - Conversion de paires *(clé,valeur)* en dictionnaire

Comme on l'a vu dans le chapitre 3, les fichiers semi-structurés organisent les données selon une forme beaucoup plus libre que les formats standards comme CSV, JSON, TOML ou XML. Il faut donc mettre en place des outils spécifiques pour lire ces données et les stocker de manière structurée dans les conteneurs du langage utilisé. Parmi les organisations classiques des fichiers semi-structurées, figurent les paires ***(clé,valeur)*** permettant d'associer une valeur à un identificateur. Dans la syntaxe Python et JSON, les paires sont séparées par une virgule **`,`** et la clé est séparée de sa valeur par un double point **`:`**. Mais dans les fichiers semi-structurés créés pour une application particulière, d'autres choix de syntaxe peuvent avoir été pris, et dans ce cas de figure, les expressions régulières permettent de traiter très facilement toutes ces variantes possibles.

Voici un exemple où le point-virgule **`;`** est utilisé pour la séparation des paires, et le point d'exclamation **`!`** pour la séparation clé-valeur, et où le format autorise une très grande liberté sur l'utilisation des espaces :

In [34]:
test = " name!Python; version! 3.12 ; date !2023-10-03 ;;url !  www.python.org  " # chaîne pour les tests

key = val = r'[^!;\s]+' # tout ce qui n'est pas '!' ';' ou '\s' peut être inclus dans les clés et valeurs
pair = rf"\s*({key})\s*!\s*({val})\s*" # les paires sont séparées par '!' entouré de whitespaces éventuels
# les parenthèses indiquent que 'key' et 'val' sont capturés à part, et non fusionnées dans un motif global
# ce qui va indique à la fonction 'findall' de renvoyer une liste de tuples et non pas une liste de mots

pairs = re.findall(pair, test) # recherche de toutes les paires 'clé!valeur'
show("pairs") # les données sont structurées sous forme d'une liste de tuples (clé, valeur)
show("dict(pairs)") # qui peut être facilement convertie en dictionnaire

pairs ➤ [('name', 'Python'), ('version', '3.12'), ('date', '2023-10-03'), ('url', 'www.python.org')]
dict(pairs) ➤ {'name': 'Python', 'version': '3.12', 'date': '2023-10-03', 'url': 'www.python.org'}


Une solution alternative pour gérer cette situation serait de tranformer la chaîne semi-structurée en un format plus classique, par exemple une chaîne JSON définissant un dictionnaire. Pour cela, on va réutiliser la même expression régulière, mais en l'appliquant à la fonction **`sub`** du module **re** pour transformer la chaîne de départ plutôt que d'en extraire des données :

In [35]:
# dans une substitution, '\1' correspond au premier groupe capturant (= key) et '\2' au second (= val)
json = re.sub(pair, r'"\1":"\2"', test) # ajout des guillemets et remplacement des '!' par des ':'
json = '{' + re.sub(r';+', ', ', json) + '}' # ajout des accolades et remplacement des ';' par des ','
show("json") # la chaîne finale est bien une chaîne JSON valide

json ➤ {"name":"Python", "version":"3.12", "date":"2023-10-03", "url":"www.python.org"}


La conversion de la chaîne semi-structurée en chaîne TOML est encore plus simple :

In [36]:
toml = re.sub(pair, r"\1 = '\2'", test) # ajout des quotes et remplacement des '!' par des ' = '
toml = re.sub(r';+', '\n', toml) # remplacement des ';' par des '\n'
show("toml#") # la chaîne finale est bien une chaîne TOML valide

toml ➤
name = 'Python'
version = '3.12'
date = '2023-10-03'
url = 'www.python.org'


---
### 4 - Ajustement de la précision des valeurs numériques

Lorsqu'on récupère des données dans des fichiers CSV, JSON ou XML, il n'est pas rare d'y voir des nombres réels avec une très grande variété de chiffres significatifs : les données brutes sont généralement récoltées avec une précision entre 2 ou 4 chiffres significatifs, et celles obtenues par calcul (moyenne, variance, etc) sont obtenues avec une précision de 16 ou 17 chiffres liés à l'utilisation de nombre réels en double précision pour les calculs. Cet excès de décimales est évidemment totalement artificiel puisque la précision globale est toujours bornée par celle de la donnée la moins fiable.

On considère généralement que dans le domaine des Sciences des Données, une précision à 4 ou 5 chiffres significatifs est largement suffisante. Il est donc intéressant de prendre toutes les valeurs numériques présentes dans un fichier de données ou d'une chaîne de caractères, et de ***les arrondir à une précision commune à 4 ou 5 chiffres***, pour obtenir une base de données homogène. La facilité de détection des motifs numériques par les expressions régulières, rend ce processus très simple à mettre en oeuvre. Concrètement, on va utiliser la fonction **`sub`** mais contrairement à l'exemple précédent, la substitution ne doit pas se faire sur un motif fixe, mais implique un calcul sur les données trouvées. Cela peut s'implémenter de manière efficace en utilisant une ***expression lambda pour définir le traitement effectué*** lors de chaque substitution :

In [37]:
### création d'une chaîne CSV de test contenant les fractions de l'unité de 1/1 à 1/15
test = ', '.join(str(1/n) for n in range(1,15)) # conversion des fractions en 'str' avant fusion
show("test") # la précision varie artificiellement de 1 à 17 chiffres significatifs

test ➤ 1.0, 0.5, 0.3333333333333333, 0.25, 0.2, 0.16666666666666666, 0.14285714285714285, 0.125, 0.1111111111111111, 0.1, 0.09090909090909091, 0.08333333333333333, 0.07692307692307693, 0.07142857142857142


In [38]:
# création d'une expression lambda pour arrondir à 4 chiffres significatifs, chacun des nombres trouvés
round4 = lambda match: f" {float(match.group()):.{4}g}" # match.group() contient le motif numérique trouvé

out = re.sub(number, round4, test) # application de la substitution avec appel à 'round4' pour l'arrondi
show("out") # la précision a été limitée à 4 chiffres significatifs au maximum

out ➤  1, 0.5, 0.3333, 0.25, 0.2, 0.1667, 0.1429, 0.125, 0.1111, 0.1, 0.09091, 0.08333, 0.07692, 0.07143


---
### 5 - Découpage d'un texte en fonction de motifs variés

Au lieu d'effectuer une extraction des parties d'un texte vérifiant un motif donnée, il est parfois intéressant d'effectuer l'opération duale : définir un motif pour les éléments que l'on ne souhaite pas garder, et s'en servir pour segmenter le texte, et extraire les parties figurant entre les différents éléments supprimés. Comme vu au chapitre 3, la méthode **`split(sep)`** qui existe en standard pour les chaînes de caractères, fonctionne sur ce principe : elle va découper la chaîne à chacune des occurrences de la séquence de caractères **`sep`** et renvoyer une liste contenant les différents segments obtenus :

In [39]:
testA = '12, 34, 56, 78, 90' # une chaîne CSV bien régulière
testB = '12, 34,56, 78,, 90' # une chaîne CSV plus cahotique
cutsA1 = testA.split(','); cutsA2 = testA.split(', ') # découpage de 'testA' avec ou sans espace après ','
cutsB1 = testB.split(','); cutsB2 = testB.split(', ') # idem pour 'testB'
show("cutsA1; cutsA2; cutsB1; cutsB2")

cutsA1 ➤ ['12', ' 34', ' 56', ' 78', ' 90']
cutsA2 ➤ ['12', '34', '56', '78', '90']
cutsB1 ➤ ['12', ' 34', '56', ' 78', '', ' 90']
cutsB2 ➤ ['12', '34,56', '78,', '90']


Comme on peut le voir dans l'exemple ci-dessus, la méthode **`split`** est trop rigide pour pouvoir effectuer une découpage cohérent lorsque la chaîne de départ n'est pas organisée de manière suffisamment régulière : sur les 4 tests effectués, seul **`cutsA2`** permet de récupérer les 5 éléments dans une liste, en ayant correctement éliminé les virgules et les espaces qui ne font pas partie des données. Cet exemple est représentatif des difficultés que l'on rencontre avec **`split`** pour effectuer une segmentation correcte des données, lorsque celles-ci ne sont pas parfaitement régulières dans le texte à traiter.

La fonction **`split(pattern,string,flag)`** du module **re** permet de contourner presque toutes les limitations dont souffre la méthode **`split`** de base : au lieu d'imposer une séquence fixe pour définir les frontières de la segmentation, elle permet d'employer n'importe quelle expression régulière pour définir le motif de découpage. Pour illustrer la flexibilité du processus, on va l'appliquer sur deux cas pratiques :

<big><b><i>Découpage avec prise en compte de délimiteurs et séparateurs multiples</i></b></big>

On dispose d'un fichier de données qui met en oeuvre une grammaire formelle assez complexe, combinant des séparateurs variés (par exemple, espace, virgule, point virgule, double point, etc) avec des délimiteurs variés (par exemple, parenthèses, crochets, accolades, guillemets simples ou doubles, etc) permettant de regrouper les données en structures diverses :
```
12, [ab, 23], {cd:34; ef:45; gh:(56,67)}, ([x!y!z, r!s!t], <78/89>), ijk
```

On cherche à récupérer les données brutes, sans s'intéresser à leur structure, c'est-à-dire découper uniquement les mots et les nombres figurant dans la chaîne, en supprimant tous les délimiteurs et tous les séparateurs. La fonction **`split`** permet de spécifier très précisément tous les caractères qui doivent être considérés comme délimiteurs ou séparateur vs. ceux qui font partie des données, et ainsi contrôler le découpage au caractère près :

In [40]:
test = '12, [ab, 23], {cd:34; ef:45; gh:(56,67)}, ([x!y!z, r!s!t], <78/89>), ijk' # chaîne de test

delimiters = r'][)(}{' # délimiteurs autorisés =  ']'  '['  ')'  '('  '}' et '{'
separators = r',;:\s' # séparateurs autorisés = ','  ';'  ':'  et '\s' (whitespace)

cuts = re.split(rf"[{delimiters}{separators}]+", test)
show("cuts")

cuts ➤ ['12', 'ab', '23', 'cd', '34', 'ef', '45', 'gh', '56', '67', 'x!y!z', 'r!s!t', '<78/89>', 'ijk']


Comme le point d'exclamation n'est pas défini comme un séparateur, la séquence **`x!y!z`** est renvoyée d'un seul bloc au lieu d'être segmentée. De même, ni les crochets triangulaires, ni le slash ne sont définis comme délimiteurs ou séparateurs, ce qui permet à la séquence **`<78/89>`** d'être traitée comme un segment complet. Faire le même découpage avec la méthode **`split`** de base aurait nécessité une bonne douzaine de lignes de code pour traiter les différents cas.

<big><b><i>Découpage d'un fichier CSV avec guillemets</i></b></big>

Le second cas pratique de découpage sur mesure se produit très fréquemment lors de la récupération de données dans des fichiers semi-structurés, et même parfois dans des fichiers CSV. Supposons qu'un fichier contienne une telle ligne :
```
12, 23, "toto titi", 34, 45, "tata tutu", 56, 67, "x, y, z", 78, 89
```
qui mélange des entiers et des chaînes de caractères. Pour un être humain, les données contenues dans cette ligne sont très claires : il y a 8 entiers **`12 23 34 45 56 67 78 89`** et 3 chaînes **`"toto titi" "tata tutu" "x, y, z"`**

Or en faisant un **`split`** standard sur la séquence **`', '`** voici ce que l'on obtient :

In [41]:
test = '12, 23, "toto titi", 34, 45, "tata tutu", 56, 67, "x, y, z", 78, 89' # chaîne de test

cuts = test.split(', ') # on segmente la chaîne de test avec le 'split' standard
show("cuts") # l'élément "x, y, z" est segmenté en trois, à cause des virgules qu'il contient

cuts ➤ ['12', '23', '"toto titi"', '34', '45', '"tata tutu"', '56', '67', '"x', 'y', 'z"', '78', '89']


La chaîne **`"x, y, z"`** a été découpée en **`['"x', 'y', 'z"']`** car elle contient également des virgules. Le problème vient du fait que **`split`** n'est pas capable de différencier les virgules qui se trouvent entre guillemets (qui font partie de la donnée à récupérer) et les virgules qui se trouvent en dehors des guillemets (qui servent de séparateurs).

A nouveau, la flexibilité des expressions régulières pour identifier des motifs va permettre de distinguer facilement les deux catégories de virgules, à l'intérieur ou à l'extérieur des guillemets. Les expressions à écrire sont néanmoins plus complexes que dans l'exemple précédent car il faut être capable d'identifier pour chaque virgule rencontrée, si on se trouve à l'intérieur ou à l'extérieur d'une zone encadrée par des guillemets, pour savoir comment la traiter :

In [42]:
cut = r',\s*(?=(?:[^"]|"[^"]*")*$)' # motif permettant de différencier les ',' internes ou externes aux '"'

cuts = re.split(cut, test) # on segmente la chaîne de test selon le motif défini par 'cut'
show("cuts") # l'élément "x, y, z" est bien identifié comme une donnée monolithique

cuts ➤ ['12', '23', '"toto titi"', '34', '45', '"tata tutu"', '56', '67', '"x, y, z"', '78', '89']


Le principe utilisé ici consiste à chercher, chaque fois que l'on rencontre une virgule, si le nombre de guillemets qui restent jusqu'à la fin de la chaîne est pair ou impair. Si ce nombre est pair, cela signifie que la virgule est à l'extérieur des guillemets, et s'il est impair, cela signifie que la virgule est à l'intérieur des guillements. Evidemment, ce fonctionnement suppose que la chaîne a été correctement constituée, avec un nombre total de guillemets qui soit pair, sinon l'algorithme va inverser les deux catégories de guillemets, et ne produira pas le résultat attendu.

---
### 6 - Conversion entre formats de fichiers

Le dernier exemple d'utilisation des fonctionnalités du module **`re`** va consister à résoudre un problème assez classique en Science des Données : convertir un fichier de données au format exotique, voire totalement inconnu, vers un format standard afin de pouvoir facilement récupérer et utiliser les données qu'il contient. On va prendre l'exemple du format [**GML**](https://en.wikipedia.org/wiki/Graph_Modelling_Language) ***(Graph Modeling Language)***, un ancien format pour le stockage de graphes, utilisé vers le milieu des années 1990 et qui n'a pas survécu à la concurrence (il faut savoir qu'il existe à ce jour près d'une centaine de formats de fichiers différents qui ont été spécifiquement créés pour stocker des graphes, donc la concurrence est rude).

Un fichier GML est un fichier texte, initialement prévu pour être encodé en ASCII, mais qui supporte évidemment l'extension à l'encodage Unicode. Comme le montre le lien Wikipedia ci-dessus, le fichier possède une [**syntaxe de forme libre**](https://en.wikipedia.org/wiki/Free-form_language), ce qui signifie que ***les espaces et les retours à la ligne n'ont pas de sémantique spécifique***, mais sont uniquement présents pour améliorer la compacité ou, à l'inverse, la lisibilité du fichier. Un exemple de fichier GML se trouve dans le dossier **`TEST`** et son contenu peut être facilement récupéré par la fonction **`load`** :

In [43]:
gml = load('TEST/test-GML.gml','') # lecture du contenu du fichier GML en chaîne brute
show("gml#") # le fichier contient des commentaires, ainsi que 3 types de blocs (graph, node, edge)

gml ➤
# Demo file for the GML (Graph Modeling Language) format
# Note : whitespaces and newlines are not meaningful

# 'graph' blocks define all global graph properties
graph [
  title "demo graph"
  directed 1

# 'node' blocks define all properties for one node
node [id 1 label "A1" x 100 y 300 cluster "A"]
node [id 2 label "A2" x 200 y 300 cluster "A"]
node [id 3 label "A3" x 150 y 200 cluster "A"]

# 'edge' blocks define all properties for one edge
edge [source 1 target 2 label "aa"]
edge [source 2 target 3 label "aa"]
edge [source 3 target 1 label "aa"]

node [id 4 label "B1" x 300 y 300 cluster "B"]
node [id 5 label "B2" x 400 y 300 cluster "B"]
node [id 6 label "B3" x 350 y 200 cluster "B"]
edge [source 4 target 5 label "bb"]
edge [source 5 target 6 label "bb"]
edge [source 6 target 4 label "bb"]
edge [source 2 target 4 label "ab"]
edge [source 4 target 2 label "ab"]
edge [source 3 target 6 label "ab"]
edge [source 6 target 3 label "ab"]

node [id 7 label "XX" x 250 y 100 cluster

Comme on peut le constater, le fichier autorise des commentaires avec la même syntaxe que Python (un **`#`** en préfixe et un **`\n`** en suffixe) et les données sont organisées en série de blocs nommés **graph**, **node** ou **edge**, délimités par des crochets et regroupant une série de paires **clé valeur**, sans séparateur dédié, placés librement sur une ou plusieurs lignes.

Il n'est évidemment pas très compliqué d'écrire une fonction capable de lire le contenu du fichier pour regrouper les blocs dans des listes de dictionnaires, en s'inspirant de ce qui a été fait dans la section A. Néanmoins, il est généralement plus intéressant de convertir le fichier dans un format bien standardisé, car de cette manière, ce fichier pourra être utilisé dans de nombreuses applications, sans avoir à écrire de code supplémentaire.

Parmi les fichiers de données les plus simples à manipuler se trouve le format [**TOML**](https://toml.io/fr) ***(Tom's Obvious Minimal Language)***, format récent créé en 2021, mais qui par sa simplicité et sa lisibilité a connu une adoption fulgurante dans un grand nombre de domaines d'application. De la même manière que le format CSV est idéal pour le stockage des données matricielles, le format TOML est très pratique pour stocker des données avec une structure hétérogène ou hiérarchique.

Grâce aux expressions régulières, la conversion des fichiers GML en TOML peut s'effectuer en quelques lignes de code. Le processus se déroule globalement en quatre étapes :

- Une commande **`sub`** pour supprimer l'ensemble des commentaires dans le fichier initial
- Une commande **`sub`** pour fusionner tous les espaces et retours à la ligne adjacents en un espace unique
- Une commande **`findall`** pour extraire le contenu des différents blocs de données **graph**, **node** et **edge**
- Une commande **`sub`** pour convertir les paires clé-valeur dans le format TOML : **`key = val`**

In [44]:
def gml2toml(gml):
  """convert a GML string into a equivalent TOML string"""
  gml = re.sub(r'#.*', '', gml) # delete all comments (from '#' to end of line)
  gml = re.sub(r'\s+', ' ', gml) # merge all adjacent whitespaces into a single space
  gml = gml.replace('node ','] node ', 1) # insert closing ']' for 'graph' block before the first 'node'
  blocks = re.findall(r'(\S+)\s\[\s*(.*?)\s*\]', gml) # extract all named data blocks : 'name = [ data ]'
  items = dict(graph=[], node=[], edge=[]) # create empty dictionary for graph items
  for name, data in blocks: # loop over named data blocks and split into name and data
    pairs = re.sub(r'\s?(\S+)\s("[^"]*"|\S+)', r'\1 = \2, ', data) # generate 'key = val, ' pairs
    items[name].append(f"{{{pairs[:-2]}}}") # remove last comma and append pairs to list of items
  built = lambda key: f"{key} = [\n  {',\n  '.join(items[key])}\n]" # built TOML array for provided 'key'
  return '\n'.join(built(key) for key in ('graph','node','edge')) # return final TOML string

In [45]:
toml = gml2toml(gml) # conversion du fichier GML en TOML
show("toml#") # le fichier final contient 3 'array' contenant des 'inline tables', selon la syntaxe de TOML

toml ➤
graph = [
  {title = "demo graph", directed = 1}
]
node = [
  {id = 1, label = "A1", x = 100, y = 300, cluster = "A"},
  {id = 2, label = "A2", x = 200, y = 300, cluster = "A"},
  {id = 3, label = "A3", x = 150, y = 200, cluster = "A"},
  {id = 4, label = "B1", x = 300, y = 300, cluster = "B"},
  {id = 5, label = "B2", x = 400, y = 300, cluster = "B"},
  {id = 6, label = "B3", x = 350, y = 200, cluster = "B"},
  {id = 7, label = "XX", x = 250, y = 100, cluster = "X"}
]
edge = [
  {source = 1, target = 2, label = "aa"},
  {source = 2, target = 3, label = "aa"},
  {source = 3, target = 1, label = "aa"},
  {source = 4, target = 5, label = "bb"},
  {source = 5, target = 6, label = "bb"},
  {source = 6, target = 4, label = "bb"},
  {source = 2, target = 4, label = "ab"},
  {source = 4, target = 2, label = "ab"},
  {source = 3, target = 6, label = "ab"},
  {source = 6, target = 3, label = "ab"},
  {source = 7, target = 3, label = "xa", color = "(0,0,255)"},
  {source = 7, target = 6, 

Pour certains fichiers de données en mode texte, il est parfois utile de récupérer les commentaires contenus dans le fichier en plus des données. Selon la syntaxe utilisée pour stocker ces commentaires, cela ne nécessite souvent qu'une expression régulière de plus, lors de la conversion, pour extraire et rajouter ces commentaires dans le format de destination. Ici, c'est particulièrement simple puisque GML et TOML utilisent exactement la même syntaxe pour définir les commentaires :

In [46]:
def gml2toml(gml, keep=True):
  """convert a GML string into a TOML string, using boolean flag 'keep' to keep comments or not"""
  comments = re.findall(r'#.*', gml) if keep else [] # keep comments or not, according to the 'keep' flag
  gml = re.sub(r'#.*', '', gml) # delete all comments (from '#' to end of line)
  gml = re.sub(r'\s+', ' ', gml) # merge all adjacent whitespaces into a single space
  gml = gml.replace('node ','] node ', 1) # insert closing ']' for 'graph' block before the first 'node'
  blocks = re.findall(r'(\S+)\s\[\s*(.*?)\s*\]', gml) # extract all named data blocks : 'name = [ data ]'
  items = dict(graph=[], node=[], edge=[]) # create empty dictionary for graph items
  for name, data in blocks: # loop over named data blocks and split into name and data
    pairs = re.sub(r'\s?(\S+)\s("[^"]*"|\S+)', r'\1 = \2, ', data) # generate 'key = val, ' pairs
    items[name].append(f"{{{pairs[:-2]}}}") # remove last comma and append pairs to list of items
  built = lambda key: f"{key} = [\n  {',\n  '.join(items[key])}\n]" # built TOML array for provided 'key'
  return '\n'.join(comments + [built(key) for key in ('graph','node','edge')]) # return final TOML string

In [47]:
toml = gml2toml(gml) # conversion du fichier GML en TOML
show("toml#") # les commentaires du fichier GML sont intégralement transférés dans le fichier TOML

toml ➤
# Demo file for the GML (Graph Modeling Language) format
# Note : whitespaces and newlines are not meaningful
# 'graph' blocks define all global graph properties
# 'node' blocks define all properties for one node
# 'edge' blocks define all properties for one edge
# most blocks are single-line
# but multi-line blocks are allowed, if you prefer
# property values may be strings, ints or floats
# non-int or non-float values must be encoded as strings
graph = [
  {title = "demo graph", directed = 1}
]
node = [
  {id = 1, label = "A1", x = 100, y = 300, cluster = "A"},
  {id = 2, label = "A2", x = 200, y = 300, cluster = "A"},
  {id = 3, label = "A3", x = 150, y = 200, cluster = "A"},
  {id = 4, label = "B1", x = 300, y = 300, cluster = "B"},
  {id = 5, label = "B2", x = 400, y = 300, cluster = "B"},
  {id = 6, label = "B3", x = 350, y = 200, cluster = "B"},
  {id = 7, label = "XX", x = 250, y = 100, cluster = "X"}
]
edge = [
  {source = 1, target = 2, label = "aa"},
  {source = 2, ta

<h2 style="padding:16px; color:#FFF; background:#06D">C - Package 'BeautifulSoup'</h2>

Comme on l'a noté dans la section A, lorsque les données à récupérer dans une page HTML sont regroupées dans une balise **`<table>...</table>`**, la fonction **`read_html`** de **pandas** est parfaitement adaptée. Parfois, il faut effectuer quelques manipulations en post-traitement pour supprimer ou réorganiser certaines colonnes, mais cela ne nécessite habituellement pas plus de 2 ou 3 lignes de code. Par contre, lorsque les données ne sont pas structurées sous forme d'une tables HTML, mais en utilisant des combinaisons de balises **`<div>...</div>`** et **`<span>...</span>`**, il faudra utiliser des packages spécialement développés pour effectuer un ***web scraping*** finement paramétrable. De même, lorsque les données sont réparties sur de nombreuses pages au sein d'un même site, il faudra mettre en oeuvre des outils automatiques pour réaliser le ***web crawling*** afin de ne pas devoir récupérer les données manuellement, page par page.

Il existe trois principales bibliothèques en Python pour effectuer ce type de tâches : [**BeautifulSoup**](https://beautiful-soup-4.readthedocs.io/en/latest), [**Scrapy**](https://docs.scrapy.org/en/latest) et [**Selenium**](https://selenium-python.readthedocs.io). Dans cette section, nous allons simplement explorer quelques fonctionnalités de **BeautifulSoup** qui est le plus simple à mettre en oeuvre parmi ces trois packages. Pour certaines extractions de données avancées, vous serez peut-être amenés à utiliser les deux autres, c'est pour cela que j'ai mis les liens vers la documentation correspondante sur le site **ReadTheDocs**.

Le package **`BeautifulSoup`** ne fait pas partie de la bibliothèque standard de Python, et nécessite donc une installation spécifique à l'aide de l'outil **`pip`**. Toutefois, sa très grande popularité dans le domaine des Sciences des Données, fait qu'il est directement inclus dans la distribution **Anaconda**. A l'inverse, les packages **Scrapy** et **Selenium** ne sont pas installés par défaut avec **Anaconda**, du fait de leur utilisation plus spécialisée.

In [48]:
from bs4 import BeautifulSoup as bs # import de la fonction 'BeautifulSoup' avec alias 'bs'

---
### 1 - Mise en oeuvre du ***web scraping***

Pour tester les fonctionnalités de la bibliothèque, on va utiliser le site **quotes.toscrape.com** qui regroupe de nombreuses citations de personnes célèbres, et qui a été conçu comme un site d'entraînement pour les techniques de ***web scraping***.

La première étape consiste à récupérer le code source HTML de la page, avec la fonction **`load`** :

In [49]:
url = 'https://quotes.toscrape.com' # dictionnaire de citations

html = load(url, split='') # lecture du code source de la page HTML
print(html[723:1142]) # affichage d'un extrait de la page pour comprendre la structure utilisée

    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
        <span>by <small class="author" itemprop="author">Albert Einstein</small>
        <a href="/author/Albert-Einstein">(about)</a>
        </span>
        <div class="tags">


Ensuite, on transmet ce code à la fonction **`bs`** en lui précisant de l'analyser avec un **parser** HTML (**BeautifulSoup** peut également s'utiliser sur du code XML). La fonction renvoie une structure appelée **`soup`** qui contient, en plus du code brut, des informations hiérarchiques sur les différentes balises utilisées dans ce code.

In [50]:
soup = bs(html, 'html.parser') # on transforme le code HTML en "soupe" avec la fonction 'bs'
print(str(soup)[490:868]) # les lignes ont été 'stripées', donc il faut ajuster la position de l'extrait

<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">


En analysant le code HTML (on n'a mis qu'un petit extrait ci-dessus pour économiser de la place), on constate que chaque citation est structurée de manière similaire :
- Toutes les données d'une même citation sont placées derrière une balise **`<div class="quote"...>`**
- Le texte de la citation est placée derrière une balise **`<span class="text"...>`**
- L'auteur de la citation est placée derrière une balise **`<small class="author"...>`**

On peut donc fournir ces indications aux fonctions de **BeautifulSoup** pour qu'elles puissent effectuer l'extraction des données souhaitées :

In [51]:
for quote in soup.find_all('div', class_='quote'): # parcours de toutes les balises <div class='quote'>
  text = quote.find('span', class_='text').text # extraction de la balise <span class='text'>...</span>
  author = quote.find('small', class_='author').text # idem pour <small class='author'>...</small>
  print(f"● {text} ({author})") # affichage de la citation récupérée

● “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.” (Albert Einstein)
● “It is our choices, Harry, that show what we truly are, far more than our abilities.” (J.K. Rowling)
● “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.” (Albert Einstein)
● “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.” (Jane Austen)
● “Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.” (Marilyn Monroe)
● “Try not to become a man of success. Rather become a man of value.” (Albert Einstein)
● “It is better to be hated for what you are than to be loved for what you are not.” (André Gide)
● “I have not failed. I've just found 10,000 ways that won't work.” (Thomas A. Edison)
● “A woman is like a tea bag; you never know how strong it is until it's in hot wate

---
### 2 - Mise en oeuvre du ***web crawling***

En analysant le code HTML plus finement, on peut identifier à la fin de chaque page, un lien permettant de se rendre à la page suivante. On peut donc utiliser ce lien pour faire un **web crawling** sur l'ensemble du site, et récupérer ainsi toutes les citations, ou comme on va le faire ci-dessous, établir un classement du nombre de citations par auteur :

In [52]:
base = url = 'https://quotes.toscrape.com/' # stockage de l'URL de base, afin de construire chaque URL
histo = {} # initialisation d'un histogramme pour compter les citations par auteur
while url: # boucle sur les différentes pages du site
  html = load(url, split='') # lecture du code HTML de la page courante
  soup = bs(html, 'html.parser') # conversion du code HTML en "soupe"
  for quote in soup.find_all('div', class_='quote'): # parcours des balises <div class='quote'>
    author = quote.find('small', class_='author').text # idem pour <small class='author'>...</small>
    histo[author] = histo.get(author,0) + 1 # mise à jour de l'histogramme
    newpage = soup.find('li', class_='next') # recherche du lien vers la page suivante
    url = base + newpage.find('a')['href'] if newpage else '' # mise à jour de l'URL pour la page suivante
for name,n in sorted(histo.items(), key=lambda x:(-x[1],x[0])): print(name, ':', n, end=' / ')

Albert Einstein : 10 / J.K. Rowling : 9 / Marilyn Monroe : 7 / Dr. Seuss : 6 / Mark Twain : 6 / C.S. Lewis : 5 / Jane Austen : 5 / Bob Marley : 3 / Charles Bukowski : 2 / Eleanor Roosevelt : 2 / Ernest Hemingway : 2 / George R.R. Martin : 2 / Mother Teresa : 2 / Ralph Waldo Emerson : 2 / Suzanne Collins : 2 / Alexandre Dumas fils : 1 / Alfred Tennyson : 1 / Allen Saunders : 1 / André Gide : 1 / Ayn Rand : 1 / Charles M. Schulz : 1 / Douglas Adams : 1 / E.E. Cummings : 1 / Elie Wiesel : 1 / Friedrich Nietzsche : 1 / Garrison Keillor : 1 / George Bernard Shaw : 1 / George Carlin : 1 / George Eliot : 1 / Harper Lee : 1 / Haruki Murakami : 1 / Helen Keller : 1 / J.D. Salinger : 1 / J.M. Barrie : 1 / J.R.R. Tolkien : 1 / James Baldwin : 1 / Jim Henson : 1 / Jimi Hendrix : 1 / John Lennon : 1 / Jorge Luis Borges : 1 / Khaled Hosseini : 1 / Madeleine L'Engle : 1 / Martin Luther King Jr. : 1 / Pablo Neruda : 1 / Stephenie Meyer : 1 / Steve Martin : 1 / Terry Pratchett : 1 / Thomas A. Edison : 

<h2 style="padding:16px; color:#FFF; background:#06D">D - Package 'requests'</h2>

Lorsque l'interaction avec le serveur web nécessite plus de paramètres que la simple lecture d'une page web, l'association **`load + fetch + pandas|re|bs`** ne suffit pas toujours. Dans ces cas, il faut envisager des outils plus évolués, tels que la bibliothèque [**requests**](https://requests.readthedocs.io), capables d'effecter des requêtes HTTP plus complexes. Le package **requests** ne fait pas partie de la bibliothèque standard de Python, et nécessite donc une installation à l'aide de l'outil **`pip`**. Mais comme les autres packages très populaires dans le domaine des Sciences des Données, il est directement installé avec la distribution **Anaconda**.

La plus-value principale de **requests** par rapport à la fonction **`load`** est la possibilité de gérer de manière fine les deux types de commandes impliquées dans le protocole HTTP : la commande **GET** pour récupérer des informations et la commande **POST** pour envoyer des informations. Voici quelques exemples d'utilisation :

In [53]:
import requests as rq # import du package 'requests' avec alias 'rq'

---
### 1 - Utilisation des requêtes GET

Pour simplifier l'utilisation des requêtes GET avec la bibliothèque **requests**, on va créer une fonction **`url_get`** qui va regrouper la séquence des opérations habituellement utilisées dans ce type de requête :

In [54]:
def url_get(url, **args):
  """apply GET request on provided URL, using optional arguments stored as arbitrary keyword arguments"""
  headers = {'User-Agent':'Mozilla/5.0'} # use Mozilla/Firefox user agent (anti-scraping filter)
  data = rq.get(url, headers=headers, params=args) # connect to provided URL and try to get data
  data.raise_for_status() # raise HTTPError exception when connection error or server error
  return data.json() # return data in JSON format when status is OK

On teste le principe des requêtes GET sur le site **`quotable.io/random`** qui est un générateur de citations aléatoires. A chaque requête GET qu'on envoie au site, il retourne une chaîne de caractères au format JSON qui contient une citation choisie aléatoirement, accompagnée de diverses informations complémentaire sur cette citation.

Dans une première version, on va utiliser la combinaison entre les fonctions **`load`** et **`eval`** comme on l'a fait dans la section A, pour récupérer et décoder la chaîne JSON retournée par le site :

In [55]:
url = 'http://api.quotable.io/random' # générateur de citations aléatoires

json = load(url, split='') # lecture au format brut des données renvoyées par le site
show("json;") # les données sont formatées sous la forme d'une chaîne JSON multi-lignes

json = eval(json,{},{}) # conversion de la chaîne JSON en dictionnaire avec la fonction 'eval'
print(f"● {json['content']} ({json['author']})") # extraction des champs 'content' et 'author'

json ➤ {"_id":"FMZiiLHfCOc","content":"America's freedom of religion, and freedom from religion, offers every wisdom tradition an opportunity to address our soul-deep needs: Christianity, Judaism, Islam, Buddhism, Hinduism, secular humanism, agnosticism and atheism among others.","author":"Parker Palmer","tags":["Wisdom","Freedom"],"authorSlug":"parker-palmer","length":240,"dateAdded":"2021-03-08","dateModified":"2023-04-14"}

● America's freedom of religion, and freedom from religion, offers every wisdom tradition an opportunity to address our soul-deep needs: Christianity, Judaism, Islam, Buddhism, Hinduism, secular humanism, agnosticism and atheism among others. (Parker Palmer)


Dans une seconde version, grâce à l'utilisation de la fonction **`url_get`**, le processus va être grandement simplifié :

In [56]:
json = url_get(url) # lecture des données et stockage directement sous la forme d'un dictionaire
print(f"● {json['content']} ({json['author']})") # extraction des champs 'content' et 'author'

● In action a great heart is the chief qualification. In work, a great head. (Arthur Schopenhauer)


---
L'intérêt principal des requêtes GET, est qu'elles permettent à l'utilisateur de transmettre des paramètres pour affiner sa demande. Cela peut s'effectuer de deux manières :

- soit on complète l'URL en rajoutant un motif de la forme **`?key=value&key=value&...`** pour fournir un certain nombre de couples ***(key,value)*** à la requête
- soit on transmet directement ces couples à la fonction qui effectue la requête sous la forme de paramètres nommés **`key=value, key=value,...`**

La première option est moins confortable car elle nécessite de gérer spécifiquement les caractères qui peuvent empêcher la bonne construction de l'URL : un certain nombre de caractères sont interdits par la norme, par exemple **`/ & % =`**, le plus gênant étant l'interdiction du caractère espace qui doit être remplacé par la séquence **`%20`** . Mais c'est la seule option disponible lorsqu'on utilise la fonction **`load`** :

In [57]:
# on construit l'URL pour inclure les deux contraintes : 5 citations dont l'auteur est Confucius
url = 'http://api.quotable.io/quotes?limit=5&author=Confucius'

json = load(url, split='') # lecture au format brut des données renvoyées par le site
show("json;") # les données (complexes) sont formatées sous la forme d'une chaîne JSON multi-lignes

json = eval(json,{},{}) # conversion de la chaîne JSON en dictionnaire avec la fonction 'eval'
for quote in json['results']: # les citations sont regroupées sous la clé 'results' du dictionnaire
  print(f"● {quote['content']} ({quote['author']})") # extraction des champs 'content' et 'author'

json ➤ {"count":5,"totalCount":44,"page":1,"totalPages":9,"lastItemIndex":5,"results":[{"_id":"nH5op9VWSA5","author":"Confucius","content":"The superior man understands what is right; the inferior man understands what will sell.","tags":["Business"],"authorSlug":"confucius","length":88,"dateAdded":"2022-07-06","dateModified":"2023-04-14"},{"_id":"6Kl3UT6ULk","content":"Wisdom, compassion, and courage are the three universally recognized moral qualities of men.","author":"Confucius","tags":["Wisdom"],"authorSlug":"confucius","length":92,"dateAdded":"2021-05-12","dateModified":"2023-04-14"},{"_id":"Oh-e1-oygRPX","content":"To be wronged is nothing unless you continue to remember it.","author":"Confucius","tags":["Wisdom"],"authorSlug":"confucius","length":60,"dateAdded":"2021-05-12","dateModified":"2023-04-14"},{"_id":"LPtv5gxsvhsr","content":"If you look into your own heart, and you find nothing wrong there, what is there to worry about? What is there to fear?","author":"Confucius","tag

La seconde option est beaucoup plus simple à mettre en oeuvre avec la fonction **`url_get`** :

In [58]:
url = 'http://api.quotable.io/quotes' # URL de base (pas la peine d'y inclure les paramètres)

json = url_get(url, limit=5, author='Confucius') # inclusion des deux contraintes dans la requête GET
for quote in json['results']: # les citations sont regroupées sous la clé 'results' du dictionnaire
  print(f"● {quote['content']} ({quote['author']})") # extraction des champs 'content' et 'author'

● The superior man understands what is right; the inferior man understands what will sell. (Confucius)
● Wisdom, compassion, and courage are the three universally recognized moral qualities of men. (Confucius)
● To be wronged is nothing unless you continue to remember it. (Confucius)
● If you look into your own heart, and you find nothing wrong there, what is there to worry about? What is there to fear? (Confucius)
● Study the past, if you would divine the future. (Confucius)


Le même mécanisme de requêtes GET permet, par exemple, d'utiliser des traducteurs automatiques. On utilise ici le site **`mymemory.translate.net`** qui, certes ne fournit pas les traductions les plus précises, mais possède l'avantage de pouvoir être utilisé sans abonnement, et même sans créer de compte utilisateur spécifique :

In [59]:
def translate(text, pair='en|fr'):
  """translate provided text in another language according to 'pair' (english to french, by default)"""
  url = 'https://api.mymemory.translated.net/get' # set URL for translation website
  json = url_get(url, q=text, langpair=pair) # set parameters of GET request used for translation
  return json['responseData']['translatedText'] # extract and return translated text

In [60]:
for quote in json['results']:
  print(f"● {translate(quote['content'])} ({quote['author']})") # traduction de chaque citation

● L'homme supérieur comprend ce qui est juste ; l'homme inférieur comprend ce qui se vendra. (Confucius)
● La sagesse, la compassion et le courage sont les trois qualités morales universellement reconnues des hommes. (Confucius)
● Être lésé n'est rien à moins que vous ne continuiez à vous en souvenir. (Confucius)
● Si vous regardez dans votre propre cœur, et que vous ne trouvez rien de mal là-dedans, de quoi s'inquiéter ? Qu'y a-t-il à craindre ? (Confucius)
● Étudiez le passé, si vous voulez deviner l'avenir. (Confucius)


---
### 2 - Utilisation des requêtes POST

Comme on l'a fait plus haut pour les requêtes GET, on va créer une fonction **`url_post`** qui va permettre de regrouper la séquence des opérations habituellement utilisées dans une requête POST :

In [61]:
def url_post(url, **args):
  """apply POST request on provided URL, using optional arguments stored as arbitrary keyword arguments"""
  headers = {'User-Agent':'Mozilla/5.0'} # use Mozilla/Firefox user agent (anti-scraping filter)
  data = rq.post(url, headers=headers, data=args) # connect to provided URL and try to get data
  data.raise_for_status() # raise HTTPError exception when connection or server error
  return data.json() # return data in JSON format when status is OK

Une des utilisations les plus classiques des requêtes POST, est de pouvoir fournir à un site d'accès restreint, les paramètres de son compte utilisateur : **nom de login** et **mot de passe**. On peut tester ce mécanisme sur le site **reqres.in** qui est un service en ligne permettant d'expérimenter diverses requêtes HTTP :

In [62]:
url = 'https://reqres.in/api/login' # test de connexion avec identification

credentials = dict(email='eve.holt@reqres.in', password='p@$$w0RD!') # paramètres de connexion
json = url_post(url, **credentials) # inclusion du dictionnaire des paramètres dans la requête POST
show("json;") # le site renvoie un JSON contenant un token unique pour chaque compte utilisateur valide

json ➤ {'token': 'QpwL5tke4Pnpja7X4'}



Les requêtes POST permettent de transmettre des données arbitrairement complexes à un site web, sous la forme d'une chaîne de caractères au format JSON. Cette chaîne peut évidemment être cryptée si on doit transmettre des informations sensibles. Ce principe est utilisé, par exemple, sur tous les sites de vente en ligne, et plus généralement sur tous les sites nécessitant une authentification par l'utilisateur.

A titre d'exemple, on va utiliser le site **Open-Meteo.com** pour obtenir les prévisions météo à 7 jours sur Bordeaux :

In [63]:
url = 'https://api.open-meteo.com/v1/forecast' # open-meteo = site de prévisions météo

queries = 'temperature_2m_min temperature_2m_max windspeed_10m_max'.split() # données à récupérer
json = url_post(url, latitude=44.84, longitude=-0.56, daily=queries) # inclusion des trois paramètres
show("json;") # les données (complexes) sont formatées sous la forme d'un dictionnaire JSON

data = [json['daily'][query] for query in ['time']+queries] # extraction des données souhaitées
for date, tmin, tmax, wind in zip(*data): # boucle d'affichage
  print(f"● {date} : min = {tmin:4} °C / max = {tmax:4} °C / wind = {wind:4} km/h")

json ➤ {'latitude': 44.84, 'longitude': -0.5600002, 'generationtime_ms': 0.08273124694824219, 'utc_offset_seconds': 0, 'timezone': 'GMT', 'timezone_abbreviation': 'GMT', 'elevation': 11.0, 'daily_units': {'time': 'iso8601', 'temperature_2m_min': '°C', 'temperature_2m_max': '°C', 'windspeed_10m_max': 'km/h'}, 'daily': {'time': ['2025-04-10', '2025-04-11', '2025-04-12', '2025-04-13', '2025-04-14', '2025-04-15', '2025-04-16'], 'temperature_2m_min': [10.5, 12.5, 13.8, 11.3, 9.3, 10.6, 8.9], 'temperature_2m_max': [23.8, 24.9, 20.4, 14.7, 15.8, 16.6, 14.0], 'windspeed_10m_max': [15.3, 17.2, 18.9, 11.0, 11.5, 15.9, 23.1]}}

● 2025-04-10 : min = 10.5 °C / max = 23.8 °C / wind = 15.3 km/h
● 2025-04-11 : min = 12.5 °C / max = 24.9 °C / wind = 17.2 km/h
● 2025-04-12 : min = 13.8 °C / max = 20.4 °C / wind = 18.9 km/h
● 2025-04-13 : min = 11.3 °C / max = 14.7 °C / wind = 11.0 km/h
● 2025-04-14 : min =  9.3 °C / max = 15.8 °C / wind = 11.5 km/h
● 2025-04-15 : min = 10.6 °C / max = 16.6 °C / wind = 1

<h2 style="padding:16px; color:#FFF; background:#06D">E - Package 'sqlite3'</h2>

Les [**bases de données relationnelles**](https://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es_relationnelle) (**BDR**) représentent, sans contestation possible, la plus ancienne structure informatique permettant de stocker, organiser et manipuler des données arbitraires. Le principe des BDR, qui s'appuient sur le [**modèle relationnel**](https://fr.wikipedia.org/wiki/Mod%C3%A8le_relationnel) formalisé par E. Codd dans les années 1960, est de stocker les informations dans des ***tables à deux dimensions***, dont les lignes représentent des enregistrements et les colonnes des attributs. Au lieu de stocker l'intégralité des données dans une même table, celles-ci sont réparties sur ***plusieurs tables mises en relation grâce à des clés*** permettant d'identifier de manière unique chaque enregistrement dans une table et de garantir la cohérence et la cohésion des données.

Les systèmes de gestion de bases de données relationnelles ***(SGBDR)*** existent sous deux formes principales :

- les ***BDR mono-utilisateur*** pour lesquelles le créateur, le gestionnaire et l'utilisateur de la base de données est la même personne et pour lesquelles l'architecture est souvent monolithique (soit un fichier unique pour l'ensemble de la base, soit un dossier unique dans une arborescence de fichiers, locale ou distante)

- les ***BDR multi-utilisateurs*** pour lesquelles il existe un mécanisme de comptes utilisateurs et de droits d'accès, similaire à ce qui existe sur d'autres environnements informatiques (système d'exploitation, espaces numériques de travail, réseaux sociaux...) et pour lesquelles l'architecture est systématiquement organisée avec un paradigme client-serveur (le client s'exécute sur le poste de travail de l'utilisateur alors que le serveur s'exécute sur une machine distante)

Les BDR sont indissociables du langage [**SQL**](https://fr.wikipedia.org/wiki/Structured_Query_Language) ***(Structured Query Language)*** créé en 1974 qui permet de créer, d'éditer et surtout d'interroger les BDR par l'écriture de **requêtes** ***(query)***. SQL est un langage de requêtes, ce qui le situe dans une position intermédiaire : il est plus restreint qu'un langage de programmation (par exemple, SQL ne permet pas créer de fonction ou d'effectuer des boucles), mais plus puissant qu'un langages de description (par exemple, SQL permet d'évaluer des expressions arithmétiques ou conditionnelles, de créer des variables et de leur affecter des valeurs...)

**Remarque importante :** Comme pour les langages de description HTML/CSS et LaTeX évoqués au chapitre 1, maîtriser le langage de requêtes SQL pour pouvoir extraire des informations d'une BD relationnelle est une compétence indispensable pour toute personne travaillant dans le domaine des Sciences des Données. Si vous n'avez pas eu de formation sur ce thème durant votre cursus universitaire, ***il est fortement conseillé de suivre une auto-formation*** (même succinte) pour apprendre les éléments de base. Voici quelques pointeurs sur des tutos en ligne ou des mémos à télécharger, plutôt bien faits :

> ***Tutos et Mémos SQL :***
> [**W3schools**](https://www.w3schools.com/sql) ●
  [**SQLTutorial**](https://www.sqltutorial.org) ●
  [**Mémo DataQuest**](https://www.labri.fr/perso/schlick/outinfo/PDF/TutoSQL.pdf) ●
  [**Mémo SQLTutorial**](https://www.labri.fr/perso/schlick/outinfo/PDF/MemoSQL.pdf)

---
### 1 - SQL et SQLite

Le module **`sqlite3`** inclus dans la bibliothèque standard de l'environnement Python permet d'interagir avec des bases de données mono-utilisateur au format [**SQLite**](https://www.sqlite.org). Il fournit une interface simple pour créer, manipuler et interroger des bases de données relationnelles sans nécessiter de serveur externe, via un simple fichier stocké localement. Malgré la proximité de leur dénomination, il est important de bien différencier les deux termes **SQL** et **SQLite** :

- **SQL** est un ***langage de requêtes*** qui est devenu le standard quasiment universel pour l'interaction avec toutes les applications SGBDR existantes : [**Oracle**](https://fr.wikipedia.org/wiki/Oracle_Database), [**PostgresSQL**](https://fr.wikipedia.org/wiki/PostgreSQL), [**SQL Server**](https://fr.wikipedia.org/wiki/Microsoft_SQL_Server), [**MySQL**](https://fr.wikipedia.org/wiki/MySQL), [**MariaDB**](https://fr.wikipedia.org/wiki/MariaDB), et bien d'autres...

- **SQLite** est à la fois un ***format de fichier binaire*** permettant d'encoder de manière compacte dans un fichier unique, l'ensemble des tables utilisée par une BD relationnelle, ainsi qu'une ***API multi-langage*** permettant d'interagir avec ce fichier binaire via le langage SQL, comme le fait un SGBDR classique

Comme la quasi-totalité des fonctionnalités d'une base SQLite sont assurées par les commandes SQL écrites par l'utilisateur, le module **sqlite3** est particulièrement léger puisqu'il se réduit à une demi-douzaine de fonctions :

- **`connect`** : Établit une connexion avec une base de données SQLite
- **`cursor`** : Crée un curseur pour exécuter des requêtes SQL
- **`execute`** / **`executemany`** : Exécute des requêtes SQL simples ou multiples
- **`fetchone`** / **`fetchall`** : Récupère les résultats des requêtes SQL simples ou multiples
- **`commit`** / **`rollback`** : Valide ou annule les transactions en cours
- **`close`** : Ferme la connexion à la base de données SQLite

Pour simplifier encore la mise en oeuvre du module, comme on l'avait fait avec le module **requests**, on va créer des fonctions utilitaires permettant de regrouper les séquences habituelles des opérations utilisées pour manipuler une base de données :

- La fonction **`sql_info(dbname)`** permet d'afficher les informations concernant la structure de la base **`dbname`** : le nom des différentes tables et pour chaque table, le nom et le type de chaque colonne

- La fonction **`sql_script(dbname, sqlname)`** permet d'appliquer séquentiellement à la base **`dbname`** toutes les commandes SQL se trouvant dans le fichier script **`sqlname`**

- La fonction **`sql_query(dbname, query)`** permet d'appliquer à la base **`dbname`** une requête SQL **`query`** et d'afficher le résultat retourné sous la forme d'une table convertie en Markdown

In [64]:
import sqlite3 as sql # import du module standard 'sqlite3' avec alias 'sql'

In [65]:
def sql_info(dbname):
  """show information about the structure of the 'dbname' database"""
  # when leaving the 'with' context, db.commit() and db.close() are called automatically
  with sql.connect(dbname) as db: # connect to database within a safe context
    cs = db.cursor() # create cursor for SQL commands
    master = 'sqlite-master'.replace('-','_') # use fake name to prevent '403 access denied' from server
    cs.execute(f"SELECT name FROM {master} WHERE type='table';" # send query for table namess
    tables = [row[0] for row in cs.fetchall()] # get table names
    for table in tables: # loop over tables
      cs.execute(f"PRAGMA table_info({table})"); info = cs.fetchall() # get table information
      cs.execute(f"SELECT COUNT(*) FROM {table}"); rows = cs.fetchone() # get number of rows
      print(f"● Table : name = {table} / size = {rows[0]} rows x {len(info)} cols")
      print('  ' + ' / '.join(f"{name}:{dtype.lower()}" for _,name,dtype,*_ in info))

def sql_script(dbname, sqlname):
  """apply all SQL commands from the script 'sqlname' on the 'dbname' database"""
  folder = dbname[:dbname.rfind('/')+1] # get folder name from 'dbname'
  script = load(folder + sqlname, '') # load script from provided SQL filename
  print(f"● Script : name = {sqlname!r} / lines = {len(script)} / SQL commands = {script.count(';')}")
  with sql.connect(dbname) as db: # connect to database within a safe context
    cs = db.cursor() # create cursor for SQL commands
    cs.executescript(script) # run all SQL commands from script

def sql_query(dbname, query):
  """apply SQL 'query' on the 'dbname' database and display returned data as a Markdown table"""
  md, header = [], f"```sql\n{query}\n```\n" # add SQL query in markdown list
  with sql.connect(dbname) as db: # connect to database within a safe context
    cs = db.cursor() # create cursor for SQL commands
    cs.execute(query); result = cs.fetchall() # send query and get result
    md.append('|'.join(desc[0] for desc in cs.description)) # add column names in markdown list
    md.append('|'.join([':--:']*len(cs.description)))
  md.extend(['|'.join(str(col) for col in row) for row in result]) # add rows up to 'limit'
  dp.display(dp.Markdown(f"{header}\n|{'|\n|'.join(md)}|"))

Les paragraphes suivants vont permettre d'illustrer l'utilisation du module **sqlite3** sur un exemple concret : une base de données **`hotels.db`** permettant la gestion des réservations de chambres au sein d'un groupe hôtelier

---
### 2 - Création de la structure de la base de données

La première étape de la gestion d'une BDR consiste à ***définir sa structure***, c'est-à-dire de spécifier le nombre et le nom des tables, le nombre et le nom des colonnes de chaque table, ainsi que les types de données associés à chaque colonne. Cette étape utilise un sous-ensemble du langage SQL, appelé **Data Definition Language** ***(DDL)***, qui regroupe les commandes de création et d'édition de la structure d'une base de données :

<center><b>Commandes DDL : <tt>CREATE, DROP, ALTER, TRUNCATE, PRAGMA, KEY, CONSTRAINT, REFERENCES, ...</tt></b></center><br>

Lorsqu'on travaille avec **sqlite3**, une pratique habituelle est de créer un fichier script qui va regrouper toutes les commandes DDL permettant de définir la structure de l'ensemble des tables. Dans le cas de la base **`hotels.db`** que l'on souhaite créer, on fournit un script SQL, appelée **`hotels-base.sql`**, qui contient l'ensemble de ces commandes DDL :

In [66]:
base = load('TEST/hotels-base.sql','') # lecture du fichier SQL au format brut (= chaîne multi-lignes)
print(cutcut(base, 9)) # affichage des 9 premières et 9 dernières lignes du fichier, avec 'cutcut'

-- HOTELS ---------------------------------------------------------------------
DROP TABLE IF EXISTS hotels;
CREATE TABLE hotels (
  IDhotel INTEGER PRIMARY KEY,
  city TEXT NOT NULL,
  name TEXT NOT NULL,
  stars INTEGER,
  CONSTRAINT UQname_city UNIQUE (name, city)
);
●  ●  ●
  REFERENCES rooms(IDroom, IDhotel) ON DELETE CASCADE,
  CONSTRAINT FKclient FOREIGN KEY (IDclient)
  REFERENCES clients(IDclient) ON DELETE CASCADE,
  CONSTRAINT FKhotel FOREIGN KEY (IDhotel)
  REFERENCES hotels(IDhotel) ON DELETE CASCADE,
  CONSTRAINT CKdates CHECK (arrival < departure)
);

PRAGMA foreign_keys = ON; -- Activate FOREIGN KEY for all tables


Les commandes SQL figurant dans ce script **`hotels-base.sql`** vont être exécutées par la fonction **`sql_script`** définie plus haut, ce qui va créer un fichier **`hotels.db`** (fichier binaire au format SQLite) regroupant les différentes tables :

In [67]:
sql_script('TEST/hotels.db', 'hotels-base.sql') # application des commandes SQL du script 'hotels-base.sql'

● Script : name = 'hotels-base.sql' / lines = 2195 / SQL commands = 11


La fonction **`sql_info`**, également définie plus haut, permet de visualiser le détail des tables créées :

In [68]:
sql_info('TEST/hotels.db') # affichage de la structure de la base après création

● Table : name = hotels / size = 0 rows x 4 cols
  IDhotel:integer / city:text / name:text / stars:integer
● Table : name = clients / size = 0 rows x 3 cols
  IDclient:integer / name:text / forename:text
● Table : name = rooms / size = 0 rows x 5 cols
  IDroom:integer / IDhotel:integer / floor:integer / type:text / price:real
● Table : name = sellings / size = 0 rows x 6 cols
  IDselling:integer / IDclient:integer / IDhotel:integer / IDroom:integer / arrival:date / departure:date
● Table : name = bookings / size = 0 rows x 6 cols
  IDbooking:integer / IDclient:integer / IDhotel:integer / IDroom:integer / arrival:date / departure:date


On constate que le script a permis de créer cinq tables : **hotels, clients, rooms, sellings, bookings**. Chaque table contient un nombre de colonnes correspondant aux ***attributs***  associées à la table, et un nombre de lignes correspondant aux ***enregistrements*** stockés dans la table. Par exemple, la table **hotels** contient une colonne d'index **`IDhotel`** (dans la terminologie SQL, on parle de ***clé primaire***), une colonne **`city`** contenant le nom de la ville, une colonne **`name`** contenant le nom de l'hôtel et une colonne **`stars`** contenant le nombre d'étoiles que détient l'établissement. Les autres tables sont constituées de manière similaire, avec respectivement 3, 5, 6 et 6 colonnes. Par contre, on peut constater également que ***toutes les tables contiennent 0 lignes***, ce qui est logique car le rôle des commandes DDL est de définir la structure des tables de la base, pas de les remplir avec des données.

---
### 3 - Insertion des données dans la base de données

La seconde étape de la gestion d'une BDR consiste à ***insérer les données initiales*** dans chacune des tables composant la base. Cette seconde étape met en oeuvre un autre sous-ensemble du langage SQL, appelé **Data Manipulation Language** ***(DML)***, qui regroupe les commandes d'insertion, de modification et de suppression de données :

<center> <b>Commandes DML : <tt>INSERT INTO, DELETE FROM, UPDATE, MERGE, ...</tt></b> </center><br>

A nouveau, la bonne pratique avec **sqlite3** consiste à créer un fichier script qui va regrouper toutes les commandes DML permettant de définir les enregistrements à insérer dans les différentes tables. Dans le cas de notre base **`hotels.db`**, on fournit ainsi un second script SQL, appelée **`hotels-data.sql`**, qui contient l'ensemble de ces commandes DML. En fait, comme on le voit ci-dessous, ce script se compose exclusivement d'une (très longue) série de commandes **`INSERT INTO`** :

In [69]:
data = load('TEST/hotels-data.sql','') # lecture du fichier SQL au format brut (= chaîne multi-lignes)
print(cutcut(data, 8, 2)) # affichage des 8 premières et 2 dernières lignes du fichier, avec 'cutcut'

-- HOTELS ---------------------------------------------------------------------
INSERT INTO hotels (name,city,stars) VALUES ('Hôtel Excelsior','Nice',3);
INSERT INTO hotels (name,city,stars) VALUES ('Hôtel des Alpes','Grenoble',2);
INSERT INTO hotels (name,city,stars) VALUES ('Hôtel de la gare','Bordeaux',1);
INSERT INTO hotels (name,city,stars) VALUES ('Grand Hôtel','Nice',4);
INSERT INTO hotels (name,city,stars) VALUES ('Hôtel chez soi','Grenoble',2);
INSERT INTO hotels (name,city,stars) VALUES ('Chez Philippe','Bordeaux',2);
INSERT INTO hotels (name,city,stars) VALUES ('Hôtel Terminus','Bordeaux',1);
●  ●  ●
INSERT INTO bookings (IDclient,IDhotel,IDroom,arrival,departure) VALUES (142,6,2,DATE('2024-05-27'),DATE('2024-06-02'));
INSERT INTO bookings (IDclient,IDhotel,IDroom,arrival,departure) VALUES (148,12,202,DATE('2024-05-11'),DATE('2024-05-18'));


Comme précédemment, les commandes SQL figurant dans ce script **`hotels-data.sql`** vont être exécutées par la fonction **`sql_script`** définie plus haut, ce qui va modifier le fichier **`hotels.db`** pour insérer les différents enregistrements :

In [70]:
sql_script('TEST/hotels.db', 'hotels-data.sql') # application des commandes SQL du script 'hotels-data.sql'

● Script : name = 'hotels-data.sql' / lines = 57456 / SQL commands = 601


In [71]:
sql_info('TEST/hotels.db') # affichage de la structure de la base après insertion des données

● Table : name = hotels / size = 12 rows x 4 cols
  IDhotel:integer / city:text / name:text / stars:integer
● Table : name = clients / size = 179 rows x 3 cols
  IDclient:integer / name:text / forename:text
● Table : name = rooms / size = 132 rows x 5 cols
  IDroom:integer / IDhotel:integer / floor:integer / type:text / price:real
● Table : name = sellings / size = 248 rows x 6 cols
  IDselling:integer / IDclient:integer / IDhotel:integer / IDroom:integer / arrival:date / departure:date
● Table : name = bookings / size = 30 rows x 6 cols
  IDbooking:integer / IDclient:integer / IDhotel:integer / IDroom:integer / arrival:date / departure:date


On constate que les 601 commands SQL qu'a détecté la fonction **`sql_script`** dans le script **`hotels-data.sql`** ont permis d'insérer 12 hotels, 179 clients, 132 chambres, 248 factures et 30 réservations dans les 5 tables respectives. Dans cet exemple, les tables sont figées après création, mais évidement dans une gestion classique d'une base de données, le contenu des tables évolue constamment, en utilisant les autres commandes DML (**`UPDATE`** et **`MERGE`** notamment)

---
### 3 - Extraction de données de la base

Une fois que la base est opérationelle, la troisième étape consiste à en extraire des informations structurées en fonction des besoins de l'utilisateur. Cette opération utilise un dernier sous-ensemble du langage SQL, appelé **Data Query Language** ***(DQL)***,  qui regroupe les commandes d'interrogation et d'extraction de données :

<center><b>Commandes DQL : <tt>SELECT, WHERE, HAVING, ORDER BY, GROUP BY, JOIN, DISTINCT, LIMIT, OFFSET, ...</tt></b></center><br>

Grâce à la troisième fonction utilitaire **`sql_query`**, l'extraction des données consiste simplement à créer une chaîne de caractères contenant la requête SQL et le nom du fichier stockant la base à interroger :

In [72]:
query = 'SELECT * FROM hotels WHERE city = "Bordeaux" ORDER BY stars' # requête SQL
sql_query('TEST/hotels.db', query) # application de la requête sur la base 'hotels.db'

```sql
SELECT * FROM hotels WHERE city = "Bordeaux" ORDER BY stars
```

|IDhotel|city|name|stars|
|:--:|:--:|:--:|:--:|
|3|Bordeaux|Hôtel de la gare|1|
|7|Bordeaux|Hôtel Terminus|1|
|6|Bordeaux|Chez Philippe|2|
|12|Bordeaux|Grand Hôtel|5|

Voici quelques exemples permettant d'illustrer la variété des extractions possibles avec les requêtes SQL. Les différentes requêtes ont été classées de la plus simple à la plus complexe. D'autre part, pour garder une taille raisonnable dans le notebook, toutes les tables renvoyées par ces requêtes ont été tronquées à 8 lignes maximum :

- **Lister les différentes villes présentes dans la base de données, tri par ordre alphabétique**
```sql
-- Sélection des valeurs distinctes de la colonne 'city' dans la table 'hotels'
SELECT DISTINCT city FROM hotels ORDER BY city
```

|city|
|:--:|
|Bordeaux|
|Grenoble|
|Nice|

- **Extraire les hôtels de catégorie trois étoiles ou plus, tri descendant par nombre d'étoiles**
```sql
-- Extraction des lignes de 'hotels' puis filtre et tri descendant sur 'stars'
SELECT * FROM hotels WHERE stars >= 3 ORDER BY stars DESC
```

|IDhotel|city|name|stars|
|:--:|:--:|:--:|:--:|
|12|Bordeaux|Grand Hôtel|5|
|4|Nice|Grand Hôtel|4|
|1|Nice|Hôtel Excelsior|3|
|10|Grenoble|Hôtel des ambassadeurs|3|

- **Extraire les réservations dont la date d'arrivée est comprise entre le 2 et le 5 avril 2024**
```sql
-- Extraction des lignes de 'bookings' puis filtre et tri ascendant sur 'arrival'
SELECT * FROM bookings WHERE arrival BETWEEN '2024-04-02' AND '2024-04-05' ORDER BY arrival
```

|IDbooking|IDclient|IDhotel|IDroom|arrival|departure|
|:--:|:--:|:--:|:--:|:--:|:--:|
|18|47|11|20|2024-04-02|2024-04-08|
|21|40|2|8|2024-04-02|2024-04-06|
|23|116|11|25|2024-04-04|2024-04-05|
|25|129|11|1|2024-04-04|2024-04-08|
|27|142|12|101|2024-04-04|2024-06-06|
|3|6|5|2|2024-04-05|2024-04-06|

- **Lister les noms et prénoms des clients dont le nom commence par 'F'**
```sql
-- Extraction des colonnes 'name' et 'forename' de 'clients' puis filtre sur 'name'
SELECT name, forename FROM clients WHERE name LIKE 'F%' ORDER BY name, forename
```

|name|forename|
|:--:|:--:|
|Farge|Loïc|
|Filatti|Jil|
|Filet|François|
|Fregier|Roland|

- **Trouver le nombre total de chambres, ainsi que les prix min et max, classés selon le type de chambre**
```sql
-- Regroupement des lignes de 'rooms' selon 'type' puis comptage et min/max sur 'price'
SELECT type, COUNT(*) AS nb_rooms, MIN(price) as min_price, MAX(price) as max_price
FROM rooms GROUP BY type ORDER BY min, max
```

|type|nb_rooms|min_price|max_price|
|:--:|:--:|:--:|:--:|
|simple|73|18.0|90.0|
|double|48|37.0|145.0|
|triple|5|70.0|145.0|
|studio|1|130.0|130.0|
|suite|5|160.0|195.0|

- **Trouver le nombre total de chambres, ainsi que leurs prix min et max, classés selon la catégorie d'hôtel**
```sql
-- Jonction des tables 'hotels' et 'room' puis regroupement des lignes selon 'stars'
SELECT h.stars, COUNT(r.IDroom) AS nb_rooms,
  MIN(r.price) AS min_price, MAX(r.price) AS max_price
FROM hotels h JOIN rooms r ON h.IDhotel = r.IDhotel GROUP BY h.stars ORDER BY min, max
```

|stars|nb_rooms|min_price|max_price|
|:--:|:--:|:--:|:--:|
|1|42|18.0|48.0|
|2|51|40.0|165.0|
|3|13|62.0|141.0|
|4|9|84.0|145.0|
|5|17|118.0|195.0|

- **Lister les cinq chambres doubles les moins chères de Grenoble**
```sql
-- Même jonction que ci-dessus puis filtre combiné sur 'city', 'type' et 'price'
SELECT DISTINCT h.city, h.name, h.stars, r.price
FROM hotels h JOIN rooms r ON h.IDhotel = r.IDhotel
WHERE h.city = 'Grenoble' AND r.type = 'double' ORDER BY r.price LIMIT 5
```

|city|name|stars|price|
|:--:|:--:|:--:|:--:|
|Grenoble|Hôtel Terminus|1|37.0|
|Grenoble|Hôtel chez soi|2|55.0|
|Grenoble|Hôtel des Alpes|2|71.0|
|Grenoble|Hôtel des Alpes|2|86.0|
|Grenoble|Hôtel des ambassadeurs|3|97.0|

- **Trouver les hôtels avec dix chambres ou plus**
```sql
-- Même jonction que ci-dessus puis regroupement selon 'IDhotel' et comptage des chambres
SELECT h.city, h.name, COUNT(*) AS nb_rooms
FROM hotels h JOIN rooms r ON h.IDhotel = r.IDhotel
GROUP BY h.IDhotel HAVING nb_rooms >= 10 ORDER BY nb_rooms DESC
```

|city|name|nb_rooms|
|:--:|:--:|:--:|
|Nice|Hôtel des voyageurs|32|
|Bordeaux|Grand Hôtel|17|
|Bordeaux|Hôtel Terminus|14|
|Grenoble|Hôtel Terminus|11|
|Bordeaux|Hôtel de la gare|11|
|Grenoble|Hôtel des Alpes|10|

- **Lister les clients qui sont présents au 1er avril 2024, triés selon leur date de départ**
```sql
-- Jonction de 'clients' et 'sellings' puis filtre sur 'arrival' et 'departure'
SELECT DISTINCT c.name, c.forename, s.arrival, s.departure
FROM clients c JOIN sellings s ON c.IDclient = s.IDclient
WHERE s.arrival <= '2024-04-01' AND s.departure > '2024-04-01'
ORDER BY s.departure, s.arrival
```

|name|forename|arrival|departure|
|:--:|:--:|:--:|:--:|
|Martin|Henri|2024-03-12|2024-04-02|
|Delgrange|Zoé|2024-03-25|2024-04-02|
|Traff|Nelly|2024-03-29|2024-04-02|
|Loumilier|Valérie|2024-03-25|2024-04-04|
|Hergrand|Marie|2024-03-25|2024-04-04|
|Postman|Nancy|2024-04-01|2024-04-04|
|Durand|Jean-Paul|2024-03-19|2024-04-05|
|Bonnet|Lila|2024-03-24|2024-04-05|

- **Calculer les durées de séjour (min, max, moyenne) pour chaque hôtel**
```sql
-- Jonction de 'hotels' avec une table temporaire 'tempo' puis calculs sur 'days'
-- 'JULIANDAY(date)' convertit une date en entier (nb de jours écoulés depuis 01/01/-45)
SELECT h.city, h.name, MIN(days) AS min, MAX(days) AS max, ROUND(AVG(days), 1) AS mean
FROM ( SELECT IDhotel, (JULIANDAY(departure) - JULIANDAY(arrival)) AS days
FROM sellings) AS tempo -- création d'une table temporaire
JOIN hotels h ON tempo.IDhotel = h.IDhotel GROUP BY h.IDhotel ORDER BY mean DESC
```

|city|name|min|max|mean|
|:--:|:--:|:--:|:--:|:--:|
|Nice|Hôtel Excelsior|9.0|32.0|16.3|
|Nice|Grand Hôtel|1.0|40.0|11.9|
|Grenoble|Hôtel Terminus|1.0|27.0|9.5|
|Nice|Hôtel des voyageurs|1.0|30.0|8.7|
|Bordeaux|Chez Philippe|1.0|44.0|8.3|
|Nice|Hôtel Terminus|1.0|35.0|7.7|
|Bordeaux|Hôtel Terminus|1.0|25.0|7.2|
|Bordeaux|Grand Hôtel|1.0|28.0|7.0|

- **Trouver les cinq clients qui ont le plus dépensé pour leurs séjours**
```sql
-- Jonction d'une table auxiliaire 'prices' avec 'clients' puis calculs multiples
WITH prices AS ( SELECT s.IDClient, s.IDHotel, s.IDRoom, r.price,
(JULIANDAY(s.departure) - JULIANDAY(s.arrival)) AS days -- création d'une table auxiliaire
FROM rooms r JOIN sellings s ON r.IDhotel = s.IDhotel AND r.IDroom = s.IDroom)
SELECT c.name, c.forename, COUNT(*) AS stays, SUM(days) as days, SUM(price*days) AS expenses
FROM prices p JOIN clients c ON p.IDClient = c.IDClient
GROUP BY c.IDclient ORDER BY expenses DESC LIMIT 5
```

|name|forename|stays|days|expenses|
|:--:|:--:|:--:|:--:|:--:|
|Luengo|Alejandro|1|40.0|5200.0|
|Bachelard|Gaston|2|49.0|4805.0|
|Pioline|Cédric|1|31.0|4495.0|
|Verber|Jacques|2|31.0|4333.0|
|Roden|Helmut|3|36.0|3401.0|

- **Calculer le chiffre d'affaires moyen par chambre pour chaque hôtel**
```sql
-- Jonction de la même table 'prices' avec 'hotels' puis calculs multiples
WITH prices AS ( SELECT s.IDClient, s.IDHotel, s.IDRoom, r.price,
(JULIANDAY(s.departure) - JULIANDAY(s.arrival)) AS days -- création d'une table auxiliaire
FROM rooms r JOIN sellings s ON r.IDhotel = s.IDhotel AND r.IDroom = s.IDroom)
SELECT h.city, h.name, nb_rooms, SUM(p.price*p.days) as revenue,
ROUND(SUM(p.price*p.days) / nb_rooms, 1) AS mean_revenue
FROM ( SELECT IDhotel, COUNT(*) as nb_rooms FROM rooms GROUP BY IDhotel) AS tempo
JOIN prices p ON tempo.IDhotel = p.IDhotel JOIN hotels h ON p.IDhotel = h.IDhotel
GROUP BY h.IDhotel ORDER BY mean_revenue DESC
```

|city|name|nb_rooms|revenue|mean_revenue|
|:--:|:--:|:--:|:--:|:--:|
|Nice|Grand Hôtel|9|21636.0|2404.0|
|Bordeaux|Grand Hôtel|17|27836.0|1637.4|
|Grenoble|Hôtel des Alpes|10|15223.0|1522.3|
|Bordeaux|Chez Philippe|6|9072.0|1512.0|
|Grenoble|Hôtel des ambassadeurs|5|7368.0|1473.6|
|Nice|Hôtel des voyageurs|32|39682.0|1240.1|
|Grenoble|Hôtel chez soi|3|3015.0|1005.0|
|Nice|Hôtel Excelsior|8|7575.0|946.9|

<div style="padding:8px; margin:0px -20px; color:#FFF; background:#06D; text-align:right">● ● ● </div>