# Ma√Ætriser les expressions r√©guli√®res

Lino Galiana  
2025-10-06

<div class="badge-container"><div class="badge-text">Pour essayer les exemples pr√©sents dans ce tutoriel :</div><a href="https://github.com/linogaliana/python-datascientist-notebooks/blob/main/notebooks/manipulation/04b_regex_TP.ipynb" target="_blank" rel="noopener"><img src="https://img.shields.io/static/v1?logo=github&label=&message=View%20on%20GitHub&color=181717" alt="View on GitHub"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/vscode-python?autoLaunch=true&name=¬´04b_regex_TP¬ª&init.personalInit=¬´https%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmain%2Fsspcloud%2Finit-vscode.sh¬ª&init.personalInitArgs=¬´manipulation%2004b_regex_TP%20correction¬ª" target="_blank" rel="noopener"><img src="https://custom-icon-badges.demolab.com/badge/SSP%20Cloud-Lancer_avec_VSCode-blue?logo=vsc&logoColor=white" alt="Onyxia"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&name=¬´04b_regex_TP¬ª&init.personalInit=¬´https%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmain%2Fsspcloud%2Finit-jupyter.sh¬ª&init.personalInitArgs=¬´manipulation%2004b_regex_TP%20correction¬ª" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSP%20Cloud-Lancer_avec_Jupyter-orange?logo=Jupyter&logoColor=orange" alt="Onyxia"></a>
<a href="https://colab.research.google.com/github/linogaliana/python-datascientist-notebooks-colab//blob/main//notebooks/manipulation/04b_regex_TP.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a><br></div>

> **Note**
>
> Ceci est la version fran√ßaise üá´üá∑ de ce chapitre, pour voir la version anglaise allez <a href="/home/runner/work/python-datascientist/python-datascientist/en/content/manipulation/04b_regex_TP.qmd">ici</a>.

> **Comp√©tences √† l‚Äôissue de ce chapitre**
>
> -   Comprendre l‚Äôutilit√© des expressions r√©guli√®res (regex) pour manipuler des donn√©es textuelles de mani√®re flexible, notamment au-del√† des limitations de m√©thodes simples comme `str.find` ;
> -   Ma√Ætriser les concepts fondamentaux des regex : classes de caract√®res (ex. `[a-z]`), quantifieurs (`?`, `*`, `+`, `{}`), ainsi que l‚Äôutilisation d‚Äôancres et de m√©ta-caract√®res ;
> -   Utiliser les principales fonctions du module `re` de Python (`findall`, `search`, `match`, `sub`, `finditer`, etc.) pour rechercher, extraire ou remplacer des motifs dans des cha√Ænes ;
> -   Apprendre √† appliquer efficacement les regex √† des donn√©es tabulaires en utilisant l‚ÄôAPI vectoris√©e de `Pandas` (`str.contains`, `str.extract`, `str.findall`, `str.replace`, `str.count`) ;
> -   Mettre en pratique les comp√©tences acquises √† travers des exercices cibl√©s : extraction de dates dans une cha√Æne et extraction d‚Äôadresses email ou d‚Äôann√©es de publication depuis un DataFrame.

# 1. Introduction

`Python` offre √©norm√©ment de fonctionalit√©s tr√®s pratiques pour la manipulation de donn√©es
textuelles. C‚Äôest l‚Äôune des raisons de son
succ√®s dans la communaut√© du traitement automatis√© du langage (NLP, voir partie d√©di√©e).

Dans les chapitres pr√©c√©dents, nous avons parfois √©t√© amen√©s √† chercher des √©l√©ments textuels basiques. Cela √©tait possible avec la m√©thode `str.find` du package `Pandas` qui constitue une version vectoris√©e de la m√©thode `find`
de base. Nous avons d‚Äôailleurs
pu utiliser cette derni√®re directement, notamment lorsqu‚Äôon a fait du *web scraping*.

Cependant, cette fonction de recherche
trouve rapidement ses limites.
Par exemple, si on d√©sire trouver √† la fois les occurrences d‚Äôun terme au singulier
et au pluriel, il sera n√©cessaire d‚Äôutiliser
au moins deux fois la m√©thode `find`.
Pour des verbes conjugu√©s, cela devient encore plus complexe, en particulier si ceux-ci changent de forme selon le sujet.

Pour des expressions compliqu√©es, il est conseill√© d‚Äôutiliser les **expressions r√©guli√®res**,
ou *‚Äúregex‚Äù*. C‚Äôest une fonctionnalit√© qu‚Äôon retrouve dans beaucoup de langages. C‚Äôest une forme de grammaire qui permet de rechercher des expressions.

Une partie du contenu de cette partie
est une adaptation de la
[documentation collaborative sur `R` nomm√©e `utilitR`](https://www.book.utilitr.org/03_fiches_thematiques/fiche_donnees_textuelles#regex) √† laquelle j‚Äôai particip√©. Ce chapitre reprend aussi du contenu du
livre [*R for Data Science*](https://r4ds.hadley.nz/regexps.html) qui pr√©sente un chapitre
tr√®s p√©dagogique sur les regex.

Nous allons utiliser le *package* `re` pour illustrer nos exemples d‚Äôexpressions
r√©guli√®res. Il s‚Äôagit du package de r√©f√©rence, qui est utilis√©, en arri√®re-plan,
par `Pandas` pour vectoriser les recherches textuelles.

In [None]:
import re
import pandas as pd

> **Tip**
>
> **Les expressions r√©guli√®res (*regex*) sont notoirement difficiles √† ma√Ætriser.** Il existe des outils qui facilitent le travail avec les expressions r√©guli√®res.
>
> -   L‚Äôoutil de r√©f√©rence pour ceci est \[https://regex101.com/\] qui permet de tester des `regex` en `Python`
>     tout en ayant une explication qui accompagne ce test
>
> -   De m√™me pour [ce site](https://ole.michelsen.dk/tools/regex/) qui comporte une cheat sheet en bas de la page.
>
> -   Les jeux de [Regex Crossword](https://regexcrossword.com/) permettent d‚Äôapprendre les expressions r√©guli√®res en s‚Äôamusant
>
> Il peut √™tre pratique de demander √† des IA assistantes, comme `Github Copilot` ou `ChatGPT`, une
> premi√®re version d‚Äôune regex en expliquant le contenu qu‚Äôon veut extraire.
> Cela peut faire √©conomiser pas mal de temps, sauf quand l‚ÄôIA fait preuve d‚Äôune confiance excessive
> et vous propose avec aplomb une regex totalement fausse‚Ä¶

# 2. Principe

**Les expressions r√©guli√®res sont un outil permettant de d√©crire un ensemble de cha√Ænes de caract√®res possibles selon une syntaxe pr√©cise, et donc de d√©finir un motif (ou `pattern`).** Les expressions r√©guli√®res servent par exemple lorsqu‚Äôon veut extraire une partie d‚Äôune cha√Æne de caract√®res, ou remplacer une partie d‚Äôune cha√Æne de caract√®res. Une expression r√©guli√®re prend la forme d‚Äôune cha√Æne de caract√®res, qui peut contenir √† la fois des √©l√©ments litt√©raux et des caract√®res sp√©ciaux qui ont un sens logique.

Par exemple, `"ch.+n"` est une expression r√©guli√®re qui d√©crit le motif suivant : la cha√Æne litt√©rale `ch`, suivi de n‚Äôimporte quelle cha√Æne d‚Äôau moins un caract√®re (`.+`), suivie de la lettre `n`. Dans la cha√Æne `"J'ai un chien."`, la sous-cha√Æne `"chien"` correspond √† ce motif. De m√™me pour `"chapeau ron"` dans `"J'ai un chapeau rond"`. En revanche, dans la cha√Æne `"La soupe est chaude."`, aucune sous-cha√Æne ne correpsond √† ce motif (car aucun `n` n‚Äôappara√Æt apr√®s le `ch`).

Pour s‚Äôen convaincre, nous pouvons d√©j√† regarder
les deux premiers cas:

In [None]:
pattern = "ch.+n"
print(re.search(pattern, "La soupe est chaude."))

None

La regex pr√©c√©dente comportait deux types de caract√®res:

-   les *caract√®res litt√©raux* : lettres et nombres qui sont reconnus de mani√®re litt√©rale
-   les *m√©ta-caract√®res* : symboles qui ont un sens particulier dans les regex.

Les principaux *m√©ta-caract√®res* sont `.`, `+`, `*`, `[`, `]`, `^` et `$` mais il
en existe beaucoup d‚Äôautres.
Parmi cet ensemble, on utilise principalement les quantifieurs (`.`, `+`, `*`‚Ä¶),
les classes de caract√®res (ensemble qui sont d√©limit√©s par `[` et `]`)
ou les ancres (`^`, `$`‚Ä¶)

Dans l‚Äôexemple pr√©c√©dent,
nous retrouvions deux quantifieurs accol√©s `.+`. Le premier (`.`) signifie n‚Äôimporte quel caract√®re[1]. Le deuxi√®me (`+`) signifie *‚Äúr√©p√®te le pattern pr√©c√©dent‚Äù*.
Dans notre cas, la combinaison `.+` permet ainsi de r√©p√©ter n‚Äôimporte quel caract√®re avant de trouver un *n*.
Le nombre de fois est indetermin√© : cela peut ne pas √™tre pas n√©cessaire d‚Äôintercaler des caract√®res avant le *n*
ou cela peut √™tre n√©cessaire d‚Äôen intercepter plusieurs :

[1] N‚Äôimporte quel caract√®re √† part le retour √† la ligne (`\n`). Ceci est √† garder en t√™te, j‚Äôai d√©j√† perdu des heures √† chercher pourquoi mon `.` ne capturait pas ce que je voulais qui s‚Äô√©talait sur plusieurs lignes‚Ä¶

In [None]:
print(re.search(pattern, "J'ai un chino"))
print(re.search(pattern, "J'ai un chiot tr√®s mignon."))

<re.Match object; span=(8, 12), match='chin'>
<re.Match object; span=(8, 25), match='chiot tr√®s mignon'>

## 2.1 Classes de caract√®res

Lors d‚Äôune recherche, on s‚Äôint√©resse aux caract√®res et souvent aux classes de caract√®res : on cherche un chiffre, une lettre, un caract√®re dans un ensemble pr√©cis ou un caract√®re qui n‚Äôappartient pas √† un ensemble pr√©cis. Certains ensembles sont pr√©d√©finis, d‚Äôautres doivent √™tre d√©finis √† l‚Äôaide de crochets.

Pour d√©finir un ensemble de caract√®res, il faut √©crire cet ensemble entre crochets. Par exemple, `[0123456789]` d√©signe un chiffre. Comme c‚Äôest une s√©quence de caract√®res cons√©cutifs, on peut r√©sumer cette √©criture en `[0-9]`.

Par
exemple, si on d√©sire trouver tous les *pattern* qui commencent par un `c` suivi
d‚Äôun `h` puis d‚Äôune voyelle (a, e, i, o, u), on peut essayer
cette expression r√©guli√®re.

In [None]:
re.findall("[c][h][aeiou]", "chat, chien, veau, vache, ch√®vre")

['cha', 'chi', 'che']

Il serait plus pratique d‚Äôutiliser `Pandas` dans ce cas pour isoler les
lignes qui r√©pondent √† la condition logique (en ajoutant les accents
qui ne sont pas compris sinon):

In [None]:
import pandas as pd
txt = pd.Series("chat, chien, veau, vache, ch√®vre".split(", "))
txt.str.match("ch[ae√©√®iou]")

0     True
1     True
2    False
3    False
4     True
dtype: bool

Cependant, l‚Äôusage ci-dessus des classes de caract√®res
n‚Äôest pas le plus fr√©quent.
On privil√©gie celles-ci pour identifier des
pattern complexe plut√¥t qu‚Äôune suite de caract√®res litt√©raux.
Les tableaux d‚Äôaide m√©moire illustrent une partie des
classes de caract√®res les plus fr√©quentes
(`[:digit:]` ou `\d`‚Ä¶)

## 2.2 Quantifieurs

Nous avons rencontr√© les quantifieurs avec notre premi√®re expression
r√©guli√®re. Ceux-ci contr√¥lent le nombre de fois
qu‚Äôun *pattern* est rencontr√©.

Les plus fr√©quents sont:

-   `?` : 0 ou 1 match ;
-   `+` : 1 ou plus de matches ;
-   `*` : 0 or more matches.

Par exemple, `colou?r` permettra de matcher √† la fois l‚Äô√©criture am√©ricaine et anglaise

In [None]:
re.findall("colou?r", "Did you write color or colour?")

['color', 'colour']

Ces quantifiers peuvent bien s√ªr √™tre associ√©s √†
d‚Äôautres types de caract√®res, notamment les classes de caract√®res.
Cela peut √™tre extr√™mement pratique.
Par exemple, `\d+` permettra de capturer un ou plusieurs chiffres, `\s?`
permettra d‚Äôajouter en option un espace,
`[\w]{6,8}` un mot entre six et huit lettres qu‚Äôon √©crira‚Ä¶

Il est aussi possible de d√©finir le nombre de r√©p√©titions
avec `{}`:

-   `{n}` matche exactement *n* fois ;
-   `{n,}` matche au moins *n* fois ;
-   `{n,m}` matche entre *n* et *m* fois.

Cependant, la r√©p√©tition des termes
ne s‚Äôapplique par d√©faut qu‚Äôau dernier
caract√®re pr√©c√©dent le quantifier.
On peut s‚Äôen convaincre avec l‚Äôexemple ci-dessus:

In [None]:
print(re.match("toc{4}","toctoctoctoc"))

None

Pour pallier ce probl√®me, il existe les parenth√®ses.
Le principe est le m√™me qu‚Äôavec les r√®gles num√©riques:
les parenth√®ses permettent d‚Äôintroduire une hi√©rarchie.
Pour reprendre l‚Äôexemple pr√©c√©dent, on obtient
bien le r√©sultat attendu gr√¢ce aux parenth√®ses:

In [None]:
print(re.match("(toc){4}","toctoctoctoc"))
print(re.match("(toc){5}","toctoctoctoc"))
print(re.match("(toc){2,4}","toctoctoctoc"))

<re.Match object; span=(0, 12), match='toctoctoctoc'>
None
<re.Match object; span=(0, 12), match='toctoctoctoc'>

> **Note**
>
> L‚Äôalgorithme des expressions r√©guli√®res essaye toujours de faire correspondre le plus grand morceau √† l‚Äôexpression r√©guli√®re.
>
> Par exemple, soit une chaine de caract√®re HTML:
>
> ``` python
> s = "<h1>Super titre HTML</h1>"
> ```
>
> L‚Äôexpression r√©guli√®re `re.findall("<.*>", s)` correspond, potentiellement,
> √† trois morceaux :
>
> -   `<h1>`
> -   `</h1>`
> -   `<h1>Super titre HTML</h1>`
>
> C‚Äôest ce dernier qui sera choisi, car le plus grand. Pour
> s√©lectionner le plus petit,
> il faudra √©crire les multiplicateurs comme ceci : `*?`, `+?`.
> En voici quelques exemples:
>
> ``` python
> s = "<h1>Super titre HTML</h1>\n<p><code>Python</code> est un langage tr√®s flexible</p>"
> print(re.findall("<.*>", s))
> print(re.findall("<p>.*</p>", s))
> print(re.findall("<p>.*?</p>", s))
> print(re.compile("<.*?>").findall(s))
> ```
>
>     ['<h1>Super titre HTML</h1>', '<p><code>Python</code> est un langage tr√®s flexible</p>']
>     ['<p><code>Python</code> est un langage tr√®s flexible</p>']
>     ['<p><code>Python</code> est un langage tr√®s flexible</p>']
>     ['<h1>', '</h1>', '<p>', '<code>', '</code>', '</p>']

## 2.3 Aide-m√©moire

Le tableau ci-dessous peut servir d‚Äôaide-m√©moire
sur les regex:

| Expression r√©guli√®re | Signification |
|--------------------------|----------------------------------------------|
| `"^"` | D√©but de la cha√Æne de caract√®res |
| `"$"` | Fin de la cha√Æne de caract√®res |
| `"\\."` | Un point |
| `"."` | N‚Äôimporte quel caract√®re |
| `".+"` | N‚Äôimporte quelle suite de caract√®res non vide |
| `".*"` | N‚Äôimporte quelle suite de caract√®res, √©ventuellement vi |
| `"[:alnum:]"` | Un caract√®re alphanum√©rique |
| `"[:alpha:]"` | Une lettre |
| `"[:digit:]"` | Un chiffre |
| `"[:lower:]"` | Une lettre minuscule |
| `"[:punct:]"` | Un signe de ponctuation |
| `"[:space:]"` | un espace |
| `"[:upper:]"` | Une lettre majuscule |
| `"[[:alnum:]]+"` | Une suite d‚Äôau moins un caract√®re alphanum√©rique |
| `"[[:alpha:]]+"` | Une suite d‚Äôau moins une lettre |
| `"[[:digit:]]+"` | Une suite d‚Äôau moins un chiffre |
| `"[[:lower:]]+"` | Une suite d‚Äôau moins une lettre minuscule |
| `"[[:punct:]]+"` | Une suite d‚Äôau moins un signe de ponctuation |
| `"[[:space:]]+"` | Une suite d‚Äôau moins un espace |
| `"[[:upper:]]+"` | Une suite d‚Äôau moins une lettre majuscule |
| `"[[:alnum:]]*"` | Une suite de caract√®res alphanum√©riques, √©ventuellement vide |
| `"[[:alpha:]]*"` | Une suite de lettres, √©ventuellement vide |
| `"[[:digit:]]*"` | Une suite de chiffres, √©ventuellement vide |
| `"[[:lower:]]*"` | Une suite de lettres minuscules, √©ventuellement vide |
| `"[[:upper:]]*"` | Une suite de lettres majuscules, √©ventuellement vide |
| `"[[:punct:]]*"` | Une suite de signes de ponctuation, √©ventuellement vide |
| `"[^[:alpha:]]+"` | Une suite d‚Äôau moins un caract√®re autre qu‚Äôune lettre |
| `"[^[:digit:]]+"` | Une suite d‚Äôau moins un caract√®re autre qu‚Äôun chiffre |
| `"\|"` | L‚Äôune des expressions `x` ou `y` est pr√©sente |
| `[abyz]` | Un seul des caract√®res sp√©cifi√©s |
| `[abyz]+` | Un ou plusieurs des caract√®res sp√©cifi√©s (√©ventuellement r√©p√©t√©s) |
| `[^abyz]` | Aucun des caract√®res sp√©cifi√©s n‚Äôest pr√©sent |

Certaines classes de caract√®res b√©n√©ficient d‚Äôune syntaxe plus l√©g√®re car
elles sont tr√®s fr√©quentes. Parmi-celles:

| Expression r√©guli√®re | Signification |
|--------------------------|----------------------------------------------|
| `\d` | N‚Äôimporte quel chiffre |
| `\D` | N‚Äôimporte quel caract√®re qui n‚Äôest pas un caract√®re |
| `\s` | N‚Äôimporte quel espace (espace, tabulation, retour √† la ligne) |
| `\S` | N‚Äôimporte quel caract√®re qui n‚Äôest pas un espace |
| `\w` | N‚Äôimporte quel type de mot (lettres et nombres) |
| `\W` | N‚Äôimporte quel ensemble qui n‚Äôest pas un mot (lettres et nombres) |

Dans l‚Äôexercice suivant, vous allez pouvoir mettre en pratique
les exemples pr√©c√©dents sur une `regex` un peu plus compl√®te.
Cet exercice ne n√©cessite pas la connaissance des subtilit√©s
du *package* `re`, vous n‚Äôaurez besoin que de `re.findall`.

Cet exercice utilisera la chaine de caract√®re suivante :

In [None]:
s = """date 0 : 14/9/2000
date 1 : 20/04/1971     date 2 : 14/09/1913     date 3 : 2/3/1978
date 4 : 1/7/1986     date 5 : 7/3/47     date 6 : 15/10/1914
date 7 : 08/03/1941     date 8 : 8/1/1980     date 9 : 30/6/1976"""
s

'date 0 : 14/9/2000\ndate 1 : 20/04/1971     date 2 : 14/09/1913     date 3 : 2/3/1978\ndate 4 : 1/7/1986     date 5 : 7/3/47     date 6 : 15/10/1914\ndate 7 : 08/03/1941     date 8 : 8/1/1980     date 9 : 30/6/1976'

> **Exercice 1**
>
> 1.  On va d‚Äôabord s‚Äôoccuper d‚Äôextraire le jour de naissance.
>     -   Le premier chiffre du jour est 0, 1, 2 ou 3. Traduire cela sous la forme d‚Äôune s√©quence `[X-X]`
>     -   Le deuxi√®me chiffre du jour est lui entre 0 et 9. Traduire cela sous la s√©quence ad√©quate
>     -   Remarquez que le premier jour est facultatif. Intercaler entre les deux classes de caract√®re ad√©quate
>         le quantifieur qui convient
>     -   Ajouter le slash √† la suite du motif
>     -   Tester avec `re.findall`. Vous devriez obtenir beaucoup plus d‚Äô√©chos que n√©cessaire.
>         C‚Äôest normal, √† ce stade la
>         regex n‚Äôest pas encore finalis√©e
> 2.  Suivre la m√™me logique pour les mois en notant que les mois du calendrier gr√©gorien ne d√©passent
>     jamais la premi√®re dizaine. Tester avec `re.findall`
> 3.  De m√™me pour les ann√©es de naissance en notant que jusqu‚Äô√† preuve du contraire, pour des personnes vivantes
>     aujourd‚Äôhui, les mill√©naires concern√©s sont restreints. Tester avec `re.findall`
> 4.  Cette regex n‚Äôest pas naturelle, on pourrait tr√®s bien se satisfaire de classes de
>     caract√®res g√©n√©riques `\d` m√™me si elles pourraient, en pratique, nous s√©lectionner des
>     dates de naissance non possibles (`43/78/4528` par exemple). Cela permettrait
>     d‚Äôall√©ger la regex afin de la rendre plus intelligible. Ne pas oublier l‚Äôutilit√© des quantifieurs.
> 5.  Comment adapter la regex pour qu‚Äôelle soit toujours valide pour nos cas mais permette aussi de
>     capturer les dates de type `YYYY/MM/DD` ? Tester sur `1998/07/12`

A l‚Äôissue de la question 1, vous devriez avoir ce r√©sultat :

A l‚Äôissue de la question 2, vous devriez avoir ce r√©sultat, qui commence √† prendre forme:

A l‚Äôissue de la question 3, on parvient bien √† extraire les dates :

Si tout va bien, √† la question 5, votre regex devrait fonctionner:

# 3. Principales fonctions de `re`

Voici un tableau r√©capitulatif des principales
fonctions du package `re` suivi d‚Äôexemples.

Nous avons principalement
utilis√© jusqu‚Äô√† pr√©sent `re.findall` qui est
l‚Äôune des fonctions les plus pratiques du *package*.
`re.sub` et `re.search` sont √©galement bien pratiques.
Les autres sont moins vitales mais peuvent dans des
cas pr√©cis √™tre utiles.

| Fonction | Objectif |
|-------------------------------------|-----------------------------------|
| `re.match(<regex>, s)` | Trouver et renvoyer le **premier** *match* de l‚Äôexpression r√©guli√®re `<regex>` **√† partir du d√©but** du *string* `s` |
| `re.search(<regex>, s)` | Trouver et renvoyer le **premier** *match* de l‚Äôexpression r√©guli√®re `<regex>` **quelle que soit sa position** dans le *string* `s` |
| `re.finditer(<regex>, s)` | Trouver et renvoyer un it√©rateur stockant tous les *matches* de l‚Äôexpression r√©guli√®re `<regex>` **quelle que soit leur(s) position(s)** dans le *string* `s`. En g√©n√©ral, on effectue ensuite une boucle sur cet it√©rateur |
| `re.findall(<regex>, s)` | Trouver et renvoyer **tous les *matches*** de l‚Äôexpression r√©guli√®re `<regex>` **quelle que soit leur(s) position(s)** dans le *string* `s` sous forme de **liste** |
| `re.sub(<regex>, new_text, s)` | Trouver et **remplacer tous** les *matches* de l‚Äôexpression r√©guli√®re `<regex>` **quelle que soit leur(s) position(s)** dans le *string* `s` |

Pour illustrer ces fonctions, voici quelques exemples:

<details><summary>Exemple de <code>re.match</code> üëá</summary>

`re.match` ne peut servir qu‚Äô√† capturer un *pattern* en d√©but
de *string*. Son utilit√© est donc limit√©e.
Capturons n√©anmoins `toto` :

``` python
re.match("(to){2}", "toto √† la plage")
```

    <re.Match object; span=(0, 4), match='toto'>

</details>

<details><summary>Exemple de <code>re.search</code> üëá</summary>

`re.search` est plus puissant que `re.match`, on peut
capturer des termes quelle que soit leur position
dans un *string*. Par exemple, pour capturer *age* :

``` python
re.search("age", "toto a l'age d'aller √† la plage")
```

    <re.Match object; span=(9, 12), match='age'>

Et pour capturer exclusivement *‚Äúage‚Äù* en fin
de *string* :

``` python
re.search("age$", "toto a l'age d'aller √† la plage")
```

    <re.Match object; span=(28, 31), match='age'>

</details>

<details><summary>Exemple de <code>re.finditer</code> üëá</summary>

`re.finditer` est, √† mon avis,
moins pratique que `re.findall`. Son utilit√©
principale par rapport √† `re.findall`
est de capturer la position dans un champ textuel:

``` python
s = "toto a l'age d'aller √† la plage"
for match in re.finditer("age", s):
    start = match.start()
    end = match.end()
    print(f'String match "{s[start:end]}" at {start}:{end}')
```

    String match "age" at 9:12
    String match "age" at 28:31

</details>

<details><summary>Exemple de <code>re.sub</code> üëá</summary>

`re.sub` permet de capturer et remplacer des expressions.
Par exemple, rempla√ßons *‚Äúage‚Äù* par *‚Äú√¢ge‚Äù*. Mais attention,
il ne faut pas le faire lorsque le motif est pr√©sent dans *‚Äúplage‚Äù*.
On va donc mettre une condition n√©gative: capturer *‚Äúage‚Äù* seulement
s‚Äôil n‚Äôest pas en fin de *string* (ce qui se traduit en *regex* par `?!$`)

``` python
re.sub("age(?!$)", "√¢ge", "toto a l'age d'aller √† la plage")
```

    "toto a l'√¢ge d'aller √† la plage"

</details>

> **Quand utiliser `re.compile` et les raw strings ?**
>
> `re.compile` peut √™tre int√©ressant lorsque
> vous utilisez une expression r√©guli√®re plusieurs fois dans votre code.
> Cela permet de compiler l‚Äôexpression r√©guli√®re en un objet reconnu par `re`,
> ce qui peut √™tre plus efficace en termes de performance lorsque l‚Äôexpression r√©guli√®re
> est utilis√©e √† plusieurs reprises ou sur des donn√©es volumineuses.
>
> Les cha√Ænes brutes (*raw string*) sont des cha√Ænes de caract√®res sp√©ciales en `Python`,
> qui commencent par `r`. Par exemple `r"toto √† la plage"`.
> Elles peuvent √™tre int√©ressantes
> pour √©viter que les caract√®res d‚Äô√©chappement ne soient interpr√©t√©s par `Python`
> Par exemple, si vous voulez chercher une cha√Æne qui contient une barre oblique inverse `\` dans une cha√Æne, vous devez utiliser une cha√Æne brute pour √©viter que la barre oblique inverse ne soit interpr√©t√©e comme un caract√®re d‚Äô√©chappement (`\t`, `\n`, etc.).
> Le testeur <https://regex101.com/> suppose d‚Äôailleurs que
> vous utilisez des *raw string*, cela peut donc √™tre utile de s‚Äôhabituer √† les utiliser.

# 4. G√©n√©ralisation avec `Pandas`

Les m√©thodes de `Pandas` sont des extensions de celles de `re`
qui √©vitent de faire une boucle pour regarder,
ligne √† ligne, une regex. En pratique, lorsqu‚Äôon traite des
`DataFrames`, on utilise plut√¥t l‚ÄôAPI Pandas que `re`. Les
codes de la forme `df.apply(lambda x: re.<fonction>(<regex>,x), axis = 1)`
sont √† bannir car tr√®s peu efficaces.

Les noms changent parfois l√©g√®rement par rapport √† leur
√©quivalent `re`.

| M√©thode | Description |
|---------------------------------------|---------------------------------|
| `str.count()` | Compter le nombre d‚Äôoccurrences du *pattern* dans chaque ligne |
| `str.replace()` | Remplacer le *pattern* par une autre valeur. Version vectoris√©e de `re.sub()` |
| `str.contains()` | Tester si le *pattern* appara√Æt, ligne √† ligne. Version vectoris√©e de `re.search()` |
| `str.extract()` | Extraire les groupes qui r√©pondent √† un *pattern* et les renvoyer dans une colonne |
| `str.findall()` | Trouver et renvoyer toutes les occurrences d‚Äôun *pattern*. Si une ligne comporte plusieurs √©chos, une liste est renvoy√©e. Version vectoris√©e de `re.findall()` |

A ces fonctions, s‚Äôajoutent les m√©thodes `str.split()` et `str.rsplit()` qui sont bien pratiques.

<details><summary>Exemple de <code>str.count</code> üëá</summary>

On peut compter le nombre de fois qu‚Äôun *pattern* appara√Æt avec
`str.count`

``` python
df = pd.DataFrame({"a": ["toto", "titi"]})
df['a'].str.count("to")
```

    0    2
    1    0
    Name: a, dtype: int64

</details>

<details><summary>Exemple de <code>str.replace</code> üëá</summary>

Rempla√ßons le motif *‚Äúti‚Äù* en fin de phrase

``` python
df = pd.DataFrame({"a": ["toto", "titi"]})
df['a'].str.replace("ti$", " punch")
```

    0    toto
    1    titi
    Name: a, dtype: object

</details>

<details><summary>Exemple de <code>str.contains</code> üëá</summary>

V√©rifions les cas o√π notre ligne termine par *‚Äúti‚Äù* :

``` python
df = pd.DataFrame({"a": ["toto", "titi"]})
df['a'].str.contains("ti$")
```

    0    False
    1     True
    Name: a, dtype: bool

</details>

<details><summary>Exemple de <code>str.findall</code> üëá</summary>

``` python
df = pd.DataFrame({"a": ["toto", "titi"]})
df['a'].str.findall("to")
```

    0    [to, to]
    1          []
    Name: a, dtype: object

</details>

# 5. Pour en savoir plus

-   [documentation collaborative sur `R` nomm√©e `utilitR`](https://www.book.utilitr.org/03_fiches_thematiques/fiche_donnees_textuelles#regex)
-   [*R for Data Science*](https://r4ds.hadley.nz/regexps.html)
-   [*Regular Expression HOWTO* dans la documentation officielle de `Python`](https://docs.python.org/3/howto/regex.html)
-   L‚Äôoutil de r√©f√©rence \[https://regex101.com/\] pour tester des expressions r√©guli√®res
-   [Ce site](https://ole.michelsen.dk/tools/regex/) qui comporte une cheat sheet en bas de la page.
-   Les jeux de [Regex Crossword](https://regexcrossword.com/) permettent d‚Äôapprendre les expressions r√©guli√®res en s‚Äôamusant

# 6. Exercices suppl√©mentaires

## 6.1 Extraction d‚Äôadresses email

Il s‚Äôagit d‚Äôun usage classique des *regex*

In [None]:
text_emails = 'Hello from toto@gmail.com to titi.grominet@yahoo.com about the meeting @2PM'

> **Exercice 2: extraction d‚Äôadresses email**
>
> Utiliser la structure d‚Äôune adresse mail `[XXXX]@[XXXX]` pour r√©cup√©rer
> ce contenu

## 6.2 Extraire des ann√©es depuis un `DataFrame` `Pandas`

L‚Äôobjectif g√©n√©ral de l‚Äôexercice est de nettoyer des colonnes d‚Äôun DataFrame en utilisant des expressions r√©guli√®res.

> **Exercice 3**
>
> La base en question contient des livres de la British Library et quelques informations les concernant. Le jeu de donn√©es est disponible ici : https://raw.githubusercontent.com/realpython/python-data-cleaning/master/Datasets/BL-Flickr-Images-Book.csv
>
> La colonne ‚ÄúDate de Publication‚Äù n‚Äôest pas toujours une ann√©e, il y a parfois d‚Äôautres informations. Le but de l‚Äôexercice est d‚Äôavoir **une date de publication du livre propre** et de regarder la **distribution des ann√©es de publications**.
>
> Pour ce faire, vous pouvez :
>
> -   Soit choisir de r√©aliser l‚Äôexercice sans aide. Votre **lecture de l‚Äô√©nonc√© s‚Äôarr√™te donc ici**. Vous devez alors faire attention √† bien regarder vous-m√™me la base de donn√©es et la transformer avec attention.
>
> -   Soit suivre les diff√©rentes √©tapes qui suivent pas √† pas.
>
> <details>
>
> <summary>
>
> Version guid√©e üëá
>
> </summary>
>
> 1.  Lire les donn√©es depuis l‚Äôurl `https://raw.githubusercontent.com/realpython/python-data-cleaning/master/Datasets/BL-Flickr-Images-Book.csv`. Attention au s√©parateur
> 2.  Ne garder que les colonnes `['Identifier', 'Place of Publication', 'Date of Publication', 'Publisher', 'Title', 'Author']`
> 3.  Observer la colonne *‚ÄòDate of Publication‚Äô* et remarquer le probl√®me sur certaines lignes (par exemple la ligne 13)
> 4.  Commencez par regarder le nombre d‚Äôinformations manquantes. On ne pourra pas avoir mieux apr√®s la regex, et normalement on ne devrait pas avoir moins‚Ä¶
> 5.  D√©terminer la forme de la regex pour une date de publication. A priori, il y a 4 chiffres qui forment une ann√©e.
>     Utiliser la m√©thode `str.extract()` avec l‚Äôargument `expand = False` (pour ne conserver que la premi√®re date concordant avec notre *pattern*)?
> 6.  On a 2 `NaN` qui n‚Äô√©taient pas pr√©sents au d√©but de l‚Äôexercice. Quels sont-ils et pourquoi ?
> 7.  Quelle est la r√©partition des dates de publications dans le jeu de donn√©es ? Vous pouvez par exemple afficher un histogramme gr√¢ce √† la m√©thode `plot` avec l‚Äôargument `kind ="hist"`.
>
> </details>

Voici par exemple le probl√®me qu‚Äôon demande de d√©tecter √† la question 3 :

A la question 4, on obtient la r√©ponse

Gr√¢ce √† notre regex (question 5), on obtient ainsi un `DataFrame` plus conforme √† nos attentes

Quant aux nouveaux `NaN`,
il s‚Äôagit de lignes qui ne contenaient pas de cha√Ænes de caract√®res qui ressemblaient √† des ann√©es :

Enfin, on obtient l‚Äôhistogramme suivant des dates de publications: