# Une introduction en douceur aux expressions rationnelles

## Définition

Le terme d’expression rationnelle caractérise un motif qui spécifie les conditions à remplir pour toute recherche effectuée par un opérateur (logiciel de traitement de texte, moteur de recherche, instruction dans un langage informatique…).

Si le terme d’expression régulière se rencontre souvent de manière concurrentielle, elle n’est pas à privilégier car directement calquée sur l’anglais *regular expressions* (*regex* en abrégé). Une autre traduction se rencontre parfois, celle d’expression normale.

Ce qui définit un motif (*pattern* en anglais) dans le cadre des expressions rationnelles est une chaîne de caractères répondant à une syntaxe précise décrite par un langage formel.

L’utilisation des expressions rationnelles est massive en informatique. Elle permet d’effectuer rapidement de nombreuses opérations, comme la recherche de motifs (p. ex. : tous les mots se finissant en *-able*), le remplacement de caractères (p. ex. : remplacer *oe* en *œ*) ou encore l’annotation (p. ex. : isoler la racine d’un mot ou déduire l’infinitif de formes conjuguées). Ces opérations se rencontrent dans des domaines variés, comme la validation d’adresses e-mail ou la recherche avancée dans des documents.

## Une mise en œuvre immédiate

Le site [Rubular](https://rubular.com/) est un service Web qui permet de tester rapidement la validité d’une expression rationnelle. Il offre un apprentissage interactif en permettant de voir immédiatement le résultat des motifs testés. N’hésitez pas à vous reposer sur ce [mémo](./files/memo-regex.pdf) pour formaliser vos motifs.

### Comment trouver les occurrences d’un mot, au singulier et au pluriel ?

Dans le texte suivant, cherchez les occurrences du mot *pied* :

> — Aaaaaaaah !!  
— Quoi Aaah ?  
— Ah tu m’écrases le pied banane  
— Et toi tu me casses les pieds cornichon

**Regex :** `pieds?`

**Analyse :** Le `?` permet d’ajouter une condition à la recherche. Son périmètre d’exécution ne concerne
que le caractère qui le précède.

### Comment repérer une lettre en minuscule et en capitale ?

Dans le texte suivant, essayez de repérer toutes les apparitions de la lettre *e* :

> Le document révélant cette affaire émane du Centre de la sécurité des télécommunications du
Canada (CSEC), les services secrets techniques du pays. Il a été extrait des archives de l’Agence
nationale de sécurité américaine (NSA), par son ex-consultant Edward Snowden. Daté de 2011, il
semble avoir été conçu pour exposer, au sein du CSEC, les détails d’une traque menée, avec succès,
contre une arme informatique offensive ayant, dans ce cas, permis d’incriminer la France.

**Regex :** `[eE]`

**Analyse :** Placer un motif entre crochets permet d’effectuer la recherche sur n’importe quel élément
du motif. On appelle alors ce motif un *ensemble* ou *une classe de caractères*.

### Comment identifier un mot ?

La notion de mot est moins évidente qu’il n’y paraît. Essayez de les identifier automatiquement dans le même texte.

**Regex :**
- `[\wéè-]+`
- `[a-zA-Zéè-]+`
- `[[:alpha:]-]+`

**Analyse :** Il existe quasiment toujours plusieurs façons d’écrire une expression rationnelle pour parvenir au résultat attendu, mais il existe rarement de solution universelle. Les expressions rationnelles sont à préparer en fonction de l’objet d’étude. Dans la première solution, un ensemble a été défini autour du caractère spécial `\w` qui signifie : n’importe quel caractère. Le quantificateur `+` permet de préciser que tout caractère doit être présent au moins une fois. Comme `\w` ne capture ni les caractères accentués ni le tiret *-*, il convient de les rajouter à l’ensemble défini. Parmi les choses notables, cette expression identifie aussi la date (2011) alors que la dernière (`[[:alpha:]-]+`) la laisse de côté.

### Comment identifier un mot commençant par certains caractères ?

Cette fois-ci, repérez les mots commençant par *ex*.

**Regex :**
- `ex[a-z-]+`
- `ex[\w-]+`

**Analyse :** Afin de ne pas écrire littéralement tous les caractères de l’alphabet à l’intérieur de l’ensemble, il est possible de définir un intervalle entre *a* et *z*. Et comme certains mots pourraient présenter une forme complexe (ex-consultant), on ajoute le tiret (*-*) dans l’ensemble, mais soit au début, soit à la fin, afin de lever toute ambiguïté avec celui dont la fonction est de déclarer l’intervalle. Le signe *+* quant à lui permet de préciser que l’ensemble dont il est précédé peut apparaître de 1 à *n* fois.

### Comment identifier des sigles ?

Essayez, toujours dans le même texte, de repérer les sigles.

**Regex :** `[A-Z]{2,}`

**Analyse :** Un sigle étant composé d’une succession d’au moins deux lettres capitales, il convient d’appliquer à l’ensemble un quantificateur allant de 2 à l’infini. Le signe `+` peut alors se comprendre comme la version raccourcie d’un quantificateur de type `{1,}`

### Comment identifier des années ?

**Regex :** `\d{4}`

**Analyse :** `\d` correspond à un caractère de type numérique. Il fonctionne de la même manière
que l’ensemble `[0-9]`. Le quantificateur `{4}` apporte une restriction : le caractère doit apparaître
exactement quatre fois.

## Normalisation des données textuelles

En TAL, les expressions rationnelles servent le plus souvent à normaliser des chaînes de caractères, soit pour rectifier des erreurs de saisie, soit parce que les conventions de retranscription n’ont pas été respectées, soit en post-édition. Les opportunités et raisons ne manquent pas pour nettoyer un texte de ses impuretés.

### Identifier les signes de ponctuation

La ponctuation varie selon les langues. En espagnol, on trouve des signes spécifiques comme *¿* et *¡*. En chinois, les virgules (*，*) et les points (*。*) sont différents de ceux de l’alphabet latin. Cette diversité peut compliquer les tâches de nettoyage ou d’analyse textuelle.

Considérons ce texte multilingue :

> Hola, ¿cómo estás? Estoy muy bien, gracias. ¡Qué hermoso día!
> - ¡Sí, absolutamente magnífico!  
你好吗？我很好，谢谢。

**Regex :** `([[:punct:]])`

**Analyse :** Cette regex utilise une classe de caractères pré-définie, `[[:punct:]]`, pour identifier tout signe de ponctuation, tels que les points, virgules, points d’interrogation ou d’exclamation, etc. Cela est particulièrement utile pour des tâches comme le nettoyage de texte ou la segmentation en phrases, en prenant en compte les spécificités linguistiques comme les points d’interrogation inversés (*¿*) ou d’exclamation (*¡*) en espagnol. L’ajout des parenthèses autour va en plus permettre de capturer la sélection.

### Identifier les contractions

L’anglais regorge de contractions qui rassemblent deux mots en un seul, comme dans les formes *hadn't* et *didn't* du texte ci-dessous pour *had not* et *did not* :

>Little Joe sat down on the bank and prepared to enjoy his breakfast. He hadn't seen Buster Bear, and he didn't know that he or any one else was anywhere near.

**Regex :**

- `(\w+)'(\w+)`
- `(\w+)(n't)`

**Analyses :** La première regex capture les contractions (et élisions) courantes en anglais comme *he's*, *can't*, en séparant la partie avant et après l’apostrophe en deux groupes distincts (p. ex. *he* et *s*). Elle est utile pour analyser des textes en langage naturel, notamment pour distinguer les formes contractées des formes complètes. La seconde regex est quant à elle plus spécialisée. Elle isole les formes négatives contractées comme *can't* ou *didn't* en deux groupes, permettant de reconstruire la forme pleine si nécessaire (p. ex. *did not*).

### Identifier des suffixes et des flexions

Prenons un cas simple pour identifier les adverbes en *-ly* :

>She sings beautifully.

**Regex :** `\b(\w+)ly\b`

**Analyse :** La regex est utilisée pour capturer les adverbes qui se terminent par *-ly*. Elle utilise `\b` pour s’assurer que le mot est bien délimité (au début et à la fin du mot). Le groupe `(\w+)` capture la racine du mot, et `ly` identifie les adverbes typiques. Cependant, cette regex est simple et peut ne pas capturer tous les cas (par exemple, des mots composés comme *badly-lit* pour *mal éclairé*).

Parfois, il faudra s’adapter assez finement au contexte, comme dans l’exemple du turc. Le turc est une langue agglutinante qui emploie largement des suffixes pour marquer une flexion casuelle, une conjugaison ou pour exprimer la possession. Il n’existe pas d’expression rationnelle universelle propre à capturer les traits linguistiques désirés..

Prenons le premier couplet de la chanson *Şımarık* de Tarkan et essayons d’identifier deux suffixes :

>Takmış koluna elin adamını  
Beni orta yerimden çatlatıyor  
Ağzında sakızı şişirip şişirip  
Arsız arsız patlatıyor

**Regex :**

- `([a-zA-ZçÇğĞıİöÖşŞüÜ]+)in`
- `([a-zA-ZçÇğĞıİöÖşŞüÜ]+)ıyor`

**Analyses :** La première regex sert à identifier les cas de possession formés par le suffixe *-in*. La seconde regex est quant à elle conçue pour identifier les verbes conjugués au présent continu en turc. Le suffixe *-ıyor* est la forme de base du présent continu en turc, et il est ajouté à la racine du verbe. La regex ne prend toutefois en compte que les formes les plus simples. Il peut en effet exister des variations, sans parler des verbes irréguliers ou des formes composées qui peuvent nécessiter un ajustement de la regex.