# *re*, un module pour les expressions rationnelles

## Premiers pas

Le module *re* fait partie de la distribution de Python et peut s’importer sans installation préalable :

In [None]:
import re

Il s’utilise ensuite en faisant appel aux méthodes définies dans l’espace de noms :

In [None]:
s = 'Un truc de dingue.'
pattern = '[A-Z]'
result = re.match(pattern, s)

Le résultat est ensuite disponible dans un groupe numéroté :

In [None]:
print(result.group(0))

La méthode `.match()` utilisée ici essaie de trouver une correspondance avec `pattern` en début de chaîne uniquement :

In [None]:
result = re.match('[A-Z]', 'The Picture of Dorian Gray')
print(result.group(0))

### Compilation des expressions

Il est à noter que si une expression rationnelle est amenée à être utilisée de nombreuses fois, il est préférable, pour des questions d’optimisation, de la compiler :

In [None]:
pattern = '\w+'
prog = re.compile(pattern)
result = prog.match(s)

Autre précision notable, le *backslash* (`\`) fait partie de la syntaxe du langage des expressions rationnelles. Il indique des formes spéciales comme, par exemple, `\n` pour les sauts de ligne. Si l’objectif était plutôt d’identifier, dans un texte, la succession des littéraux `\` et `n`, il faudrait soit déspécialiser le *backslash* par `\\\\`, soit de manière préférentielle utiliser la notation Python de référence à une chaîne brute, `r` :

In [None]:
pattern = r'\n'

## Les métacaractères

La syntaxe des expressions rationnelles réserve l’utilisation de certains caractères à des emplois spécifiques. Par exemple, dans l’expression `[0-9]`, les signes *[* et *]* permettent de définir une classe de caractères mais ne se représentent pas eux-mêmes. On parle alors de métacaractères. Pour rechercher un crochet ouvrant dans une chaîne de caractères, il conviendrait alors de déspécialiser le métacaractère avec un *backslash* : `\[`

Les métacaractères du module *re* sont : `. ^ $ * + ? { } [ ] \ | ( )`

Il existe aussi des séquences spéciales qui offrent un raccourci de certaines classes :

|Séquence|Description|Équivalent
|:-:|:-|:-:|
|`\d`|N'importe quel caractère numérique|`[0-9]`|
|`\D`|N'importe quel caractère non numérique|`[^0-9]`|
|`\s`|N'importe quel caractère blanc|`[ \t\n\r\f\v]`|
|`\S`|N'importe quel caractère autre que blanc|`[^ \t\n\r\f\v]`|
|`\w`|N'importe quel caractère alphanumérique|`[a-zA-Z0-9_]`|
|`\W`|N'importe quel caractère qui ne soit pas alphanumérique|`[^a-zA-Z0-9_]`|
|`\b`|Une frontière de mot|Liaison entre `\w` et `\W`|

## Recherche de correspondances

Le module *re* expose plusieurs méthodes qui permettent d’effectuer une recherche de motif :

- `.search()` : analyse la chaîne à la recherche d’une correspondance
- `.match()` : détermine, à partir du début de la chaîne, si la *regex* trouve une correspondance
- `.findall()` : renvoie sous forme de liste les correspondances de la *regex*
- `.finditer()` : recherche les correspondances et les renvoie sous forme d’itérateur

### Vérifier l’existence d’un motif

La méthode `.search()` est la plus intuitive : elle permet de rechercher, n’importe où dans la chaîne, une concordance :

In [None]:
text = "La première guerre mondiale a commencé en 1914 et s’est terminée en 1918."
result = re.search(r"\d{4}", text)

Le résultat est ensuite exploitable à travers une méthode `.group()` :

In [None]:
print(result.group())

La méthode `.match()` va quant à elle essayer de repérer une correspondance à partir du début de la chaîne :

In [None]:
result = re.match(r"\d{4}", text)

Comme la chaîne ne débute pas par quatre chiffres (le sens de la classe `\d` avec le quantificateur `{4}`), l’instruction renvoie un objet `None` :

In [None]:
print(result)

D’un point de vue pratique, ces deux méthodes s’utilisent plutôt pour vérifier si un motif est présent dans une chaîne plutôt que pour noter ou faire ressortir leurs occurrences :

In [None]:
# does the string starts with a date?
result = re.match(r"^\d{4}", text)
# if so…
if result:
    print('There is a match:', result.group())
else:
    print('No match')

À noter trois autres méthodes pour exploiter le résultat :

- `.span()` : indique la position où la *regex* se vérifie
- `.start()` : indique la position de début de vérification de la *regex*
- `.end()` : indique la position de fin de vérification de la *regex*

### Trouver toutes les occurrences d’un motif

Les méthodes `.findall()` et `.finditer()` sont plus pratiques pour isoler les résultats d’une recherche. Dans le cas de la première, le programme renvoie une liste ; dans le cas de la seconde, un itérateur :

In [None]:
# a list
results = re.findall(r"\d{4}", text)

print(results)

In [None]:
# an iterator
results = re.finditer(r"\d{4}", text)

for r in results:
    print(r.group())

## Opérations pour modifier une chaîne

La méthode la plus souvent utilisée pour effectuer ces opérations est `.sub()`. Elle accepte trois paramètres : le motif, le remplacement et l’objet où l’effectuer.

In [None]:
result = re.sub(r"\d{4}", "AAAA", text)

print(result)

On pourrait aussi citer la méthode `.split()` qui découpe une chaîne de caractères en liste d’éléments :

In [None]:
results = re.split(r"\W", text)

print(results)

## Compilation et options de compilation

La compilation est la méthode à privilégier lorsque l’objectif est de répéter la *regex* sur un ensemble de données :

In [None]:
adj = ['agréable', 'admirable', 'négociable', 'traitable']
pattern = r'^n.*able$'

prog = re.compile(pattern)

for a in adj:
    result = prog.match(a)

    if result:
        print(result.group())

La méthode `.compile()` accepte en second paramètre des options de compilation parmi lesquelles :

|Option|Description|Notation abrégée|
|:-:|:-|:-:|
|`ASCII`|Certaines séquences spéciales comme `\w` ou `\b` à limiter les correspondances aux caractères ASCII.|`A`|
|`IGNORECASE`|La correspondance est insensible à la casse.|`I`|
|`VERBOSE`|Active les *regex* verbeuses.|`X`|

In [None]:
text = 'Eugène Poubelle n’a jamais été l’inventeur de la poubelle.'
pattern = r'p\w+'

# compiling
prog = re.compile(pattern, re.I)

# find all occurrences
results = prog.findall(text)

print(results)

## Défis des expressions régulières pour les langues non latines

Les regex classiques (`\w`, `\b`, etc.) sont conçues pour les langues latines. Pour d’autres langues, il faut :

- Utiliser des plages Unicode pour cibler des caractères spécifiques.
- Adapter les motifs pour les langues sans espaces (chinois, japonais).
- Gérer les diacritiques (arabe, hindi) ou les caractères composites (coréen, japonais).

### Les blocs Unicode

Par exemple, avec le chinois, `\w` échouera à cibler les mots :

In [None]:
text = "我喜欢学习自然语言处理。Python很有用！"
words = re.findall(r'\w+', text)

print(words)

En revanche, si on lui transmet le bloc Unicode U+4E00 à U+9FFF (*CJK Unified Ideographs*), il repère bien les caractères :

In [None]:
chinese = "我喜欢学习自然语言处理。Python很有用！"
words = re.findall(r'[\u4e00-\u9fff]+', chinese)

print("Chinois :", words)

Poursuivons la logique avec l’arabe et le japonais :

In [None]:
# Arabic
arabic = "أحب دراسة معالجة اللغات الطبيعية. بايثون مفيدة!"
words = re.findall(r'[\u0600-\u06ff]+', arabic)

print("Arabe :", words)

# Japanese (mix of kanji, hiragana & katakana)
japanese = "私は自然言語処理の勉強が好きです。Pythonは便利！"
words = re.findall(r'[\u3040-\u309f\u30a0-\u30ff\u4e00-\u9faf]+', japanese)

print("Japonais :", words)

### Gestion des diacritiques et des caractères composites

Les plages Unicode se révèlent intéressantes également pour gérer les diacritiques. Prenons un exemple avec les voyelles courtes (harakat) dans une phrase en arabe :

In [None]:
arabic = "كَتَبَ"

# Unicode range for harakat: \u064b-\u065f
text = re.sub(r'[\u064b-\u065f]', '', arabic)

print("Sans diacritiques :", text)

Poursuivons la démonstration avec l’extraction des syllabes hangul du coréen (U+AC00 à U+D7A3) :

In [None]:
text = "나는 자연언어처리를 좋아해"

# Unicode range: \uac00-\ud7af
words = re.findall(r'[\uac00-\ud7af]+', text)

print("Mots coréens :", words)

### Utiliser des modules spécifiques

Avec des langues non latines, le module *re* montrera rapidement ses limites. Regardons un exemple avec un texte en chinois, pour lequel nous émettons une hypothèse naïve où chaque caractère est un mot :

In [None]:
# Basic segmentation
text = "我喜欢学习自然语言处理"

# Naive hypothesis: each character is a word
words = re.findall(r'.', text)

print("Segmentation naïve :", words)

On comprend rapidement que le module *re* ne suffira pas à traiter certaines tâches spécifiques. Pour le chinois, le module *jieba* se révélera utile :

In [None]:
# Comparaison avec un vrai segmentateur (jieba)
import jieba

words = list(jieba.cut(text))

print("Segmentation avec jieba :", words)