# Le module «re».
### Les expressions rationnelles (Expression régulière ou Regular expression ou RE).
Dans ce module, les expressions rationnelles sont utilisées pour trouver des correspondances dans une chaine de texte, si la RE en trouve au moins une on dit qu'elle reconnait ou valide la chaine. Une fois une correspondance trouvée, on peut la remplacer.

In [2]:
import re
from typing import Pattern, Optional, Match, Any
from Util import pr

# La correspondance de caractères.
Le moteur de correspondance essaie de trouver la correspondance la plus longue. Balaie la chaîne de caractères et rapporte la première correspondance qu'il trouve.
## search(reg, text)
On effectue une recherche d'une correspondance dans un texte avec la méthode search.
Si la RE trouve une correspondance, retourne un objet Match sinon retourne None.

La RE reconnait le texte "ab".

In [3]:
pattern: str = "ab"
text: str = "___ab___"
_: Optional[Match[str]] = re.search(pattern, text)
_ is not None

True

La RE ne reconnait pas le texte "c".

In [4]:
re.search("c", "ab") is not None

False

### « | » opérateur OU.</br>
La RE reconnait le texte "Hello" et "Salut".

In [5]:
re.search("Hello|Salut", "___Salut___")

<re.Match object; span=(3, 8), match='Salut'>

# Caractère spéciaux.
## «[ ]» Recherche un caractère contenu entre ces crochets.</br>Utilisé pour spécifier une classe de caractères qui forme un ensemble de caractères.
### Les caractères qui se situent entre [ ] ont une signification de OU entre elles.
La RE reconnait le texte "Hello" et "Hella".

In [6]:
re.search("Hell[ao]", "___Hella___")

<re.Match object; span=(3, 8), match='Hella'>

In [7]:
re.search("Hell[ao]", "___Hellz___")

### Les caractères spéciaux qui se situent entre «[ ]» perdent leurs effets.

In [8]:
re.search("Hell[()^?+*]", "___Hell?___")

<re.Match object; span=(3, 8), match='Hell?'>

### Les classes de caractère prédéfini (\w, \s...) fonctionne aussi entre «[ ]».

In [9]:
re.search("Hell[\w]", "___Hell0___")

<re.Match object; span=(3, 8), match='Hell0'>

### «[^ ]» Recherche n'importe quel caractère qui n'est pas contenu entre ces crochets.

In [10]:
re.search("Hell[^ao]", "___Hellz___")

<re.Match object; span=(3, 8), match='Hellz'>

In [11]:
re.search("Hell[^ao]", "___Hella___")

### «^» Recherche en début de texte.
La RE reconnait le texte "Hello" et "Hella" en début de chaine.

In [12]:
re.search("^Hell[ao]", "Hella___")

<re.Match object; span=(0, 5), match='Hella'>

In [13]:
re.search("^Hell[ao]", "_Hella___")

### «$» Recherche en fin de texte.
La RE reconnait le texte "Hello" et "Hella" en fin de chaine.

In [14]:
re.search("Hell[ao]$", "___Hella")

<re.Match object; span=(3, 8), match='Hella'>

In [15]:
re.search("Hell[ao]$", "___Hella_")

### Recherche un texte qui se situe en même temps au début et en fin de chaine.
La RE reconnait le texte exact "Hello" et "Hella".

In [16]:
re.search("^Hell[ao]$", "Hella")

<re.Match object; span=(0, 5), match='Hella'>

In [17]:
re.search("^Hell[ao]$", "_Hella")

### «.» Recherche n'importe quel caractère de longueur 1 excepté le saut de ligne.
La RE reconnait le texte contenant la lettre H suivit par n'importe quelle caractère suivit par "llo".</br>
L'option DOTALL permet de prendre en compte les sauts de lignes.

In [18]:
re.search("H.llo", "___Hullo___")

<re.Match object; span=(3, 8), match='Hullo'>

In [19]:
re.search(re.compile("H.llo", re.DOTALL), """___H
llo___""")

<re.Match object; span=(3, 8), match='H\nllo'>

In [20]:
re.search(re.compile("H.llo", re.DOTALL), "___H\nllo___")

<re.Match object; span=(3, 8), match='H\nllo'>

In [21]:
re.search("H.llo", "___Hllo___")

In [22]:
re.search("H.llo", "___H\nllo___")

In [23]:
re.search("H.llo", """___H
llo___""")

### «\**» Recherche l'expression qui précède «\**» 0 ou n fois.
La RE reconnait le texte contenant la lettre «H» suivit par le caractère «e» répété au moins 0 fois suivit par "llo".

In [24]:
re.search("He*llo", "___Hello___")

<re.Match object; span=(3, 8), match='Hello'>

In [25]:
re.search("He*llo", "___Heeeeeeeello___")

<re.Match object; span=(3, 15), match='Heeeeeeeello'>

In [26]:
re.search("He*llo", "___Hllo___")

<re.Match object; span=(3, 7), match='Hllo'>

In [27]:
re.search("He*llo", "___llo___")

In [28]:
re.search("H[aeiouy]*llo", "___Haaeeaaeello___")

<re.Match object; span=(3, 15), match='Haaeeaaeello'>

In [29]:
re.search("H[aeiouy]*llo", "___Haaeeaaeezllo___")

In [30]:
re.search("H(ey)*llo", "___Heyeyeyeyllo___")

<re.Match object; span=(3, 15), match='Heyeyeyeyllo'>

In [31]:
re.search("H(ey)*llo", "___Heyello___")

### «+» Recherche l'expression qui précède «+» 1 ou n fois.
La RE reconnait le texte contenant la lettre «H» suivit par le caractère «e» répété au moins 1 fois suivit par "llo".

In [32]:
re.search("He+llo", "___Hello___")

<re.Match object; span=(3, 8), match='Hello'>

In [33]:
re.search("He*llo", "___Heeeeeeeello___")

<re.Match object; span=(3, 15), match='Heeeeeeeello'>

In [34]:
re.search("He+llo", "___Hllo___")

### «?» Recherche l'expression qui précède «?» 0 ou 1 fois.
La RE reconnait le texte contenant la lettre H suivit par la lettre "e" ou la chaine vide suivit par "llo".

In [35]:
re.search("He?llo", "___Hllo___")

<re.Match object; span=(3, 7), match='Hllo'>

In [36]:
re.search("He?llo", "___Hello___")

<re.Match object; span=(3, 8), match='Hello'>

In [37]:
re.search("He?llo", "___Heeeeeeeello___")

### «{n}» Recherche l'expression qui précède «{n}» n fois.
La RE reconnait le texte contenant la lettre H suivit par 5 "e" suivit par "llo".

In [38]:
re.search("He{5}llo", "___Heeeeello___")

<re.Match object; span=(3, 12), match='Heeeeello'>

In [39]:
re.search("He{5}llo", "___Hello___")

### «{n, m}» Recherche l'expression qui précède «{n, m}» entre n et m fois.
La RE reconnait le texte contenant la lettre H suivit par 3, 4 ou 5 "e" suivit par "llo".

In [40]:
re.search("He{3,5}llo", "___Heeello___")

<re.Match object; span=(3, 10), match='Heeello'>

In [41]:
re.search("He{3,5}llo", "___Heeeello___")

<re.Match object; span=(3, 11), match='Heeeello'>

In [42]:
re.search("He{3,5}llo", "___Heeeeello___")

<re.Match object; span=(3, 12), match='Heeeeello'>

In [43]:
re.search("He{3,5}llo", "___Hello___")

### «{n,}» Recherche l'expression qui précède «{n,}» au moins n fois.
La RE reconnait le texte contenant la lettre H suivit par au moins 3 "e" suivit par "llo".

In [44]:
re.search("He{3,}llo", "___Heeello___")

<re.Match object; span=(3, 10), match='Heeello'>

In [45]:
re.search("He{3,}llo", "___Heeeello___")

<re.Match object; span=(3, 11), match='Heeeello'>

In [46]:
re.search("He{3,}llo", "___Hello___")

### «{,m}» Recherche l'expression qui précède «{,m}» au plus m fois.
La RE reconnait le texte contenant la lettre H suivit par au plus 3 "e" suivit par "llo".

In [47]:
re.search("He{,3}llo", "___Hello___")

<re.Match object; span=(3, 8), match='Hello'>

In [48]:
re.search("He{,3}llo", "___Heeello___")

<re.Match object; span=(3, 10), match='Heeello'>

In [49]:
re.search("He{,3}llo", "___Heeeello___")

### «.*» Recherche n'importe quelle chaine de caractère de n'importe quelle longueur, même vide.
La RE reconnait le texte contenant la lettre H suivit par n'importe quelle chaine de caractère de n'importe quelle longueur suivit par "llo".

In [50]:
re.search("H.*llo", "___Hllo___")

<re.Match object; span=(3, 7), match='Hllo'>

In [51]:
re.search("H.*llo", "___Huuuuuullo___")

<re.Match object; span=(3, 13), match='Huuuuuullo'>

In [52]:
re.search("H.*llo", "___Huuuuuueeeeello___")

<re.Match object; span=(3, 18), match='Huuuuuueeeeello'>

In [53]:
re.search("H.*llo", "___Huuuuuueeeeell___")

### «.+» Recherche n'importe quelle chaine de caractère de longueur d'au moins 1.
La RE reconnait le texte contenant la lettre H suivit par n'importe quelle chaine de caractère suivit par "llo".

In [54]:
re.search("H.+llo", "___Hello___")

<re.Match object; span=(3, 8), match='Hello'>

In [55]:
re.search("H.+llo", "___Haieaiello___")

<re.Match object; span=(3, 13), match='Haieaiello'>

In [56]:
re.search("H.+llo", "___Hllo___")

### «*?», «+?», «??», «{m, n}?» Opérateur non greedy.
Les qualificateurs «*», «+», «?», «{m, n}» sont tous greedy (gourmands), ils valident autant de texte que possible. Parfois ce comportement n'est pas désiré.</br>
Ajouter «?» derrière le qualificateur lui fait réaliser l'opération de façon non-greedy (ou minimal), le moins de caractères possibles seront validés.

In [57]:
re.search(r"<.*>", "<head><title>Title</title>")

<re.Match object; span=(0, 26), match='<head><title>Title</title>'>

In [58]:
re.search(r"<.*?>", "<head><title>Title</title>")

<re.Match object; span=(0, 6), match='<head>'>

### «( )» Permet de créer des groupes dans une expression régulière.
Un groupe est représenté par une suite de caractère. On peut faire des manipulations dessus comme si c'était un seul caractère.</br>
Peut être utilisé avec les caractères spéciaux.

La RE reconnait le texte "Helloo".

In [59]:
re.search("Hell(oo)", "___Helloo___")

<re.Match object; span=(3, 9), match='Helloo'>

In [60]:
re.search("Hell(oo)", "___Hello___")

### Dans un groupe, le caractère « | » est utilisé pour représenter un OU afin de regrouper plusieurs expressions régulières dans un seul et même groupe.
La RE reconnait le texte "Helloo" ou "Hellaa.

In [61]:
re.search("Hell(oo|aa)", "___Hellaa___")

<re.Match object; span=(3, 9), match='Hellaa'>

In [62]:
re.search("Hell(oo)", "___Hello___")

### «\» Caractère d'échappement.
Est utilisé pour enlever l'effet d'un caractère spécial.

La RE reconnait le texte « + ».

In [63]:
re.search(" \+ ", "1 + 1 = 2")

<re.Match object; span=(1, 4), match=' + '>

In [64]:
re.search(" + ", "1 + 1 = 2")

La RE reconnait le texte « \ ».

In [65]:
re.search("\\\\", "1 \ 1 = 2")

<re.Match object; span=(2, 3), match='\\'>

In [66]:
re.search("\\\ ", "1 \ 1 = 2")  # Le caractère d’échappement est utilisé sur le " "

<re.Match object; span=(2, 4), match='\\ '>

In [67]:
re.search(r"\\", "1 \ 1 = 2")

<re.Match object; span=(2, 3), match='\\'>

# Compilation des expressions régulières
Les expressions régulières sont compilées (grâce à la méthode compile() ou automatiquement dans une méthode) en objets qui possèdent des méthodes pour diverses opérations telles que la recherche de correspondances ou les substitutions dans les chaînes.</br>
re.compile() accepte aussi une option flags, utilisée pour activer des fonctionnalités particulières et des variations de syntaxe.</br>
La liste des options disponible : https://docs.python.org/fr/3/library/re.html#re.compile</br>
Une option peut aussi être déclaré en début d'expression réguliere de la manière suivante (?OPTIONS)</br>
</br>
Permet d'éviter de compiler à la volée lors de l'utilisation directe d'une chaîne de caractère en guise d'argument dans une méthode.<br/>
Lors de l'utilisation d'une méthode il y a une compilation automatique de la RE, l'objet est compilé dans un cache afin que les appels suivants qui utilisent la même RE n'aient pas besoin d'analyser le motif une nouvelle fois donc il y a une augmentation de performance lorsque la même expression régulière est utilisée souvent à plusieurs recherches différentes.</br>
Si l'expression régulière est à l'intérieur d'une boucle, la pré-compilation permet d'économiser quelques appels de fonctions. En dehors des boucles, il n'y a pas beaucoup de différence grâce au cache interne.

In [68]:
pattern: Pattern[str] = re.compile("ab")
text: str = "___ab___"
findRe: Optional[Match[str]] = pattern.search(text)
findRe

<re.Match object; span=(3, 5), match='ab'>

In [69]:
re.search(re.compile("[ab]", flags=re.IGNORECASE), "aabAbBBbA___")

<re.Match object; span=(0, 1), match='a'>

In [70]:
regex = re.compile("[ab]*", flags=re.IGNORECASE)
regex.search("aabAbBBbA___")

<re.Match object; span=(0, 9), match='aabAbBBbA'>

In [71]:
re.compile("(?i)[ab]*").search("aabAbBBbA___")  # (?i) same as flags=re.IGNORECASE

<re.Match object; span=(0, 9), match='aabAbBBbA'>

In [72]:
regex.findall("aabAbBBbA___")

['aabAbBBbA', '', '', '', '']

In [73]:
regex.search("___aabAbBBbA___")

<re.Match object; span=(0, 0), match=''>

In [74]:
regex.findall("___aabAbBBbA___")

['', '', '', 'aabAbBBbA', '', '', '', '']

In [75]:
re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

re.compile(r'\n &[#]                # Start of a numeric entity reference\n (\n     0[0-7]+         # Octal form\n   | [0-9]+          # Decimal form\n   | x[0-9a-fA-F]+   # Hexadecimal form\n )\n ;                   # Trailing semicolon\n',
           re.UNICODE|re.VERBOSE)

In [76]:
re.compile("&#(0[0-7]+"
           "|[0-9]+"
           "|x[0-9a-fA-F]+);")

re.compile(r'&#(0[0-7]+|[0-9]+|x[0-9a-fA-F]+);', re.UNICODE)

# Les classes de caractère.
### «\d»
La RE reconnait un chiffre.

In [77]:
re.compile('[0123456789]')
re.compile('[0-9]')
re.compile('\d')

re.compile(r'\d', re.UNICODE)

### «\D»
La RE reconnait tout sauf un chiffre.

In [78]:
re.compile('[^0123456789]')
re.compile('[^0-9]')
re.compile('\D')

re.compile(r'\D', re.UNICODE)

### «\w»
La RE reconnait un caractère alphanumérique.

In [79]:
re.compile('a-zA-Z0-9_')
re.compile('\w')

re.compile(r'\w', re.UNICODE)

### «\W»
La RE reconnait tout sauf un caractère alphanumérique.

In [80]:
re.compile('^a-zA-Z0-9_')
re.compile('^\W')

re.compile(r'^\W', re.UNICODE)

### «\s»
La RE reconnait un caractère blanc.

In [81]:
re.compile('[ \t\n\r\f\v]')
re.compile('\s')

re.compile(r'\s', re.UNICODE)

### «\S»
La RE reconnait tout sauf un caractère blanc.

In [82]:
re.compile('[^ \t\n\r\f\v]')
re.compile('\S')

re.compile(r'\S', re.UNICODE)

La RE reconnait un caractère blanc ou "," ou "." ou une lettre en minuscule.

In [83]:
re.compile('[\s,.a-z]')

re.compile(r'[\s,.a-z]', re.UNICODE)

### «\b»
Correspond à la chaîne vide, mais uniquement au début ou à la fin d'un mot. Fait correspondre le mot seulement si c'est un mot complet.

In [84]:
re.search(r'\bclass\b', "class")

<re.Match object; span=(0, 5), match='class'>

In [85]:
re.search(r'\bclass\b', "subclass")

### «\B»
Fait correspondre uniquement les emplacements qui ne sont pas à la limite d'un mot.

# Les méthodes du module re.py.
### search(reg, text)
On effectue une recherche d'une correspondance dans un texte à l'aide d'une expression régulière avec la méthode search.<br/>
Si la RE trouve une correspondance, retourne un objet Match sinon retourne None.</br>
Ne renvoie que la première zone qui correspond à la RE, même s'il en existe plusieurs.</br>

In [86]:
decimal = re.compile("([0-9]+)\.([0-9]+)")
decimal.search("pi=3.14, e=2.72").group()

'3.14'

### match(reg, text)
On effectue une recherche d'une correspondance au début d'un texte avec la méthode match.<br/>Si la RE trouve une correspondance, retourne un objet Match sinon retourne None.

La RE reconnait le texte "aaa" mais qu'en début de chaine.

In [87]:
text = "aaa bbb ccc"
_: Match[str] | None = re.match("aaa", text)
_

<re.Match object; span=(0, 3), match='aaa'>

In [88]:
re.search("^aaa", text)

<re.Match object; span=(0, 3), match='aaa'>

In [89]:
re.match("bbb", text)

### fullmatch(reg, text)
On effectue une recherche d'une correspondance correspondant exactement à la chaine de caractères avec la méthode fullmatch.<br/>Si la RE trouve une correspondance, retourne un objet Match sinon retourne None.
La RE reconnait le texte "aaa" mais qu'en début de chaine.

In [90]:
text = "azerty"
_: Match[str] | None = re.fullmatch("azerty", text)
_

<re.Match object; span=(0, 6), match='azerty'>

In [91]:
_: Match[str] | None = re.search("^azerty$", text)

In [92]:
_: Match[str] | None = re.fullmatch("azertyo", text)
_

In [93]:
findPattern: Optional[Match[str]] = pattern.search(text)
findPattern

### start() & end() & span()
A utiliser sur un objet re.Match.</br>
Permet d'obtenir l'index où se situe le premier et le dernier caractère d'une correspondance trouvé dans un texte.

In [94]:
text = "aaabbbccc"
find = re.search("bbb", text)

In [95]:
_: int = find.start()
_

3

In [96]:
_: int = find.end()
_

6

In [97]:
_: tuple[int, int] = find.span()
_

(3, 6)

### findall(reg)
Lorsque une expression régulière trouve plusieurs textes, renvoie une liste de toutes les correspondances qui ont été trouvées.</br>
Si la RE manipule les groupes, alors renvoie une liste de tuples sous la forme (group(1), group(2), ...).

In [98]:
_: list[Any] = re.findall("[0-9]+\.[0-9]+", "pi=3.14, e=2.72")
_

['3.14', '2.72']

In [99]:
re.findall(decimal, "pi=3.14, e=2.72")

[('3', '14'), ('2', '72')]

### split()
Divise une chaîne de caractères en retournant la liste des morceaux.

In [100]:
_: list[str | Any] = re.split(decimal, "pi=3.14, e=2.72")
_

['pi=', '3', '14', ', e=', '2', '72', '']

### Les groupes
Les groupes peuvent être extraits en utilisant la méthode group(int).</br>
Le résultat trouvé par une recherche est donnée par group(0) ou group().</br>
Les numéros des groupes correspondent à leur ordre d'apparition.

In [101]:
find: Optional[Match[str]] = decimal.search("pi vaut 3.14.")

In [102]:
nombre = find.group(0)
nombre

'3.14'

In [103]:
ent = find.group(1)
ent

'3'

In [104]:
dec = find.group(2)
dec

'14'

In [105]:
_: tuple[str | Any, ...] = find.group(1, 2, 2, 1)
_

('3', '14', '14', '3')

In [106]:
_: tuple[str | Any, ...] = find.groups()
_

('3', '14')

In [107]:
re.search(re.compile('(blue|white|red)'), "I like red and blue").groups()

('red',)

In [108]:
re.findall(re.compile('(blue|white|red)'), "I like red and blue")

['red', 'blue']

Les sous-groupes sont numérotés de la gauche vers la droite et à partir du numéro 1. Les groupes peuvent être imbriqués. Pour déterminer le numéro, il suffit de compter le nombre de parenthèses ouvrantes de la gauche vers la droite.

In [109]:
re.compile('(a(b)c)d').match('abcd').groups()

('abc', 'b')

### Nommage d'un groupe.
Les groupes peuvent être nommés en plus d'être automatiquement numérotés.

In [110]:
res = re.compile("(?P<entier>[0-9]+)\.(?P<decimal>[0-9]+)").search("pi=3.14")
res.group(0)

'3.14'

In [111]:
res.group(1)
res.group("entier")

'3'

In [112]:
res.group(2)
res.group("decimal")

'14'

In [113]:
res.groupdict()

{'entier': '3', 'decimal': '14'}

### Réutilisation d'un même groupe.
On peut réutiliser les groupes lors de leurs déclaration dans la RE avec le caractère «\» suivit de son numéro ou de son nom de groupe. On réutilise alors la valeur du groupe et non son expression.

In [114]:
re.search(r"\b(?P<nombre>(?P<entier>[0-9]+)\.(?P<decimal>[0-9]+))\s\1\b", "3.14 3.14")
re.search(r"\b(?P<nombre>(?P<entier>[0-9]+)\.(?P<decimal>[0-9]+))\s(?P=nombre)\b", "3.14 3.14")

<re.Match object; span=(0, 9), match='3.14 3.14'>

In [115]:
re.search(r"\b(?P<nombre>(?P<entier>[0-9]+)\.(?P<decimal>[0-9]+))\s(?P=entier)\b", "3.14 2.72")

La RE reconnait le texte commençant par un mot suivit par un point et finissant par "bat" ou "exe".

In [116]:
re.search(r".*[.](?=bat$|exe$)[^.]*$", "salut.exe")

<re.Match object; span=(0, 9), match='salut.exe'>

In [117]:
re.search(r".*[.](?=bat$|exe$)", "salut.exe")

<re.Match object; span=(0, 6), match='salut.'>

In [118]:
re.search(r".*[.](?=bat$|exe$)[^.]*$", "salut.ese")

### «(?!reg)» Assertion prédictive négative.
Réussit si l'expression régulière ne correspond pas à l'emplacement, sinon elle échoue.

La RE reconnait le texte commençant par un mot suivit par un point et ne finissant pas par "bat".

In [119]:
re.search(r".*[.](?!bat$)[^.]*$", "salut.bar")

<re.Match object; span=(0, 9), match='salut.bar'>

In [120]:
re.search(r".*[.](?!bat$)[^.]*$", "salut.bat")

### «(?<=reg)» Positive lookbehind assertion.
Réussit si l'expression régulière entre parenthèse a été trouvé avant la position actuelle, sinon elle échoue.

In [121]:
re.search('(?<=abc)def', '___abcdef')

<re.Match object; span=(6, 9), match='def'>

In [122]:
re.search('(?<=abc)def', '___a_bcdef')

### «(?<!reg)» Negative lookbehind assertion.
Réussit si l'expression régulière entre parenthèse n'a pas été trouvé avant la position actuelle, sinon elle échoue.

In [123]:
re.search('(?<!abc)def', 'a_bcdef')

<re.Match object; span=(4, 7), match='def'>

In [124]:
re.search('(?<!abc)def', 'abcdef')

### «(?:reg)»
Une version sans capture. L'expression rationnelle à l'intérieur des parenthèses ne peut pas être récupérée après l'analyse ou être référencée plus loin dans le motif.

In [125]:
re.search('(a(b)c)', 'abc').groups()

('abc', 'b')

In [126]:
re.search('(a(?:b)c)', 'abc').groups()

('abc',)

### «(?#reg)»
Le contenu des parenthèses est ignoré.

In [127]:
re.search('(a(?#b)c)', 'ac')

<re.Match object; span=(0, 2), match='ac'>

In [128]:
re.search('(a(?#b)c)', 'abc')

### «(?(group_id)regA|regB)»</br>
### «(?(group_name)regA|regB)»
Une version de capture conditionnel.
Fait la correspondance avec regA si le groupe indiqué par id ou name existe, et avec regB s'il n'existe pas. regB est optionnel.

La RE reconnait que les mails sous la forme "<mail\>" ou "mail".

In [129]:
re.search(r'(?P<prefix><)?\w+@\w+\.(?P<extension>\w+)+(?(prefix)>$|$)', '<user@host.com>')

<re.Match object; span=(0, 15), match='<user@host.com>'>

In [130]:
re.search(r'(?P<prefix><)?\w+@\w+\.(?P<extension>\w+)+(?(prefix)>$|$)', 'user@host.com')

<re.Match object; span=(0, 13), match='user@host.com'>

In [131]:
re.search(r'(?P<prefix><)?\w+@\w+\.(?P<extension>\w+)+(?(prefix)>$|$)', '<user@host.com')

<re.Match object; span=(1, 14), match='user@host.com'>

In [132]:
re.search(r'(?P<prefix><)?\w+@\w+\.(?P<extension>\w+)+(?(prefix)>$|$)', 'user@host.com>')

# Le remplacement de correspondance.
### sub(reg, texte) & subn
Permet d'effectuer des remplacements sur les correspondances trouvées d'une expression régulière.</br>
Si un remplacement peut être effecuté simplement grâce au module str, alors utiliser le module str qui est plus rapide pour de simple remplacement plutôt que le module re.

In [133]:
_: str = re.sub(decimal, "xxx", "pi=3.14, e=2.72")
_

'pi=xxx, e=xxx'

In [134]:
re.sub(decimal, "xxx", "pi=3.14, e=2.72", count=1)

'pi=xxx, e=2.72'

### Il est possible de remplacer les correspondances en utilisant les groupes grâce à «\\\n» où n correspond au nom du groupe. Il est aussi possible d'utiliser le nommage de groupe ou une fonction.

In [135]:
re.sub(decimal, r"|\1|", "pi=3.14, e=2.72")
re.sub(decimal, "|\\1|", "pi=3.14, e=2.72")

'pi=|3|, e=|2|'

In [136]:
re.sub(decimal, "|\\2|", "pi=3.14, e=2.72")

'pi=|14|, e=|72|'

In [137]:
decimal = re.compile("(?P<nom>\w*)=(?P<entier>[0-9]+)\.(?P<decimal>[0-9]+)")
decimal.sub(r"Entier de {\g<nom>} = {\g<entier>}", "pi=3.14, e=2.72")

'Entier de {pi} = {3}, Entier de {e} = {2}'

In [138]:
decimal.sub(r"Entier de {\g<nom>} = {\g<entier>}", "pi=3.14, e=2.72", count=1)

'Entier de {pi} = {3}, e=2.72'

In [139]:
re.sub("(?P<entier>[0-9]+)\.(?P<decimal>[0-9]+)", lambda x: "² " + str(float(x.group()) ** 2), "pi 3.14, e 2.72")

'pi ² 9.8596, e ² 7.398400000000001'

subn fait la même chose mais renvoie un couple contenant la nouvelle valeur de la chaîne de caractères et le nombre de remplacements effectués.

In [140]:
re.subn(decimal, "|\\1|", "pi=3.14, e=2.72")

('|pi|, |e|', 2)

# Tips.
Reconnait les nombres décimaux et créer deux groupes. Le premier correspond à la partie entière et le deuxième la partie décimale.

In [158]:
re_decimal = re.compile("([-+]?[0-9]+)\.([0-9]+)")
re_int = re.compile("([-+]?[0-9](_?[0-9])*)([eE][-+]?[0-9]+)?")
re_float = re.compile("([-+]?[0-9](_?[0-9])*\.?[0-9](_?[0-9])+([eE][-+]?[0-9]+)?)")
re_time_hms = re.compile("((([0-9]?[0-9]) *h *)?(([0-9]?[0-9]) *m *)?(([0-9]?[0-9]) *s *)?)")
re_time_dot = re.compile("((([0-9]?[0-9]) *: *)?(([0-9]?[0-9]) *: *)([0-9]?[0-9]))")
re_alphanum_char = re.compile("([a-zA-Z0-9]+)")
re_num_char = re.compile("([0-9]+)")
re_alpha_char = re.compile("([a-zA-Z]+)")
re_html_marker = re.compile("(<.*?>)")

In [178]:
pr(
re_int.fullmatch("1"),
re_int.fullmatch("10"),
re_int.fullmatch("1.0"),
re_int.fullmatch("1_0"),
re_int.fullmatch("01"),
re_int.fullmatch("_1"),
re_int.fullmatch("1_"),
re_int.fullmatch("1E3"),
re_int.fullmatch("1_E3"),
)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 2), match='10'>
None
<re.Match object; span=(0, 3), match='1_0'>
<re.Match object; span=(0, 2), match='01'>
None
None
<re.Match object; span=(0, 3), match='1E3'>
None


In [146]:
pr(
re_decimal.match("1"),
re_decimal.match("1.0"),
re_decimal.match(".0"),
re_decimal.match("1,0"),
)

None
<re.Match object; span=(0, 3), match='1.0'>
None
None


In [149]:
pr(
re_float.match("1"),
re_float.match("1.0"),
re_float.match(".0"),
re_float.match("1,0"),
re_float.match(",0,"),
)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 3), match='1.0'>
<re.Match object; span=(0, 2), match='.0'>
<re.Match object; span=(0, 3), match='1,0'>
<re.Match object; span=(0, 3), match=',0,'>


Balise html.

In [143]:
re_html_marker.match("<html><head><title>Title</title>")

<re.Match object; span=(0, 6), match='<html>'>

Reconnait les mots doublés dans une chaîne.

In [144]:
doubleWord = re.compile(r'\b(\w+)\s+\1\b')
doubleWordNamed = re.compile(r'\b(?P<mot>\w+)\s+(?P=mot)\b')
doubleWord.search('Paris in the the the spring')

<re.Match object; span=(9, 16), match='the the'>

In [None]:
"".join(re.split(r"[[({].*?[])}]", '[erai-raws] one piece - 1023 [1080p][d8d814f9].mkv'))
text = "The quick brown fox jumps over the lazy dog."
# Split the string at any point where a space is followed by an uppercase letter
words = re.split(r"\s(?=[A-Z])", text)

# Sources
https://docs.python.org/fr/3/howto/regex.html</br>
https://docs.python.org/fr/3/library/re.html</br>
https://python.sdv.univ-paris-diderot.fr/16_expressions_regulieres/</br>