# Les expressions rationnelles

Les **expressions rationnelles**, **expressions régulières** ou simplement **RegEx** sont un puissant moyen pour rechercher ou isoler une chaine de caractères. Elles permettent la recherche d’un motif ou la validation d’une chaine de caractères.

En Python, elles sont proposées par le module `re`.

Pour utiliser les RegEx, il nous faut définir un motif. Grâce à ce motif, nous pourrons rechercher sa présence dans une chaine de caractères.

Pour rechercher ce motif dans une chaine de caractères, nous utiliserons la fonction `re.search(motif, chaine)`. Si le motif est présent, cette fonction retourne un objet sinon None. nous pouvons donc tester si un motif est présent.

## Définir un motif
Un motif est une chaine de caractères décrivant les caractères attendus. Ainsi, un motif `"chat"` permet d'identifier le mot `chat`. Vous pouvez tester avec le code suivant qui retournera un objet dans chaque cas.

In [None]:
import re
print(re.search('chat', 'chat'))
print(re.search('chat', 'achat'))
print(re.search('chat', 'chaton'))
print(re.search('chat', 'un chat noir'))

## Position d'un motif
Le symbol `^` en premier caractère est un marqueur indiquant que le motif doit être en début de chaine.

In [None]:
import re
print(re.search('^chat', 'chat'))
print(re.search('^chat', 'achat')) # Motif non trouvé
print(re.search('^chat', 'chaton'))
print(re.search('^chat', 'un chat noir')) # Motif non trouvé

Le symbole `$` en dernier caractère est un marqueur indiquant que le motif doit être en fin de chaine.

In [None]:
import re
print(re.search('chat$', 'chat'))
print(re.search('chat$', 'achat'))
print(re.search('chat$', 'chaton')) # Motif non trouvé
print(re.search('chat$', 'un chat noir')) # Motif non trouvé

### Les classes de caractères

Lorsque dans le motif, un caractère à une certaine position peut prendre plusieurs valeurs :

 - `[aeiouy]` les crochets permettent de définir le caractère recherché parmi ceux entre crochets (ici une voyelle)
 - `[a-d]` un tiret entre deux caractères dans les crochets définit une *plage* de caractères. Ceci est équivalent à `[abcd]`.
 - `[a-dA-D]` les regex sont sensibles à la casse, il faut donc spécifier les deux plages. Ceci est équivalent à `[abcdABCD]`.
 - `[^a-d]` le symbol `^` en premier caractère dans les crochets représente une négation. Ici, il s'agit donc de n'importe quel caractère sauf [a-d].
 - `.` le point représente n'importe quel caractère.

In [None]:
import re
droid_pattern = "[A-Z]-[0-9][A-Z][A-Z]"
print(re.search(droid_pattern, "C-3PO"))
print(re.search(droid_pattern, "R2-D2"))
print(re.search(droid_pattern, "K-2SO"))
print(re.search(droid_pattern, "Chopper"))

### Les répétitions

Lorsque dans le motif un caractère est suivi d'un de ces symboles, on recherche :

 - `*` : 0, 1 ou plusieurs occurences
 - `+` : 1 ou plusieurs occurences
 - `?` : 0 ou 1 occurences
 - `{m}` : exactement m occurences
 - `{m, n}` : entre m et n occurences
 - `{, n}` : de zero à n occurences
 - `{m, }` : au moins m occurences

In [None]:
import re
droid_pattern = "[A-Z]-[0-9][A-Z]{2}"
print(re.search(droid_pattern, "C-3PO"))
print(re.search(droid_pattern, "R2-D2"))
print(re.search(droid_pattern, "K-2SO"))
print(re.search(droid_pattern, "Chopper"))

### Les groupes

Cette partie sera ajoutée, en attendant, veuillez vous référer au support.