# Expressions régulières et le module `re`

## Complément - niveau basique

### Avertissement

*Il s'agit de manipulations de chaîne de caractères, mais d'un autre côté, celà nécessite de créer des instances de classes, et donc d'avoir vue la programmation orienté objet.*

**Une expression régulière (en anglais *pattern matching*) est un object mathématique qui permet de décrire un ensemble de textes qui possèdent des propriétés communes.** \
Par exemple, s'il vous arrive d'utiliser un terminal, et que vous tapez 
```bash
$ dir *.txt
```
(ou `ls *.txt` sur linux ou mac), vous ultilisez tout simplement l'expression régulière `*.txt` qui désigne tout les fichiers dont le nom se termine par ".txt". 

Le language Perl a été le premier à populariser l'utilisation des expressions régulières en les supportant nativement dans le language, et non au travers d'une librairie. En Python, les expressions régulières sont diqponibles de maniière plus tradictionnelle, via le module `re` (regular expressions) de la librairie standard. Le propos de ce NoteBook est de vous en donner une première introduction.

In [1]:
import re

Voici un exemple; on cherche à savoir si un objet `chaine` est de la forme `*-*.txt`, et si oui, à calculer la partie chaîne qui remplace le `*` :

In [17]:
# Un objet 'expression regulière' - on dit aussi "pattern"
regexp = "(.*)-(.*)\.txt"

In [18]:
# La chaine de départ
chaine = "abcdef.txt"

In [19]:
# La fonction qui calcule si la fonction 'matche' le pattern
match = re.match(regexp, chaine)
match is None

True

Le fait que l'objet `match` vaut `None` indique que la chaine n'est pas de la bonne forme (il manque un `-` dans le nom); avec une autre chaine par contre :

In [20]:
# La chaine de départ
chaine = "12-21.txt"

In [22]:
# la fonction qui calcule si la chaine 'matche' le pattern
match = re.match(regexp, chaine)
match is None

False

Ici `match` est un objet, qui nous permet ensuite d'extraire les différentes parties, comme ceci :

In [25]:
match[1]

'12'

In [26]:
match[2]

'21'

Bien sûr on peux faire des choses beaucoup plus élaborées avec `re`, mais en première lecture cette introduction doit suffire pour avoir une idée de ce qu'on peux faire avec les expressions régulières.

## Complément - niveau intermédiaire

Approfondissons à présent:

Dans un terminal, `*.txt`est une expression régulière très simple. Le module `re` fournie le moyen de construire dees expressions régulière très élaborées et plus puissantes que ce que supporte le terminal. \
C'est pourquoi la synthaxe des regexps de `re`est un peux différente. \
Par exemple comme on vient de voir pour filtrer la mêle famille de chaîne que `*-*.txt` avec le module `re`, il nous a fallu écrire l'expression régulière sous une forme légèrement différente.

Je conseille d'avoir sous la main la [documentation du module `re`](https://docs.python.org/3/library/re.html#regular-expression-syntax) pendant que vous lisez ce notebook.

### Avertissement

Dans le complément nous serons amené à utiliser des traits qui dépendes du LOCALE, c'est-à-dire, pour faire simple, de la configuration de l'ordinateur vis-à-vis de la langue.

TODO: Entrer ma configuration locale

### Un exemple simple

##### `findall`

On se donne deux exemples de chaînes

In [27]:
sentences = ['Lacus a donec, vitae gravida proin sociis.', 'Neque ipsum! rhoncus cras quam.']

On peut chercher tous les mots ce terminant par `a` ou `m` dans une chaîne avec `findall`

In [29]:
for sentence in sentences:
    print(f"---- dans--> {sentence}< ")
    print(re.findall(r"\w*[am]\W", sentence))

---- dans--> Lacus a donec, vitae gravida proin sociis.< 
['a ', 'gravida ']
---- dans--> Neque ipsum! rhoncus cras quam.< 
['ipsum!', 'quam.']


Ce code permet de chercher toutes (`findall`) les occurences de l'expression régulière qui est ici définie par le raw-string
```
r"\w*[am]\W"
```
(On rappelle qu'un raw-string est une chaine précédée par la lettre `r`, et que c'est utile surtout lorsqu'on veut insérer un backslash `\` dans la chaine.)

Nous verrons tout à l'heure comment fabriquer des expressions régulières plus en détail, mais pour démystifier au moins celle-ci ( `r"\w*[am]\W"` ), on a mis bout à bout les morceaux suivants.

* \w* : On veux trouver une sous-chaîne qui commence par un nombre quelconque, y compris nul( * ) de caractère alphanumériques (\w). Ceci est définie en fonction de votre LOCALE, on y reviendre.
* [am] : immédiatement après, il nous faut trouver un caractère a ou m.
* \W : et enfin, il nous faut trouver un caractère qui ne soit **pas** alphanumérique. Cece est important puisqu'on cherche les mots qui **se terminent** par un a ou un m, si on le le mettait pas on obtiendrait ceci

In [31]:
for sentence in sentences:
    print(f"---- dans--> {sentence}< ")
    print(re.findall(r"\w*[am]", sentence))

---- dans--> Lacus a donec, vitae gravida proin sociis.< 
['La', 'a', 'vita', 'gravida']
---- dans--> Neque ipsum! rhoncus cras quam.< 
['ipsum', 'cra', 'quam']


*NB: * Comme vous le devinez, ici la notation for ... in ...
permet de parcourir successivement tous les éléments de la séquence

##### `split`

Une autre forme simple d'utilisationdes regexps est `re.spit`, qui fournie une fonctionnalité voisine de `str.split`, mais où les séparateur sont exprimés comme une expression régulière

In [32]:
for sentence in sentences:
    print(f"---- dans >{sentence}<")
    print(re.split(r"\W+", sentence))
    print()

---- dans >Lacus a donec, vitae gravida proin sociis.<
['Lacus', 'a', 'donec', 'vitae', 'gravida', 'proin', 'sociis', '']

---- dans >Neque ipsum! rhoncus cras quam.<
['Neque', 'ipsum', 'rhoncus', 'cras', 'quam', '']



Ici, l'expression régulière, qui bien sûr d'écrit le séparateur, est simplement `\W+` cet à dire toute suite d'au moins un caractère non alphanumérique. \
Nous avons donc un moyen simple, et plus puissant que `str.split`, de couper un texte en mots.

##### `sub`

Une troisième méthode utilitaire est `re.sub` qui permet de remplacer les occurence d'une regexp, comme par exemple:

In [33]:
for sentence in sentences:
    print(f"---- dans >{sentence}<")
    print(re.sub(r"(\w+)", r"X\1Y", sentence))
    print()

---- dans >Lacus a donec, vitae gravida proin sociis.<
XLacusY XaY XdonecY, XvitaeY XgravidaY XproinY XsociisY.

---- dans >Neque ipsum! rhoncus cras quam.<
XNequeY XipsumY! XrhoncusY XcrasY XquamY.



Ici l'expression régulière (le premier argument) contient un **groupe**: on a utilisé les parenthèse autour du `\w+`. le second argument est la chaîne de remplacement, dans laquelle on a fait **référence au groupe** en écrivant `\1`, qui veux dire tout simplement "le premier groupe". \
\
Donc au final, l'effet de cet appel est d'entourer toutes les suites de caractères alphanumériques par `X` et `Y`.

**`Pourquoi un raw-string ?`**

En guise de digression, il n'y a aucune aubligation à utiliser un raw-string, d'ailleurs on rappelle qu'il n'y a pas de différence de nature entre un raw-string et une chaine usuelle

In [35]:
raw = r'abc'
regular = 'abc'
# comme on a pris une 'petite' chaîne ce sont les mêmes objets
print(f"both compared with is → {raw is regular}")
# et donc a fortiori
print(f"both compared with == → {raw == regular}")

both compared with is → True
both compared with == → True


Un raw-string désactive l'interpretation des `\` à l'intérieur de la chaîne, par exemple, `\t` est interpreté comme un caractère dans une chaîne usuelle. Sans raw-string, il faut doubler les `\` pour qu'il n'y ait pas d'interpretation. \
Il se trouve que le backslash `\` à l'intérieur des expressions régulière est d'un usage assez courant - on l'a vue déjà plusieur fois. C'est pourquoi **on utilise fréquemment un raw-string** pour décrire une expression régulière.

### Un deuxième exemple


Nous allons maintenant voir comment on peux d'abord vérifier si une chaine est conforme au critère défini par l'expression régulière, mais aussi *extraire* les morceau de chaine qui correspondes au différentes partie de l'expression.

Pour cela, supposons qu'on s'intéresse aux chaînes qui comportent 5 parties, une suite de chiffrez, une suite de lettres, des chiffre à nouveau, des lettres et enfin de nouveau des chiffres. 

Pour celà on considère ces trois chaînes en entrée

In [36]:
samples = ['890hj000nnm890',    # cette entrée convient
          '123abc456def789',   # celle-ci aussi
          '8090abababab879',   # celle-ci non
          ]

##### `match`

Pour commencer, voyons que l'on peux facilement **vérifier si une chaîne vérifie** ou non le critère. 

In [37]:
regexp1 = "[0-9]+[A-Za-z]+[0-9]+[A-Za-z]+[0-9]+"

Si on applique cette expression régulière à toute nos entrées

In [38]:
for sample in samples:
    match = re.match(regexp1, sample)
    print(f"{sample:16s} → {match}")

890hj000nnm890   → <re.Match object; span=(0, 14), match='890hj000nnm890'>
123abc456def789  → <re.Match object; span=(0, 15), match='123abc456def789'>
8090abababab879  → None


In [39]:
# pour simplement visualiser si on a un match ou pas
def nice(match):
    # le retour de re.match est soit None, soit un objet match
    return "no" if match is None else "Match!"

Avec quoi on peux refaire l'essai sur toute nos entrées.

In [42]:
# la même chose mais un peu moins encombrant
print(f"REGEXP={regexp1}\n")
for sample in samples:
    match = re.match(regexp1, sample)
    print(f"{sample:>16s} → {nice(match)}")

REGEXP=[0-9]+[A-Za-z]+[0-9]+[A-Za-z]+[0-9]+

  890hj000nnm890 → Match!
 123abc456def789 → Match!
 8090abababab879 → no


Ici plustôt que d'utiliser les racourcis comme `\w` j'ai préféré écrire explicitement les esembles de caractères en jeu. De cette façon, on rend son code indépendandt du LOCALE si c'est ce qu'on veux faire. Il y'a deux morceau qui interviennent tour à tour :
* [0-9]+ signifie une suite de au moins un caractère dans l'intervalle [0-9],
* [A-Za-z]+ pour une suite d'au moins un caractère dans l'intervalle [A-Z] ou dans l'intervalle [a-z]

Et comme tout à l'heure on à simplement juxtaposé les morceaux dans le bon ordre pour construire l'expresssion régulière complète.

##### Nommer un morceau (un groupe)

In [44]:
# on se concentre sur une entrée correcte
haystack = samples[1]
haystack

'123abc456def789'

Maintenant, on va même pouvoir **donner un nom** à un morceau de la regexp, ici on désigne par `needle` le groupe de chiffre du millieu.

In [45]:
# la même regexp, mais on donne un nom au groupe de chiffres central
regexp2 = "[0-9]+[A-Za-z]+(?P<needle>[0-9]+)[A-Za-z]+[0-9]+"

Une fois que c'est fait, on peux demander à l'outil de nous **retrouver la partie correspondantes** dans la chaine initiale:

In [46]:
print(type(re.match(regexp2, haystack).group('needle')))

<class 'str'>


Dans cette expression on à utilisé un **groupe nommé** `(?P<needle>[0-9]+)`, dans lequel :
* les parenthèses définissent un groupe,
* `?P<needle>` spécifie que ce groupe pourra être référencé sous le nom `needle` (cette synthaxe très absconse est héritée semble-t-il de perl).

### Un troisième exemple

Enfin c'est un trait qui n'est pas présent dans tous les languages, on peux restreindre un morceau de chaîne à être identique à un groupe déjà vue plus tôt dans le chaîne. Dans l'exemple ci-dessus, on pourrait ajouter comme contrainte que le premier et le dernier groupes de chiffres soieent identiques, comme ceci

In [48]:
regexp3 = "(?P<id>[0-9]+)[A-Za-z]+(?P<needle>[0-9]+)[A-Za-z]+(?P=id)"

Si bien que maintenant avec les même entrées que tout à l'heure

In [49]:
print(f"REGEXP={regexp3}\n")
for sample in samples:
    match = re.match(regexp3, sample)
    print(f"{sample:>16s} → {nice(match)}")

REGEXP=(?P<id>[0-9]+)[A-Za-z]+(?P<needle>[0-9]+)[A-Za-z]+(?P=id)

  890hj000nnm890 → Match!
 123abc456def789 → no
 8090abababab879 → no


Comme précédement on a défini le groupe nommé `id` comme étant la première suite de chiffres. La nouveauté ici est la **contrainte** qu'on a imposée sur le dernier groupe avec `(?P=id)`. Comme vous le voyez, on n'obtient un *match* qu'avec les entrées dans lesquelles le dernier groupe de chiffres est identique au premier.

### Comment utiliser la librairie - Compilation des expressions régulières

Avant d'apprendre à écrire une expression régulière, disons quelque mots du mode d'emploi de la librairie.

##### Fonctions de commodité et *workflow*

Comme vous le savez peut-être, une expression régulière décrite sous la forme de chaîne,  comme par exemple `"\w*[am]\W"`, peux être traduite dans un **automate fini** qui permet de faire le filtrage avec une chaîne. C'est ce qui explique le *workflow* que nous avons résumé dans cette figure.

<img src="media/re-workflow.png">

La méthode recommandée pour utiliser la librairie, lorsque vous avez le même *pattern* à appliquer à un grand nombre de chaînes, est de:
* Compiler **une seule fois** votre chaîne avec un atomate, qui est matérialiser par un object de classe `re.RegexObject`, en utilisant `re.compile`,
* puis d'**utiliser directement cet object** autant de fois que vous avez de chaîne.

Nous avons utilisé dans les exemples plus haut (et nous continuerons plus bas pour une meilleure lisiblilité) des **fonctions de commodité** du module, qui sont pratiques, par exemple, pour mettre au point une expression réguliière en mode intéractif, mais qui ne **sont pas forcément** adaptées dans tous les cas.

Ces fonctions de commodité fonctionnent toutes sur le même principe :

`re.match(regexp, sample)` $\Longleftrightarrow$ `re.compile(regexp).match(sample)`

Donc à chaue fois qu'on utilise une fonction de commodité, on recompile la chaine en automate, ce qui, dès qu'on a plus de chaîne à traiter, represente un surcoût.

In [None]:
# au lieu de faire comme ci-dessus:

# imaginez 10**6 chaînes dans samples
for sample in samples:
    match = re.match(regexp3, sample)
    print(f"{sample:>16s} → {nice(match)}")

  890hj000nnm890 → Match!
 123abc456def789 → no
 8090abababab879 → no


In [51]:
# dans du vrai code on fera plutôt:

# on compile la chaîne en automate une seule fois
re_obj3 = re.compile(regexp3)

# ensuite on part directement de l'automate
for sample in samples:
    match = re_obj3.match(sample)
    print(f"{sample:>16s} → {nice(match)}")

  890hj000nnm890 → Match!
 123abc456def789 → no
 8090abababab879 → no


Cette deuxième version ne compile qu'une fois la chaîne en automate, et donc est plus efficace.

##### Les méthodes sur la classe `RegexObject`

Les objets de la classe `RegexObject` representent donc l'automate à étart fini qui est le résultat de la compilation de l'expression régulière. Pour résumer ce qu'on a déjà vu, les méthodes les plus utiles suur un objet `RegexObjet` sont:
* `match` et `search`, qui cherche soit uniquement au début(`match`) ou n'importe où dans la chaîne (`search`),
* `findall` et `split` pour chercher toutes les occurences `findall` ou leur néatif (`split`),
* `sub` (qui aurait pu sans doute s'appelet `replace`, mais c'est comme ça) pour remplacer les occurences de pattern.

##### Exploiter le résultat

Les **méthodes** disponibles sur la classe `re.MatchObject` sont [documentées en détail ici](https://docs.python.org/3/library/re.html#match-objects). On en a déjà rencontré quelques-unes, en voici à nouveau un aperçu rapide.

In [64]:
# exemple
sample = "     Isaac Newton, physicist"
match = re.search(r"(\w+) (?P<name>\w+)", sample)

`re` et `string` pour retrouvver les données d'entrée du match. 

In [65]:
match.string

'     Isaac Newton, physicist'

In [66]:
match.re

re.compile(r'(\w+) (?P<name>\w+)', re.UNICODE)

`group`, `groups`, `groupdict` pour retrouver les morceaux de la chaîne d'entrée qui correspondent aux **groupes** de la regexp. On peux y accéder par rang, ou par un nom (comme on l'a vu plus haut avec `needle` ).

In [67]:
match.groups()

('Isaac', 'Newton')

In [68]:
match.group(1)

'Isaac'

In [69]:
match.group('name')

'Newton'

In [70]:
match.group(2)

'Newton'

In [71]:
match.groupdict()

{'name': 'Newton'}

Comme on le voit ppour l'accès par rang **les indices commencent à 1** pour des raisons historiques (on peux déjà référencer `\1` en sed depuis la fin des années 70).

On peux aussi accéder au **groupe 0** comme étant la partie de la chaînne de départ qui a effectivement été filtrée par l'expression régulière, et qui peux tout àfait être au beau milleu de la chaîne de départ, comme dans nôtre exemple

In [72]:
match.group(0)

'Isaac Newton'

`expand` permeet de faire une espèce de `str.format` avec les valeurs des groupes.

In [76]:
match.expand(r"last_name \g<name> first_name \1")

'last_name Newton first_name Isaac'

`span` pour connaître les index dans la chaîne d'entrée pour un groupe donné.

In [81]:
# NB: seq[i:j] est une opération de slicing que nous verrons plus tard
# Elle retourne une séquence contenant les éléments de i à j-1 de seq
begin, end = match.span('name')
sample[begin:end]

'Newton'

##### Les différents modes (*flags*)

Enfin il faut noter qu'on peux passer à `re.compile`un certain nombre de *flags* qui modifient globalement l'interprétation de la chaîne, et qui peuvent rendre service.

Vous trouverez [une liste exhautive de ces flags ici](https://docs.python.org/3/library/re.html#module-contents). Ils ont en général un nom long et parlant, et un alias court sur un seul caractère. Les plus utiles cont sans doute :
* `IGNORECASE` (alias `I` ) pour , eh bien, ne pas faire la différence entre minuscules et majuscules,
* `UNICODE` (alias `U`) pour rendre les séquences `\w` et autres basées sur les propriétés des caractères dans la norma Unicode,
* `LOCALE` (alias `L`) cette fois \w dépend du `locale` courant,
* `MULTILINE` (alias `M`), et
* `DOTLINE` (alias `S`) - pour ces deux derniers flags, voir la discussion à la fin du notebook.

Comme c'est souvent le cas, on doit passer à `re.compile` un **ou logique** (caractère `|`) des différents flags que l'on veux uutiliser, c'est-à-dire qu'on fera par exemple

In [82]:
regexp = "a*b+"
re_obj = re.compile(regexp, flags=re.IGNORECASE | re.DEBUG)

MAX_REPEAT 0 MAXREPEAT
  LITERAL 97
MAX_REPEAT 1 MAXREPEAT
  LITERAL 98

 0. INFO 4 0b0 1 MAXREPEAT (to 5)
 5: REPEAT_ONE 6 0 MAXREPEAT (to 12)
 9.   LITERAL_UNI_IGNORE 0x61 ('a')
11.   SUCCESS
12: REPEAT_ONE 6 1 MAXREPEAT (to 19)
16.   LITERAL_UNI_IGNORE 0x62 ('b')
18.   SUCCESS
19: SUCCESS


In [83]:
# on ignore la casse des caractères 
print(regexp, "->", nice(re_obj.match("AabB")))

a*b+ -> Match!


### Comment construire une expression régulière

Nous pouvons à présent voir comment construire une expression régulière =, en essayant de tester synthétique (la [documentation du modules`re`](https://docs.python.org/3/library/re.html) en donne une version exhautive).

##### La brique de base : le caractère

Au commencement il faut spécifier les caractères
* **un seul** caractère:
    * vous le citez tel quel, en le précédent d'un backslash `\` s'il a par ailleurs un sens spécial dans le micro-language de reguexps (comme +, *, \[, etc.);
* **l'attrape-tout** (*wilcard*):
    * un point `.` signifie "n'importe quel caractère";
* **un ensemble** de caractères avec la notation `[..]` qui permet de décrire par exemple:
    * `[a1=]` un exemple in extenso, ici un caractère parmi `a`, `1`, ou `=`,
    * `[a-z]` un intervalle de caractères, ici de `a` à `z`,
    * `[15e-g]` un mélange des deux, ici un ensemble qui contiendrait `1`, `5`, `e`, `f` et `g`,
    * `[15e-g]` une **négation**, qui a `^` comme premier caractère dasn les `[]`, ici tout sauf l'ensemble précédent;
* un **ensemble prédéfini** de caractères, qui peuvent alors dépendre de l'environnement (UNICODE et LOCALE) avec entre autres les notations:
    * `\w` les caractères alphanumériques, et `\W` (les autres),
    * `\s` les caractères "blancs" - espace, tabulation, saut de ligne, etc., et `\S` (les autres),
    * `\d` pour les chiffres, et `\D` (les autres).

In [84]:
sample = "abcd"
import re
for regexp in ['abcd', 'ab[cd][cd]', 'ab[a-z]d', r'abc.', r'abc\.']:
    match = re.match(regexp, sample)
    print(f"{sample} / {regexp:<10s} → {nice(match)}")

abcd / abcd       → Match!
abcd / ab[cd][cd] → Match!
abcd / ab[a-z]d   → Match!
abcd / abc.       → Match!
abcd / abc\.      → no


Pour ce denier exemples, comme on a backslashé le `.` il faut que la chaîne en entrée contiènne vraiment un `.`

In [85]:
print(nice(re.match (r"abc\.", "abc.")))

Match!


##### En série ou en parallèle

Si je fais une analogie avec les montagnes éléctriques, jusqu'ici on a vu le montage en série, on mets des expressions régulières bout à bout qui filtrent (`match`) la chaîne en entrée sequentiellement du début à la fin. On a *un peu* de marge pour spécifier des alternatives, lorsqu'on fait par exemple
```
"abc[cd]ef"
```
mais c'est limité à *un seul* caractère. Si on veux reconnaitre deux mots qui n'ont pas grand-chose à voir comme `abc` *ou* `def`, if faut en quelque sorte mettre deux regexps en parallèle, et c'est ce que permet l'opérateur `|`

In [86]:
regexp = "abc|def"

for sample in ['abc', 'def', 'aef']:
    match = re.match(regexp, sample)
    print(f"{sample} / {regexp} → {nice(match)}")

abc / abc|def → Match!
def / abc|def → Match!
aef / abc|def → no


##### Fin(s) de chaîne

Selon que vous utilisez `match` ou `search`, vous précisez si vous vous intéressez uniquemnet à un match en début (`match`) ou en'importe où (`search`) dans la chaîne.

Mais indépendamment de cela, il peut être intéressant de "coller" l'expression en début ou en fin de ligne, et pour ça il existe des caractères spéciaux:
* `^` lorsqu'il est utilisé comme un caractère (c'est à dire pas en début de `[]`) signifie dun début de chaîne;
* `\A` a le même sent (sauf en mode MULTILINE), et je le recommande de préférence à `^` qui est déjà pas mal surchargé;
* `$` matche une fin de ligne;
* `\Z` est voisin de `$` mais pas tout a fait identique.

Reportez-vous à la documentation pour le détails des différences. Attention aussi à entrer le `^` correctement, il vous faut le caractère ASCII et non un voisin dans la ménagerie Unicode.

In [87]:
sample = 'abcd'

for regexp in [ r'bc', r'\Aabc', r'^abc', 
                r'\Abc', r'^bc', r'bcd\Z', 
                r'bcd$', r'bc\Z', r'bc$' ]:
    match = re.match(regexp, sample)
    search = re.search(regexp, sample)
    print(f"{sample} / {regexp:5s} match → {nice(match):9s},"
          f" search → {nice(search)}")

abcd / bc    match → no       , search → Match!
abcd / \Aabc match → Match!   , search → Match!
abcd / ^abc  match → Match!   , search → Match!
abcd / \Abc  match → no       , search → no
abcd / ^bc   match → no       , search → no
abcd / bcd\Z match → no       , search → Match!
abcd / bcd$  match → no       , search → Match!
abcd / bc\Z  match → no       , search → no
abcd / bc$   match → no       , search → no


On a en effet bien lepattern `bc` dans la chaîne en entrée, mais il n'est ni au début ni à la fin.

##### Parenthéser - (grouper)

Pour pouvoir faire des montages élaborés, il faut pouvoir parenthéser.

In [89]:
# une parenthése dans une RE 
# pour mettre en ligne:
# un début 'a', 
# un milieu 'bc' ou 'de' 
# et une fin 'f'
regexp = "a(bc|de)f"

<img src='media/re-serie-parallele.png'>

In [91]:
for sample in ['abcf', 'adef', 'abef', 'abf']:
    match = re.match(regexp, sample) 
    print(f"{sample:>4s} → {nice(match)}")

abcf → Match!
adef → Match!
abef → no
 abf → no


Les parenthèses jouent un rôle additionel de **groupe**, ce qui signifie qu'on **peux retrouver** le texte correspondant à l'expression régulière comprise dasn les `()`. Par exemple, pour le premier match

In [92]:
sample = 'abcf'
match = re.match(regexp, sample)
print(f"{sample}, {regexp} → {match.groups()}")

abcf, a(bc|de)f → ('bc',)


dans cette exemple, on n'a utilisé qu'un seul groupe `()`, et le morceau de chaîne qui correspond à ce groupe se trouve donc être la seul groupe retourné par `MatchObject.groups`

##### Compter les répétitions

Vous disposez des opérateur suivants : 
* `*` l'étoile qui signifie n'importe quel nombre, même nul, d'occurrence - par exemple, (ab)* pour indiquer `'` ou `ab` ou `abab` ou etc.,
* `+` le plus qui signifie au moins une occurrence - e.g. `(ab)+` pour `ab` ou `abab` ou etc,
* `?` qui indique une option, c'est-a-dire 0 ou 1 occurence -autrement dit `(ab)?` matche `''` ou `ab`,
* `{n}`pour exactement n occurrences de `(ab)`- e.g. `(ab){3}` qui serait exactement équivalent à `ababab`,
* `{m,n}` entre m et n fois exclusivement.

In [93]:
# NB: la construction
#   [op(elt) for elt in iterable] 
# est une compréhension de liste que nous étudierons plus tard.
# Elle retourne une liste contenant les résultats
# de l'opération op sur chaque élément de la liste de départ

samples = [n*'ab' for n in [0, 1, 3, 4]] + ['baba']

for regexp in ['(ab)*', '(ab)+', '(ab){3}', '(ab){3,4}']:
    # on ajoute \A \Z pour matcher toute la chaine
    line_regexp = r"\A{}\Z".format(regexp)
    for sample in samples:
        match = re.match(line_regexp, sample)
        print(f"{sample:>8s} / {line_regexp:14s} → {nice(match)}")

         / \A(ab)*\Z      → Match!
      ab / \A(ab)*\Z      → Match!
  ababab / \A(ab)*\Z      → Match!
abababab / \A(ab)*\Z      → Match!
    baba / \A(ab)*\Z      → no
         / \A(ab)+\Z      → no
      ab / \A(ab)+\Z      → Match!
  ababab / \A(ab)+\Z      → Match!
abababab / \A(ab)+\Z      → Match!
    baba / \A(ab)+\Z      → no
         / \A(ab){3}\Z    → no
      ab / \A(ab){3}\Z    → no
  ababab / \A(ab){3}\Z    → Match!
abababab / \A(ab){3}\Z    → no
    baba / \A(ab){3}\Z    → no
         / \A(ab){3,4}\Z  → no
      ab / \A(ab){3,4}\Z  → no
  ababab / \A(ab){3,4}\Z  → Match!
abababab / \A(ab){3,4}\Z  → Match!
    baba / \A(ab){3,4}\Z  → no


##### Groupes et contraintes

Nous avons déjà vu un exemple de groupe nommé (voir `needle`plus haut), les opérateurs que l'onpeux citer dans cette catégorie sont :
* `(...)` les parenthèses définissent un groupe anonyme,
* `(?P<name>...)` définit un groupe nommé,
* `(?:...)` permet de mettre des parenthèses mais sans créer un groupe, pour optimiser l'exécution puisqu'on n'a pas besoin de conserver les liens vers la chaîne d'entrée,
* `(?P=name)` qui ne matche que si l'on retrouve à cet endroit de l'entrée la même sous-chaîne que celle trouvée pour le groupe name amont,
* enfin `(?=...)`, `(?!...)` et `(?<=...)` permettent des contrainte encore plus élaborées, nous vous laissons le soin d'expérimentet avec elles si vous êtes intéressé; sachez toutefois que l'utilisation de telles constructions peux en théorie rendre l'interpretation de votre ewpression régulière beaucoup moins efficace.

##### Greedy *vs* non-greedy

Lorsqu'on stipule une répétition un nombre indéfinie de fois, il se peux qu'il existe **plusieurs** façons de filtrer l'entrées avec l'expression régulière. Que ce soit avec `*`, ou `+`, l'algorithme va toujours essayer de trouver la **séquence la plus longue**, c'est pourquoi on qualifie l'approche de *greedly* - quelque chose comme glouton en français.

In [94]:
# un fragment d'HTML 
line='<h1>Title</h1>'

# si on cherche un texte quelconque entre crochets
# c'est-à-dire l'expression régulière "<.*>"
re_greedy = '<.*>'

# on obtient ceci
# on rappelle que group(0) montre la partie du fragment
# HTML qui matche l'expression régulière
match = re.match(re_greedy, line)
match.group(0)

'<h1>Title</h1>'

Ce n'est pas forcément ce qu'on voulais faire, aussi on peux spécifier l'approche inverse, c'est-à-dire de trouver la **la plus petite** chaine qui matche, dans une approche dite *non-greedly*, avec les opérations suivants:
* `*?`: `*` mais *non-greedly*,
* `+?`: `+` mais *non-greedly*,
* `*?`: `?` mais *non-greedly*,

In [95]:
# ici on va remplacer * par *? pour rendre l'opérateur * non-greedy
re_non_greedy = re_greedy = '<.*?>'

# mais on continue à cherche un texte entre <> naturellement
# si bien que cette fois, on obtient
match = re.match(re_non_greedy, line)
match.group(0)

'<h1>'

##### S'agissant du traitement des fins de ligne

Il peux être utile, pour conclure ce notebook, de préciser un peu le comportement de la librairie vis-à-vis des fins de ligne.

Historiquement, les expressions régulières telles qu'on les trouve dans les librairies C, donc dans `sed`, `grep` et autre utilitaires Unix, sont associées au modèle mental où on filtre les entrées ligne par ligne.

Le module `re` en garde des traces.

In [96]:
# un exemple de traitement des 'newlines' 
sample = """une entrée
sur
plusieurs
lignes
"""

In [97]:
match = re.compile("(.*)").match(sample)
match.groups()

('une entrée',)

Vous voyez donc qque l'attrape-tout `''` en fait n'attrape pas le caractère de fin de ligne `\n`, puisque su=i c'était le cas et coompte tenu du coté *greedly* de l'algorithme on devrait voir tout le contenu de `sample`. Il existe un flag `re.DOTALL`qui permet de faire de `.` un vrai attrape-tout qui capture aussi les newline.

In [98]:
match = re.compile("(.*)", flags=re.DOTALL).match(sample)
match.groups()

('une entrée\nsur\nplusieurs\nlignes\n',)

Cela dit, le caractère *newline* est par ailleurs cinsidéré comme un caractère comme un autre, on peux le mentionner **dans une regexp** comme les autres. Voici quelques exemples pour illustrer tout ceci.

In [100]:
# sans mettre le flag unicode, \w ne matche que l'ASCII
match = re.compile("([\w ]*)").match(sample)
match.groups()

('une entrée',)

In [101]:
# sans mettre le flag unicode, \w ne matche que l'ASCII
match = re.compile("([\w ]*)", flags=re.U).match(sample)
match.groups()

('une entrée',)

In [103]:
# si on ajoute \n à la liste des caractères attendus 
# on obtient bien tout le contenu initial

# attention ici il ne FAUT PAS utiliser un raw string,
# car on veut vraiment écrire un newline dans la regexp

match = re.compile("([\w \n]*)", flags=re.UNICODE).match(sample)
match.groups()

('une entrée\nsur\nplusieurs\nlignes\n',)

### Conclusion

La mise au point d'expressions régulières est certes un peu exigeante, et demande pas mal de pratique, mais permet d'écrire en quelques lignes des fonctionnalités très puissantes, c'est un investissement très rentable :)

Je vous signale enfin l'existence de **sites web** qqui évaluent une expression régulière **de manière interactive** et qui peuvent rendre la mise au point fastidieuse.

Je vous signale notamment [https://pythex.org/](https://pythex.org/), et il en existe beaucoup d'autres.

### Pour en savoir plus

Pour ceux qui ont quelques rudiments de la théorie des langages, vous savez qu'on distingue en général 

 * l'**analyse lexicale**, qui découpe le texte en morceaux (qu'on appelle des *tokens*),
 * et l'**analyse syntaxique** qui décrit pour simplifier à l'extrême l'ordre dans lequel on peut trouver les tokens.
 
Avec les expression régulières, on adresse le niveau de l'analyse lexicale. Pour l'analyse syntaxique, qui est franchement au delà des objectifs de ce cours, il existe de nombreuses alternatives, parmi lesquelles:

 * [`pyparsing`](http://pyparsing.wikispaces.com/Download+and+Installation)
 * [`PLY` (Python Lex-Yacc)](http://www.dabeaz.com/ply/)
 * [`ANTLR`](http://www.antlr.org) qui est un outil écrit en Java mais qui peut générer des parsers en python,
 * ...

## Problèmes

#### **Problem 1 of 5**
Capture words that start with a vowel letter (aeiou), but ends with a non-vowel letter. There can be 0 or more letters in between. \
Also, it is not allowed to have other characters besides letter in between. \
e.g. your regular expression should match unicorn, element, but should not match: banana, apple. All letters are lowercase.

In [9]:
pattern = r'^([aeiou])([a-z])*([^aeiou])$'

#### **Problem 2 of 5**
Capture numbers in octal or hexadecimal representation in Python.\
Octal numbers start with a prefix "0o" (number zero followed by lowercase letter o), and are followed by one or more numbers in the range of 0 to 7. E.g. 0o112, 0o237, 0o07.\
Hexadecimal numbers start with a prefix "0x", and are followed by one or more numbers in the range of 0 to 9 or lowercase letters in the range of a to f. E.g. 0xf3, 0x1d, 0x072.

In [15]:
pattern = r'(^(0o)[0-7]+)|(^(0x)([0-9a-f]+))'
print(re.fullmatch(pattern, '0o117'))
print(re.fullmatch(pattern, '0xf3'))
print(re.fullmatch(pattern, '1233'))
print(re.fullmatch(pattern, '0o12f'))

<re.Match object; span=(0, 5), match='0o117'>
<re.Match object; span=(0, 4), match='0xf3'>
None
None


#### **Problem 3 of 5**

Capture a "Firstname Lastname" **at the beginning of each line.** \
e.g. for sentence
**Jane Doe is eating breakfast.** \
Your regex should capture "Jane Doe". \
But in sentence \
**Today is John Doe's birthday.** \
Your regex should NOT capture the name in the sentence as it does not start from the beginning of the string. \
Notice that the name should consist of two words. Each word should start with a capital letter and has zero or more lowercase letters followed. No other symbols are allowed in the name. \
Some valid names are: **Issac Newton**, **L Zhang**; \
Some invalid names are: **john doe**, **Ling-Ling Li**.

In [24]:
pattern = r'^([A-Z][a-z]* [A-Z][a-z]*) .*'
print(re.fullmatch(pattern, 'Jane Doe is eating breakfast.'))
print(re.fullmatch(pattern, 'L Zhang is a great Broadway actor.'))
print(re.fullmatch(pattern, 'Ling-Ling practices violin 40 hours a day.'))
print(re.fullmatch(pattern, 'Today is John Doe\'s birthday.'))

<re.Match object; span=(0, 29), match='Jane Doe is eating breakfast.'>
<re.Match object; span=(0, 34), match='L Zhang is a great Broadway actor.'>
None
None


#### **Problem 4 of 5** 
**In this problem, we are using `re.findall`. Notice that if you use normal parentheses for grouping, re.findall only returns the value in the group but does not return the complete matched string.** \
Match any price in the form \\$3.45 or \\$23.32 or \\$400. Your regex should capture strings meeting the following requirements:
Start with a "\\$" sign;
The price should be an integer, or have exactly two digits after the decimal point.

In [57]:
pattern = r'[$]\d+(?:$|[.]\d{2})'
print(re.findall(pattern, '$3.45'))
print(re.findall(pattern, '$23.32'))
print(re.findall(pattern, '$40'))
print(re.findall(pattern, '$.23'))
print(re.findall(pattern, '$400.1'))

['$3.45']
['$23.32']
['$40']
[]
[]


#### Problem 5 of 5
Capture email address with letters, numbers, underscore and dots. A valid email address defined in this problem must meet the following requirements: 
* Has an "@" symbol;
* Before the "@" symbol, there can be one or more strings made of letters, numbers and underscores, separated by a single dot.
* After the "@" symbol, there can two or more strings made of letters, numbers and underscores, separated by a single dot.
* No other characters besides letters, numbers, underscores, dots, and the "@" symbol should appear in the email address.

For example, your regular expression should match email addresses like: abc\@umich.edu, 8ab.c_def9\@example.regex.com;
But your regex should not match: abc\@ def., ab..abc\@def.com, abc\@def

In [60]:
pattern = r'([A-Za-z0-9_]+([.][A-Za-z0-9_]+)*)@([A-Za-z0-9_]+([.][A-Za-z0-9_]+)+)'
print(re.fullmatch(pattern, 'abc@umich.edu'))
print(re.fullmatch(pattern, '8ab.c_def9@example.regex.com'))
print(re.fullmatch(pattern, 'abc@ def.'))
print(re.fullmatch(pattern, 'ab..abc@def.com'))
print(re.fullmatch(pattern, 'abc@def'))

<re.Match object; span=(0, 13), match='abc@umich.edu'>
<re.Match object; span=(0, 28), match='8ab.c_def9@example.regex.com'>
None
None
None
