##### Les expressions r√©guli√®res ou expressions rationnelles
Elles sont aussi souvent d√©sign√©es par regex ou regexp.
L'id√©e g√©n√©rale esst de capturer via un langage de motif un ensemble de mots ayant une certaine forme, comme par exemple les mots qui finissent en `er` ou ceux qui ne contiennent pas de `x`, ou encore ceux qui ne contiennent qu'un seul `y`, pas de `z`commencent par `t` `e` et ne finissent pas par `q`.

> Ces ensembles de mots reconnaissables forment des structures math√©matiques particuli√®res (on en dira rien ici), mais il existe un pan entier de travaux math√©matico-informatiques sur la question de la structure math√©matique des langages formels. Peut-√™tre, en tant que linguiste, avez-vous entendu parler de la ¬´hi√©rarchie de Chomsky-Sch√ºtzenberger¬ª qui cat√©gorise les langages formels ? Note : M.-P. Sch√ºtzenberger √©tait un chercheur fran√ßais pionnier de l'informatique fondamentale et qui √©tait professeur √† Paris 7 (l'anc√®tre d'une composante de l'Universit√© de Paris). Les langages que l'on peut reconnaitre √† l'aide des expressions r√©guli√®res sont les langages r√©guliers et qui sont tout en bas de la hi√©rarchie. Cette hi√©rarchie donne des informations sur le type de calcul n√©cessaire afin de reconna√Ætre ces diff√©rents langages. Reconna√Ætre signifie ici qu'√©tant donn√© un mot on puisse dire s'il appartient au langage donn√© (attention il s'agit de langages dont le nombre de mots est infini).

Chaque langage de programmation (ou presque) propose dans l'une de ses biblioth√®que de quoi manipuler des expressions r√©guli√®res car leur usage est tr√®s r√©pandu en informatique : reconna√Ætre si une entr√©e correspond √† l'√©criture d'un nombre par exemple. Les langages permettant l'√©criture des expressions r√©guli√®res diff√®rent parfois dans la syntaxe, mais jamais dans le fond.

Tout d'abord un petit exemple

In [3]:
import re

automate = re.compile("ab");
ok = automate.search("bonjour"); print(ok)
ok = automate.search("ab"); print(ok)
ok = automate.search("c'est avec abn√©gation que blablabla"); print(ok)

None
<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(11, 13), match='ab'>


La premi√®re ligne permet d'importer le module (la biblioth√®que) `re` des fonctions de manipulation des expressions r√©guli√®res.

La seconde permet d'obtenir la ¬´machinerie¬ª interne qui permettra de tenter de d√©terminer plus tard si des mots font partie du langage (on appelle langage un ensemble de mots). Le langage d√©crit ici est r√©duit au mot `ab`! C'est un exemple...

La troisi√®me ligne permet de d√©terminer si un mot (`bonjour`) appartient au langage correspondant √† la ¬´machinerie¬ª puis affiche le r√©sultat. `None` indique donc que le mot `bonjour` n'appartient pas au langage ne contenant que le mot `ab`.

La quatri√®me ligne permet elle de d√©terminer si le mot `ab` appartient au langage. L'affichage indique que oui et donne des informations techniques sur la reconnaissance obtenue (ce n'est pas tr√®s important ici).

La cinqui√®me ligne illustre le fait que la fonction `search` permet non pas de d√©terminer si le mot donn√© est exactement un mot du langage, mais si le texte donn√© contient un mot du langage. En effet, `ab` est bien contenu dans le texte donn√© en argument.

La question est donc maintenant : ¬´puis exprimer des langages plus compliqu√©s ?¬ª. Oui!

> Note : la ¬´machinerie¬ª interne dont on parle s'apelle un automate fini (*finite automaton*).

Soit l'exemple suivant :

In [4]:
regexp = "^a*$"
automate = re.compile(regexp)

Le langage captur√© ici est l'ensemble des mots ne contenant que des `a`. Pour le d√©crire on a utilis√© les caract√®res `^`, `*`, `$` qui ont donc un pouvoir sp√©cial. On parle de *wildcards* ou de *jokers*, c'est-√†-dire que ces caract√®res ne repr√©sentent pas eux-m√™mes mais une fonctionnalit√© particuli√®re.

- le caract√®re `*` d√©signe la r√©p√©tition du motif pr√©c√©dent un nombre quelconque de fois (0 fois, 1 fois, 2 fois, etc). Ainsi `a*` designe le langage contenant le mot vide (not√© ùúÄ), le mot `a`, le mot `aa`, le mot `aaa`, etc. On a donc obtenu un langage infini (m√™me si sa structure est simple).
- le caract√®re `^` d√©signe le d√©but du mot √† reconna√Ætre.
- le caract√®re `$` d√©signe la fin du mot √† reconna√Ætre.

Les deux derniers servent √† reconna√Ætre les mots du langage avec exactitude, en effet on veut parfois reconna√Ætre dans un texte l'apparition d'un mot du langage (on verra plus loin).

Essayons de reconna√Ætre des mots :

In [5]:
mots = [ "zorglub", "asterix", "aaaaa", "baaaa", "", "aaaaaaaaaaaaaaaaa", "assez", "avancez", "plein" ]
for m in mots:
    if automate.search(m)!=None:
        print("Le mot '"+m+"' appartient au langage "+regexp)

Le mot 'aaaaa' appartient au langage ^a*$
Le mot '' appartient au langage ^a*$
Le mot 'aaaaaaaaaaaaaaaaa' appartient au langage ^a*$


Un autre caract√®re *magique*  est la caract√®re `.` qui permet de d√©signer un caract√®re quelconque :

In [6]:
regexp = "^a.*z$"
automate = re.compile(regexp)
for m in mots:
    if automate.search(m)!=None:
        print("Le mot '"+m+"' appartient au langage "+regexp)

Le mot 'assez' appartient au langage ^a.*z$
Le mot 'avancez' appartient au langage ^a.*z$


Il est temps d'introduire une autre √©criture Python pour les listes. Il s'agit des listes exprim√©es en intention (comprehensive lists). En voici un exemple :

In [7]:
t = [m for m in mots if automate.search(m)]
print("Les mots %s appartiennent au langage %s" % (t,regexp))

Les mots ['assez', 'avancez'] appartiennent au langage ^a.*z$


L'id√©e est de fabriquer la liste des mots reconnus, c'est donc la liste d'origine mais filtr√©e (si le mot est reconnu on le garde, sinon non). La premi√®re ligne est donc assez parlante : `t` est la liste des mots `m` tels que pout tout `m` de la liste des `mots` il v√©rifie la condition de reconnaissance `automate.search(m)`.

Une autre construction d'expression r√©guli√®re est l'expression d'un choix dans un ensemble de caract√®res. Par exemple :

In [8]:
regexp = "^[zp]"
automate = re.compile(regexp)
t = [m for m in mots if automate.search(m)]
print("Les textes %s contiennent un mot du langage %s" % (t,regexp))

Les textes ['zorglub', 'plein'] contiennent un mot du langage ^[zp]


Tout d'abord `[zp]` qui d√©signe un caract√®re parmi `z` ou `p`.

Ensuite, vous l'avez peut-√™tre remarqu√© nous avons supprim√© `$` et chang√© la formulation de l'affichage du r√©sultat. En effet, cette fois en enlevant `$` nous n'imposons plus que la reconnaissance se termine exactement √† la fin du texte, mais simplement quelle se termine. Ainsi notre regexp d√©signe l'ensemble des textes qui commencent par `z` ou `p`.

Le Joker `^` a aussi un autre sens, car plac√© juste derri√®re `[` il exprime que la liste des caract√®res est d√©finie par n√©gation, ainsi `[^zp]` signifie ni `z`, ni `p` :

In [9]:
regexp = "^[^zp]"
automate = re.compile(regexp)
t = [m for m in mots if automate.search(m)]
print("Les textes %s contiennent un mot du langage %s" % (t,regexp))

Les textes ['asterix', 'aaaaa', 'baaaa', 'aaaaaaaaaaaaaaaaa', 'assez', 'avancez'] contiennent un mot du langage ^[^zp]


Il existe de nombreuses autres constructions, mais vous les d√©couvrirez en lisant la documentation des expressions r√©guli√®res en Python (obtenir l'ensemble des mots reconnus dans un texte, les positions o√π ils sont reconnus, la reconnaissance gloutonne, etc). Pour l'instant cela suffit d√©j√† √† exp√©rimenter de nombreuses choses.

> ### Exercice
>
> - Prendre une liste de mots fran√ßais (que vous pouvez r√©cup√©rer [ici](http://www.pallier.org/extra/liste.de.mots.francais.frgut.txt) et en extraire l'ensemble des mots finissant en `er` (donc potentiellement des verbes du premier groupe).
> - Sauriez-vous modifier tous ces mots, en consid√©rant qu'ils sont tous des verbes du premier groupe m√™me si ce n'est pas le cas, de sorte √† obtenir leur conjugaison √† la premi√®re personne du pluriel du subjonctif ? 
> - Sauriez-vous prendre ces mots comme des verbes et les conjuquer √† tous les temps et toutes les personnes ?
>
> **Pour toutes ces questions, oubliez les cas particuliers! Il s'agit d'un exercice**, mais si vous voulez vous pouvez tentez votre chance en consid√©rant les cas des verbes en `yer`, `eyer` et autres joyeuses exceptions... On voit bien ici la diff√©rence entre les langages formels qui ont une r√©gularit√© stricte et les langues naturelles qui sont pleines d'exceptions et √©tranget√©s difficiles √† capter par calcul.

L'objet renvoy√© par un requ√™te est du type `re.Match`. Il contient diff√©rentes propi√©t√©s et m√©thodes comme `start()` et `end()` qui donnent les positions de la correspondance s'il elle existe :

In [10]:
automate = re.compile("ab")
s = "Il faut de l'abn√©gation"
ok = automate.search(s)
print(ok.start())
print(ok.end())
print(s[ok.start():ok.end()])

13
15
ab


On peut rechercher des expressions et capturer des sous-contenus (groupe) de celles-ci. Par exemple :

In [40]:
automate = re.compile("(a\w+)(.*?)(a\w+)")
s = "Il y a des anes, des abricots, des andouilles et des ananas."
ok = automate.search(s)
print(ok.group(0))
print(ok.group(1))
print(ok.group(2))
print(ok.group(3))

anes, des abricots
anes
, des 
abricots


Le premier groupe (0) contient l'int√©gralit√© de ce qui a √©t√© reconnu. Ensuite chaque groupe (num√©rot√© it√©rativement de gauche √† droite) peut-√™tre r√©cup√©r√©" via son indice.

Les groupes peuvent √™tre nomm√©s :

In [30]:
automate = re.compile("(?P<un>a\w+).*?(?P<deux>a\w+)")
s = "Il y a des anes, des abricots, des andouilles et des ananas."
ok = automate.search(s)
print(ok.group(0))
print(ok.group("deux"))
print(ok.group(2))

anes, des abricots
abricots
abricots


Si l'on souhaite it√©rer la recherche pour capturer ce qui reste si cela est possible, il faut utiliser :

In [45]:
automate = re.compile("(?P<un>a\w+).*?(?P<deux>a\w+)")
s = "Il y a des anes, des abricots, des andouilles et des ananas."
ok = automate.finditer(s)
for m in ok:
    print(f"{m.group(0)}: {m.start()}-{m.end()}")
    print(m.group("un","deux"))
    print(m.span("un"))
    print(m.span("deux"))

anes, des abricots, des andouilles et des ananas: 11-59
('anes', 'as')
(11, 15)
(57, 59)
