# Introduction aux expressions régulières 


## Premiers éléments

Les expressions régulières (_regex_ pour _regular expressions_ en anglais) sont utilisées pour faire des opérations sur des données texte. Elles se présentent sous forme d'une chaîne de caractère et permettent de faire référence à des ensembles de chaînes de caractère. En analyse de données, on peut se servir de ces expressions régulières pour nettoyer des données texte : passer toutes les chaînes de caractères en minuscules, retirer la ponctuation, retirer les chiffres, repérer les chaînes de caractères entre guillemets, etc...   
Les expressions régulières s'appuient en particulier sur des __caractères spéciaux__ qui permettent de décrire un ensemble de chaînes de caractère en peu de caractères :  

- __"^"__ permet de caractériser le début de la chaîne de caractère. Ainsi "^a" correspond à n'importe quelle chaîne de caractères commençant par a.   
- __"\\$"__ permet de caractériser la fin de la chaîne de caractère. Cette fois, l'ensemble recherché sera placé avant le caractère spécial. Ainsi "ent\\$" correspond aux chaînes de caractère terminant par "ent".  
- Le __"."__ permet de spécifier que l'on accepte n'importe quel caractère à sa place. Ainsi "a.c" correspond à n'importe quelle chaîne de 3 caractères commençant par a et terminant par c.  
- Le __"|"__ s'interprète, comme en Python ou en R, comme le signe logique "ou". Ainsi "a|b" correspondrait à n'importe quel caractère qui serait a ou b.  
- L'astérisque __"\*"__ permet de préciser que le caractère précédent peut être rencontré 0 ou plusieurs fois. Il est souvent utilisé avec le point : en effet " .\*" correspondrait à n'importe quelle chaîne de caractère.  
- Le point d'interrogation __"?"__ fait correspondre le caracère qui le précède 0 ou 1 fois, mais pas plus. En d'autres termes, il rend ce terme optionnel. Ainsi "123?" correspond à "12" ou à "123" mais pas à "1233".   
- Le __"\+"__ fait correspondre le caracère précédent s'il est rencontré au moins une fois, contrairement au __"\*"__. Donc "ab+" correspond à "ab" et "abbbb" mais pas à "a".  
- En regex, tout ce qui se trouve entre crochets __[...]__ cherche à faire correspondre une chaîne de caractères avec chacun des caractères entre crochets. À noter que [a-z] va faire correspondre toutes les lettres minuscules de a à z, [0-9] tous les chiffres de 0 à 9, etc...    
- Les parenthèse __(...)__ sont utilisées pour rassembler une sous expression. Ainsi ^(abc) va chercher une chaîne de caractère commençant par abc.   
- Les acolades __{...}__ permettent de spécifier le nombre de fois que le caractère précédent doit apparaître (un seul numéro) ou un intervalle de fois acceptable (deux numéros). par exemple a{4}b va correspondre à aaaab et a{1, 4}b acceptera également ab, aab, aaab et aaaab.  
- Les __"\\"__ sont utilisés pour échapper les caractères spéciaux. par exemple si on cherche des accents circonflexes et non des débuts de chaînes de caractères, on fera appel à "\\^".  

D'autres caractères spéciaux qui peuvent être utiles :  
- __\b__ pour word boundaries = débuts de mots  
- __\w__ pour tous les caractères hors ponctuation espace etc... __\W__ pour le reste. 
- __\d__ pour tous les chiffres, __\D__ pour tous les caractères hors chiffres.  

## Exercice 1

Le site [regexplained](http://www.regexplained.co.uk/) permet aux utilisateurs de rentrer une expression régulière et affiche schématiquement la chaîne de caractère recherchée. On peut ainsi décoder une expression régulière pas comprise ou vérifier que l'expression régulière codée fait bien ce que l'on veut. Vous avez également sur [regex101](https://regex101.com/) la possibilité de tester votre regex sur une chaîne de caractère de test.  
Essayez le site : cherchez les expression régulières correspondant :  
- aux chaînes de caractères commençant par "A".  
- aux chaînes de caractères commençant par "Il était une fois".  
- aux chaînes de caractères terminant par "Fin.".  
- aux chaînes de caractère dont le deuxième élément est un "b".  
- aux chaînes de caractères contenant "chien" ou "chat".  
- aux chaînes de caractères commençant par "a" et contenant "bcd".  
- aux chaînes de caractères terminant par "and" ou "ands".  
- à tous les signes \?, \!, \:, \;, \/, \^.  

## Regex sur python  

Python contient des fonctions natives permettant de faire des traitements sur des chaînes de caractère en utilisant les expression régulières. On va cependant utiliser une librairie populaire dans l'analyse de textes sur python : __re__ (pour regular expressions). La [documentation de cette librairie](https://docs.python.org/3/library/re.html) reprend beaucoup de ce qu'on a vu sur les expressions régulières, et plus encore.

Une des fonctions que l'on utilisera le plus est `re.sub`, qui permet de remplacer un motif de caractères par un autre. la fonction s'utilise ainsi :  
`re.sub(motif_1, motif_2, var_carac)`, avec :  
- `motif_1` le modèle de chaîne de caractères, exprimé en expression régulière, que l'on veut remplacer.  
- `motif_2` le modèle de chaîne de caractères, exprimé en expression régulière, que l'on utilise pour remplacer `motif_1`.  
- `var_carac` la chaîne de caractères dans laquelle on veut opérer ce remplacement.  

__Exemple__ : On crée la chaîne de caractères suivante : 

In [1]:
import re

In [2]:
ma_chaine = """Et comme je disais, les expressions régulières sont à la fois passionantes et trop peu utilisées; 
saviez-vous que 93% de la population française ignorait son existence?"""
ma_chaine

'Et comme je disais, les expressions régulières sont à la fois passionantes et trop peu utilisées; \nsaviez-vous que 93% de la population française ignorait son existence?'

## Exercice 1  

En utilisant `re.sub`, créez une nouvelle chaîne dans laquelle vous aurez : 
- remplacé le E majuscule par un e  
- remplacé les "é" et les "è" par des "e".  
- remplacé le "à" par un "a".  
- supprimé les chiffres et les \%.  
- supprimé le caractère spécial \\n.  

In [7]:
cln_txt = re.sub("[Eéèêë]", "e", ma_chaine)
cln_txt = re.sub("à", "a", cln_txt)
cln_txt = re.sub("[0-9%]", "", cln_txt)
cln_txt = re.sub("\n", "", cln_txt)
cln_txt

'et comme je disais, les expressions regulieres sont a la fois passionantes et trop peu utilisees; saviez-vous que  de la population française ignorait son existence?'

- Ensuite mettre tout en majuscules et tout en minuscule avec les méthodes adaptées

In [8]:
cln_txt.lower(), cln_txt.upper()

('et comme je disais, les expressions regulieres sont a la fois passionantes et trop peu utilisees; saviez-vous que  de la population française ignorait son existence?',
 'ET COMME JE DISAIS, LES EXPRESSIONS REGULIERES SONT A LA FOIS PASSIONANTES ET TROP PEU UTILISEES; SAVIEZ-VOUS QUE  DE LA POPULATION FRANÇAISE IGNORAIT SON EXISTENCE?')

- Supprimer tous les signes de ponctuation en utilisant notamment le module `string` pour accéder à la liste de signes de ponctuation.

In [12]:
import string
print(string.punctuation)
re.sub(f"[{string.punctuation}]", "", cln_txt)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


'et comme je disais les expressions regulieres sont a la fois passionantes et trop peu utilisees saviezvous que  de la population française ignorait son existence'

In [13]:
# autre méthode
re.sub("[^\w\s]", "", cln_txt)

'et comme je disais les expressions regulieres sont a la fois passionantes et trop peu utilisees saviezvous que  de la population française ignorait son existence'

__D'autres fonctions de la librairie `re` : `findall`, `match`, `search`__    
La fonction `findall(motif, chaine_carac)` renvoie toutes les chaînes de caractères de chaine_carac correspondant au motif : 

In [14]:
re.findall("ex....", ma_chaine.lower())

['expres', 'existe']

Les fonctions `match(motif, chaine_carac)` et `search(motif, chaine_carac)` cherche les correspondances de `motif` dans `chaine_carac` : les 2 ne cherchent que la première occurence en partant depuis le début, mais `match` ne cherche également que dans la première ligne. Les deux fonctions renvoient un objet `Match` : 

In [15]:
test_match = re.match("et", ma_chaine.lower())
test_match

<re.Match object; span=(0, 2), match='et'>

In [16]:
test_search = re.search("et", ma_chaine.lower())
test_search

<re.Match object; span=(0, 2), match='et'>

In [17]:
print(re.match("93", ma_chaine.lower()))

None


In [18]:
print(re.search("93", ma_chaine.lower()))

<re.Match object; span=(115, 117), match='93'>


In [19]:
re.search("93", ma_chaine.lower()).span()

(115, 117)

Enfin, la fonction `re.split` permet de découper une chaîne par une séquence, comme ici découper chaque chaîne séparée par un espace (donc chaque mot a priori) : 

In [20]:
re.split(" ", ma_chaine)

['Et',
 'comme',
 'je',
 'disais,',
 'les',
 'expressions',
 'régulières',
 'sont',
 'à',
 'la',
 'fois',
 'passionantes',
 'et',
 'trop',
 'peu',
 'utilisées;',
 '\nsaviez-vous',
 'que',
 '93%',
 'de',
 'la',
 'population',
 'française',
 'ignorait',
 'son',
 'existence?']

## Exercice 2

Cherchez tous les mots de la chaîne de caractères `ma_chaine` qui commencent par "e".

In [23]:
ch = "qqch\nautrechose"
raw_ch = r"qqch\nautrechose"
print(ch), print(raw_ch)

qqch
autrechose
qqch\nautrechose


(None, None)

In [29]:
re.findall(r"\b[Ee]\w+", ma_chaine)

['Et', 'expressions', 'et', 'existence']

In [30]:
re.findall(r"\be\w+", ma_chaine.lower())

['et', 'expressions', 'et', 'existence']

In [34]:
# \b peut s'utiliser aussi pour le début que pour la fin d'un mot
re.findall(r"\w*s\b", ma_chaine)

['disais',
 'les',
 'expressions',
 'régulières',
 'fois',
 'passionantes',
 'utilisées',
 'vous']

## Exercice 3

Construisez une fonction qui prend en entrée une chaîne de caractère et qui sort un message d'erreur si celle-ci n'est pas une adresse gmail, hotmail, ou yahoo.  

In [63]:
def is_mail(s):
    if re.search(r"^[a-z]+([\w._-]?\w+)?@(gmail|hotmail|yahoo)\.(fr|com)", s.lower()):
        return "OK"
    return "Pas ok"

In [67]:
is_mail("12truc@gmail.com")

'Pas ok'

In [68]:
is_mail("a.truc@gmail.com")

'OK'

In [69]:
is_mail("a.12@gmail.com")

'OK'

In [70]:
is_mail("a@gmail.com")

'OK'

In [71]:
is_mail(".truc@gmail.com")

'Pas ok'

In [72]:
is_mail("a12@gmail.com")

'OK'

In [73]:
is_mail("a_bb@gmail.com")

'OK'

In [74]:
is_mail("a12b@gmail.com")

'OK'