# Expressions régulières - 09/04


## Qu'est-ce qu'une expression régulière ?

Il s'agit d'une chaîne de caractères qui vient décrire selon une syntaxe précise un ensemble de chaînes de caractères. Les expressions régulières ou regex sont utilisées dans de nombreux langages de programmation. Elles sont très utiles pour analyser, modifier des textes, la manipulation de données, le web scraping et la validation de textes.

## Sites pour tester ses regex

Si vous souhaitez tester l'efficacité de vos regex sans passer par du code, je vous conseille ces deux sites :

- [RegexR](https://regexr.com/)
- [Regex101](https://regex101.com/)

## Les patterns à connaître

On va illustrer les expressions régulières basiques. La création de patterns à partir de combinaisons d'expressions régulières nous permet d'identifier des chaînes de caractères telles que les numéros de téléphone, les adresses mail, etc...

### Classes de caractères et méta-caractères

**Les classes de caractère**

La plupart des caractères lorsqu'ils sont utilisés dans une expression régulière correspondront à eux-mêmes. 

Ainsi la regex `hello` correspondra à la chaîne de caractères **hello**.

>Les classes de caractères sont des expressions régulières identifiées par des crochets `[]` et permettent d'identifier un caractère à partir d'un ou plusieurs caractères possibles. 

ex : `[a]` - avec ce pattern on veut identifier la lettre **a** dans une chaîne de caractères.

Comment identifier toutes les **voyelles** dans **Hello World** ?  
=> recherche globale dans un texte avec la classe de caractère `[aeyuio]`  


**Les méta-caractères et opérateurs**  

Cependant, certains caractères revêtent une autre signification que leur sens d'origine. Grâce à cette caractéristique, on peut influer sur le comportement global de la regex et construire des patterns assez puissants.


| Méta-caractère | Description | Example | Type de résultat |
|--------------|-----------|-------|-----------------|
|\\|permet d'échapper un méta-caractère|\\.| identifie un point |
|-|indique des intervalles de caractères|[a-f]| identifie un caracère pouvant être compris entre a et f |
| . | Tout type de caractère | . | a ou 9 ou un espace blanc etc...|
| ^ | Indique le début d'une chaîne de caractères ou marque la négation d'une chaîne de caractères | `[^aeyuio]` | identifie une consonne |
| $ | Indique la fin d'une chaîne de caractères | - | - |
|\*|0 ou plusieurs occurrences|a\*b| aaaab ou b|
|?|0 ou aucun (rend le caractère optionnel)|hell?o| hello ou helo |
|+|une ou plusieurs occurrences|\d+| 1728 ou 8|
|\||symbole OU|hello\|hola| hello ou hola |
|{}|indique un quantifier|{1,} ou {2, 4}, {3}| {1,} : une ou plusieurs occurrences / {2, 4} : entre 2 et 4 occurrences \ {3} : 3 occurrences |
|[]|indique une classe de caractères|[aeyuio]| identifie une voyelle |
|()|indique un groupe capturant|(hello)| identifie la chaîne de caractères **hello** |



Les méta-caractères couplés à des lettres ou autres symboles permettent d'aller plus vite dans nos recherches:

|Méta-caractère|Description|Example|Types de résultat|
|--------------|-----------|-------|-----------------|
|\w| Tout caractère alphanumérique (chiffres et lettres non accentuées) et l'underscore | \w\w| ab ou d9 ou 89|
|\d| Tout caractère numérique | \d| 9 |
|\s| Tout espace blanc (espace, retour à la ligne) | - | - |

>Vous pouvez obtenir la négation de ces meta-caractères en passant les lettres w, d ou s en majuscule.


|Meta-caractère|Description|Example|Types de résultat|
|--------------|-----------|-------|-----------------|
|\W| Tout caractère qui ne soit ni alphanumérique (chiffres et lettres non accentuées) ni un underscore | \W | espace blanc |
|\D| Tout caractère non numérique | \D | a |
|\S| Tout caractère qui ne représente pas un espace blanc | \S | 9 |

Les méta-caractères suivent permettent d'identifier plusieurs types d'espace blanc.

|Meta-caractère|Description|
|--------------|----|
|\t| Tabulation |
|\n| Retour à la ligne |
|\r| Retour chariot |

Lorsqu'ils sont utilisés dans une classe de caractère, les meta-caractères n'ont pas de sens particulier à l'exception de `\`, `^` et `-` (voir le tableau des correspondances ci-dessus).

## Exercices

### Avec l'outil en ligne, [regexr](https://regexr.com/), trouver des expressions régulières permettant d'identifier les chaînes de caractères suivantes : 

- "Hello"
- "success"
- "john.doe87@gmail.com"
- "007 James Bond"
- "ABBA" et "ABA"
- "fichier_python"
- "Nous sommes le 8 septembre"
- Nous sommes le 8 septembre !"

### Greedy / Lazy operators

Voici un exemple pour mieux comprendre le phénomène des méta-caractères gourmands :

Nous avons la phrase suivante et nous voulons capturer toutes les sous-chaînes commençant par 0 et se terminant par 1.

> Voici un 0 et voici un 1, ce texte n'apparaît plus après le premier 0 et le premier 1

> Avez-vous une idée de regex pour satisfaire la requête ?

Une première solution serait : `0.*1`. Si on teste cette regex dans RegexR, voici le phrase identifiée : 

**"0 et voici un 1, ce texte n'apparaît plus après le premier 0 et le premier 1".**

Le résultat est partiellement correct. Le méta-caractère `.` associé à l'opérateur `*` essaie de capturer le plus de caractères possibles, donc après avoir identifié un premier 0, il va aller le plus loin possible dans la chaîne de caractère en faisant fi du critère d'arrêt.

Il existe heureusement un moyen de restreindre la recherche. Si vous tester la regex suivante : `0.*?1` vous verrez que les deux sous-chaînes de caractère sont clairement identifiées. Le point d'interrogation après l'opérateur `*` le rend parasseux. Au lieu d'essayer de capturer le plus de caractères possibles, `.*` s'arrêtera lorsque le caractère suivant le ? sera identifié en l'occurrence le chiffre 1.

### Groupes (capturants / non-capturants / captures nommées)

#### Groupes capturants

On peut grouper plusieurs caractères dans un pattern grâce à des parenthèses. Ce groupement permet :
- de capturer une sous-chaîne
- d'utiliser la sous-chaîne pour d'autres opérations
- d'appliquer des traitements ultérieurs à la sous-chaîne (concept avancé : Backreferences, nous les aborderons pas dans ce notebook)


**Example:**  

ex3 = "Nous sommes le 8 septembre !"
regex : `(sommes)\s\w{2}`

résultat : **sommes** le

#### Groupes non-capturants

Cette option permet d'identifier des sous-chaînes sans pour autant les mémoriser. Un groupe non capturant utilise aussi des parenthèses mais avec les symboles `?:` après la parenthèse ouvrante. L'exemple suivant permet de se rendre compte de l'utilité de ce type de groupements : 

**Example**

ex4 = "http://stackoverflow.com/"  
ex5 = "https://stackoverflow.com/questions/tagged/regex"

regex : `(https?|ftp):\/\/([^/\s]+)(\/[^\s]*)?`

Pour ex4, la regex identifiera la chaîne dans son ensemble et des groupes :
- http://stackoverflow.com/

Groupes : 
- http
- stackoverflow.com
- /

Idem pour l'ex5:
- https://stackoverflow.com/questions/tagged/regex

Groupes : 
- https
- stackoverflow.com
- /questions/tagged/regex

L'usage des groupements nous permet de faciliter la recherche d'urls commençant par http, https ou ftp. Par contre, si on ne souhaite pas conserver les protocoles (http / ftp) dans des groupes, on peut faire appel aux groupes non-capturants.

nouvelle regex : `(?:https?|ftp):\/\/([^/\s]+)(\/[^\s]*)?`

Résultats :   
pour ex4 => **stackoverflow.com**    
pour ex5 => **stackoverflow.com** et **/questions/tagged/regex**

## Exercices

Utilisez les groupes capturants et non-capturants pour résoudre les prochains problèmes: 

#### 1. 1. Nous avons 3 fichiers nommés `text1.txt`, `text_json.json` et `text_js.js`. Créer une regex pour récupérer le basename des fichiers avec l'extension txt ou json.

#### 2. Voici 3 urls : 
https://example.com/news/article1,  
https://example.com/promotions/promo1,   
https://example.com/cadeaux/cadeau1.  
Créer une regex pour récupérer les catégories d'une part (news, promotions, cadeaux) et le nom des pages de l'autre (article1, promo1, cadeau1).

#### 3. Créer une regex pour extraire une date (format : JJ-MM-AAAA) d'un texte. Utiliser les groupes capturants pour pouvoir sélectionner dans la date, le jour, le mois et l'année.

## Les lookaround

Ce type d'expressions régulières est très utile lorsque l'on souhaite identifier des chaînes de caractères en fonction des caractères qui les entourent. 

### Lookahead positifs et négatifs

On peut utiliser les lookahead positifs ou négatifs pour identifier une chaîne de caractères suivie ou non par un pattern.

`gant(?=s)` cette expression régulière va identifier les occurrences du mot **gant** mais au pluriel seulement. 

`vend(?!re)` cette expression régulière va identifier les occurrences du mot **vend** et ignorer le verbe **vendre**

### Lookbehind positifs et négatifs

Avec les lookbehind on va observer les caractères précédant la chaîne de caractères à identifier.

`(?<=ar)ranger` cette expression régulière va identifier les occurrences du mot **arranger** et ignorer le mot **ranger**. 

`(?<!ap)porter` cette expression régulière va identifier les occurrences du mot **porter** et ignorer le mot **apporter**

## Exercices

>Il avait d’abord commencé par récupérer des informations depuis l’ordinateur de David, puis il était allé les chercher sur Internet. Il avait lui même programmé l’ordinateur de David afin d’avoir un premier lien vers le monde extérieur : la voix. Il pouvait entendre la voix de David, mais ne la comprenait pas. C’est alors qu’il a décidé d’aller lui même à l’information. Il s’est alors "transporté" sur Internet afin de choisir une nouvelle "maison". Il lui a été beaucoup plus facile de programmer ce nouvel ordinateur afin d’entendre une nouvelle voix.

A partir du texte ci-dessous et de regex, créer les regex suivantes : 

#### 1. Trouver les occurrences du mot "ordinateur" sans qu'il ne soit suivi de "de David"


#### 2. Trouver toutes les occurrences du mot "Il" directement suivi d'un espace et du mot "avait"


#### 3. Trouver tous les mots entourés de guillemets

#### 4. Trouver tous les mots suivis directement d'un point

## Les regex en Python (module re)

L'utilisation des regex avec Python se fait généralement avec la bibliothèque standard **re**. Certaines fonctionnalités peuvent être trouvées dans d'autres bibliothèques telles que **pandas**.

In [1]:
import re

Il existe deux manières d'écrire des regex en Python : 

In [2]:
regex = r'\w*'
regex_string = '\\w*'

La première façon d'écrire la raw string est plus lisible cependant.

### Match, Search

La methode **match** permet d'identifier un motif situé au début de la chaîne de caractères.

In [3]:
string = 'Et interdum acciderat, ut siquid.'

result = re.match(r'\w*', string)
print(result.group())

Et


La methode **search** permet d'identifier la première occurrence dans la chaîne de caractères, peu importe sa position dans le texte.

In [4]:
string = 'Amphiarao referente aut Marcio, quondam vatibus inclitis, postridie 20 disceret imperator.'

result = re.search(r'\d+', string)
print(result.group())

20


### Find all

In [31]:
text = 'Amphiarao referente aut Marcio, quondam vatibus inclitis, postridie 20 disceret imperator.'
result_list = re.findall(r"\w+", text)
result_list

['Amphiarao',
 'referente',
 'aut',
 'Marcio',
 'quondam',
 'vatibus',
 'inclitis',
 'postridie',
 '20',
 'disceret',
 'imperator']

### Recherche avec option

In [11]:
# Recherche des verbes se terminant par **paraître** en majuscules ou non.

string = "Apparaître disparaître PARAÎTRE"
string1 = "PARAÎTRE disparaître"

result = re.findall(r'\w*paraître', string)
print(result)

result = re.findall(r'\w*paraître', string1, flags=re.IGNORECASE)
print(result)

['Apparaître', 'disparaître']
['PARAÎTRE', 'disparaître']


### Split

In [29]:
text = '''John Doe
Jane Doe
Dominic Joe
Jeanne Joe'''
results = re.split(r'\n', text)
print(results)

['John Doe', 'Jane Doe', 'Dominic Joe', 'Jeanne Joe']


### Substitution de chaînes de caractères

In [15]:
text = "J'ai mangé 20 oeufs de Pâques et 30 fraises."
result = re.sub('[0-9]+', '__', text)
print(result)

J'ai mangé __ oeufs de Pâques et __ fraises.


## Exercices

Pour chaque énoncé, écrire une fonction qui prendra une chaîne de caractères nommée `text` :

Pour rappel, les fonctions suivent cette syntaxe : 

```
def function(arg1, arg2):
   # code here
   return something
```


In [17]:
import re

#### 1. Vérifier que le texte passé en argument est une url

#### 2. Retirer tous les espaces d'un texte

#### 3. Créer une fonction avec deux paramètres : le premier, nommé mot, sera utilisé pour vérifier si le deuxième commence bien par cette chaîne de caractères.

#### 4. Extraire une sous-chaîne entourée de parenthèses sinon retourner la chaîne entière

#### 5. Extraire tous les mots dont la longueur est supérieur à 4

#### 6. Remplacer tous les espaces, virgules et points par des points virgules

#### 7. Extraire tous les mots commençant par a et e

#### 8. Transformer une date écrite au format JJ/MM/AAAA au format AAAA-MM-JJ


#### 9. Créer une fonction avec deux paramètres : le premier, nommé mots, de type liste, sera utilisé pour vérifier si le deuxième, nommé text, contient tous les mots de cette liste 

#### 10. Trouver les mots contenant la lettre p dans une chaîne de caractères.

## Ressources

[Regexr - Outil de création de regex](https://regexr.com/)  
[Expressions régulières - Wikipedia](https://fr.wikipedia.org/wiki/Expression_r%C3%A9guli%C3%A8re#Classe_de_caract%C3%A8res)  
[Capture Groups](https://www.regular-expressions.info/refcapture.html)  
[Expressions régulières - Documentation Python](https://docs.python.org/3/howto/regex.html) 