# Expressions Régulières A.K.A RegExp 

Les expressions régulières sont des motifs de correspondance de texte décrits avec une syntaxe formelle. Vous entendrez souvent les expressions régulières appelées ‘regex’ ou ‘regexp’ dans les conversations.
Les expressions régulières peuvent inclure une variété de règles, allant de la recherche de répétitions à la correspondance de texte, et bien plus encore.
À mesure que vous progresserez en Python, vous verrez que beaucoup de vos problèmes d’analyse peuvent être résolus avec des expressions régulières.

Si vous êtes familier avec Perl, vous remarquerez que la syntaxe des expressions régulières est très similaire en Python. Nous utiliserons le module re avec Python pour ce cours.
De nombreux sites en ligne permettent de les tester dans un environnement user friendly avec une cheat sheet pour vous aider à comprendre les expressions régulières. Voir par exemple [regex101](https://pythex.org/).

## Chercher un motif (pattern) dans du texte

L’une des utilisations les plus courantes du module re est la recherche de motifs dans le texte. Faisons un rapide exemple en utilisant la méthode `search` du module `re` pour trouver du texte :

In [35]:
import re

# List of patterns to search for
patterns = ['term1', 'term2']

# Text to parse
text = 'This is a string with term1, but it does not have the other term.'

for pattern in patterns:
    print('Searching for "%s" in: \n"%s"' % (pattern, text))

    #Check for match
    if re.search(pattern, text):
        print('\n')
        print('Match was found. \n')
    else:
        print('\n')
        print('No Match was found.\n')

Searching for "term1" in: 
"This is a string with term1, but it does not have the other term."


Match was found. 

Searching for "term2" in: 
"This is a string with term1, but it does not have the other term."


No Match was found.



Nous avons maintenant vu que `re.search()` prendra le motif, analysera le texte, puis renverra un objet Match. Si aucun motif n’est trouvé, `None` est renvoyé. Pour donner une image plus claire de cet objet match, consultez la cellule ci-dessous :

In [36]:
# List of patterns to search for
pattern = 'term1'

# Text to parse
text = 'This is a string with term1, but it does not have the other term.'

match = re.search(pattern, text)

type(match)

re.Match

Cet objet Match renvoyé par la méthode `search()` est plus qu’un simple booléen ou `None`, il contient des informations sur la correspondance, y compris la chaîne d’entrée originale, l’expression régulière utilisée et l’emplacement de la correspondance. Voyons les méthodes que nous pouvons utiliser sur l’objet `match`~:

In [37]:
# Show start of match
match.start()

22

In [38]:
# Show end
match.end()

27

### les groups de match

Les groupes de `match` vous permettent d'extraire les chaînes de caractères qui match les **motifs entre parenthèses**, et il y a des méthodes intégrées pour les récupérer. Regardons un exemple rapide pour voir comment fonctionne la méthode `groups` :

In [39]:
ip_pattern = re.compile(r'(\d{1,3}).(\d{1,3}).(\d{1,3}).(\d{1,3})')
match = re.search(ip_pattern, '192.1.1.3')
groups = match.groups()
# Groups are
print("All groups: ", groups)
print("Types is a tuple: ", type(groups))  # Immutable it cannot change...

All groups:  ('192', '1', '1', '3')
Types is a tuple:  <class 'tuple'>


## Split avec RegExp

Voyons comment nous pouvons diviser avec la syntaxe `re`. Cela devrait ressembler à la façon dont vous avez utilisé la méthode `split()` avec les chaînes de caractères.

In [40]:
# Term to split on
split_term = '@'

phrase = 'What is the domain name of someone with the email: hello@gmail.com'

# Split the phrase
re.split(split_term, phrase)

['What is the domain name of someone with the email: hello', 'gmail.com']

## La substitution

Vous pouvez également utiliser `re` pour trouver et remplacer des sous-chaînes dans une chaîne. Par exemple :

In [50]:
# Anonymize an Ip in a log file
log_line = "2023-03-05 23:36:53,572 vps19562 proftpX[671166] vps19562.dreamhostps.com (textgenerator.scan.leakix.org[139.144.150.205]): client sent HTTP command 'GET', disconnecting"
anonymize_log_line = re.sub(ip_pattern, 'XXX.XXX.XXX.XXX', log_line)
print(anonymize_log_line)

XXX.XXX.XXX.XXX XXX.XXX.XXX.XXX vps19562 proftpX[671166] vps19562.dreamhostps.com (textgenerator.scan.leakix.org[XXX.XXX.XXX.XXX]): client sent HTTP command 'GET', disconnecting


Notez comment `re.split()` renvoie une liste avec le terme sur lequel diviser supprimé et les termes dans la liste sont une version divisée de la chaîne. Créez quelques exemples supplémentaires pour vous assurer que vous comprenez bien !

## Trouver toutes les occurrences d'un motif

Vous pouvez utiliser `re.findall()` pour trouver toutes les occurrences d’un motif dans une chaîne. Par exemple :

In [41]:
# Returns a list of all matches
re.findall('match', 'test phrase match is in middle')

['match']

## Pattern `re` Syntax

Les expressions régulières prennent en charge une grande variété de motifs, pas seulement la recherche de l’occurrence d’une seule chaîne.

Nous pouvons utiliser des métacaractères avec re pour trouver des types spécifiques de motifs.

Puisque nous allons tester plusieurs formes de syntaxe re, créons une fonction qui affichera les résultats en fonction d’une liste de diverses expressions régulières et d’une phrase à analyser :

In [42]:
def multi_re_find(patterns, phrase):
    '''
    Takes in a list of regex patterns
    Prints a list of all matches
    '''
    for pattern in patterns:
        print('Searching the phrase using the re check: %r' % pattern)
        print(re.findall(pattern, phrase))

### Syntaxe des répétitions

Il existe cinq façons d’exprimer la répétition dans un motif :

* Un motif suivi du métacaractère `*` est répété zéro ou plusieurs fois.
* Remplacez le `*` par `+` et le motif doit apparaître au moins une fois.
* Utiliser `?` signifie que le motif apparaît zéro ou une fois.
* Pour un nombre spécifique d’occurrences, utilisez `{m}` après le motif, où `m` est remplacé par le nombre de fois que le motif doit se répéter.
* Utilisez `{m,n}` où `m` est le nombre minimum de répétitions et `n` est le maximum. Omettre `n` `{m,}` signifie que la valeur apparaît au moins `m` fois, sans maximum.

Nous allons maintenant voir un exemple de chacune de ces méthodes en utilisant notre fonction `multi_re_find` :

In [43]:
test_phrase = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

test_patterns = ['sd*',  # s followed by zero or more d's
                 'sd+',  # s followed by one or more d's
                 'sd?',  # s followed by zero or one d's
                 'sd{3}',  # s followed by three d's
                 'sd{2,3}',  # s followed by two to three d's
                 ]

multi_re_find(test_patterns, test_phrase)

Searching the phrase using the re check: 'sd*'
['sd', 'sd', 's', 's', 'sddd', 'sddd', 'sddd', 'sd', 's', 's', 's', 's', 's', 's', 'sdddd']
Searching the phrase using the re check: 'sd+'
['sd', 'sd', 'sddd', 'sddd', 'sddd', 'sd', 'sdddd']
Searching the phrase using the re check: 'sd?'
['sd', 'sd', 's', 's', 'sd', 'sd', 'sd', 'sd', 's', 's', 's', 's', 's', 's', 'sd']
Searching the phrase using the re check: 'sd{3}'
['sddd', 'sddd', 'sddd', 'sddd']
Searching the phrase using the re check: 'sd{2,3}'
['sddd', 'sddd', 'sddd', 'sddd']


## Les ensembles de caractères

Les ensembles de caractères sont utilisés lorsque vous souhaitez correspondre à l’un des caractères d’un groupe à un point donné de l’entrée. Les crochets sont utilisés pour construire des ensembles de caractères. Par exemple : l’entrée [ab] recherche les occurrences de a ou b.

In [44]:
test_phrase = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

test_patterns = ['[sd]',  # either s or d
                 's[sd]+']  # s followed by one or more s or d

multi_re_find(test_patterns, test_phrase)

Searching the phrase using the re check: '[sd]'
['s', 'd', 's', 'd', 's', 's', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 'd', 's', 'd', 's', 'd', 's', 's', 's', 's', 's', 's', 'd', 'd', 'd', 'd']
Searching the phrase using the re check: 's[sd]+'
['sdsd', 'sssddd', 'sdddsddd', 'sds', 'sssss', 'sdddd']


Le premier `[sd]` renvoie chaque instance. De plus, la deuxième entrée renverra simplement tout ce qui commence par un `s` dans ce cas, particulier de la phrase de test.

## Exclusion

Nous pouvons utiliser `^` pour exclure des termes en l’incorporant dans la notation de syntaxe entre crochets. Par exemple : `[^…]` correspondra à n’importe quel caractère unique qui n’est pas dans les crochets. Voyons quelques exemples :

In [45]:
test_phrase = 'This is a string! But it has punctuation. How can we remove it?'

Utilisez `[^!.? ]` pour vérifier les correspondances qui ne sont pas un `!`, `.`, `?`, ou un espace. Ajoutez le `+` pour vérifier que la correspondance apparaît au moins une fois, ce qui se traduit essentiellement par la recherche des mots.

In [46]:
re.findall('[^!.? ]+', test_phrase)

['This',
 'is',
 'a',
 'string',
 'But',
 'it',
 'has',
 'punctuation',
 'How',
 'can',
 'we',
 'remove',
 'it']

## Les intervals

À mesure que les ensembles de caractères deviennent plus grands, taper chaque caractère qui doit (ou ne doit pas) correspondre peut devenir très fastidieux. Un format plus compact utilisant des plages de caractères vous permet de définir un ensemble de caractères pour inclure tous les caractères contigus entre un point de départ et un point d’arrêt. Le format utilisé est `[<début>-<fin>]`.

Les cas d’utilisation courants consistent à rechercher une plage spécifique de lettres dans l’alphabet, par exemple `[a-f]` renverra des correspondances avec toute occurrence de lettres entre `a` et `f`.

Quelques exemples :

In [47]:

test_phrase = 'This is an example sentence. Lets see if we can find some letters.'

test_patterns = ['[a-z]+',  # sequences of lower case letters
                 '[A-Z]+',  # sequences of upper case letters
                 '[a-zA-Z]+',  # sequences of lower or upper case letters
                 '[A-Z][a-z]+']  # one upper case letter followed by lower case letters

multi_re_find(test_patterns, test_phrase)

Searching the phrase using the re check: '[a-z]+'
['his', 'is', 'an', 'example', 'sentence', 'ets', 'see', 'if', 'we', 'can', 'find', 'some', 'letters']
Searching the phrase using the re check: '[A-Z]+'
['T', 'L']
Searching the phrase using the re check: '[a-zA-Z]+'
['This', 'is', 'an', 'example', 'sentence', 'Lets', 'see', 'if', 'we', 'can', 'find', 'some', 'letters']
Searching the phrase using the re check: '[A-Z][a-z]+'
['This', 'Lets']


## Échappements

Vous pouvez utiliser des codes d’échappement spéciaux pour trouver des types spécifiques de motifs dans vos données, tels que des chiffres, des non-chiffres, des espaces blancs, et plus encore. Par exemple :

| Code | Meaning                                |
|------|----------------------------------------|
| \d   | a digit                                |
| \D   | a non-digit                            |
| \s   | whitespace (tab, space, newline, etc.) |
| \S   | non-whitespace                         |
| \w   | alphanumeric                           |
| \W   | non-alphanumeric                       |


Les échappements sont indiqués en préfixant le caractère avec une barre oblique inverse `\`. Malheureusement, une barre oblique inverse doit elle-même être échappée dans les chaînes Python normales, ce qui donne des expressions difficiles à lire. Utiliser des chaînes brutes, créées en préfixant la valeur littérale avec `r`, pour créer des expressions régulières élimine ce problème et maintient la lisibilité.

In [48]:
test_phrase = 'This is a string with some numbers 1233 and a symbol #hashtag'

test_patterns = [r'\d+',  # sequence of digits
                 r'\D+',  # sequence of non-digits
                 r'\s+',  # sequence of whitespace
                 r'\S+',  # sequence of non-whitespace
                 r'\w+',  # alphanumeric characters
                 r'\W+',  # non-alphanumeric
                 ]

multi_re_find(test_patterns, test_phrase)

Searching the phrase using the re check: '\\d+'
['1233']
Searching the phrase using the re check: '\\D+'
['This is a string with some numbers ', ' and a symbol #hashtag']
Searching the phrase using the re check: '\\s+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
Searching the phrase using the re check: '\\S+'
['This', 'is', 'a', 'string', 'with', 'some', 'numbers', '1233', 'and', 'a', 'symbol', '#hashtag']
Searching the phrase using the re check: '\\w+'
['This', 'is', 'a', 'string', 'with', 'some', 'numbers', '1233', 'and', 'a', 'symbol', 'hashtag']
Searching the phrase using the re check: '\\W+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' #']


## Conclusion

Il existe de nombreux autres cas de caractères spéciaux, mais il serait trop long de passer en revue chaque cas d’utilisation. Consultez plutôt une cheat sheet comme https://cheatography.com/davechild/cheat-sheets/regular-expressions/ ou autre.

### Exercice 1

Dans un Shell, trouver les mots qui commencent par une lettre majuscule dans la phrase suivante :
    
    "Le chat est monté sur le toit. Il a vu un oiseau et a sauté pour l'attraper."

### Exercice 2

Développer un programme appelé `log_parser.py` qui parse le fichier `proftpd.log.1` pour en extraire les dates et heures et les IP et/ou IP et nom de domaine des serveurs ayant fait une tentative de connexion. Utilisez les groupes.

- Attention aux commentaires
- Attention aux noms de variables.  
*Faites valider votre script ainsi que son exécution*. 