# Les REGEX avec Python

## Importer le package re

In [1]:
import re

## Différents types de motifs

### Chaînes de caractères en français

In [2]:
string_pattern = r"[a-zA-ZàâäéèêëîïôöùûüÿçœæÀÂÄÉÈÊËÎÏÔÖÙÛÜŸÇŒÆ0-9\-'\s,.;:]+"

Le motif ci-dessus a pour but de sélectionner du texte en français.

Le motif ci-dessus permet de sélectionner des numéros de chaînes de caractères telles que :

* "dsflklk flmllm fds"
* "Lorem ipsum dolor sit amet 0612345678, 0712345678 consectetur PATTERN adipiscing elit. Sed et volutpat quam. Cras ac eleifend orci. Fusce sed odio mattis risus egestas finibus varius sed augue. In 06.12.34.56.78 sit amet ex PATTERNvitae sapien luctus sagittis. Phasellus ornare erat interdum, interdum metus eu, sagittis nibh. Quisque porta mi in tempor laoreet. Suspendisse faucibus, tellus eu mattis blandit06 78 34 16 78, mi tortor finibus arcu, sed ornare purus PATTERN dolor quis nunc. Curabitur ultricies nulla velit, vitae viverra neque ullamcorper vel. Nam ornare viverra neque, sed dictum metus consectetur id."

Le motif ci-dessus ne permet pas de sélectionner des numéros de chaînes de caractères telles que :

In [3]:
text = """
dsflklk flmllm fds.
Lorem ipsum dolor sit amet 0612345678, 0712345678 consectetur PATTERN adipiscing elit. Sed et volutpat quam. Cras ac eleifend orci. Fusce sed odio mattis risus egestas finibus varius sed augue. In 06.12.34.56.78 sit amet ex PATTERNvitae sapien luctus sagittis. Phasellus ornare erat interdum, interdum metus eu, sagittis nibh. Quisque porta mi in tempor laoreet. Suspendisse faucibus, tellus eu mattis blandit06 78 34 16 78, mi tortor finibus arcu, sed ornare purus PATTERN dolor quis nunc. Curabitur ultricies nulla velit, vitae viverra neque ullamcorper vel. Nam ornare viverra neque, sed dictum metus consectetur id.
"""

In [4]:
pattern = string_pattern
matches = re.finditer(pattern, text)
for match in matches:
    print(f"Match: {match.group()} at position {match.start()}-{match.end()}")

Match: 
dsflklk flmllm fds.
Lorem ipsum dolor sit amet 0612345678, 0712345678 consectetur PATTERN adipiscing elit. Sed et volutpat quam. Cras ac eleifend orci. Fusce sed odio mattis risus egestas finibus varius sed augue. In 06.12.34.56.78 sit amet ex PATTERNvitae sapien luctus sagittis. Phasellus ornare erat interdum, interdum metus eu, sagittis nibh. Quisque porta mi in tempor laoreet. Suspendisse faucibus, tellus eu mattis blandit06 78 34 16 78, mi tortor finibus arcu, sed ornare purus PATTERN dolor quis nunc. Curabitur ultricies nulla velit, vitae viverra neque ullamcorper vel. Nam ornare viverra neque, sed dictum metus consectetur id.
 at position 0-641


### Adresses IP

In [5]:
ip_address_pattern = r"((\b25[0-5]|\b2[0-4][0-9]|\b1)?[1-9]?[0-9])(\.((25[0-5]|2[0-4][0-9]|1)?[1-9]?[0-9])){2}(\.((25[0-5]|2[0-4][0-9]|1)?[1-9]?[0-9]))\b"

Le motif ci-dessus a pour but de sélectionner des adresses IP.

Le motif ci-dessus permet de sélectionner des numéros de chaînes de caractères telles que :

* "192.168.0.1"
* "8.8.8.8"

Le motif ci-dessus ne permet pas de sélectionner des chaînes de caractères telles que :

* "192 168 0 1"

### Numéros de téléphone

In [6]:
mobile_phonenumber_pattern = r"(06|07)(\s\d{2}){4}|(06|07)(\d{2}){4}|(06|07)(\.\d{2}){4}|(06|07)(\-\d{2}){4}"

Le motif ci-dessus a pour but de sélectionner des numéros de téléphone portable.

Le motif ci-dessus permet de sélectionner des numéros de chaînes de caractères telles que :

* "0612345678"
* "07 12 34 56 78"
* "06.12.34.56.78"
* "07-12-34-56-78"

Le motif ci-dessus ne permet pas de sélectionner des chaînes de caractères telles que :

* "0123456789"


In [7]:
text = """
0612345678
07 12 34 56 78
06.12.34.56.78
07-12-34-56-78
0123456789
"""

In [8]:
pattern = mobile_phonenumber_pattern
matches = re.finditer(pattern, text)
for match in matches:
    print(f"Match: {match.group()} at position {match.start()}-{match.end()}")

Match: 0612345678 at position 1-11
Match: 07 12 34 56 78 at position 12-26
Match: 06.12.34.56.78 at position 27-41
Match: 07-12-34-56-78 at position 42-56


### URL

In [9]:
url_fr_pattern = r"\bw{3}\.\w*\.fr\b"

### Adresses MAC

In [10]:
mac_address_pattern = "([0-9a-f]{2}:){5}[0-9a-f]{2}"

## Texte pour les exemples

In [11]:
text = "Lorem ipsum dolor sit amet 0612345678, 0712345678 consectetur PATTERN adipiscing elit. Sed et volutpat quam. Cras ac eleifend orci. Fusce sed odio mattis risus egestas finibus varius sed augue. In 06.12.34.56.78 sit amet ex PATTERNvitae sapien luctus sagittis. Phasellus ornare erat interdum, interdum metus eu, sagittis nibh. Quisque porta mi in tempor laoreet. Suspendisse faucibus, tellus eu mattis blandit06 78 34 16 78, mi tortor finibus arcu, sed ornare purus PATTERN dolor quis nunc. Curabitur ultricies nulla velit, vitae viverra neque ullamcorper vel. Nam ornare viverra neque, sed dictum metus consectetur id."

## Obtenir une liste de tous les éléments correspondant au motif

On peut utiliser la méthode finditer si l'on veut avoir plus que le texte correspondant au motif, notamment les index de début et de fin de la chaîne de caractères considérée. Sinon, on utilisera simplement findall.

In [12]:
pattern = mobile_phonenumber_pattern
matches = re.finditer(pattern, text)
for match in matches:
    print(f"Match: {match.group()} at position {match.start()}-{match.end()}")
print(pattern)

Match: 0612345678 at position 27-37
Match: 0712345678 at position 39-49
Match: 06.12.34.56.78 at position 197-211
Match: 06 78 34 16 78 at position 409-423
(06|07)(\s\d{2}){4}|(06|07)(\d{2}){4}|(06|07)(\.\d{2}){4}|(06|07)(\-\d{2}){4}


In [21]:
pattern = mobile_phonenumber_pattern
print(pattern)
print(text)
matches = re.findall(pattern, text)
print(matches)

(06|07)(\s\d{2}){4}|(06|07)(\d{2}){4}|(06|07)(\.\d{2}){4}|(06|07)(\-\d{2}){4}
Lorem ipsum dolor sit amet 0612345678, 0712345678 consectetur PATTERN adipiscing elit. Sed et volutpat quam. Cras ac eleifend orci. Fusce sed odio mattis risus egestas finibus varius sed augue. In 06.12.34.56.78 sit amet ex PATTERNvitae sapien luctus sagittis. Phasellus ornare erat interdum, interdum metus eu, sagittis nibh. Quisque porta mi in tempor laoreet. Suspendisse faucibus, tellus eu mattis blandit06 78 34 16 78, mi tortor finibus arcu, sed ornare purus PATTERN dolor quis nunc. Curabitur ultricies nulla velit, vitae viverra neque ullamcorper vel. Nam ornare viverra neque, sed dictum metus consectetur id.
[('', '', '06', '78', '', '', '', ''), ('', '', '07', '78', '', '', '', ''), ('', '', '', '', '06', '.78', '', ''), ('06', ' 78', '', '', '', '', '', '')]


## Obtenir une liste de tout ce qui est délimité par le motif considéré

On veut récupérer dans une liste chaque extrait du texte situé entre soit le début du texte et PATTERN, soit entre 2 PATTERN, soit entre PATTERN et la fin du texte.

In [14]:
# Utiliser re.split pour diviser la chaîne autour du motif
pattern = r"PATTERN"
segments = re.split(pattern, text)

# Afficher les segments trouvés
for i, segment in enumerate(segments):
    print(f"Segment {i}: {segment.strip()}")

Segment 0: Lorem ipsum dolor sit amet 0612345678, 0712345678 consectetur
Segment 1: adipiscing elit. Sed et volutpat quam. Cras ac eleifend orci. Fusce sed odio mattis risus egestas finibus varius sed augue. In 06.12.34.56.78 sit amet ex
Segment 2: vitae sapien luctus sagittis. Phasellus ornare erat interdum, interdum metus eu, sagittis nibh. Quisque porta mi in tempor laoreet. Suspendisse faucibus, tellus eu mattis blandit06 78 34 16 78, mi tortor finibus arcu, sed ornare purus
Segment 3: dolor quis nunc. Curabitur ultricies nulla velit, vitae viverra neque ullamcorper vel. Nam ornare viverra neque, sed dictum metus consectetur id.


### Obtenir toutes les phrases d'un texte

In [15]:
print(text)

Lorem ipsum dolor sit amet 0612345678, 0712345678 consectetur PATTERN adipiscing elit. Sed et volutpat quam. Cras ac eleifend orci. Fusce sed odio mattis risus egestas finibus varius sed augue. In 06.12.34.56.78 sit amet ex PATTERNvitae sapien luctus sagittis. Phasellus ornare erat interdum, interdum metus eu, sagittis nibh. Quisque porta mi in tempor laoreet. Suspendisse faucibus, tellus eu mattis blandit06 78 34 16 78, mi tortor finibus arcu, sed ornare purus PATTERN dolor quis nunc. Curabitur ultricies nulla velit, vitae viverra neque ullamcorper vel. Nam ornare viverra neque, sed dictum metus consectetur id.


In [16]:
# Utiliser re.split pour diviser la chaîne autour du motif
pattern = r"\. "
segments = re.split(pattern, text)

# Afficher les segments trouvés
for i, segment in enumerate(segments):
    print(f"Segment {i}: {segment.strip()}")

Segment 0: Lorem ipsum dolor sit amet 0612345678, 0712345678 consectetur PATTERN adipiscing elit
Segment 1: Sed et volutpat quam
Segment 2: Cras ac eleifend orci
Segment 3: Fusce sed odio mattis risus egestas finibus varius sed augue
Segment 4: In 06.12.34.56.78 sit amet ex PATTERNvitae sapien luctus sagittis
Segment 5: Phasellus ornare erat interdum, interdum metus eu, sagittis nibh
Segment 6: Quisque porta mi in tempor laoreet
Segment 7: Suspendisse faucibus, tellus eu mattis blandit06 78 34 16 78, mi tortor finibus arcu, sed ornare purus PATTERN dolor quis nunc
Segment 8: Curabitur ultricies nulla velit, vitae viverra neque ullamcorper vel
Segment 9: Nam ornare viverra neque, sed dictum metus consectetur id.


### Obtenir tous les mots d'un texte

In [17]:
mots = re.findall(r'\b[a-zA-ZàâäéèêëîïôöùûüÿçœæÀÂÄÉÈÊËÎÏÔÖÙÛÜŸÇŒÆ\'\-]+\b', text)
mots

['Lorem',
 'ipsum',
 'dolor',
 'sit',
 'amet',
 'consectetur',
 'PATTERN',
 'adipiscing',
 'elit',
 'Sed',
 'et',
 'volutpat',
 'quam',
 'Cras',
 'ac',
 'eleifend',
 'orci',
 'Fusce',
 'sed',
 'odio',
 'mattis',
 'risus',
 'egestas',
 'finibus',
 'varius',
 'sed',
 'augue',
 'In',
 'sit',
 'amet',
 'ex',
 'PATTERNvitae',
 'sapien',
 'luctus',
 'sagittis',
 'Phasellus',
 'ornare',
 'erat',
 'interdum',
 'interdum',
 'metus',
 'eu',
 'sagittis',
 'nibh',
 'Quisque',
 'porta',
 'mi',
 'in',
 'tempor',
 'laoreet',
 'Suspendisse',
 'faucibus',
 'tellus',
 'eu',
 'mattis',
 'mi',
 'tortor',
 'finibus',
 'arcu',
 'sed',
 'ornare',
 'purus',
 'PATTERN',
 'dolor',
 'quis',
 'nunc',
 'Curabitur',
 'ultricies',
 'nulla',
 'velit',
 'vitae',
 'viverra',
 'neque',
 'ullamcorper',
 'vel',
 'Nam',
 'ornare',
 'viverra',
 'neque',
 'sed',
 'dictum',
 'metus',
 'consectetur',
 'id']