# NLP M2 YNOV CAMPUS

# Expressions régulières

Les expressions régulières (parfois appelées "regex") permettent à un utilisateur de rechercher des chaînes de caractères en utilisant presque toutes les règles qu'il peut imaginer. Par exemple, trouver toutes les lettres majuscules dans une chaîne ou trouver un numéro de téléphone dans un document. 

Les expressions régulières sont connues pour leur syntaxe apparemment étrange. Cette syntaxe étrange est un sous-produit de leur flexibilité. Les expressions régulières doivent pouvoir filtrer toutes les chaînes de caractères imaginables, c'est pourquoi elles ont un format de chaîne de caractères complexe.

Les expressions régulières sont gérées par la bibliothèque **re** intégrée à Python. Voir [the docs](https://docs.python.org/3/library/re.html) pour plus d'informations.

Commençons par expliquer comment rechercher des motifs de base dans une chaîne de caractères !

## Recherche de motifs de base

Imaginons que nous ayons la chaîne de caractères suivante :

In [2]:
text = "The agent's phone number is 408-555-1234. Call soon!"

Nous allons commencer par essayer de savoir si la chaîne "phone" se trouve à l'intérieur de la chaîne de texte. Nous pourrions le faire rapidement avec :

In [3]:
'phone' in text

True

Mais montrons le format des expressions régulières, car plus tard, nous rechercherons des motifs qui n'auront pas une solution aussi simple.

In [4]:
import re

In [5]:
pattern = 'phone'

In [6]:
re.search(pattern,text)

<re.Match object; span=(12, 17), match='phone'>

In [7]:
pattern = "NOT IN TEXT"

In [8]:
re.search(pattern,text)

Nous avons vu que re.search() prend le motif, analyse le texte et renvoie un objet Match. Si aucun motif n'est trouvé, un None est retourné (dans Jupyter Notebook, cela signifie simplement que rien n'est édité sous la cellule).

Examinons de plus près cet objet Match.

In [9]:
pattern = 'phone'

In [10]:
match = re.search(pattern,text)

In [11]:
match

<re.Match object; span=(12, 17), match='phone'>

Remarquez la portée, il y a également une information sur l'index de début et de fin.

In [12]:
match.span()

(12, 17)

In [13]:
match.start()

12

In [14]:
match.end()

17

Mais qu'en est-il si le schéma se répète plus d'une fois ?

In [15]:
text = "my phone is a new phone"

In [16]:
match = re.search("phone",text)

In [17]:
match.span()

(3, 8)

Remarquez qu'il ne correspond qu'à la première instance. Si nous voulions une liste de toutes les correspondances, nous pourrions utiliser la méthode .findall() :

In [18]:
matches = re.findall("phone",text)

In [19]:
matches

['phone', 'phone']

In [20]:
len(matches)

2

Pour obtenir les objets de correspondance proprement dits, utilisez l'itérateur :

In [21]:
for match in re.finditer("phone",text):
    print(match.span())

(3, 8)
(18, 23)


Si vous souhaitez obtenir le texte correspondant, vous pouvez utiliser la méthode .group().

In [22]:
match.group()

'phone'

# Patterns

Jusqu'à présent, nous avons appris à rechercher une chaîne de base. Qu'en est-il des exemples plus complexes ? Comme essayer de trouver un numéro de téléphone dans une grande chaîne de texte ? Ou une adresse électronique ?

Nous pourrions nous contenter d'utiliser la méthode de recherche si nous connaissions le numéro de téléphone ou l'adresse électronique exacts, mais qu'en est-il si nous ne les connaissons pas ? Nous connaissons peut-être le format général et nous pouvons l'utiliser avec des expressions régulières pour rechercher dans le document les chaînes de caractères qui correspondent à un modèle particulier.

C'est là que la syntaxe peut sembler étrange au premier abord, mais prenez votre temps ; souvent, il s'agit simplement de rechercher le code du motif.

## Identifiants pour les caractères dans les motifs (Patterns)

Les caractères tels que les chiffres ou les chaînes de caractères ont différents codes qui les représentent. Vous pouvez les utiliser pour construire une chaîne de caractères. Remarquez que ces codes font un usage intensif de la barre oblique inversée \ . Pour cette raison, lorsque nous définissons une chaîne de caractères pour une expression régulière, nous utilisons le format :

    r'mypattern'
    
Le fait de placer le r devant la chaîne permet à Python de comprendre que les \ dans la chaîne de motifs ne sont pas censés être des barres obliques d'échappement.

Vous trouverez ci-dessous un tableau de tous les identificateurs possibles :

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th></tr>

<tr ><td><span >\d</span></td><td>A digit</td><td>file_\d\d</td><td>file_25</td></tr>

<tr ><td><span >\w</span></td><td>Alphanumeric</td><td>\w-\w\w\w</td><td>A-b_1</td></tr>



<tr ><td><span >\s</span></td><td>White space</td><td>a\sb\sc</td><td>a b c</td></tr>



<tr ><td><span >\D</span></td><td>A non digit</td><td>\D\D\D</td><td>ABC</td></tr>

<tr ><td><span >\W</span></td><td>Non-alphanumeric</td><td>\W\W\W\W\W</td><td>*-+=)</td></tr>

<tr ><td><span >\S</span></td><td>Non-whitespace</td><td>\S\S\S\S</td><td>Yoyo</td></tr></table>

Par exemple :

In [23]:
text = "My telephone number is 408-555-1234"

In [24]:
phone = re.search(r'\d\d\d-\d\d\d-\d\d\d\d',text)

In [25]:
phone.group()

'408-555-1234'

Remarquez la répétition de \d. C'est un peu gênant, surtout si l'on cherche de très longues chaînes de nombres. Explorons les quantificateurs possibles.

Les quantificateurs ##

Maintenant que nous connaissons les désignations des caractères spéciaux, nous pouvons les utiliser avec des quantificateurs pour définir le nombre de caractères attendus.

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th></tr>

<tr ><td><span >+</span></td><td>Occurs one or more times</td><td>	Version \w-\w+</td><td>Version A-b1_1</td></tr>

<tr ><td><span >{3}</span></td><td>Occurs exactly 3 times</td><td>\D{3}</td><td>abc</td></tr>



<tr ><td><span >{2,4}</span></td><td>Occurs 2 to 4 times</td><td>\d{2,4}</td><td>123</td></tr>



<tr ><td><span >{3,}</span></td><td>Occurs 3 or more</td><td>\w{3,}</td><td>anycharacters</td></tr>

<tr ><td><span >\*</span></td><td>Occurs zero or more times</td><td>A\*B\*C*</td><td>AAACC</td></tr>

<tr ><td><span >?</span></td><td>Once or none</td><td>plurals?</td><td>plural</td></tr></table>

Réécrivons notre motif (pattern) en utilisant ces quantificateurs :

In [26]:
re.search(r'\d{3}-\d{3}-\d{4}',text)

<re.Match object; span=(23, 35), match='408-555-1234'>

## Groupes

Que se passerait-il si nous voulions effectuer deux tâches, trouver des numéros de téléphone, mais aussi être en mesure d'extraire rapidement leur indicatif régional (les trois premiers chiffres). Nous pouvons utiliser les groupes pour toute tâche générale impliquant le regroupement d'expressions régulières (afin de pouvoir les décomposer ultérieurement). 

Pour reprendre l'exemple du numéro de téléphone, nous pouvons séparer les groupes d'expressions régulières à l'aide de parenthèses :

In [27]:
phone_pattern = re.compile(r'(\d{3})-(\d{3})-(\d{4})')

In [28]:
results = re.search(phone_pattern,text)

In [29]:
# The entire result
results.group()

'408-555-1234'

In [30]:
# Can then also call by group position.
# remember groups were separated by parentheses ()
# Something to note is that group ordering starts at 1. Passing in 0 returns everything
results.group(1)

'408'

In [31]:
results.group(2)

'555'

In [32]:
results.group(3)

'1234'

In [33]:
# We only had three groups of parentheses
results.group(4)

IndexError: no such group

## Syntaxe Regex supplémentaire

### Opérateur Or |

Utilisez l'opérateur pipe pour obtenir un énoncé **ou**. Par exemple

In [34]:
re.search(r"man|woman","This man was here.")

<re.Match object; span=(5, 8), match='man'>

In [35]:
re.search(r"man|woman","This woman was here.")

<re.Match object; span=(5, 10), match='woman'>

### Le caractère de remplacement

Utilisez un "caractère générique" pour placer n'importe quel caractère à la même place. Vous pouvez utiliser un simple point **.** à cet effet. Par exemple :

In [36]:
re.findall(r".at","The cat in the hat sat here.")

['cat', 'hat', 'sat']

In [37]:
re.findall(r".at","The bat went splat")

['bat', 'lat']

Remarquez que nous n'avons fait correspondre que les 3 premières lettres, car nous avons besoin d'un a **.** pour chaque lettre. Vous pouvez également utiliser les quantificateurs décrits ci-dessus pour définir vos propres règles.

In [38]:
re.findall(r"...at","The bat went splat")

['e bat', 'splat']

Cependant, cela pose toujours le problème de la saisie préalable d'un plus grand nombre de mots. En réalité, nous ne voulons que des mots qui se terminent par "at".

In [39]:
# One or more non-whitespace that ends with 'at'
re.findall(r'\S+at',"The bat went splat")

['bat', 'splat']

### Starts With and Ends With

We can use the **^** to signal starts with, and the **$** to signal ends with:

In [39]:
# Ends with a number
re.findall(r'\d$','This ends with a number 2')

['2']

In [40]:
# Starts with a number
re.findall(r'^\d','1 is the loneliest number.')

['1']

Note that this is for the entire string, not individual words!

### Exclusion

Pour exclure des caractères, nous pouvons utiliser le symbole **^** en conjonction avec un ensemble de crochets **[]**. Tout ce qui se trouve entre les crochets est exclu. Par exemple :

In [40]:
phrase = "there are 3 numbers 34 inside 5 this sentence."

In [41]:
re.findall(r'[^\d]',phrase)

['t',
 'h',
 'e',
 'r',
 'e',
 ' ',
 'a',
 'r',
 'e',
 ' ',
 ' ',
 'n',
 'u',
 'm',
 'b',
 'e',
 'r',
 's',
 ' ',
 ' ',
 'i',
 'n',
 's',
 'i',
 'd',
 'e',
 ' ',
 ' ',
 't',
 'h',
 'i',
 's',
 ' ',
 's',
 'e',
 'n',
 't',
 'e',
 'n',
 'c',
 'e',
 '.']

Pour reconstituer les mots, utilisez le signe +. 

In [42]:
re.findall(r'[^\d]+',phrase)

['there are ', ' numbers ', ' inside ', ' this sentence.']

Nous pouvons l'utiliser pour supprimer la ponctuation d'une phrase.

In [43]:
test_phrase = 'This is a string! But it has punctuation. How can we remove it?'

In [44]:
re.findall('[^!.? ]+',test_phrase)

['This',
 'is',
 'a',
 'string',
 'But',
 'it',
 'has',
 'punctuation',
 'How',
 'can',
 'we',
 'remove',
 'it']

In [45]:
clean = ' '.join(re.findall('[^!.? ]+',test_phrase))

In [46]:
clean

'This is a string But it has punctuation How can we remove it'

## Les parenthèses pour le regroupement

Comme nous l'avons montré ci-dessus, nous pouvons utiliser des parenthèses pour regrouper des options, par exemple si nous voulons trouver des mots avec trait d'union :

In [47]:
text = 'Only find the hypen-words in this sentence. But you do not know how long-ish they are'

In [48]:
re.findall(r'[\w]+-[\w]+',text)

['hypen-words', 'long-ish']

## Parenthèses pour les options multiples

Si nous disposons de plusieurs options de correspondance, nous pouvons utiliser des parenthèses pour énumérer ces options. Par exemple :

In [49]:
# Find words that start with cat and end with one of these options: 'fish','nap', or 'claw'
text = 'Hello, would you like some catfish?'
texttwo = "Hello, would you like to take a catnap?"
textthree = "Hello, have you seen this caterpillar?"

In [50]:
re.search(r'cat(fish|nap|claw)',text)

<re.Match object; span=(27, 34), match='catfish'>

In [51]:
re.search(r'cat(fish|nap|claw)',texttwo)

<re.Match object; span=(32, 38), match='catnap'>

In [52]:
# None returned
re.search(r'cat(fish|nap|claw)',textthree)

### Conclusion

Pour des informations complètes sur tous les modèles possibles, consultez : https://docs.python.org/3/howto/regex.html

## Suivant : Évaluation sur les bases textuelles de Python