<h1> 13 - Les expressions régulières (regex) </h1>

<img src="./figures/regex.jpg" alt="pandas" width="80%" height="80%">

Les expressions régulières  (de l'anglais regex Regular Expression) constituent un système très puissant et très rapide pour faire des recherches dans des chaînes de caractères. C'est une sorte de fonctionnalité Rechercher/Remplacer très poussée. 


Pour tester nos expressionsrégulières: Regex101.com

En Python, les expressions régulières se font avec un package nommé <b>re</b>.  

Voici un exemple d'usage d'expressions régulières, ce code illustre un cas où l'on chercherait à tester la présence d'une adresse email :

In [8]:
import re

chaine = "guillaume.d@gmail.com"

# on vérifie qu'il y a bien le signe @ et on vérifie que l'adresse se termine par .fr ou .com
regexp = "(^[a-z0-9._-]+@[a-z0-9._-]+\.[(com|fr)]+)"

if re.match(regexp, chaine) is not None :
    
    print("Vrai")

else:
    
    print("Faux")

Vrai


Voici un autre exemple, voici une expression régulière pour déterminer si un numéro de téléphone francais est valide: 

- ^[0]{1}[1-7]{1}(-[0-9]{2}){4}$


In [7]:
import re

numero = "02-98-07-48-56"

regexp = "^[0]{1}[1-7]{1}(-[0-9]{2}){4}$"

if re.match(regexp, numero) is not None :
    
    print("Vrai")

else:
    
    print("Faux")

Vrai


Nous allons voir comment utiliser ces regex : 

<h2>13.1- Trouver des caractères</h2>

<h2>13.1.1- Les caractères génériques</h2>

Dans les regex, il est important de savoir ce que l'on doit aller chercher et combien de fois. 

- <b>Chercher les caractères que nous voulons:</b>

- . : Le point correspond à tous les caractères possibles
- \ : Utilisé pour supprimer la signification spéciale du caractère qui le suit (discuté ci-dessous)
- [A-F] : Correspond à une liste de caractères possibles: tous les éléments entre A et F 
- ^: le contraire de ce que l'on veut
- $: Correspond à la fin
- (python|c++):	chercher l'un ou l'autre
- (): Joindre un groupe de requête re()
- \d : chercher Uniquement des chiffres. Équivalent à [0-9]
- \D : chercher tout sauf des chiffres. Équivalent à [^0-9]
- \s : chercher Un espace
- \w : chercher un caractère alphanumérique. Équivalent à [a-zA-Z0-9_]
- \W :Tout sauf un caractère alphanumérique. Équivalent à [^a-zA-Z0-9_].

<b> - Pour compter des caractères: </b> 

- ? : 0 ou 1 fois
- '*'	: 0 à l'infini
- '+'	: de 1 à l'infini
- {3} : exactement 3
- {3,} : de 3 à l'infini
- {,3} : de 0 à 3 fois
- {3,6} : de 3 à 6 fois

<h2>13.1.2-  Rechercher le debut ou fin d'une chaine de caractères</h2>

 - '^' pour le debut d'une chaine
 - '$' pour les fins de chaines


In [57]:
import re

strings = ["il est sur le feu","fou"]

bad_string = "un feu de paille"
regexp = "(f.u)$"
for string in strings:
    if re.match(regexp, string) is not None :

        print("Vrai pour: " + string)

    else:

        print("Faux pour: "+ string)
    

Faux pour: il est sur le feu
Vrai pour: fou


In [58]:
import re

strings = ["il est sur le feu","fou"]

bad_string = "un feu de paille"
regexp = "^(f.u)"
for string in strings: 
    if re.match(regexp, string) is not None :

        print("Vrai")

    else:

        print("Faux")

Faux
Vrai


<h2>13.1.3- La fonction match(), tester une chaîne de caractères:</h2>

In [59]:
# Pourquoi on met un 'r'
print('\tBonjour')
print(r'\tBonjour')

	Bonjour
\tBonjour


- <b>match()</b> évalue la correspondance entre une expression régulière et une chaîne de caractères en partant du <b> bébut </b> de la chaîne. 

In [60]:
a = re.match(r'.', 'Pierre Dupont') # chercher n'importe quel caractère une seule fois
print(a)

<re.Match object; span=(0, 1), match='P'>


In [61]:
a = re.match(r'.', 'Pierre Dupont')
print(a.group())

P


In [62]:
a = re.match(r'.+', 'Pierre Dupont') # chercher n'importe quel caractère à l'infini
print(a.group())

Pierre Dupont


On peut créer différent groupe avec la méthode groupe: 

In [63]:
a = re.match(r'(\w+)\s(\w+)', 'Pierre Dupont')
print(a.group(0)) # entièreté du match 
print(a.group(1)) # premier groupe 
print(a.group(2)) # deuxième groupe 

Pierre Dupont
Pierre
Dupont


In [64]:
a = re.match(r'(\w+)(\s)(\w+)', 'Pierre Dupont')
print(a.group(0)) # entièreté du match 
print(a.group(1)) # premier groupe  
print(a.group(2)) # deuxième groupe
print(a.group(3)) # troisième groupe

Pierre Dupont
Pierre
 
Dupont


On peut nommer les groupes au lieu de mettre des indexs:

In [65]:
a = re.match(r'(?P<prenom>\w+) (?P<nom>\w+)', 'Pierre Dupont')

print(a.group('prenom'))
print(a.group('nom'))

print(a.groups())
print(a.groupdict())

Pierre
Dupont
('Pierre', 'Dupont')
{'prenom': 'Pierre', 'nom': 'Dupont'}


<b>- Exercices: </b>

Pour chaque question, indiquez si le match est valide ou non et ce qu'il retourne.

- 1 re.match(r'[a-z]+\d{2}', 'item01')

- 2 re.match(r'[a-zA-Z]+\s\w+', 'Pierre Dupont')

- 3 re.match(r'\s+', 'pierre dupont')

- 4 re.match(r'\w+', 'pierre dupont')

- 5 re.match(r'\w+([-+=]?)', 'pierre-dupont')

- 6 re.match(r'\w+([-+=]?)', 'pierre/dupont')

- 7 re.match(r'\w+([-+=]+)', 'pierre/dupont')


<b>- Correction: </b>

- 1 re.match(r'[a-z]+\d{2}', 'item01')

Match valide : retourne 'item01'

- 2 re.match(r'[a-zA-Z]+\s\w+', 'Pierre Dupont')

Match valide : retourne 'Pierre Dupont'

- 3 re.match(r'\s+', 'pierre dupont')

Match invalide : on cherche un espace au début de la chaîne de caractère, mais elle commence par une lettre.

- 4 re.match(r'\w+', 'pierre dupont')

Match valide : retourne 'pierre'

- 5 re.match(r'\w+([-+=]?)', 'pierre-dupont')

Match valide : retourne 'pierre-'

- 6 re.match(r'\w+([-+=]?)', 'pierre/dupont')

Match valide : retourne 'pierre'

- 7 re.match(r'\w+([-+=]+)', 'pierre/dupont')

Match invalide : le + cherche si les caractères -, + ou = sont présents au moins une fois ou plus dans la chaîne de caractère. Aucun de ses éléments ne se retrouve dans la chaîne de caractère au moins une fois et donc le match n'est pas valide.



<h2>13.1.4- La fonction search(), chercher une chaîne de caractères:</h2>


In [85]:
a = re.search(r'\+', 'Pierre Dupont + Paul Martin')
print(a.group())

+


In [74]:
a = re.search(r'\s', 'Pierre Dupont + Paul Martin')
print(a)

<re.Match object; span=(6, 7), match=' '>


In [75]:
a = re.search(r'\+ Paul Martin', 'Pierre Dupont + Paul Martin')
print(a.group())
print(a)

+ Paul Martin
<re.Match object; span=(14, 27), match='+ Paul Martin'>


In [84]:
import re

a = re.search("f.","kung fu")

if a is not None:
    print("trouvé")
    print(a)
    
else:
    print("Aucune correspondance")

trouvé
<re.Match object; span=(5, 7), match='fu'>


In [83]:
import re
a = re.search("baton","kung fu")

if a is not None:
    print("trouvé")
else:
    print("Aucune correspondance")
    

Aucune correspondance


<h2>13.1.5- La fonction split():</h2>

In [71]:
import re

texte = 'item01 | item02 - item03 - item04 | item05'

a = re.split(r' \| | - ' , texte)
print(a)

['item01', 'item02', 'item03', 'item04', 'item05']


<h2>13.1.6- La fonction sub():</h2>

Cette fonction su() permet de modifier des chaines de caractères avec regex.


In [87]:
re.sub('yo','hello','yo world!')

'hello world!'

<h2>13.1.7-  Mises en pratique 1 </h2>

<h3> a: vérifier la validité des numéros de téléphone à l'aide d'une expression régulière:</h3>

Un numéro valide en France doit être composée d'une suite de 5 nombres avec 2 chiffres. La première série de nombres doit être comprise entre 01 et 07.

Cela donne donc 0A-XX-XX-XX-XX où A est un nombre compris entre 1 et 7 et X un nombre compris entre 0 et 9.

Les numéros suivants sont donc valides :

01-23-65-32-45

07-35-88-99-23

03-45-23-90-00

Et les numéros suivants invalides :

00-12-53-62-43 (commence par 00)

08-14-62-32-99 (commence par 08)

03-24-12-64 (seulement 4 séquences de deux chiffres)



In [89]:
import re

numeros_de_telephone = ['06-71-45-34-23',
                        '02-12-33-75-12',
                        '00-23-14-52-44',
                        '514-235-0293',
                        '03-52-31-56-34']

for tel in numeros_de_telephone:
    match = re.search(r'0{1}[1-7]{1}(-[0-9]{2}){4}', tel)
    print('Le numero {} est {}'.format(tel, 'valide' if match else 'invalide'))

Le numero 06-71-45-34-23 est valide
Le numero 02-12-33-75-12 est valide
Le numero 00-23-14-52-44 est invalide
Le numero 514-235-0293 est invalide
Le numero 03-52-31-56-34 est valide


<h3> b: vérifier la validité d'une liste d'adresses courriel:</h3>

Le but de cet exercice est de vérifier si les adresses emails contenues dans la liste sont valides ou non.

In [90]:
import re

adresses_mail = ['christian_martin@gmail.com',
                 'JaiOublieLarobasegmail.com',
                 'MarieHutchinson03523@yahoo.co.uk',
                 'UnEaDreSSeMail!38BIZarre@unSiTeBizarre.com',
                 'ceciNestPasUneDresseMail']

for mail in adresses_mail:
    adresse_valide = re.search(r'.+@[a-zA-Z0-9-]+\.[a-zA-Z-.]+', mail)
    print("L'adresse {} est {}".format(mail, 'valide' if adresse_valide else 'invalide'))

L'adresse christian_martin@gmail.com est valide
L'adresse JaiOublieLarobasegmail.com est invalide
L'adresse MarieHutchinson03523@yahoo.co.uk est valide
L'adresse UnEaDreSSeMail!38BIZarre@unSiTeBizarre.com est valide
L'adresse ceciNestPasUneDresseMail est invalide


<h2>13.1.8-  Mises en pratique 2 </h2>

<h3>a: Lecture d'un fichier de commentaires:</h3>

In [98]:
import csv
f = open("askreddit-2015.csv", encoding='utf-8')
csvreader=csv.reader(f)
posts=list(csvreader)
posts[0:2]

[['Title', 'Score', 'Time', 'Gold', 'NumComs'],
 ['What\'s your internet "white whale", something you\'ve been searching for years to find with no luck?',
  '11510',
  '1433213314.0',
  '1',
  '26195']]

In [94]:
posts = posts[1:] # pour retirer l'entête

In [95]:
for post in posts[:10]:
    print(post)

['What\'s your internet "white whale", something you\'ve been searching for years to find with no luck?', '11510', '1433213314.0', '1', '26195']
["What's your favorite video that is 10 seconds or less?", '8656', '1434205517.0', '4', '8479']
['What are some interesting tests you can take to find out about yourself?', '8480', '1443409636.0', '1', '4055']
["PhD's of Reddit. What is a dumbed down summary of your thesis?", '7927', '1440188623.0', '0', '13201']
['What is cool to be good at, yet uncool to be REALLY good at?', '7711', '1440082910.0', '0', '20325']
['[Serious] Redditors currently in a relationship, besides dinner and a movie, what are your favorite activities for date night?', '7598', '1439993280.0', '2', '5389']
["Parents of Reddit, what's something that your kid has done that you pretended to be angry about but secretly impressed or amused you?", '7553', '1439161809.0', '0', '11520']
['What is a good subreddit to binge read the All Time Top Posts of?', '7498', '1438822288.0',

<h3>b: Compter les correspondances:</h3>


Dans notre dataset, on va compter le nombre de fois que l'on trouve cette expression: "of Reddit".

In [99]:
import re 

regex = "of Reddit"
of_reddit_count=0
for post in posts:
    if re.search(regex,post[0]) is not None:
        of_reddit_count +=1 
        
print(of_reddit_count)

76


<h3>c: Lettres minuscules et majuscules:</h3>

Les crochets permettent de matcher à la fois avec les lettres minuscules et les majuscules

Donc si on veut aller chercher toutes les occurences de 'of reddit' et 'of Reddit'dans notre exemple précédent: 

In [101]:
import re 

regex = "of [Rr]eddit"
of_reddit_count=0
for post in posts:
    if re.search(regex,post[0]) is not None:
        of_reddit_count +=1 
        
print(of_reddit_count)

102


<h3>d: Ignorer les caractères spéciaux:</h3>

In [103]:
#[Serious]
regex="[Serious]"
regex = "\.$" # pour avoir que les fins de phrases


In [104]:
import re

# utilisation de \ pour ignorer les '[' (crochets) dans notre regex  
regex = "\[Serious\]"
serious_count=0
for post in posts:
    if re.search(regex,post[0]) is not None:
        serious_count +=1 
print(serious_count)

69


<h3>e: Améliorer notre regexx:</h3>

Dans notre fichierm on doit aller chercher les tags avec les expressions: 
- (Serious) , (serious), [Serious], [serious]

In [106]:
import re
serious_count=0
for post in posts:
    if re.search("[\[\(][Ss]erious[\]\)]",post[0]) is not None:
        serious_count +=1        
print(serious_count)

80


In [107]:
import re
serious_count=0
for post in posts:
    if re.search("\([Ss]erious\)",post[0]) is not None:
        serious_count +=1
    if re.search("\[[Ss]erious\]",post[0]) is not None:
        serious_count +=1
print(serious_count)

80


<h3>f: Combiner plusieurs regex:</h3>

In [108]:
import re

serious_start_count = 0
serious_end_count = 0
serious_count_final = 0

for row in posts:
    if re.search("^[\(\[][Ss]erious[\)\]]",row[0]) is not None:  # pour les tags serious au début
        serious_start_count += 1
    if re.search("[\(\[][Ss]erious[\)\]]$",row[0]) is not None: # pour les tags serious à la fin
        serious_end_count += 1 
    if re.search("^[\(\[][Ss]erious[\)\]] | [\(\[][Ss]erious[\)\]]$",row[0]) is not None:   # pour les tags serious pour les deux
        serious_count_final  += 1 
print(serious_start_count)
print(serious_end_count)
print(serious_count_final)

69
11
73


<h3>f: modifications des chaînes dans notre regex:</h3>

In [109]:
import re 

posts_new = []

for post in posts:
    post[0] = re.sub("[\[\(][Ss]erious[\]\)]","[Serious]" , post[0])
    posts_new.append(post)

In [110]:
print(posts_new[0:10])

[['Title', 'Score', 'Time', 'Gold', 'NumComs'], ['What\'s your internet "white whale", something you\'ve been searching for years to find with no luck?', '11510', '1433213314.0', '1', '26195'], ["What's your favorite video that is 10 seconds or less?", '8656', '1434205517.0', '4', '8479'], ['What are some interesting tests you can take to find out about yourself?', '8480', '1443409636.0', '1', '4055'], ["PhD's of Reddit. What is a dumbed down summary of your thesis?", '7927', '1440188623.0', '0', '13201'], ['What is cool to be good at, yet uncool to be REALLY good at?', '7711', '1440082910.0', '0', '20325'], ['[Serious] Redditors currently in a relationship, besides dinner and a movie, what are your favorite activities for date night?', '7598', '1439993280.0', '2', '5389'], ["Parents of Reddit, what's something that your kid has done that you pretended to be angry about but secretly impressed or amused you?", '7553', '1439161809.0', '0', '11520'], ['What is a good subreddit to binge re

<h3>g: Trouver les années avec 4 chiffres dans notre document:</h3>

-  [0-9] rechercher les chiffres en 0 et 9 
-  [a-z] [A-Z] rechercher les lettres entre a et z et entre A et Z

-  [1-2][0-9][0-9][0-9] pour rechercher les années
-  [1-2][0-9]{3} : accolades pour faire des répétitions 

In [127]:
year_strings = []

for row in posts: 
    a = re.search("[1-2][0-9]{3}",row[0])
    if a  is not None:
        year_strings.append(a.group())       
year_strings

['2000',
 '1990',
 '2015',
 '2014',
 '1000',
 '1500',
 '2015',
 '2016',
 '1000',
 '2016',
 '2115',
 '1000',
 '2015',
 '2014',
 '1000',
 '2001']

<h3>h: Extraire toutes les années de notre document:</h3>

- on peut utiliser la fonction findall() du module re()

In [125]:
# findall()
re.findall("[a-z]","abc123")

['a', 'b', 'c']

In [126]:
year_strings='On est déjà en 2017, une année de plus que 2016 et de moins que 2018'
years=re.findall("[1-2][0-9]{3}",year_strings)
print(years)

['2017', '2016', '2018']
