In [2]:
import re

### Exemples  basiques

In [None]:
# Extraction chaîne brute 'nous'
r = re.compile("nous")
txt = 'A la maison, nous avons une télévision. Nous sommes heureux'
print(r.findall(txt))
# Extraction lettres majuscules
r = re.compile(r"[A-Z]")
print(r.findall(txt))

['A', 'N']

In [8]:
# Extraction nombres
txt = "J'habite au 137 bd Auguste Blanqui, au 12ème étage"
r = re.compile("[0-9]+")
print(r.findall(txt))
# Attention : 
r = re.compile("[0-9]*") 
print(r.findall(txt))
# Extraction nombres avec au moins 3 chiffres
r = re.compile("[0-9]{3,}")
print(r.findall(txt))

['137', '12']
['', '', '', '', '', '', '', '', '', '', '', '', '137', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '12', '', '', '', '', '', '', '', '', '', '']
['137']


### Raccourcis, métacaractères, groupes de captures

In [11]:
txt = "Apparemment, Philippe n'est chez lui. Mais, étonnamment, il n'est pas en chemin non plus. Il roule vers une autre destination"
# Mots qui finnissent par ment
r = re.compile(r"\w+ment")
r.findall(txt)

['Apparemment', 'étonnamment']

In [None]:
txt = 'Georges98@yahoo.com \n coucou.com \n grégoire.richon@apple.com\n constitution@justice \n sarkozy@élysée.fr'
# Adresses mails :
# Avant le @ : suite de caractères alphanumériques pouvant inclure des caractères spéciaux : .,-,?,é,à
# le @
# Après le @ et avant le . : suite de caractères alphanumériques pouvant inclure des caractères spéciaux : .,-,?,é,à
# le .
# Après le . : au moins 2 minuscules
r = re.compile(r"[A-Za-z0-9.\-?éà]+@[A-Za-z0-9.\-?éà]+\.[a-z]{2,}")
print(r.findall(txt))

['Georges98@yahoo.com', 'grégoire.richon@apple.com', 'sarkozy@élysée.fr']


In [20]:
txt = 'https://www.google.com/ \n http://www.safari.fr/data-science'
# Liens html
# http ou https
# ://
# suite de caractères alphanumériques pouvant inclure des caractères spéciaux : .,-,/
r = re.compile(r"https?://[A-Za-z0-9.\-/]+")
print(r.findall(txt))

# Avec groupe de capture
r = re.compile(r"http(s)?://[A-Za-z0-9.\-/]+")
print(r.findall(txt))

['https://www.google.com/', 'http://www.safari.fr/data-science']
['s', '']


In [22]:
txt = 'A a - § é 8 1 attraction. Potion'

r = re.compile(r"[a-zA-Z0-9]")
print(r.findall(txt))
# A,a,8,1,a,t,t,r,a,c,t,i,o,n,P,o,t,i,o,n

r = re.compile(r"[abc145]")
print(r.findall(txt))
# a,1,a,a,c

r = re.compile(r"[a-zA-Z0-9\.\?]")
print(r.findall(txt))
# A,a,8,1,a,t,t,r,a,c,t,i,o,n,.,P,o,t,i,o,n

r = re.compile(r"[^A-Z]")
print(r.findall(txt))
#  ,a, ,-, ,§, ,é, ,8, ,1, ,a,t,t,r,a,c,t,i,o,n,., ,o,t,i,o,n

r = re.compile(r"tion$")
print(r.findall(txt))
# tion

r = re.compile(r"^Po")
print(r.findall(txt))
# liste vide

r = re.compile(r"o([a-z])")
print(r.findall(txt))
# n,t,n

['A', 'a', '8', '1', 'a', 't', 't', 'r', 'a', 'c', 't', 'i', 'o', 'n', 'P', 'o', 't', 'i', 'o', 'n']
['a', '1', 'a', 'a', 'c']
['A', 'a', '8', '1', 'a', 't', 't', 'r', 'a', 'c', 't', 'i', 'o', 'n', '.', 'P', 'o', 't', 'i', 'o', 'n']
[' ', 'a', ' ', '-', ' ', '§', ' ', 'é', ' ', '8', ' ', '1', ' ', 'a', 't', 't', 'r', 'a', 'c', 't', 'i', 'o', 'n', '.', ' ', 'o', 't', 'i', 'o', 'n']
['tion']
[]
['n', 't', 'n']


### Quantificateurs greedy vs lazy

In [23]:
# Greedy
r1 = re.compile(r"s.*o")
print(r1.findall('stackoverflow'))
# Lazy
r2 = re.compile(r"s.*?o")
print(r2.findall('stackoverflow'))

['stackoverflo']
['stacko']


In [26]:
txt = '<html><head><title>Title<\title>'
# Greedy
r = re.compile(r"<.*>")
print(r.findall(txt))
# Lazy
r = re.compile(r"<.*?>")
print(r.findall(txt))

['<html><head><title>Title<\title>']
['<html>', '<head>', '<title>', '<\title>']


### Méthodes usuelles : findall, finditer, match, search

In [6]:
txt = 'https://www.google.com/ \n http://www.safari.fr/data-science'
r = re.compile(r"(http(s)?)://[a-zA-z0-9.\-/]+")

print("\n***findall***")
liens = r.findall(txt)
print(liens)

print("\n***finditer***")
liens = r.finditer(txt)
for lien in liens:
    print("Détection :",lien.group(0))
    print("Capture 1er groupe :",lien.group(1))
    print("Capture 2ème groupe:",lien.group(2))
    print("Capture tous groupes:",lien.groups())

print("\n***match***")
lien = r.match(txt)
print("Détection :",lien.group(0))
print("Capture 1er groupe :",lien.group(1))
print("Capture 2ème groupe:",lien.group(2))
print("Capture tous groupes:",lien.groups())

print("\n***search***")
lien = r.search(txt,pos=5)
print("Détection :",lien.group(0))
print("Capture 1er groupe :",lien.group(1))
print("Capture 2ème groupe:",lien.group(2))
print("Capture tous groupes:",lien.groups())


***findall***
[('https', 's'), ('http', '')]

***finditer***
Détection : https://www.google.com/
Capture 1er groupe : https
Capture 2ème groupe: s
Capture tous groupes: ('https', 's')
Détection : http://www.safari.fr/data-science
Capture 1er groupe : http
Capture 2ème groupe: None
Capture tous groupes: ('http', None)

***match***
Détection : https://www.google.com/
Capture 1er groupe : https
Capture 2ème groupe: s
Capture tous groupes: ('https', 's')

***search***
Détection : http://www.safari.fr/data-science
Capture 1er groupe : http
Capture 2ème groupe: None
Capture tous groupes: ('http', None)


In [None]:
# Exemple extrait html
data = 'Line 13:<a href="mailto:mwolf@mg-cc.org" target="_self" title="Click to send an Email">gdalonzo@mg-cc.org</a> \nLine 28:<a href="mailto:bfritz@mg-cc.org" target="_self" title="Click to send an Email">bfritz@mg-cc.org</a> \nLine 43:<a href="mailto:alazovitz@mg-cc.org" target="_self" title="Click to send an Email">alazovitz@mg-cc.org</a> \nLine 58:<a href="mailto:cboyenga@mg-cc.org" target="_self" title="Click to send an Email">cboyenga@mg-cc.org</a> \nLine 73:<a href="mailto:bdoheny@mg-cc.org" target="_self" title="Click to send an Email">bdoheny@mg-cc.org</a> \nLine 88:<a href="mailto:mwolf@mg-cc.org" target="_self" title="Click to send an Email">mwolf@mg-cc.org</a> \nLine 104:<a href="mailto:cgiampa@mg-cc.org" target="_self" title="Click to send an Email">cgiampa@mg-cc.org</a> \nLine 122:<a href="mailto:DiningManager@mg-cc.org" target="_self" title="Click to send an Email">DiningManager@mg-cc.org</a> \nLine 142:<a href="mailto:freycc@npenn.org" target="_self" title="Click to send an Email">freycc@npenn.org</a> \nLine 164:<a href="mailto:selmairobinson@gmail.com" target="_self" title="Click to send an Email">selmairobinson@gmail.com</a> \nLine 184:<a href="mailto:sfalatek@mg-cc.org" target="_self" title="Click to send an Email">sfalatek@mg-cc.org</a> \nLine 206:<a href="mailto:kmurphy@mg-cc.org" target="_self" title="Click to send an Email">kmurphy@mg-cc.org</a> \nLine 27:<a href="tel:+12158863033" target="_self" title="Click to make a Call">(215) 886-3033</a><br> \nLine 72:<a href="tel:+12672413239" target="_self" title="Click to make a Call">(267) 241-3239</a><br> \nLine 163:<a href="tel:+12153612926" target="_self" title="Click to make a Call">(215) 361-2926</a><br>'
print(data)

Line 13:<a href="mailto:mwolf@mg-cc.org" target="_self" title="Click to send an Email">gdalonzo@mg-cc.org</a> 
Line 28:<a href="mailto:bfritz@mg-cc.org" target="_self" title="Click to send an Email">bfritz@mg-cc.org</a> 
Line 43:<a href="mailto:alazovitz@mg-cc.org" target="_self" title="Click to send an Email">alazovitz@mg-cc.org</a> 
Line 58:<a href="mailto:cboyenga@mg-cc.org" target="_self" title="Click to send an Email">cboyenga@mg-cc.org</a> 
Line 73:<a href="mailto:bdoheny@mg-cc.org" target="_self" title="Click to send an Email">bdoheny@mg-cc.org</a> 
Line 88:<a href="mailto:mwolf@mg-cc.org" target="_self" title="Click to send an Email">mwolf@mg-cc.org</a> 
Line 104:<a href="mailto:cgiampa@mg-cc.org" target="_self" title="Click to send an Email">cgiampa@mg-cc.org</a> 
Line 122:<a href="mailto:DiningManager@mg-cc.org" target="_self" title="Click to send an Email">DiningManager@mg-cc.org</a> 
Line 142:<a href="mailto:freycc@npenn.org" target="_self" title="Click to send an Email">fr

In [None]:
# Liste des adresses mails
r = re.compile(r"mailto:([a-zA-z0-9\.\-@]+)")
liens = r.finditer(data)
for lien in liens:
    print(lien.group(1))

mwolf@mg-cc.org
bfritz@mg-cc.org
alazovitz@mg-cc.org
cboyenga@mg-cc.org
bdoheny@mg-cc.org
mwolf@mg-cc.org
cgiampa@mg-cc.org
DiningManager@mg-cc.org
freycc@npenn.org
selmairobinson@gmail.com
sfalatek@mg-cc.org
kmurphy@mg-cc.org


In [9]:
# Liste des téléphones
# (123) 456-7890
r = re.compile(r"\([0-9]{3}\)\s[0-9]{3}-[0-9]{4}")
print(r.findall(data))

['(215) 886-3033', '(267) 241-3239', '(215) 361-2926']


### Méthodes usuelles : split, sub et verbose

In [None]:
# Split
txt = "L'exemple... parfait pour comprendre"
r = re.compile(r"\W+")
print(r.split(txt))

r = re.compile(r"[^a-zA-Z0-9_']+")
print(r.split(txt))

# Attention : s'il y a des parenthèses, leur contenu est capturé lors du split aussi
r = re.compile(r"(\W+)")
print(r.split(txt))

['L', 'exemple', 'parfait', 'pour', 'comprendre']
["L'exemple", 'parfait', 'pour', 'comprendre']
['L', "'", 'exemple', '... ', 'parfait', ' ', 'pour', ' ', 'comprendre']


In [None]:
# Substitution
txt = "c'est super cool comme superstition"
r = re.compile(r"super")
print(r.sub('cool', txt))

# Recherche super en tant que mot
r = re.compile(r"\bsuper\b")
print(r.sub('cool', txt))

# Recherche super en début de mot
r = re.compile(r"\bsuper")
print(r.sub('cool', txt))

# Recherche super en fin de mot
r = re.compile(r"super\b")
print(r.sub('cool', txt))

# Recherche super s'il n'est pas en fin de mot
r = re.compile(r"super\B")
print(r.sub('cool', txt))


c'est cool cool comme coolstition
c'est cool cool comme superstition
c'est cool cool comme coolstition
c'est cool cool comme superstition
c'est super cool comme coolstition


In [26]:
txt = 'g.petoit93@gmail.com oliver.small459@orange.fr \n m.lameinère@yahoo.fr'

r = re.compile(r"""

   [A-Za-z0-9.\-?éà]+   #identifiant
   @                    #commun à tous les mails
   [A-Za-z0-9.\-?éà]+   #service mail
   \.[a-z]{2,}          #.com, .fr, etc

""", re.VERBOSE)

print (r.findall(txt))


['g.petoit93@gmail.com', 'oliver.small459@orange.fr', 're@yahoo.fr']
