<h1> Les expressions régulières (regex) </h1>


<h2>Objectifs</h2>

- comprendre ce qu'est un regex
- appliquer un regex dans des listes et des documents complets


Un Regex est une séquence de caractères qui décrit et recherche un élément dans un ensemble. 


In [2]:
strings = ["data science","big data"]
regex = "data"

Le regex commun ici est la chaîne de caractère 'data'. 

In [3]:
print(regex)

data


<h2>1- Les caractères génériques</h2>

Utilisation de caractères spéciaux pour aller chercher une expression: exemple du point '.' 

In [3]:
strings = ["but","batte","robotique"]
regex = "b.t"

<h2>2-  Rechercher le debut ou fin d'une chaine de caractères</h2>

 - '^' pour le debut d'une chaine
 - '$' pour les fins de chaines


In [4]:
strings = ["il est sur le feu","fou"]
bad_string = "un feu de paille"
regex = "f.u$"  

<h2>3-  Mise en pratique</h2>

Lecture d'un fichier de commentaires. 

In [4]:
import csv
f = open("askreddit-2015.csv", encoding='utf-8')
csvreader=csv.reader(f)
posts=list(csvreader)
posts[0:5]

[['Title', 'Score', 'Time', 'Gold', 'NumComs'],
 ['What\'s your internet "white whale", something you\'ve been searching for years to find with no luck?',
  '11510',
  '1433213314.0',
  '1',
  '26195'],
 ["What's your favorite video that is 10 seconds or less?",
  '8656',
  '1434205517.0',
  '4',
  '8479'],
 ['What are some interesting tests you can take to find out about yourself?',
  '8480',
  '1443409636.0',
  '1',
  '4055'],
 ["PhD's of Reddit. What is a dumbed down summary of your thesis?",
  '7927',
  '1440188623.0',
  '0',
  '13201']]

In [5]:
posts = posts[1:] # pour retirer l'entête

In [6]:
for post in posts[:10]:
    print(post)

['What\'s your internet "white whale", something you\'ve been searching for years to find with no luck?', '11510', '1433213314.0', '1', '26195']
["What's your favorite video that is 10 seconds or less?", '8656', '1434205517.0', '4', '8479']
['What are some interesting tests you can take to find out about yourself?', '8480', '1443409636.0', '1', '4055']
["PhD's of Reddit. What is a dumbed down summary of your thesis?", '7927', '1440188623.0', '0', '13201']
['What is cool to be good at, yet uncool to be REALLY good at?', '7711', '1440082910.0', '0', '20325']
['[Serious] Redditors currently in a relationship, besides dinner and a movie, what are your favorite activities for date night?', '7598', '1439993280.0', '2', '5389']
["Parents of Reddit, what's something that your kid has done that you pretended to be angry about but secretly impressed or amused you?", '7553', '1439161809.0', '0', '11520']
['What is a good subreddit to binge read the All Time Top Posts of?', '7498', '1438822288.0',

<h2>4-  Compter les correspondances avec le module re() </h2>

- re.search(regex,string): le module re() permet de chercher des expressions régulières

In [7]:
import re

if re.search("f.","kung fu") is not None:
    print("trouvé")
    
else:
    print("Aucune correspondance")
    

trouvé


In [8]:
import re

if re.search("baton","kung fu") is not None:
    print("trouvé")
    
else:
    print("Aucune correspondance")

Aucune correspondance


Dans notre dataset, on va compter le nombre de fois que l'on trouve une expression: "of Reddit".

In [9]:
import re 

regex = "of Reddit"
of_reddit_count=0
for post in posts:
    if re.search(regex,post[0]) is not None:
        of_reddit_count +=1 
        
print(of_reddit_count)

76


<h2>5- Lettres minuscules et majuscules </h2>

Les crochets permettent de matcher à la fois avec les lettres minuscules et les majuscules

In [10]:
regex = "[slm]ac"
# cette expression permettra de chercher les caratères suivants: 
strings=["sac","lac","mac"]

Donc si on veut aller chercher toutes les occurences de 'of reddit' et 'of Reddit'dans notre exemple précédent: 

In [11]:
import re 

regex = "of [Rr]eddit"
of_reddit_count=0
for post in posts:
    if re.search(regex,post[0]) is not None:
        of_reddit_count +=1 
        
print(of_reddit_count)

102


<h2>6- Les caractères spéciaux</h2>

- .				Le point correspond à tous les caractères possibles (incluant symboles)
- [A-F]			Correspond à une liste de caractères possibles.
- (python|c++)	L'un ou l'autre
- ^				Le contraire de ce qu'on veut.
- \d 			Uniquement des chiffres. Équivalent à [0-9]
- \D 			Tout sauf des chiffres. Équivalent à [^0-9]
- \s 			Un espace
- \w 			Un caractère alphanumérique. Équivalent à [a-zA-Z0-9_]
- \W 			Tout sauf un caractère alphanumérique. Équivalent à [^a-zA-Z0-9_]
- \ 			Comme en Python, pour échapper un caractère.


Pour compter les nombres d'occurence: 

- ? 		0 ou 1 fois
- `.`	    	0 à l'infini
- `+`	    	de 1 à l'infini
- {3} 		exactement 3
- {3,}  	de 3 à l'infini
- {,3}  	de 0 à 3 fois
- {3,6} 	de 3 à 6 fois






In [12]:
#[Serious]
regex="[Serious]"

# \ pour ignorer les '[' (crochets) dans notre regex  

regex = "\.$" # pour avoir que les fins de phrases


In [13]:
import re

regex = "\[Serious\]"
serious_count=0
for post in posts:
    if re.search(regex,post[0]) is not None:
        serious_count +=1 
print(serious_count)

69


<h2>7- Améliorer notre regex</h2>

Dans notre fichier on doit aller chercher les tags avec les expressions: 
- (Serious) , (serious), [Serious], [serious]

In [29]:
import re
serious_count=0
for post in posts:
    if re.search("[\[\(][Ss]erious[\]\)]",post[0]) is not None:
        serious_count +=1
print(serious_count)

80


In [26]:
import re
serious_count=0
for post in posts:
    if re.search("\([Ss]erious\)",post[0]) is not None:
        serious_count +=1
    if re.search("\[[Ss]erious\]",post[0]) is not None:
        serious_count +=1
print(serious_count)

80


<h2>8- Combiner plusieurs regex</h2>

- '|' pour combiner deux regex

In [30]:
import re

serious_start_count = 0
serious_end_count = 0
serious_count_final = 0

for row in posts:
    if re.search("^[\(\[][Ss]erious[\)\]]",row[0]) is not None:  # pour les tags serious au début
        serious_start_count += 1
    if re.search("[\(\[][Ss]erious[\)\]]$",row[0]) is not None: # pour les tags serious à la fin
        serious_end_count += 1 
    if re.search("^[\(\[][Ss]erious[\)\]] | [\(\[][Ss]erious[\)\]]$",row[0]) is not None:   # pour les tags serious pour les deux
        serious_count_final  += 1 
print(serious_start_count)
print(serious_end_count)
print(serious_count_final)

69
11
73


<h2>9- Modifier des chaines de caractères avec regex</h2>

- fonction sub() du module re().

In [31]:
re.sub('yo','hello','yo world!')

'hello world!'

In [33]:
re.sub('hi','hello','yo world!')

'yo world!'

In [32]:
import re 

posts_new = []

for post in posts:
    post[0] = re.sub("[\[\(][Ss]erious[\]\)]","[Serious]" , post[0])
    posts_new.append(post)

In [43]:
print(posts_new[0:10])

[['What\'s your internet "white whale", something you\'ve been searching for years to find with no luck?', '11510', '1433213314.0', '1', '26195'], ["What's your favorite video that is 10 seconds or less?", '8656', '1434205517.0', '4', '8479'], ['What are some interesting tests you can take to find out about yourself?', '8480', '1443409636.0', '1', '4055'], ["PhD's of Reddit. What is a dumbed down summary of your thesis?", '7927', '1440188623.0', '0', '13201'], ['What is cool to be good at, yet uncool to be REALLY good at?', '7711', '1440082910.0', '0', '20325'], ['[Serious] Redditors currently in a relationship, besides dinner and a movie, what are your favorite activities for date night?', '7598', '1439993280.0', '2', '5389'], ["Parents of Reddit, what's something that your kid has done that you pretended to be angry about but secretly impressed or amused you?", '7553', '1439161809.0', '0', '11520'], ['What is a good subreddit to binge read the All Time Top Posts of?', '7498', '143882

<h2>10- Trouver les années avec 4 chiffres</h2>


-  [0-9] rechercher les chiffres en 0 et 9 
-  [a-z] [A-Z] rechercher les lettres entre a et z et entre A et Z

-  [1-2][0-9][0-9][0-9] pour rechercher les années
-  [1-2][0-9]{3} : accolades pour faire des répétitions 

In [37]:
year_strings = []

for string in strings:
    
    if re.search("[1-2][0-9]{3}",string) is not None:
        year_strings.append(string)
        
year_strings

[]

<h2>11- Extraire toutes les années de notre document </h2>

- on peut utiliser la fonction findall() du module re()

In [46]:
# findall()
re.findall("[a-z]","abc123")

['a', 'b', 'c']

In [38]:
year_strings='On est déjà en 2017, une année de plus que 2016 et de moins que 2018'
years=re.findall("[1-2][0-9]{3}",year_strings)
print(years)

['2017', '2016', '2018']
