# Les  expressions régulières

Les expression régulières sont des filtres de recherche de texte qui suivent des règles très précises. Elles sont disponibles dans de nombreux langages et vous les entendrez souvent être mentionnées par les termes '`regex`' ou '`regexp`'. Les expressions régulières couvrent un large spectre de règles, recherche de répétitions, de texte spécifique et bien d'autres choses. Quand vous progresserez en Python, vous réaliserez que de nombreux problèmes de 'parsing', d'analyse de texte, peuvent être résolus par des expressions régulières.

C'est aussi une question classique en entretien d'embauche...

Si vous les avez déjà pratiquées dans un autre langage, comme Perl, vous remarquerez que leur syntaxe d'utilisation est très similaire en Python.

Nous allons maintenant les découvrir à l'aide du module `re`.

En avant la musique !

## Recherche de modèles (pattern) dans un texte

Une des utilisations les plus courantes du module `re` est de rechercher des bouts de texte.

Voici un exemple :


In [2]:
import re

# Liste des mots recherchés
aiguilles = [ 'terme1', 'terme2' ]

# Texte à analyser
botte = "Ceci est une chaine avec le terme1, mais elle ne contient pas l'autre terme."

for aiguille in aiguilles:
    print ('Recherche de "%s" dans: \n"%s"' % (aiguille, botte))
    
    # Recherche de l'aiguille dans la botte de foin
    if re.search(aiguille,  botte):
        print('\nLe terme est présent. \n')
    else:
        print('\nLe terme est absent.\n')

Recherche de "terme1" dans: 
"Ceci est une chaine avec le terme1, mais elle ne contient pas l'autre terme."

Le terme est présent. 

Recherche de "terme2" dans: 
"Ceci est une chaine avec le terme1, mais elle ne contient pas l'autre terme."

Le terme est absent.



Nous venons de voir que re.search() va prendre le modèle, analyser le texte, et enfin renvoyer un objet **Match** s'il est trouvé. Si le modèle n'est pas trouvé, **None** sera renvoyé.

Pour bien comprendre cela, nous allons décortiquer l'exemple précédent :
To give a clearer picture of this match object, check out the cell below:

In [5]:
# Le mot recherché
aiguille = 'terme2'

# Texte à analyser
botte = "Ceci est une chaine avec le terme1, mais elle ne contient pas l'autre terme."

match = re.search(aiguille,  botte)

type(match)

NoneType

In [6]:
# Le mot recherché
aiguille = 'terme1'

# Texte à analyser
botte = "Ceci est une chaine avec le terme1, mais elle ne contient pas l'autre terme."

match = re.search(aiguille,  botte)

type(match)

_sre.SRE_Match

Cet objet **Match** renvoyé par la méthode `search()` est plus qu'un Booléen ou Noce, en cas de correspondance il contiendra des informations sur celle-ci, il y a la chaine testée, l'expression régulire utiulisée et la position à laquelle a été découverte la correspondance.

Voyons maintenant les méthodes que l'on peut utiliser sur un objet **Match** :

In [7]:
# Afficher le début de la correspondance
match.start()

28

In [8]:
# Afficher la fin
match.end()

34

## Découpage avec des expressions régulières

Le module re et une syntaxe particulière permettent de couper une chaine, à la manière de ce que nous avons vu avec la méthode `split()` pour les chaines de caractères.


In [10]:
# Terme ou caractère pour faire la coupe
charniere = '@'

phrase = "Quel est le domaine de quelqu'un dont l'adresse mail est : hello@gmail.com"

# Couper la phrase
re.split(charniere,phrase)

["Quel est le domaine de quelqu'un dont l'adreese mail est : hello",
 'gmail.com']

Soyez sur d'avoir noté que re.split() retourne une liste de laquelle les termes pour faire la coupe ont disparu, et les éléments de la liste dont les coupes de la chaine de départ.
Pratiquez avec vos propres exemple pour être sur de bien maitriser le concept !

## Trouver toutes les occurences d'un modèle (pattern)

Vous pouvez aussi utiliser re.findall() pour trouver toutes les occurences d'un modèle dans une chaine.

Exemple :

In [11]:
# Renvoie la liste de toutes les occurences
re.findall('match','phrase de test avec match qui se trouve au milieu')

['match']

## Syntaxe des modèles `re`

C'est le gros morceau de cette leçon sur l'utilisation de `re`avec Python. Les expressions régulières supportent une grande variété de modèles plus puissants que la simple recherche de la position d'une chaine de caractère dans une autre.

Il est possible d'utiliser des *metacharacters* avec re pour rechercher des modèles très spécifiques.

Comme nous allons faire de nombreux essais avec différentes syntaxes, commençont par définir une fonctions pour afficher les résultats d'une recherche passée en paramètre.


In [13]:
def multi_re(aiguilles,phrase):
    '''
    Takes in a list of regex patterns
    Prints a list of all matches
    '''
    for aiguille in aiguilles:
        print ('Recherche dans une phrase en utilisant le modèle re : %r' %aiguille)
        print (re.findall(aiguille,phrase))
        print ('\n')

### Répétitions

Il y a 5 façons différentes de rechercher une répétition :

    1.) Un modèle suivi du meta-charactère * est répété zéro fois ou plusieurs.
    2.) Remplacer * par + et le modèle devra apparaitre au moins une fois. 
    3.) Utiliser ? signifie que le modèle apparait zéro ou une fois.
    4.) Un nombre précis de répétitions sera trouvé avec la syntaxe {m} à la suite du modèle, où m représente le nombre attendu de répétitions du modèle.
    5.) La syntaxe {m,n} permet de spécifier un nombre minimum (m) et une nombre maximum (n) de répétitions. La notation {m,} sans préciser n signifie que la valeur apparait au moins m fois, sans maximum.
    
Voyons quelques exemples de tout cela avec notre fonction multi_re définie précédemment :

In [15]:
phrase_test = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

aiguilles = [ 'sd*',            # s suivi par aucun ou plusieurs d
                'sd+',          # s suivi par un ou plusieurs d
                'sd?',          # s suivi par aucun ou un seul d
                'sd{3}',        # s suivi par trois d
                'sd{2,3}',      # s suivi par deux à trois d
                ]

multi_re(aiguilles,phrase_test)

Recherche dans une phrase en utilisant le modèle re : 'sd*'
['sd', 'sd', 's', 's', 'sddd', 'sddd', 'sddd', 'sd', 's', 's', 's', 's', 's', 's', 'sdddd']


Recherche dans une phrase en utilisant le modèle re : 'sd+'
['sd', 'sd', 'sddd', 'sddd', 'sddd', 'sd', 'sdddd']


Recherche dans une phrase en utilisant le modèle re : 'sd?'
['sd', 'sd', 's', 's', 'sd', 'sd', 'sd', 'sd', 's', 's', 's', 's', 's', 's', 'sd']


Recherche dans une phrase en utilisant le modèle re : 'sd{3}'
['sddd', 'sddd', 'sddd', 'sddd']


Recherche dans une phrase en utilisant le modèle re : 'sd{2,3}'
['sddd', 'sddd', 'sddd', 'sddd']




## Jeux de caractères

Les jeux de caractères sont utilisés quand vous voulez trouver un groupe de caractères spécifiques. Des crochets (carrès) sont utilisés pour construire le jeu de caractères en entrée.
Par exemple, l'entrée [ab] cherchera des occurences de a ou b.

Voyons quelques exemples :

In [18]:
phrase_test = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

aiguilles = [ '[sd]',    # s ou d
            's[sd]+']    # s suivi par un ou plusieurs s ou d
            

multi_re(aiguilles,phrase_test)

Recherche dans une phrase en utilisant le modèle re : '[sd]'
['s', 'd', 's', 'd', 's', 's', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 'd', 's', 'd', 's', 'd', 's', 's', 's', 's', 's', 's', 'd', 'd', 'd', 'd']


Recherche dans une phrase en utilisant le modèle re : 's[sd]+'
['sdsd', 'sssddd', 'sdddsddd', 'sds', 'sssss', 'sdddd']




It makes sense that the first [sd] returns every instance. Also the second input will just return any thing starting with an s in this particular case of the test phrase input.

##Exclusion

We can use ^ to exclude terms by incorporating it into the bracket syntax notation. For example: [^...] will match any single character not in the brackets. Let's see some examples:

In [None]:
test_phrase = 'This is a string! But it has punctuation. How can we remove it?'

Use [^!.? ] to check for matches that are not a !,.,?, or space. Add the + to check that the match appears at least once, this basically translate into finding the words.

In [56]:
re.findall('[^!.? ]+',test_phrase)

['This',
 'is',
 'a',
 'string',
 'But',
 'it',
 'has',
 'punctutation',
 'How',
 'can',
 'we',
 'remove',
 'it']

##Character Ranges

As character sets grow larger, typing every character that should (or should not) match could become very tedious. A more compact format using character ranges lets you define a character set to include all of the contiguous characters between a start and stop point. The format used is [start-end].

Common use cases are to search for a specific range of letters in the alphabet, such [a-f] would return matches with any instance of letters between a and f. 

Let's walk through some examples:

In [65]:

test_phrase = 'This is an example sentence. Lets see if we can find some letters.'

test_patterns=[ '[a-z]+',      # sequences of lower case letters
                '[A-Z]+',      # sequences of upper case letters
                '[a-zA-Z]+',   # sequences of lower or upper case letters
                '[A-Z][a-z]+'] # one upper case letter followed by lower case letters
                
multi_re_find(test_patterns,test_phrase)

Searching the phrase using the re check: '[a-z]+'
['his', 'is', 'an', 'example', 'sentence', 'ets', 'see', 'if', 'we', 'can', 'find', 'some', 'letters']


Searching the phrase using the re check: '[A-Z]+'
['T', 'L']


Searching the phrase using the re check: '[a-zA-Z]+'
['This', 'is', 'an', 'example', 'sentence', 'Lets', 'see', 'if', 'we', 'can', 'find', 'some', 'letters']


Searching the phrase using the re check: '[A-Z][a-z]+'
['This', 'Lets']




##Escape Codes

You can use special escape codes to find specific types of patterns in your data, such as digits, non-digits,whitespace, and more. For example:

<table border="1" class="docutils">
<colgroup>
<col width="14%" />
<col width="86%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Code</th>
<th class="head">Meaning</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\d</span></tt></td>
<td>a digit</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\D</span></tt></td>
<td>a non-digit</td>
</tr>
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\s</span></tt></td>
<td>whitespace (tab, space, newline, etc.)</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\S</span></tt></td>
<td>non-whitespace</td>
</tr>
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\w</span></tt></td>
<td>alphanumeric</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\W</span></tt></td>
<td>non-alphanumeric</td>
</tr>
</tbody>
</table>

Escapes are indicated by prefixing the character with a backslash (\). Unfortunately, a backslash must itself be escaped in normal Python strings, and that results in expressions that are difficult to read. Using raw strings, created by prefixing the literal value with r, for creating regular expressions eliminates this problem and maintains readability.

Personally, I think this use of r to escape a backslash is probably one of the things that block someone who is not familiar with regex in Python from being able to read regex code at first. Hopefully after seeing these examples this syntax will become clear.

In [68]:
test_phrase = 'This is a string with some numbers 1233 and a symbol #hashtag'

test_patterns=[ r'\d+', # sequence of digits
                r'\D+', # sequence of non-digits
                r'\s+', # sequence of whitespace
                r'\S+', # sequence of non-whitespace
                r'\w+', # alphanumeric characters
                r'\W+', # non-alphanumeric
                ]

multi_re_find(test_patterns,test_phrase)

Searching the phrase using the re check: '\\d+'
['1233']


Searching the phrase using the re check: '\\D+'
['This is a string with some numbers ', ' and a symbol #hashtag']


Searching the phrase using the re check: '\\s+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


Searching the phrase using the re check: '\\S+'
['This', 'is', 'a', 'string', 'with', 'some', 'numbers', '1233', 'and', 'a', 'symbol', '#hashtag']


Searching the phrase using the re check: '\\w+'
['This', 'is', 'a', 'string', 'with', 'some', 'numbers', '1233', 'and', 'a', 'symbol', 'hashtag']


Searching the phrase using the re check: '\\W+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' #']




## Conclusion

You should now have a solid understanding of how to use the regular expression module in Python. There are a ton of more special character instances, but it would be unreasonable to go through every single use case. Instead take a look at the full [documentation](https://docs.python.org/2/library/re.html#regular-expression-syntax) if you ever need to look up a particular case.

You can also check out the nice summary tables at this [source](http://www.tutorialspoint.com/python/python_reg_expressions.htm).

Good job!
