Les expressions régulières sont un autre, puissant moyen de manipulation de chaînes en Python. Vous pouvez les utiliser pour toutes sortes d'opérations de chaîne très courants, comme la recherche des mots et les remplacer dans les textes. En fait, les expressions régulières sont souvent utilisés dans de nombreux langages de programmation et les éditeurs de texte. En raison de cela, vous serez souvent en mesure de réutiliser la plupart des choses que vous apprendrez à ce sujet ci-dessous. La fonctionnalité pour l'utilisation des expressions régulières en Python est inclus dans le module «re», qui vous devriez être en mesure d'importer comme d'habitude:

In [None]:
import re

En de nombreuses occasions, vous aurez envie de chercher une chaîne dans vos scripts: par exemple, le mot suivant apparaît-il dans un texte? Le format de l'adresse e-mail suivante est  ilvalide et contient-il un symbole @ et un point au moins? Pour mener à bien ces opérations, la première chose que vous avez besoin est une chaîne à rechercher:

In [None]:
s = "In principio erat verbum, et verbum erat apud Deum."

La prochaine chose que nous définissons est l'expression régulière que nous allons utiliser, ou la chaîne que nous allons utiliser pour chercher dans la phrase que nous avons défini ci-dessus. Nous passons cette chaîne à la fonction `compile()` dans le paquet` re`, ce qui permettra une recherche rapide plus tard. Notez que nous mettons un `r` en face de cette chaîne quand on initialise, ce qui fait de notre chaîne une 'chaîne brute'. Bien que ce soit pas toujours nécessaire, il est une bonne idée de le faire systématiquement lorsqu'on traite avec des expressions régulières.

In [None]:
pattern = re.compile(r"verbum")

Ensuite, nous pouvons appeler la fonction `sub()` du module `re` sur ce modèle (pattern), dans le but de remplacer notre modèle par un autre mot, comme suit:

In [None]:
text = pattern.sub("XXX", s)
print(text)

Notez l'ordre des paramètres donnés à `sub()`: d'abord, le mot que nous souhaiterions voir remplacer notre modèle, puis notre chaîne originale. On peut tout aussi bien obtenir notre chaîne originale:

In [None]:
pattern2 = re.compile(r"XXX")
text = pattern2.sub("verbum", s)
print(text)

Rien de spécial jusque là: nous avons simplement remplacé un mot par un autre. Des personnes auront déjà remarqué que nous pouvons faire la même chose avec `replace()`, que nous avons rencontrée dans un chapitre précédent. Mais si désormais l'on voulait remplacé toutes les voyelles d'une chaîne ? Avec les expressions régulères, c'est un jeu d'enfants:

In [None]:
vowel_pattern = re.compile(r"a|e|o|u|i")
without_vowels = vowel_pattern.sub("X", s)
print(without_vowels)

Notez comment notre modèle permet une syntaxe particulière: le symbole | que nous avons utilisé permet d'exprimer que l'un OU l'autre caractère est une correspondance pour l'expression régulière. Oups: la lettre majuscule au début de la phrase n'a pas été remplacé parce que nous n'avons inclus que des voyelles minuscules dans notre définition du modèle. Ajoutons les voyelles majuscules à l'expression régulière:

In [None]:
vowel_pattern = re.compile(r"a|A|e|E|o|O|u|U|i|I")
without_vowels = vowel_pattern.sub("X", s)
print(without_vowels)

Il y a en fait un moyen facile pour reconnaître toutes les lettres majuscules et minuscules d'une chaîne, comme ceci:

In [None]:
ups = re.compile(r"[A-Z]")
lows = re.compile(r"[a-z]")
without_ups = ups.sub("X", s)
print(without_ups)
without_ups = lows.sub("X", s)
print(without_ups)

Ces modèles spécifiques sont appelés «gammes» (ranges): ils correspondent à tout en minuscule ou majuscule. En fait, vous pouvez utiliser une telle syntaxe de gamme en utilisant des crochets, pour remplacer la syntaxe du | que nous avons utilisé plus tôt.

In [None]:
vowel_pattern = re.compile(r"[aeoui]")
without_vowels = vowel_pattern.sub("X", s)
print(without_vowels)

Vous pouvez également rechercher des groupes plus spécifiques, ainsi que de plus longues lettres en les arrangeant avec des parenthèses:

In [None]:
p = re.compile(r"(ri)|(um)|(Th)")
print(vowel_pattern.sub("X", s))

Il y a aussi une syntaxe qui reconnaît tout caractère (sauf les nouvelles lignes):

In [None]:
any_char = re.compile(r".")
print(any_char.sub("X", s))

Si vous voulez utiliser une expression régulère qui reconnaît un point, vous devez juste l'échapper en utilisant un antislash

In [None]:
dot = re.compile(r"\.")
print(dot.sub("X", s))


Par ailleurs, il existe plus de caractères que vous pourriez avoir à échapper à l'aide d'antislash. C'est parce qu'ils font partie de la syntaxe qu'on utilise pour définir des expressions régulières: si vous ne les échappez pas, Python ne saura pas que vous êtes à la recherche d'une adéquation littérale. Les caractères que vous pourriez habituellement vouloir échapper comprennent: `( + ? . * ^ $ ( ) [ ] { } | \ ) ,`. Par exemple:

In [None]:
s = "In principio [erat] verbum, et verbum erat apud Deum."
brackets_wrong = re.compile(r"[|]")
print(brackets_wrong.sub("X", s))
brackets_right = re.compile(r"(\[)|(\])")
print(brackets_right.sub("X", s))

La syntaxe pour l'expression régulière comprend toute une gamme de possibilités que nous pouvons tout simplement pas  traiter ici. A cause de cela nous nous en tiendrons à un certain nombre d'exemples utiles. Une caractéristique intéressante est que vous pouvez spécifier si oui ou non un caractère doit vraiment se produire. Vous pouvez vérifier si le modèle se produit dans une chaîne en utilisant la `match ()` fonction qui retournera `None` si elle ne trouve pas le motif dans la chaîne recherchée:

In [None]:
pattern = re.compile(r"m{2,4}")
print(pattern.match(""))
print(pattern.match("m"))
print(pattern.match("mm"))
print(pattern.match("mmm"))
print(pattern.match("mmmm"))
print(pattern.match("mmmmm"))
print(pattern.match("mmmmmm"))
print(pattern.match("mmmmammm"))

Avec les crochets, vous indiquez que la lettre 'm' doit apparaître de 2 à quatre fois à la suite dans une chaîne. `None` est retourné  si il n'y a pas un seul résultat, vous pouvez utiliser le résultat de `.match()` dans une déclaration if. L'example suivant montre comment vous pouvez utiliser les crochets pour reconnaître un nombre exact d'occurences.

In [None]:
pattern = re.compile(r"a{5}")
if pattern.match("aaaaa"):
    print("Found it!")
else:
    print("Nope...")
# or:
if pattern.match("aa"):
    print("Found it!")
else:
    print("Nope...")

Utilisant un signe plus, vous pouvez indiquer si vous voulez faire correspondre plusieurs occurrences d'un caractère. Un bon exemple du monde de l'écriture papier sont des espaces doubles, qui peuvent être difficiles à repérer. Dans le bloc de code ci-dessous, nous remplaçons toutes les occurrences multiples d'un caractère espace par un caractère d'espacement unique. Notez que vous pouvez utiliser le caractère d'espacement, comme tout autre caractère (vous ne devez pas l'échapper). Le occurrences multiples de ces caractères blancs seront jumelés: il n'a pas d'importance grpiếes, aussi longtemps que il y a au moins un:

In [None]:
paper = "My thesis on  biology     contains a lot of  double spaces.   I will remove  them."
mult = re.compile(r" +")
print(mult.sub(" ", paper))

A similar piece of functionality is offered by the asterisk operator: here you can match multiple occurences of the same character in a row OR not a single one. Note the subtle difference with respect to the plus operator, which needs at least a single occurence of the character to match. Here we use the `search()` function which will search the entire string: the `match()` function which we used earlier will only look for matches at the very beginning of a string. Keep this in mind! The final pattern below yields a match, although there is not a single 'x' in the sentence. That is because the pattern with the asterisk says: "a single x, or no x at all". 

Un morceau de fonctionnalité similaire est proposé par l'opérateur astérisque: ici, vous pouvez faire correspondre plusieurs occurrences du même caractère dans un ensemble/une gamme ou pas un seul. Notez la différence subtile par rapport à l'opérateur plus, qui a besoin au moins une seule occurrence du caractère à comparer. Ici, nous utilisons la fonction `search()` qui va chercher la chaîne entière: la fonction `match` que nous avons utilisé plus tôt regardera seulement pour les résultat au tout début d'une chaîne. Gardez cela à l'esprit! Le motif final ci-dessous donne un match, même si il n'y a pas un seule «x» dans la phrase. En effet, le motif avec l'astérisque dit: "un seul x, x ou pas du tout".

In [None]:
s = "In English some letters occur multiple times in a row."
p1 = re.compile(r"t")
p2 = re.compile(r"t*")
p3 = re.compile(r"x")
p4 = re.compile(r"x*")
print(p1.search(s))
print(p2.search(s))
print(p3.search(s))
print(p4.search(s))

Fait intéressant, vous pouvez également utiliser l'expression régulière à rechercher à l'intérieur des mots. Pouvez-vous expliquer pourquoi les modèles suivants (ne) correspondent?

In [None]:
candidates = ["good", "god", "gud", "gd"]
p = re.compile(r"go+d")
for c in candidates:
    print(p.match(c))

Speaking of words: it might be interesting to know that you can use regular expressions for advanced string splitting. If you want to split a sentence across all whitespace characters for instance, you can use an espaced `\s`. This operator will match all whitespace characters, such as tabs, linebreaks, normal spaces etc. If you add a `+` sign, your pattern will match series of whitespace characters: 

En parlant de mots: il pourrait être intéressant de savoir que vous pouvez utiliser des expressions régulières pour les découpages avancés de chaîne. Si vous voulez partager une phrase dans tous les caractères d'espacement, par exemple, vous pouvez utiliser un `\s`. Cet opérateur correspondra à tous les caractères d'espacement, comme des tabulations, les sauts de ligne, des espaces normaux etc. Si vous ajoutez un `+`, votre modèle correspondra série de caractères blancs:

In [None]:
s = """This is a text  on three   lines
with  multiple instances of  
double spaces."""
whitespace = re.compile(r"\s+")
print(whitespace.split(s))

Si vous aviez voulu diviser sur les sauts de ligne seulement (possiblement suivis d'espaces, par exemple), vous auriez pu utiliser le modèle suivant:

In [None]:
s = """This is a text  on three   lines
with  multiple instances of  
double spaces."""
whitespace = re.compile(r"\s*\n\s*")
print(whitespace.split(s))

Si nous voulons corriger les doubles espaces, nous pourrions faire maintenant:

In [None]:
ds = re.compile(r" +")
for line in whitespace.split(s):
    print ds.sub(" ", line)

Une dernière caractéristique que nous devrions mentionner est la syntaxe `[^ ...]`: cela correspond à tout caractère non compris entre les parenthèses. Rappelez-vous le vowel_pattern ci-dessus? En utilisant le symbole `^` nous pouvons rapidement 'inverser' ce modèle, de sorte qu'il corresponde à toutes les consonnes:

In [None]:
s = "these are vowels and consonants"
consonants = re.compile(r"[^aeuoi]")
print(consonants.sub("X", s))

Les expressions régulières sont vraiment utiles, mais elles peuvent se compliquer ainsi que deveni difficile à lire, en raison des nombreuses options différentes qui existent. Il ya toute une gamme de symboles spéciaux que vous pouvez utiliser pour reconnaître à peu près tout dans un texte, de limites de mot (\b chiffres (\d), etc. N'apprenez pas par coeur, mais recherchez une bonne liste de référence en ligne (comme http://www.tutorialspoint.com/python/python_reg_expressions.htm). Comme d'habitude Stackoverflow se révélera très utile lorsque vous recherchez des informations en ligne.

# Exercices Finaux du Chapitre 6

- Ex. 1 - Écrire du code Python qui charge les éléments de données à partir d'un fichier qui a le format ci-dessous. Aussi utiliser des expressions régulières pour analyser les lignes et les champs de données: prendre soin des multiples caractères blancs qui pourraient survenir. Remplir un dictionnaire en utilisant les deux champs de données. Utiliser des expressions régulières autant que possible!

Example data:

color = red

number =7

name= joe

age =   9
...


- Ex. 2 - Dans la communauté scientifique, vous trouverez souvent en ligne de données qui ont été stockées en format «.csv». Chaque élément de données dans ces fichiers est représenté sur une ligne séparée. Écrire une fonction qui prend un nom de fichier csv comme seul paramètre d'entrée et retourner une liste de listes, contenant les champs de données pour chaque article.

Données exemples:

Mike, 28, scientist, Belgium

Lars, 49, research director, Luxemburg

Matt, 52, rockstar, US

Résultats exemples:
[["Mike","28","scientist","Belgium"],["Lars","49","research director","Luxemburg"], ...]

- Ex. 3 - Expand the previous excercise (don't throw away the original version!). Assume that the first line of your csv-file is not a real data-entry, but a so-called header-line that contains the names of the data fields stored in your csv-file. Now, have your function return a list of dictionaries: one for data item, containing for each item the value for each data field which you find.
- Ex. 3 - Développer l'excercice précédent (ne pas jeter la version originale!). Supposons que la première ligne de votre fichier csv est pas une vraie entrée de données, mais un soi-disant ligne header qui contient les noms des champs de données stockées dans votre fichier csv. Maintenant, avec votre fonction retournez une liste de dictionnaires: un pour chaque élément de données, contenant pour chaque élément de la valeur pour chaque champ que vous trouvez.

Données exemples:
name, age, profession, country

Mike, 28, scientist, Belgium

Lars, 49, research director, Luxemburg

Matt, 52, rockstar, US
...
Résultats exemples: 
[{"name": "Mike", "age": "28", "profession":"scientist", "country":"Belgium"}, {"name": "Lars", "age": "49", "profession":"research director", "country":"Luxemburg"]}, ...]

- Ex. 4 - Write a function that reads a random text file, splits the words across whitespace instances and returns a set containing all words that contain at least two characters. Use regular expressions where possible!

- Ex. 5 - Come up with a regular expression that matches time-of-day strings (such as 9:14 am or 11:20 pm).

- Ex. 6 - Write a function that can validate email addresses: a valid email address contains at least one dot, one (and only one!) at-symbol. It should not contain other punctuation symbols and it should end in a common extension like ".com", ".net" or ".org". Again, use regular expressions where possible! 



Ex. 4 - Écrire une fonction qui lit un fichier de texte aléatoire, divise les mots à travers les instances de blancs et renvoie un ensemble contenant tous les mots qui contiennent au moins deux caractères. Utiliser des expressions régulières, si possible!

     Ex. 5 - Venez avec une expression régulière qui correspond à cordes heure de la journée (comme 9h14 ou 23h20).

     Ex. 6 - Rédiger une fonction qui peut valider les adresses de courrier électronique: une adresse de courriel valide contient au moins un point, un (et un seul!) Au-symbole. Il ne devrait pas contenir d'autres symboles de ponctuation et il devrait terminer par une extension commune comme ".com", ".net" ou ".org". Encore une fois, utiliser des expressions régulières, si possible!

----------------------

You've reached the end of Chapter 6! Ignore the code below, it's only here to make the page pretty:

In [None]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read()
    return HTML(styles)
css_styling()