# Les expressions régulières

## Introduction

Ce focus va vous permettre de toucher du doigt la notion d'expressions régulières, cependant il serait trop long de tout voir en détail. <br>

Pour ceux qui veulent en savoir plus : [Learn Regex The Hard Way](http://regex.learncodethehardway.org/book/)

Les expressions régulières sont des patterns que l'on crée afin de soit : <br>
- selectionner l'information <br>
- diviser l'information <br>
- effectuer une validation <br>

Afin de tester et de créer son pattern, il est fortement conseiller d'utiliser un testeur d'expressions régulières tel que [RegexR](http://www.regexr.com/)

## Regex avec python et exemple

Afin de pouvoir utiliser les expressions regulières il faut importer le module ```re``` 

In [None]:
import pandas as pd
import re

Vous avez un DataFrame composé de noms et d'adresses emails, vous souhaiteriez n'avoir que les adresse emails.

In [None]:
df = pd.DataFrame(['Martin Daniel',
                   'martin@gmail.com', 
                   'Vincent Simon', 
                   'vincentsimon@laposte.net', 
                   'Bob', 
                   'bobby@zimmerman.com'],columns=['noms&mails'])
df

In [None]:
# Ici nous allons définir le pattern de l'expression régulière que nous allons utiliser.
pattern = r'[a-z]+@[a-z]+\.[a-z]{2,4}'

In [None]:
# re.IGNORECASE permet d'ignorer la casse. La fonction .match() permet de renvoyer un booléen True or False.
resultat = df['noms&mails'].str.match(pattern, re.IGNORECASE)
print(resultat)

## Construire une expression régulière

Construisons un DataFrame composé de differents types de données et regardons les différents résultats :

In [None]:
df2 = pd.DataFrame(['Martin Daniel',
                   'martin@gmail.com', 
                   '1234', 
                   '0637687898', 
                   'Bob'],columns=['données'])
df2

### 1er pattern : (\w)

Notre pattern1 séléctionne tous les caractères sauf les caractères spéciaux.

In [None]:
pattern1 = r'\w'

resultat1 = df2['données'].str.findall(pattern1, re.IGNORECASE)
print(resultat1)

### 2eme pattern : \d

Notre pattern2 n'a pris en compte que les données numériques.

In [None]:
pattern2 = r'\d'

resultat2 = df2['données'].str.findall(pattern2, re.IGNORECASE)
print(resultat2)

### 3eme pattern : \D

Notre pattern3 a pris compte toutes les données **n'étant pas** numériques

In [None]:
pattern3 = r'\D'

resultat3 = df2['données'].str.findall(pattern3, re.IGNORECASE)
print(resultat3)

### 4eme pattern : 06\d{8}

Notre pattern4 a pris en compte le seul numéro de téléphone portable.

In [None]:
pattern4 = r'06\d{8}'

resultat4 = df2['données'].str.findall(pattern4, re.IGNORECASE)
print(resultat4)

## Les fonctions

Jusqu'ici nous avons utiliser la fonction .findall() qui renvoie la chaine correspondante. <br>
Il y a plusieurs autres fonctions très utiles :

In [None]:
# Reprenons notre DataFrame initial en ajoutant une deuxième adresse à Bobby :
df3 = pd.DataFrame(['Martin Daniel',
                   'martin@gmail.com', 
                   'Vincent Simon', 
                   'vincentsimon@laposte.net', 
                   'Bob', 
                   'bobby@zimmerman.com, bobby@zimm.fr'],
                   columns=['noms&mails'])
df3

In [None]:
pattern = r'[a-z]+@[a-z]+\.[a-z]{2,4}'

### .count()

La méthode .count() compte le nombre d'occurences du pattern.

In [None]:
resultatcount = df3['noms&mails'].str.count(pattern, re.IGNORECASE)
print(resultatcount)

La méthode .findall() permet d'afficher les résultats liés au pattern. <br>

In [None]:
resultatfindall = df3['noms&mails'].str.findall(pattern, re.IGNORECASE)
print(resultatfindall)

In [None]:
# Pour afficher ces résultat de façon plus propre, 
# nous pouvons utliser la methode .str[0] pour avoir la première colonne des résultats
resultatfindall.str[0]

In [None]:
# Pour avoir la deuxième colonne nous jouons sur l'index
resultatfindall.str[1]