<h1 style="color: navy">Les expressions regulières</h1>
 
  ```                           #^0[1-68]([-. ]?[0-9]{2}){4}$# ```
 

On désigne par "*expressions régulières*" ( ou encore par l'abbréviation **regex**: contraction de l'anglais *regular expressions*), une syntaxe permettant de représenter des modèles ou motif de chaine de caractère . </br>

Voici un exemple de **regex**: </br>
                                #^0[1-68]([-. ]?[0-9]{2}){4}$#  </br>  
                                
Cette regex permet d'identifier dans un texte, tout numéro de téléphone ( à 10 chiffres), et ce quelquesoit le format de saisie utilisé. </br>
Très utiles, les *regex* sont présentes dans de nombreux langages: PHP; MySQL;Javascript; et également avec le langage Python (sous la forme du module **re**) </br>

On les trouve aussi dans les éditeurs de texte (EDI) tels que: notepad++; Geany; ...:
![image_1](Regex1.png)
ainsi qu'avec les programmes: egrep ou sed en ligne de commande dans l'environnement Linux.

Les expressions régulières sont utiles pour "fouiller" dans un fichier, à la recherche d'un texte. On parle alors de **parsing** (pour analyse syntaxique).

Une expression régulière est une suite de caractères qui a pour but de décrire un fragment de texte. 
Cette suite de caractères est appelée *motif* (ou *pattern* en anglais). Ce motif est constitué de deux types de caractères: 
- Les caractères dits normaux.
- Les métacaractères ayant une signification particulière, par exemple le caractère ^ signifie début de ligne et non pas le caractère « chapeau » au sens littéral.

#### Quelques éléments de syntaxe des métacaractères :

**Tester les regex suivantes dans un éditeur de texte:**

- La *regex* `^ATG` dans les chaînes de caractère `ATGCGT` ou `CCATGTT`.  Commentaire ?   
- La *regex* `ATG$` dans les chaînes de caractères `TGCATG` ou `CCATGTT`. Commentaire ?   
- La *regex* `A.G` dans `ATG`, `AtG`, `A4G`, `A-G` ou dans `A G`. Commentaire ?   
- La *regex* `T[ABC]G` dans `TAG`, `TBG` `TCG` ou `TG`.  Commentaire ?  
- La *regex* `C[A-Z]T` dans `CAT`, `CBT`, `CCT`.  Commentaire ?  
- La *regex* `CG[^AB]T`dans `CG9T`, `CGCT` ou `CGAT` et `CGBT`. Commentaire ?  
- La *regex* `\+` désigne le caractère `+` littéral (caractère d'échappement '\'  ==> la *regex* `A\.G` est retrouvée dans `A.G` mais pas dans `AG`. A vérifier. Conclusion ?  
- La *regex* `A(CG)*T` dans `AT`, `ACGT`, `ACGCGT`. Commentaire ?    
- La *regex* `A(CG)+T` dans `ACGT`, `ACGCGT` et `AT`.  Commentaire ? 
- La *regex* `A(CG)?T` dans `AT` ou `ACGT`.     
- La *regex* `A(CG){2}T` dans `ACGCGT` ou `ACGT`, `ACGCGCGT` ou encore `ACGCG`.  
- La *regex* `A(C){2,4}T` dans `ACCT`, `ACCCT` et `ACCCCT` ou dans `ACT`, `ACCCCCT` ou encore `ACCC`.    
- La *regex* `A(C){2,}T` dans `ACCT`, `ACCCT` et `ACCCCT` et `ACT` ou `ACCC`.   
- La *regex* `A(C){,2}T` dans `AT`, `ACT`, `ACCT` ou `ACCCT` et `ACC`.   
- La *regex* `A(CG|TT)C` dans `ACGC` ou `ATTC`.     


#### Quelques ressources en ligne:

 * [Un tutoriel](https://regexone.com/) 
 * [Pour visualiser les regex](https://regexr.com/) 
 * [Une documentation exhaustive](https://www.regular-expressions.info) 
 * [Interface](https://pythex.org/)


<h2 class='fa fa-cog' style="color: SeaGreen"> Le module: <span style="color: red">re</span> </h2> </br>  

Ce module permet d'utiliser les expressions régulières dans Python. </br>  

Les fonctions associées au module **re**:

- search() ==> teste l'existence d'une regex dans une chaine de caractère => True
- match() et fullmatch() ==> vérifie l'existence de la regex, au début pour la première, en mode "exacte" pour la seconde.
- compile() ==> pour compiler une regex
- groupe() ==> pour récupérer la correspondance du motif (qui "match" avec la regex)!
- start() et end() ==> donnent la position de début et de la fin de la zone qui correspond à la regex.
- findall() ==> pour récupérer chaque zone qui "match"
- sub() ==> pour remplacer la zone qui correspond à la regex, par une autre chaine de caractère.

### search()
Pour rechercher un motif (la regex) dans une chaine. Si le motif est trouvé, un objet du type 're.Match' est renvoyé:  

In [None]:
import re
re.search("aiguille", "Autant chercher une aiguille dans une botte de foin !")

In [None]:
import re
re.search("aiguille", "Autant chercher une aiguille dans une botte de foin !")
if re.Match:
    print("Trouvé !")

### match()
Recherche le motif (la regex) au début de la chaine.

In [None]:
import re
re.match("aiguille", "Autant chercher une aiguille dans une botte de foin !")
re.match("Autant", "Autant chercher une aiguille dans une botte de foin !")

### fullmatch()
Recherche la correspondance **exacte** du motif (la regex) avec la chaine.

In [None]:
import re
'''Effectuer les tests ci dessous un par un:'''
#re.fullmatch("Ars longa, vita brevis","Ars longa, vita brevis")
#re.fullmatch("aiguille", "Autant chercher une aiguille dans une botte de foin !")
#re.fullmatch("Le pouvoir d'une regex ad hoc!","Le pouvoir d'une regex ad hoc!")

### compile()
Pour créer un objet 're.Pattern' qui représente la regex: 

In [None]:
regex = re.compile('saucisson')
regex

In [None]:
type (regex)

In [None]:
regex.search("Le saucisson c'est bon, non ?")

### groupe() start() et end()
Pour créer un objet 're.Pattern' qui représente la regex:

In [None]:
#un motif qui comprend un ou plusieurs chiffres, suivi d'un point,et de un ou plusieurs chiffres:
regex = re.compile("([0-9]+),([0-9]+)") 
resultat = regex.search("La constante de Boltzman est: 1,38064852 × 10^-23 m2.kg.s-2.K-1")
resultat.group(0) # => La totalité de la correspondance

In [None]:
resultat.group(1) # => La correspondance de la première parenthèse

In [None]:
resultat.group(2) # => et la correspondance avec la deuxième parenthèse

In [None]:
resultat.start()

In [None]:
resultat.end()

### search() et findall()
La méthode .search() est un peu fainéante, car elle ne renvoi que la première correspondance de la regex:

In [None]:
regex = re.compile("[0-9]+,[0-9]+") # Attention: les groupes de () ont disparus
resultat = regex.search("La constante d'Avogadro: 6,022 x 10^23 et le nombre pi: 3,14159265359")
resultat.group(0)                    

In [None]:
'''Quand il y a plusieurs correspondances possibles, la méthode .findall() renvoi la liste des correspondances:'''
resultat = regex.findall("La constante d'Avogadro: 6,022 x 10^23 et le nombre pi: 3,14159265359")
resultat

In [None]:
regex = re.compile("([0-9]+),([0-9]+)") # Réapparition des () => groupes !
resultat = regex.findall("La constante d'Avogadro: 6,022 x 10^23 et le nombre pi: 3,14159265359")
resultat # A comparer avec ci-dessus: liste de tupples

### sub()
Une méthode pour remplacer les occurences de la regex:

In [None]:
regex = re.compile("[0-9]+,[0-9]+")
affirmation = "La constante d'Avogadro = 6,022 x 10^23 et le nombre pi = 3,14159265359"
regex.sub('scoubidoubidou', affirmation  )

In [None]:
'''On peut aussi substituer des groupes de la regex:'''
regex = re.compile("([0-9]+),([0-9]+)") # Avec les () => groupes !
affirmation = "La constante d'Avogadro = 6,022 x 10^23 et le nombre pi = 3,14159265359"
regex.sub('environ \\1', affirmation ) # syntaxe avec 2 backslash => le premier pour Python, le 2eme pour la regex

In [None]:
'''Un autre exemple:'''
regex.sub('environ \\1 (en fait: \\1,\\2)', affirmation )

### Divers: à tester

In [None]:
#re.search('(pan)\\1', 'Bambi et panpan')
#re.search('(pan)\\1', 'Le pistolet a fait pan')

<h2 class='fa fa-cog' style="color: SeaGreen"> Exercice 1: L'agent nettoyeur!</span> </h2> </br>

Vous disposez du texte de Jean De La Fontaine : La cigale et la fourmi => voir fichier : LaCigale.txt 

Dans ce fichier, des espaces ont été saisis en trop. A vous de les corriger et d’enregistrer vos corrections dans un nouveau fichier (LaCigale_Correct.txt).

* [La Cigale et la fourmi](LaCigale.txt)

<h2 class='fa fa-cog' style="color: SeaGreen"> Exercice 2: Visualisateur HTML</span> </h2> </br>

On souhaite cette fois prendre un fichier .html, et le lire en ignorant les balises html (rappel : une balise html est constituée de : < nomBalise attributs >). Puis afficher le contenu de ce fichier à l’écran.

* [Le fichier html proposé](Skeleton.html)

Rmq: Vous êtes libre de prendre un autre fichier .html