# Les Expressions Régulières (Regex)

In [7]:
import re

 Les expressions régulières, souvent appelées regex, sont des séquences de caractères qui définissent un **format** de recherche. Elles peuvent être utilisées pour rechercher, remplacer, valider, et extraire des informations à partir de textes.


## Format général

Une expression réguliére en python est exprimée par un motif préfixé par  **r"format"** ou **r"pattern"**

## Syntaxe de base des expressions régulières

Une expression réguliére en python est exprimée par **r"format"** ou **r"pattern"**  
Le **motif** (ou le patern) est une expression que l'on souhaite reconnaître  
Le **motif** va être composé de **caractères littéraux** et de **métacaractères** :    
  
**Les caractères littéraux** :sont des caractères qui correspondent exactement à eux-mêmes
**Les Métacaractères** : sont des caractères ayant une signification spéciale dans les expressions régulières comme **. ^ $ * + ? { } [ ] \ | ( )**

### Pour tester et déboguer les expression régulières avant de les exploiter utilisez [Regex101](https://regex101.com/)  
### Pour vous vous entraîner [regexone](https://regexone.com/)

In [None]:
pattern=r""

### Caractères spéciaux

\   	Signale une séquence spéciale (peut également être utilisé pour échapper des caractères spéciaux)

In [None]:
print("\n")  # saut de ligne
print(r"\n") # affiche les caractères \n

In [2]:
print(r"\n")

\n


### Métacaractères

[ ] ensemble da caractères dont on souhaite trouver la correspondance  
[abc] n'import quel caractère parmi a , b ou c.  
[a-z] n'import quel caractère de a à z
[^a] tous les caractère sauf a
\d pour un nombre.  
\s pour un espace  
\S n'importe quel caractère autre que le blanc   
\W n'import quel caractère non alphanumérique équivalent à [^a-zA-Z0-9]  
\w Catactère alphanumérique équivalent à [a-zA-Z0-9]  
^ pour identifier le début d'une chaîne  
$ pour identifier la fin d'une chaîne  
Pour tous les symboles communs consultez la partie **"Quick Reference"** de **[Regex101](https://regex101.com/)**

### Quantificateurs
Les quantificateurs permettent de définir la quantité de symboles que l'on veut en utilisant.  
. n'importe quel caractère (1 caractère) (Jocker)    
a? 0 ou 1 caractère a   
a* caractère a répété **0 à plusieurs fois**  exemple \d* 0 chiffre ou plusieurs chiffres  
a+ le caractère a répété une (1) à pluisieurs  fois  
\d{3} nombre de 3 chiffres  
\d{3,9} nombre ayant 3,4,5,6,7,8 à 9 chiffres  
\d{3,} nombre ayant au minimum 3 chiffres  
^commencer par le début  
$ fin  
( ) groupe  


## Fonctions RegEx
### Les fonctions principales:


In [None]:
re.findall(format,text) #Renvoie une liste contenant toutes les correspondances au format dans text
re.search #Renvoie un objet Match s'il existe une correspondance quelque part dans la chaîne.
re.sub  #Remplace toutes les occurrences d'un motif dans une chaîne de caractères par une autre chaîne ou par le résultat d'une fonction.
re.match  #Vérifie si le début d'une chaîne de caractères correspond à un motif
re.find  

# Exemples

In [8]:
sent = '''Albert Einstein est né le 14 mars 1879 à 12:00
Ulm (Wurtemberg, Empire Allemand) et 
mort le 18 avril 1955 à Princeton'''

### Trouver tous les chiffres

In [9]:
re.findall(r"\d",sent)  

['1',
 '4',
 '1',
 '8',
 '7',
 '9',
 '1',
 '2',
 '0',
 '0',
 '1',
 '8',
 '1',
 '9',
 '5',
 '5']

### Trouver tous les nombres (plusieurs chiffres)

In [10]:
re.findall(r"\d+",sent) 

['14', '1879', '12', '00', '18', '1955']

### Trouver tous les mots

In [14]:
#re.findall(r"\w+",sent)  # tous les mots (words)
re.findall(r"[a-zA-Z]+",sent)

['Albert',
 'Einstein',
 'est',
 'n',
 'le',
 'mars',
 'Ulm',
 'Wurtemberg',
 'Empire',
 'Allemand',
 'et',
 'mort',
 'le',
 'avril',
 'Princeton']

In [17]:
re.findall(r"\d{4}",sent) #tous les nombres de 4 chiffres

['1879', '1955']

### trouver les mots qui commence par A

In [34]:
re.findall(r"A\w+",sent)

['Albert', 'Allemand']

### Trouver toute les dates de la forme jours mois année

In [35]:
re.findall(r"\d{2} \w+ \d{4}",sent)

['14 mars 1879', '18 avril 1955']

### Trouver l'heure hh:mn

In [38]:
re.findall(r"\d{2}:\d{2}",sent)

['12:00']

###  Trouver un numéro de téléphne

In [16]:
phrase ='Pour toute information appelez (213) 66 77 88 99 à partir de 18:00'

In [18]:
annee=re.findall(r"\(\d{3}\) \d{2} \d{2} \d{2} \d{2}",phrase)

AttributeError: 'list' object has no attribute 'match'

### trouver les dates de la forme jj/mm/aaaa  ou jj-mm-aaa

In [54]:
sent = 'Albert Einstein est né le 14 mars 1879 (14/3/1879) à 12:00 Ulm (Wurtemberg, Empire Allemand) et mort le 18 avril 1955 (18-04-1955)à Princeton'
re.findall(r"\d{2}[/-]\d{1,2}[/-]\d{4}",sent)


['14/3/1879', '18-04-1955']

### Extraire les liens coorectes

In [64]:

liens="""Le site https://openclassrooms.com est très interessant, je conseille aussi
    de visiter le site https://fun-mooc.fr"""

In [108]:
re.findall(r"http[s]://[a-z0-9-_./]+",liens)

['https://openclassrooms.com', 'https://fun-mooc.fr']

### Vérifier si un email est valid

In [107]:

email = 'boss-TAL@gmail.com'
pattern = r"[a-zA-Z-_.]+@[a-z]{2,}.[a-z]{2,}$"
if re.match(pattern,email):
    print('Email valide')
else:
    print('email invalide')



email invalide


# TP 2 : Nettoyage du Texte avec les Expressions Régulières

## Exercice 1 : Notions de base des expressions régulières

## re.findall()
la méthode **.findall()**  renvoie une liste des éléments en correspondance au pattern.

### Extraire les hashtags du texte : "C'est une #journée magnifique pour #apprendre les #expressionsRégulières !"

In [80]:
texte1="C'est une #journée magnifique pour #apprendre les #expressionsRégulières !"

In [81]:
re.findall(r"#\w+",texte1)

['#journée', '#apprendre', '#expressionsRégulières']

### Trouver les mots qui commencent par une voyelle dans le texte : "Aujourd'hui est une excellente occasion d'apprendre"

In [9]:
texte3="Aujourd'hui est une excellente occasion d'apprendre"

In [13]:
re.findall(r"[aeiouAEIOU]\w+",texte3)

['Aujourd', 'ui', 'est', 'une', 'excellente', 'occasion', 'apprendre']

In [12]:
mots_voyelles = re.findall(r'\b[aeiouAEIOU]\w*\b', texte3) 
print(mots_voyelles)

['Aujourd', 'est', 'une', 'excellente', 'occasion', 'apprendre']


## re.search()

**re.search** permet de rechercher un motif au sein d’une chaîne de caractères avec une syntaxe de la forme search(motif, chaine). Si motif est retrouvé dans chaine, Python renvoie un objet du type Match.
* La totalité de la correspondance est donnée par .group(0),
* le premier élément entre parenthèses est donné par.group(1)  
* et le second par .group(2).
Les méthodes **.start()** et **.end()** donnent respectivement la position de début et de fin de la zone qui correspond au pattern.


Extraire l'extension de fichier "docx" à partir du texte : "rapport_final.docx"

In [21]:
file_name="rapport_final.docx"

In [22]:
extension = re.search(r'\.(\w+)$', file_name)

In [23]:
print(extension.group())

.docxr


In [113]:
#récupérer le nom du fichier et l'extension
file ="rapport_final.docx"
match = re.search(r'(^[a-zA-Z][a-zA-Z0-9_-]+)\.(\w+)$', file)
if match:
    file_name= match.group(1)
    extension = match.group(2)
    print('nom:',file_name,'extension:', extension)
else:
    print('none')

nom: rapport_final extension: docx


### re.match()

**match**: Vérifie si le début d'une chaîne de caractères correspond à un motif. Renvoie un objet Match si le début de la chaîne correspond au motif, et None sinon.

In [25]:
#Vérifier si le nom du fichier commence par une lettre
file ="5rapport_final.docx"
pattern=r"^[a-zA-Z_]"
if re.match(pattern,file):
     print('valid')
else:
    print('non valide')

non valide


## La méthode .sub()

**re.sub()**: Remplace toutes les occurrences d'un motif dans une chaîne de caractères par une autre chaîne ou par le résultat d'une fonction.

### Remplacer les espaces par des tirets dans une URL

In [125]:
url = "Ceci est un exemple d URL"
# je cherche d'abord les espace puis les remplcer par des -
pattern=r"\s+"
url_modifiee = re.sub(r'\s+', '-', url)
print(url_modifiee)

Ceci-est-un-exemple-d-URL


# Exercice 2

In [21]:
texte="Pour plus d'informations, visitez <a href=\"http://example.com\">notre site</a>. Pour nous contacter, appelez le +1-123-456-7890 ou le 0987-654-321."

### Trouver toutes les balises HTML.

In [24]:
balises_html = re.findall(r'<.*?>', texte)
print(balises_html)

['<a href="http://example.com">', '</a>']


In [26]:
re.findall(r"<[a-z\/]+.+?>", texte)

['<a href="http://example.com">', '</a>']

### Extraire tous les numéros de téléphone

In [29]:
numeros_telephone = re.findall(r'\+?\d[-\d\s]+\d', texte)
print(numeros_telephone)

['+1-123-456-7890', '0987-654-321']


In [None]:
# re.findall(r"\+?\d{1,4}[-\.\s]?\(?\d+\)?[-\.\s]?\d+[-\.\s]?\d+", texte)

### Remplacer les url par le mot URL et les numéros de téléphone par le mot TEL.

In [30]:
new_texte = re.sub(r"https?://\S+|www\.\S+", "URL", texte)
texte_remplace = re.sub(r"\+?\d{1,4}[-\.\s]?\(?\d+\)?[-\.\s]?\d+[-\.\s]?\d+", "TEL", new_texte)

# Exercice 3

In [None]:
text3 = ("Découvrez nos <b>offres spéciales</b> du moment! Plus de 1000 produits en promotion. Contact: <a href=\"mailto:service@vente.com\">service@vente.com</a>. Suivez-nous sur <a href=\"https://www.facebook.com\">Facebook</a>! Conditions générales de vente et mentions légales disponibles en bas de page.")

In [None]:
# 1. Trouver toutes les balises dans le texte
balises = re.findall(r'<.*?>', text3)
print(balises)  # ['<b>', '</b>', '<a href="mailto:service@vente.com">', '</a>', '<a href="https://www.facebook.com">', '</a>']

# 2. Trouver les adresses mails
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b', text3)
print(emails)  # ['service@vente.com', 'service@vente.com']

# 3. Nettoyer le texte de toutes ses balises
texte_sans_balises = re.sub(r"<.*?>", "", text3)

print(texte_sans_balises)

# 4.Diviser le texte en mots
liste_mots = re.findall(r"\b\w+\b", texte_sans_balises)
print(liste_mots)

# méthode 2: Diviser le texte nettoyé en utilisant l'espace comme séparateur
liste_mots = texte_sans_balises.split()