# Utilisation du Module `re` en Python : Expressions Régulières (Regex)

Dans cette section, nous allons explorer le module **`re`** de Python, qui permet de travailler avec les **expressions régulières** (regex). Nous couvrirons la recherche, la correspondance, le remplacement et d'autres opérations sur les chaînes de caractères.

## Qu’est-ce qu’une Expression Régulière ?
Une **regex** est une séquence de caractères définissant un motif de recherche. Elle est utilisée pour extraire, valider ou manipuler du texte de manière puissante et flexible. Le module `re` est l’outil standard de Python pour cela.

Commençons par les bases !

## Fonctions de Base du Module `re`

### Importation
```python
import re
```

### Fonctions Principales

- `re.search(pattern, string)` : Cherche la première occurrence du motif.
- `re.match(pattern, string)` : Vérifie si le motif correspond au début de la chaîne.
- `re.findall(pattern, string)` : Retourne toutes les occurrences du motif.
- `re.sub(pattern, repl, string)` : Remplace les occurrences du motif.

### Exemple Simple

Cherchons un mot dans une phrase.

In [1]:
import re

# Chaîne de test
texte = "Bonjour, je suis Alice et j’ai 25 ans."

# Recherche d’un mot
resultat = re.search(r"Alice", texte)
if resultat:
    print("Trouvé :", resultat.group())  
    print("Position :", resultat.span())
else:
    print("Non trouvé")

Trouvé : Alice
Position : (17, 22)



- **`re.search`** : Cherche "Alice" dans `texte` et retourne un objet `Match`.
- **`group()`** : Extrait la correspondance trouvée.
- **`span()`** : Donne les indices de début et de fin.
- **`r"..."`** : Chaîne brute (*raw string*) pour éviter l’échappement des caractères spéciaux.

Passons aux motifs plus complexes !

## Syntaxe des Motifs Regex

### Caractères Spéciaux Courants
- **`.`** : Tout caractère sauf newline.
- **`^`** : Début de la chaîne.
- **`$`** : Fin de la chaîne.
- **`*`** : 0 ou plus.
- **`+`** : 1 ou plus.
- **`?`** : 0 ou 1.
- **`[]`** : Ensemble de caractères (ex. : `[a-z]`).
- **`|`** : OU logique.
- **`\d`** : Chiffre (équivalent à `[0-9]`).
- **`\w`** : Caractère alphanumérique (`[a-zA-Z0-9_]`).
- **`\s`** : Espace blanc.

### Exemple
Extrayons des nombres et des mots.

In [2]:
import re

texte = "J’ai 25 ans et mon numéro est 123-456-7890."


In [3]:

# Trouver tous les nombres
nombres = re.findall(r"\d+", texte)
print("Nombres trouvés :", nombres)


Nombres trouvés : ['25', '123', '456', '7890']


In [4]:

# Trouver un motif de téléphone
telephone = re.search(r"\d{3}-\d{3}-\d{4}", texte)
if telephone:
    print("Numéro de téléphone :", telephone.group())  


Numéro de téléphone : 123-456-7890


In [5]:

# Vérifier le début de la chaîne
debut = re.match(r"J’ai", texte)
if debut:
    print("Début correspond :", debut.group())  

Début correspond : J’ai


## Groupes et Capture

Les **parenthèses `()`** dans un motif créent des groupes capturés, accessibles via `group()`.

### Exemple
Capturons des parties d’une adresse email.

In [6]:
import re

email = "contact.alice@exemple.com"


In [7]:

# Motif avec groupes
motif = r"(\w+)\.(\w+)@(\w+\.\w+)"
resultat = re.search(motif, email)
if resultat:
    print("Adresse complète :", resultat.group(0)) 
    print("Prénom :", resultat.group(1))           
    print("Nom :", resultat.group(2))              
    print("Domaine :", resultat.group(3))          

Adresse complète : contact.alice@exemple.com
Prénom : contact
Nom : alice
Domaine : exemple.com


## Remplacement avec `re.sub`

La fonction **`re.sub`** remplace les correspondances par une nouvelle valeur.

### Syntaxe
```py
re.sub(pattern, remplacement, string)
```

### Exemple

Masquons des chiffres dans un texte.

In [8]:
import re

texte = "Mon numéro est 123-456-7890 et mon code 9876."


In [9]:

# Remplacer les nombres par XXXX
nouveau_texte = re.sub(r"\d+", "XXXX", texte)
print("Texte modifié :", nouveau_texte)


Texte modifié : Mon numéro est XXXX-XXXX-XXXX et mon code XXXX.


In [10]:

# Remplacement avec groupes
nouveau_texte = re.sub(r"(\d{3})-(\d{3})-(\d{4})", r"\1-XXX-XXXX", texte)
print("Numéro masqué :", nouveau_texte)

Numéro masqué : Mon numéro est 123-XXX-XXXX et mon code 9876.


## Gestion des Exceptions et Flags

### Exceptions
Si aucun motif ne correspond, `re.search` retourne `None`.

### Flags
- **`re.IGNORECASE`** : Ignore la casse.
- **`re.MULTILINE`** : Traite chaque ligne séparément avec `^` et `$`.

### Exemple
Utilisons des flags pour une recherche insensible à la casse.

In [11]:
import re

texte = "Bonjour ALICE et bob."


In [12]:

# Recherche insensible à la casse
resultat = re.findall(r"alice", texte, re.IGNORECASE)
print("Occurrences (ignorecase) :", resultat)  


Occurrences (ignorecase) : ['ALICE']


In [13]:

# Multiligne
texte_multi = "Première ligne\nalice\nDEUXIÈME LIGNE"
resultat = re.findall(r"^alice$", texte_multi, re.MULTILINE)
print("Lignes correspondantes :", resultat)  


Lignes correspondantes : ['alice']


In [14]:

# Gestion si rien n’est trouvé
resultat = re.search(r"xyz", texte)
if resultat:
    print("Trouvé :", resultat.group())
else:
    print("Aucune correspondance") 

Aucune correspondance


## Exemple Avancé : Analyse de Logs

Utilisons `re` pour extraire des informations d’un fichier de logs simulé.

### Exemple
Analysons des entrées de log.

In [15]:
import re

# Simulation d’un fichier de logs
logs = """
2023-10-15 14:30:45 INFO Utilisateur alice connecté depuis 192.168.1.10
2023-10-15 14:32:10 ERROR Échec connexion pour bob à 192.168.1.15
2023-10-15 14:35:20 INFO Utilisateur clara déconnecté
"""


In [16]:

# Motif pour extraire date, niveau, message, et IP (si présent)
motif = r"(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) (\w+) (.+?)(?: depuis (\d+\.\d+\.\d+\.\d+))?$"
resultats = re.findall(motif, logs, re.MULTILINE)

for date, niveau, message, ip in resultats:
    print(f"Date : {date}, Niveau : {niveau}, Message : {message}, IP : {ip or 'N/A'}")

Date : 2023-10-15 14:30:45, Niveau : INFO, Message : Utilisateur alice connecté, IP : 192.168.1.10
Date : 2023-10-15 14:32:10, Niveau : ERROR, Message : Échec connexion pour bob à 192.168.1.15, IP : N/A
Date : 2023-10-15 14:35:20, Niveau : INFO, Message : Utilisateur clara déconnecté, IP : N/A


## Conclusion

Cette section vous a permis de maîtriser :
- Les **fonctions de base** de `re` (`search`, `match`, `findall`, `sub`) pour manipuler les chaînes.
- La **syntaxe des motifs regex** avec caractères spéciaux, groupes et flags.
- Des cas pratiques comme l’**extraction** et le **remplacement** dans des textes structurés.

Les expressions régulières avec `re` sont un outil puissant pour le traitement de texte. Expérimentez avec ces exemples pour analyser vos propres données !