# 📝 **Les Regex en Python (Module `re`)**  

📚 **Ressources utiles :**
- [Regex101](https://regex101.com/) : Testez vos regex en ligne
- [Python `re` module](https://docs.python.org/3/library/re.html)
---

## 🚀 **Introduction aux Regex en Python**  

Python fournit le module **`re`** pour manipuler les **expressions régulières**.  
Nous allons voir comment utiliser les principales fonctions de ce module :

| Fonction | Description |
|----------|------------|
| `re.search()` | Trouve la première occurrence d'un motif dans un texte |
| `re.match()` | Vérifie si un motif est présent au début du texte |
| `re.findall()` | Trouve toutes les occurrences d'un motif |
| `re.sub()` | Remplace un motif par une autre chaîne |
| `re.split()` | Découpe un texte selon un motif |
| `re.compile()` | Compile une expression régulière pour une utilisation répétée (optimise les performances) |

✅ **`re.compile()`** est particulièrement utile lorsqu'un même motif **doit être utilisé plusieurs fois** dans le code, car il évite de recompiler la regex à chaque appel. 🚀

In [5]:
import re

In [31]:
texte = "Emma serrait son châle contre ses épaules et se levait. Dans l’avenue, un jour vert rabattu par le feuillage éclairait la mousse rase qui craquait doucement sous ses pieds. Le soleil se couchait ; le ciel était rouge entre les branches, et les troncs pareils des arbres plantés en ligne droite semblaient une colonnade brune se détachant sur un fond d’or ;"

In [None]:
re.search("Emma", texte)

In [None]:
res =

In [None]:
res.group()

In [None]:
res = re.match("", texte)

In [None]:
re.findall('', texte)

In [None]:
re.sub("", '', texte)

In [None]:
re.split("", texte)


### 🎭 Classes de Caractères  

| Classe | Signification | Exemple |
|--------|--------------|---------|
| `.`  | N’importe quel caractère sauf retour à la ligne | `c.m` trouve `cam`, `com`, `cim` |
| `\d` | Un chiffre (0-9) | `\d\d` trouve `18` |
| `\w` | Un caractère alphanumérique (lettres, chiffres, underscore `_`) | `\w\w\w` trouve `mot` |
| `\s` | Un espace (inclut tabulation et retour ligne) | `\s\s` trouve `  ` |
| `\b` | Une **limite de mot** (début ou fin) | `\bchat\b` trouve `"chat"` mais pas `"chats"` |

✅ **`\b`** est très utile pour s’assurer qu’un mot est **isolé** et éviter les faux positifs ! 🚀
## ⚡ Les Quantificateurs 

| Quantificateur | Description | Exemple |
|---------------|------------|---------|
| `+`  | 1 fois ou plus | `a+` trouve `a`, `aaa` |
| `*`  | 0 fois ou plus | `bo*n` trouve `bn`, `bon`, `boon` |
| `?`  | 0 ou 1 fois | `l?a` trouve `a`, `la` |
| `{n}`  | Exactement `n` fois | `o{2}` trouve `oo` |
| `{n,}` | Au moins `n` fois | `o{2,}` trouve `oo`, `ooo` |

#### 📝 **Exercice : Trouver tous les mots contenant au moins 3 lettres "e"**  
Extrait :  
> *Elle se leva et traversa lentement la pièce sombre.*

**Solution regex** :  


___

## Exercices
Nous allons utiliser le **texte extrait d’un roman de Maigret** pour pratiquer les expressions régulières (`re` module) en Python.

### **📌 Objectifs**
- Utiliser `re.search()` pour rechercher un élément précis
- Utiliser `re.match()` pour vérifier si une phrase commence par un motif
- Utiliser `re.findall()` pour extraire **toutes les dates**
- Utiliser `re.sub()` pour **découper les phrases** du texte


In [40]:
with open('corpus/1934_Simenon-Georges_Maigret.txt', encoding='utf-8') as f:
    texte_simenon = f.read()
    print(texte_simenon[:30])




I  Avant d’ouvrir les yeux,



## Rechercher un Mot Spécifique avec `re.search()`
📌 **Tâche :** Trouvez si le texte mentionne le nom `"Philippe"`.


## Vérifier si le texte commence par un chiffre avec `re.match()`
**Tâche :** Vérifiez si le texte commence par un chiffre romain (`I`, `II`, `III`...).


## Trouver Toutes les Dates avec `re.findall()`
📌 **Tâche :** Trouvez toutes les dates de l’extrait (années écrites en **quatre chiffres**).


### 📝 **Supprimer la ponctuation d’un texte**  

### 📝 **Découper un texte en phrases**  

### 📝 **Extraire tous les mots valides d'un texte**  

Note - 

la séquence

- prog = re.compile(pattern)
- result = prog.match(string)

est équivalent à

result = re.match(pattern, string)