# üìù **Les Regex en Python (Module `re`)**  

üìö **Ressources utiles :**
- [Regex101](https://regex101.com/) : Testez vos regex en ligne
- [Python `re` module](https://docs.python.org/3/library/re.html)
---

## üöÄ **Introduction aux Regex en Python**  

Python fournit le module **`re`** pour manipuler les **expressions r√©guli√®res**.  
Nous allons voir comment utiliser les principales fonctions de ce module :

| Fonction | Description |
|----------|------------|
| `re.search()` | Trouve la premi√®re occurrence d'un motif dans un texte |
| `re.match()` | V√©rifie si un motif est pr√©sent au d√©but du texte |
| `re.findall()` | Trouve toutes les occurrences d'un motif |
| `re.sub()` | Remplace un motif par une autre cha√Æne |
| `re.split()` | D√©coupe un texte selon un motif |
| `re.compile()` | Compile une expression r√©guli√®re pour une utilisation r√©p√©t√©e (optimise les performances) |

‚úÖ **`re.compile()`** est particuli√®rement utile lorsqu'un m√™me motif **doit √™tre utilis√© plusieurs fois** dans le code, car il √©vite de recompiler la regex √† chaque appel. üöÄ

In [5]:
import re

In [31]:
texte = "Emma serrait son ch√¢le contre ses √©paules et se levait. Dans l‚Äôavenue, un jour vert rabattu par le feuillage √©clairait la mousse rase qui craquait doucement sous ses pieds. Le soleil se couchait¬†; le ciel √©tait rouge entre les branches, et les troncs pareils des arbres plant√©s en ligne droite semblaient une colonnade brune se d√©tachant sur un fond d‚Äôor¬†;"

In [None]:
re.search("Emma", texte)

In [None]:
res =

In [None]:
res.group()

In [None]:
res = re.match("", texte)

In [None]:
re.findall('', texte)

In [None]:
re.sub("", '', texte)

In [None]:
re.split("", texte)


### üé≠ Classes de Caract√®res  

| Classe | Signification | Exemple |
|--------|--------------|---------|
| `.`  | N‚Äôimporte quel caract√®re sauf retour √† la ligne | `c.m` trouve `cam`, `com`, `cim` |
| `\d` | Un chiffre (0-9) | `\d\d` trouve `18` |
| `\w` | Un caract√®re alphanum√©rique (lettres, chiffres, underscore `_`) | `\w\w\w` trouve `mot` |
| `\s` | Un espace (inclut tabulation et retour ligne) | `\s\s` trouve `  ` |
| `\b` | Une **limite de mot** (d√©but ou fin) | `\bchat\b` trouve `"chat"` mais pas `"chats"` |

‚úÖ **`\b`** est tr√®s utile pour s‚Äôassurer qu‚Äôun mot est **isol√©** et √©viter les faux positifs ! üöÄ
## ‚ö° Les Quantificateurs 

| Quantificateur | Description | Exemple |
|---------------|------------|---------|
| `+`  | 1 fois ou plus | `a+` trouve `a`, `aaa` |
| `*`  | 0 fois ou plus | `bo*n` trouve `bn`, `bon`, `boon` |
| `?`  | 0 ou 1 fois | `l?a` trouve `a`, `la` |
| `{n}`  | Exactement `n` fois | `o{2}` trouve `oo` |
| `{n,}` | Au moins `n` fois | `o{2,}` trouve `oo`, `ooo` |

#### üìù **Exercice : Trouver tous les mots contenant au moins 3 lettres "e"**  
Extrait :  
> *Elle se leva et traversa lentement la pi√®ce sombre.*

**Solution regex** :  


___

## Exercices
Nous allons utiliser le **texte extrait d‚Äôun roman de Maigret** pour pratiquer les expressions r√©guli√®res (`re` module) en Python.

### **üìå Objectifs**
- Utiliser `re.search()` pour rechercher un √©l√©ment pr√©cis
- Utiliser `re.match()` pour v√©rifier si une phrase commence par un motif
- Utiliser `re.findall()` pour extraire **toutes les dates**
- Utiliser `re.sub()` pour **d√©couper les phrases** du texte


In [40]:
with open('corpus/1934_Simenon-Georges_Maigret.txt', encoding='utf-8') as f:
    texte_simenon = f.read()
    print(texte_simenon[:30])




I  Avant d‚Äôouvrir les yeux,



## Rechercher un Mot Sp√©cifique avec `re.search()`
üìå **T√¢che :** Trouvez si le texte mentionne le nom `"Philippe"`.


## V√©rifier si le texte commence par un chiffre avec `re.match()`
**T√¢che :** V√©rifiez si le texte commence par un chiffre romain (`I`, `II`, `III`...).


## Trouver Toutes les Dates avec `re.findall()`
üìå **T√¢che :** Trouvez toutes les dates de l‚Äôextrait (ann√©es √©crites en **quatre chiffres**).


### üìù **Supprimer la ponctuation d‚Äôun texte**  

### üìù **D√©couper un texte en phrases**  

### üìù **Extraire tous les mots valides d'un texte**  

Note - 

la s√©quence

- prog = re.compile(pattern)
- result = prog.match(string)

est √©quivalent √†

result = re.match(pattern, string)