## Expressions régulières (Regex)

Les **regex** sont des outils puissants pour manipuler et filtrer des chaînes de caractères, utiles pour :

- Nettoyer des colones (emails, téléphones ect.)
- Valider des formats
- Extraire des informations spécifiques dans du texte ou des logs.

In [None]:
# Import du module regex
import re

### Les bases des regex

- `.`: n'importe quel caractère
- `^`: debut de chaîne
- `$`: fin de la chaîne
- `*`: 0 ou plusieurs fois
- `+`: 1 ou plusieurs fois
- `?`: 0 ou 1 fois
- `[]`: ensemble de caractères possibles
- `\`: caractère d'échappement
- `|`: OU logique
- `&`: ET logique

In [2]:
# Exemple : Vérifie si la chaîne commence par une lettre et termine par un chiffre
pattern = r"^[a-zA-Z].*\d$"

### Groupes et quantificateurs

- `(abc)`: groupe
- `{n}`: exactement n fois
- `{n,}`: au moins n fois
- `{n,m}`: entre n et m fois

In [3]:
# exemple : extraire l'année d'une chaîne :
pattern = r"(\d{4})"

### Méthodes utiles de `re`

- `re.match()`: correspondance depuis le début
- `re.search()`: première correspondance
- `re.findall()`: toutes les correspondances
- `re.sub()`: remplacement

### 1. Recherche simple avec `search`

`re.search(pattern, string)` permet de vérifier si un pattern est présent dans la chaîne de caractères.

Exemple :

In [77]:
text = "Le rapport est daté de 2025 2024"
pattern = r"(\b\d{4}\b)"
resultat = re.search(pattern, text)
print(resultat)
print(resultat.group())
print(resultat.span())

<re.Match object; span=(23, 27), match='2025'>
2025
(23, 27)


#### Exercice 01 :

Vérifie si la chaîne : `test0xB0testtest`contient le motif `0xB0`

In [78]:
# Correction :
text = "test0xB0testtest"
pattern = r"0[xX]B0"
result = bool(re.search(pattern, text))

if result :
    print("Motif trouvé !")
else:
    print("Motif non trouvé !")

Motif trouvé !


### 2. Filtrer une liste avec `re.search`

On peu appliquer une regex à chaque élément d'une liste pour filtrer selon un critère.

exemple :

In [43]:
fruits = ["banane", "pomme", "ananas", "abricot", "fraise"]

# pattern : Commence par "a" suivi d'au moins deux lettres
pattern = r"^[aA][a-z]{2,}"

result = [fruit for fruit in fruits if re.search(pattern, fruit)]

print(result)

['ananas', 'abricot']


### Exercice 2

filtrer la liste avec les mots ne contenant **pas** la lettre `e`.

In [44]:
# Correction
fruits = ["banane", "pomme", "ananas", "abricot", "fraise"]
pattern = r"[eE]"

result = [fruit for fruit in fruits if not re.search(pattern, fruit)]
print(result)

['ananas', 'abricot']


### 3. Découper des lignes et ignorer la casse

- `re.split()`: permet de découper une chaîne
- `re.IGNORECASE`: rend les recherches insensible à la casse 

In [50]:
# ignorecase :
text = "Python, PYTHON, python"
pattern = r"python"

match = re.findall(pattern, text, re.IGNORECASE)
print(match)

# split
text = "banane pomme ananas abricot fraise"
result = re.split(r" ", text)
print(result)

['Python', 'PYTHON', 'python']
['banane', 'pomme', 'ananas', 'abricot', 'fraise']


### Exercice 03

- Supprime les lignes contenant le mot `start` (majuscule ou minuscule)

```python
text= """test1
test2start
test3
test4StaRt"""
```

In [54]:
# Correction
text= """test1
test2start
test3
test4StaRt"""

liste = re.split(r"\n", text)
print(liste)
pattern = r"start"
result = [ligne for ligne in liste if not re.search(pattern, ligne, re.IGNORECASE)]
print(result)

['test1', 'test2start', 'test3', 'test4StaRt']
['test1', 'test3']


### 4. Remplacement de pattern avec `re.sub()`

- `re.sub(pattern, remplacement, text)` remplace toutes les occurences d'un pattern
- Possible de limiter avec : `count=1`

In [57]:
text = "Le prix est de 50 euros. Le prix est de 500 euros. Le prix est de 5 euros."
result = re.sub(r"euros", "€", text)
result = re.sub(r"\d+", "**", result)

print(result)

Le prix est de ** €. Le prix est de ** €. Le prix est de ** €.


### Exercice 04 :

```python
text = "123 456 789 564"
```
1. Remplacer les `5` par `cinq`

```python
text2 = "Note : ce paragraphe contient des notes"
```

2. Remplacer tous les `note` par `X` (insensible à la casse)


In [62]:
text = "123 456 789 564"
text2 = "Note : ce paragraphe contient des notes"

# remplacer les 5 par cinq
result = re.sub(r"5", "cinq", text)
print(result)

# remplacer note par X
result2 = re.sub(r"note", "X", text2, flags=re.IGNORECASE)
print(result2)

123 4cinq6 789 cinq64
X : ce paragraphe contient des Xs


### 5. Vérifie si le début de la chaîne correspond au pattern avec `re.match`

Exemple :

In [66]:
text = "abc123abc456"

pattern = r"[a-z]+"
result = re.match(pattern, text)
print(result)
print(result.group())

<re.Match object; span=(0, 3), match='abc'>
abc


### 6. Retourne toutes les occurences avec `re.findall`

exemple :

In [68]:
result = re.findall(pattern, text)
print(result)

['abc', 'abc']


### Exercice 05

```python
texte = "Nom: Dupont, Âge: 34, Email: dupont@example.com; Nom: Martin, Âge: 28, Email: martin@example.org"
```

1. Utilise re.match pour vérifier si la chaîne commence par `Nom`
2. Utilise re.findall pour extraire les ages
3. Utilise re.findall pour extraire les emails

In [76]:
# Correction
texte = "Nom: Dupont, Âge: 34, Email: dupont@example.com; Nom: Martin, Âge: 28, Email: martin@example.org"

# 1. 
result1 = re.match(r"Nom", texte)
print(f"Match début : {bool(result1)}")

# 2.
result2 = re.findall(r"Âge:\s*(\d+)", texte)
print(f"Âge trouvés : {result2}")

# 3.
result3 = re.findall(r"[a-zA-Z0-9.-_$%+]+@[a-zA-Z.-]+\.[a-zA-Z]{2,}", texte)
print(f"emails trouvés : {result3}")


Match début : True
Âge trouvés : ['34', '28']
emails trouvés : ['dupont@example.com', 'martin@example.org']


### TP : Nettoyage de données

On va nettoyer un fichier CSV :
- emails avec format incorrect
- prix mal formatés
- dates de naissance ambigues
- numéros de téléphones au format différents

Écrire un nouveau CSV propre

In [79]:
# Correction
import csv, re

donnees_netoyees = []

def nettoyer_email(email):
    email = re.sub(r"\[at\]|\(at\)", "@", email)
    email = re.sub(r"_|\(dot\)", ".", email)
    return email

def nettoyer_prix(prix):
    prix = re.sub(r"[$€eurosEUR\s]", "", prix)
    prix = re.sub(r",", ".", prix)
    return float(prix)

def nettoyer_date(date):
    date = re.sub(r"[./]", "-", date)
    date_list = sorted(date.split("-"))
    jour, mois, annee = date_list
    return f"{jour}/{mois}/{annee}"

def nettoyer_phone(phone):
    phone = re.sub(r"\D", "", phone)
    phone = re.sub(r"^33|^0033", "0", phone)
    phone = re.sub(r"^6", "06", phone)
    return phone

with open("./donnees_sales.csv", "r", encoding="UTF-8") as file:
    reader = csv.reader(file)
    columns = next(reader)
    donnees_netoyees.append(columns)
    for line in reader:
        id, email, prix, date, phone = line
        email_propre = nettoyer_email(email)
        prix_propre = nettoyer_prix(prix)
        date_propre = nettoyer_date(date)
        phone_propre = nettoyer_phone(phone)
        donnees_netoyees.append([id, email_propre, prix_propre, date_propre, phone_propre])

with open("./donnees_propre.csv", "w", encoding="UTF-8", newline="") as file:
    writer = csv.writer(file)
    writer.writerows(donnees_netoyees)


