## ðŸ“š Expressions RÃ©guliÃ¨res en Python (Regex)

Les expressions rÃ©guliÃ¨res (ou regex) sont un langage pour **rechercher**, **valider** ou **remplacer** des motifs dans des textes.
En Python, elles sont gÃ©rÃ©es par le module `re`.

In [None]:
# ðŸ”¹ Importer le module
import re

### ðŸ”¹ Les principales fonctions de `re`

| Fonction           | Description                                               |
|--------------------|-----------------------------------------------------------|
| `re.search()`      | Recherche le **premier** motif dans la chaÃ®ne.            |
| `re.match()`       | Recherche le motif **uniquement au dÃ©but** de la chaÃ®ne.  |
| `re.findall()`     | Retourne **toutes** les correspondances sous forme de liste. |
| `re.finditer()`    | Renvoie un itÃ©rateur de tous les objets `Match`.          |
| `re.sub()`         | Remplace les motifs par un autre texte.                   |

In [None]:
# Exemple d'utilisation
text = "Mon numÃ©ro est 06 01 02 03 04 et mon email est user@example.com."

# Trouver la premiÃ¨re suite de chiffres
match = re.search(r"\d+", text)
if match:
    print("Premier nombre trouvÃ© :", match.group())

In [None]:
# Trouver tous les nombres
numbers = re.findall(r"\d+", text)
print("Tous les nombres :", numbers)

In [None]:
# Remplacer les nombres par des diÃ¨ses
masked_text = re.sub(r"\d", "#", text)
print(masked_text)

## ðŸ”¹ Symboles de base

| Symbole | Signification                                | Exemple                  |
|---------|----------------------------------------------|--------------------------|
| `.`     | Un caractÃ¨re quelconque (sauf saut de ligne) | `a.b` : match `acb`, `a-b` |
| `^`     | DÃ©but de la chaÃ®ne                           | `^Bonjour`               |
| `$`     | Fin de la chaÃ®ne                             | `fin$`                   |
| `*`     | 0 ou plusieurs fois                          | `lo*l`                   |
| `+`     | 1 ou plusieurs fois                          | `lo+l`                   |
| `?`     | 0 ou 1 fois                                  | `colou?r` : `color`/`colour` |
| `{m}`   | Exactement m fois                            | `\d{3}` : 3 chiffres     |
| `{m,n}` | De m Ã  n fois                                | `\d{2,4}`                |
| `[]`    | Classe de caractÃ¨res                         | `[abc]`                  |
| `|`     | OU logique                                   | `chat|chien`             |
| `()`    | Groupe (capturÃ© par `group()`)               | `(ab)+`                  |

### ðŸ”¹ Classes de caractÃ¨res

| Classe | Signification                 |
|--------|-------------------------------|
| `\d`   | Chiffre (0-9)                 |
| `\D`   | Non chiffre                   |
| `\w`   | Lettre, chiffre ou `_`        |
| `\W`   | Tout sauf `\w`                |
| `\s`   | Espace, tabulation, saut de ligne |
| `\S`   | Tout sauf `\s`                |

In [None]:
# ðŸ”¸ Exemple : Extraire les mots
text = "Hello world_123!"
words = re.findall(r"\w+", text)
print("Mots trouvÃ©s :", words)

### ðŸ”¹ Objets Match : explorer les rÃ©sultats

Quand `re.search()` ou `re.match()` trouve une correspondance, il retourne un **objet Match**.
Cet objet contient :
- `.group()` : le texte correspondant.
- `.start()` : lâ€™index de dÃ©but.
- `.end()` : lâ€™index de fin.

Exemple :

In [None]:
text = "J'ai 12 pommes et 3 bananes."
m = re.search(r"\d+", text)
if m:
    print("Nombre trouvÃ© :", m.group())
    print("Position :", m.start(), "-", m.end())

## ðŸ”¹ Exemple complet : valider une heure

On souhaite valider les heures au format `hh:mm am/pm`.

In [None]:
def check_time(text):
    pattern = r"^(1[0-2]|0?[1-9]):[0-5][0-9]\s*(am|pm|AM|PM)$"
    return re.search(pattern, text) != None

print(check_time("12:45 pm"))  # True
print(check_time("9:59 AM"))   # True
print(check_time("13:00 pm"))  # False

### ðŸ”¹ Remplacer du texte

On peut utiliser `re.sub()` pour remplacer tous les motifs par un texte donnÃ©.

In [None]:
# Remplacer tous les chiffres par des diÃ¨ses
text = "Code postal : 75000"
print(re.sub(r"\d", "#", text))

### ðŸ”¹ RÃ©sumÃ© et bonnes pratiques

âœ… Utiliser les **raw strings** (`r"..."`) pour Ã©viter dâ€™Ã©chapper les backslashes.
âœ… Bien **documenter** les motifs complexes.
âœ… Utiliser un site comme [regex101.com](https://regex101.com/) pour tester tes regex en direct.

---

ðŸš€ Nâ€™hÃ©site pas Ã  modifier ce notebook pour faire tes propres tests !
Tu veux que jâ€™ajoute des **exercices** ou des **quiz** pour tâ€™entraÃ®ner ? ðŸ˜Š

### ðŸ‘‰Function Libraries and test

The check_web_address() function checks if the text passed qualifies as a top-level web address, meaning that it contains alphanumeric characters (which includes letters, numbers, and underscores), as well as periods, dashes, and a plus sign, followed by a period and a character-only top-level domain such as ".com", ".info", ".edu", etc. Fill in the regular expression to do that, using escape characters, wildcards, repetition qualifiers, beginning and end-of-line characters, and character classes.

In [None]:
import re
def check_web_address(text):
  pattern = r"^[a-zA-Z0-9_.-]+\.[a-zA-Z]+$"
  result = re.search(pattern, text)
  return result != None

print(check_web_address("gmail.com")) # True
print(check_web_address("www@google")) # False
print(check_web_address("www.Coursera.org")) # True
print(check_web_address("web-address.com/homepage")) # False
print(check_web_address("My_Favorite-Blog.US")) # True

The check_time() function checks for the time format of a 12-hour clock, as follows: the hour is between 1 and 12, with no leading zero, followed by a colon, then minutes between 00 and 59, then an optional space, and then AM or PM, in upper or lower case. Fill in the regular expression to do that. How many of the concepts that you just learned can you use here?

In [None]:
import re
def check_time(text):
  pattern = r"^(1[0-2]|0?[1-9]):[0-5][0-9]\s*(am|pm|AM|PM)$"
  result = re.search(pattern, text)
  return result != None

print(check_time("12:45pm")) # True
print(check_time("9:59 AM")) # True
print(check_time("6:60am")) # False
print(check_time("five o'clock")) # False
print(check_time("6:02 am")) # True
print(check_time("6:02km")) # False

The contains_acronym() function checks the text for the presence of 2 or more characters or digits surrounded by parentheses, with at least the first character in uppercase (if it's a letter), returning True if the condition is met, or False otherwise. For example, "Instant messaging (IM) is a set of communication technologies used for text-based communication" should return True since (IM) satisfies the match conditions." Fill in the regular expression in this function:

In [None]:
import re
def contains_acronym(text):
  pattern = r"\([A-Za-z0-9]{2,}\)"
  result = re.search(pattern, text)
  return result != None

print(contains_acronym("Instant messaging (IM) is a set of communication technologies used for text-based communication")) # True
print(contains_acronym("American Standard Code for Information Interchange (ASCII) is a character encoding standard for electronic communication")) # True
print(contains_acronym("Please do NOT enter without permission!")) # False
print(contains_acronym("PostScript is a fourth-generation programming language (4GL)")) # True
print(contains_acronym("Have fun using a self-contained underwater breathing apparatus (Scuba)!")) # True