# Introduction aux expressions regulieres avec python

### Definition:

**Une expression régulière:** (souvent abrégée en regex ou regexp) est une séquence de caractères qui définit un modèle de recherche. Ce sont des chaînes de caractères spéciaux qui nous permettent de faire correspondre des motifs chaînes de caractères avec d'autres chaînes de caractères.

Les motifs chaines de caracteres sont une sequences de lettres, de symboles et/ou de chiffres qui peuvent correspondre a un mot, un texte ou a une chaine de caractere.


### Utilité des expressions régulières
Les expressions régulières sont couramment utilisées en programmation, dans des outils comme les éditeurs de texte avancés ou des scripts pour:

- Valider des formats (emails, numéros de téléphone, adresses IP, etc.): S'assurer si un texte est dans le bon format avant de le traiter.
- Rechercher et remplacer des parties spécifiques d'un texte.
- Extraire des données d'un fichier ou d'une chaîne de caractères.
- Diviser une chaîne en plusieurs parties.

Dans python le module `re` (pour "regular expression") est souvent utilisees pour faire des taches d'expressions regulieres.

### Quelques fonctions et expressions motifs de correspondances du module re

Liste des  metacaracteres:`[],{},(),\,*,+,^,$,?,.,|`

Liste des characteres predefinis: `d,D,s,S,w,W`. Les lettres capitaux sont les negatifs des lettres miniscules. Ces lettres predefinies sont precedees du characteres backslash `\` lors du matching avec d'autres chaines de characteres.

|Character class| Matches|
|---|---|
|\d  | Any digit (0–9).|
|\D  | Any character that is not a digit.|
|\s  | Any whitespace character (such as spaces, tabs and newlines).|
|\S  | Any character that is not a whitespace character.|
| \w | Any word character (also called an alphanumeric character)—that is,any uppercase or lowercase letter, any digit or an underscore|
| \W | Any character that is not a word character.|




ci dessous le tableau des motifs:

|motifs| matches| exemple|
|---|---|---|
|\w+|word| 'Magic'|
|\d|digit| 9 |
|\s|space| ''|
|.*| wildcard| 'username74'|
|+ or *|greedy match|'aaaaaa'| 
|\S|not space|'no_spaces'|
|[a-z]|lowercase group| 'abcdefg'|



Celles des fonctions est la suivante:

|Fonctions| Utilites|
|---|---|
|`split`| split a string on regex|
|`findall`|find all patterns in a string|
|`search`|search for a pattern|
|`match` | match an entire string or substring based on a pattern|
|`fullmatch`| checks whether the entire string in its second argument matches the pattern in its first argument|
|


On personnalise nos propres motifs avec des crochets.[].Exemple: '[aeiuo]'

Exercices 


In [21]:
import re
my_string = "Let's write RegEx!  Won't that be fun?  I sure think so.  Can you find 4 sentences?  Or perhaps, all 19 words?"

# Write a pattern to match sentence endings: sentence_endings
sentence_endings = r"[.?!]"

# Split my_string on sentence endings and print the result
print(re.split(sentence_endings, my_string))

# Find all capitalized words in my_string and print the result
capitalized_words = r"[A-Z]\w+"
print(re.findall(capitalized_words, my_string))

# Split my_string on spaces and print the result
spaces = r"\s+"
print(re.split(spaces , my_string))

# Find all digits in my_string and print the result
digits = r"\d+"
print(re.findall(digits, my_string))


["Let's write RegEx", "  Won't that be fun", '  I sure think so', '  Can you find 4 sentences', '  Or perhaps, all 19 words', '']
['Let', 'RegEx', 'Won', 'Can', 'Or']
["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?']
['4', '19']


**Remarque:** il est important de préfixer vos modèles d'expressions régulières avec `r` pour vous assurer qu'ils sont interprétés comme vous le souhaitez. Sinon, vous risquez de rencontrer des problèmes liés aux séquences d'échappement dans les chaînes. Par exemple, `"\n"` en Python, il est utilisé pour indiquer une nouvelle ligne, mais si vous utilisez le `r` préfixe, il sera interprété comme la chaîne brute `"\n"` - c'est-à-dire le caractère `"\"` suivi du caractère `"n"`- et non comme une nouvelle ligne. 

# Tokenization

Est une technique pour transformer une chaine de caracteres ou un document en unite phrase ou de phrase appelees tokens. C'est une  etape de preparation de texte pour le traitement du langage naturel.

Il existe differentes facons de faire la tokenization. Les plus repandu sont le suivantes:
- diviser un texte en mots
- separation par ponctuation
- separation par hashtags dans un tweet
Une librairie utiliser pour la tokenization est la `NLTK` (Natural Language ToolKit)

