# Les expressions Régulière avec l' API `re`

In [1]:
import re

## Les caractère spéciaux

#### `.` Valide tout caractère à l'exeption du saut de ligne

Note : Si l'option `DOTALL` est spécifié , il valide tout caractère  le saut de ligne inclut

In [3]:
re.findall('.', 'abc')

['a', 'b', 'c']

In [2]:
re.findall('.', 'abc ')

['a', 'b', 'c', ' ']

In [5]:
# Saut de ligne n'est pas pris en charge
re.findall('.', 'abc \n')

['a', 'b', 'c', ' ']

In [6]:
re.findall('.', 'abc \n', re.DOTALL)

['a', 'b', 'c', ' ', '\n']

#### `^` (Accent circonflexe.) : Valide chaque début de chaine de caractère 

*Note* : L'option `MULTILIGNE` permet de valider aussi ce qui suit chaque saut de ligne

#### `$` : Valide la fin d'une chaîne de caractère (à revoir)

*Note :* Valide aussi avant chaque saut de ligne en mode `MULTILIGNE`

#### `*` : Fait valider par l'expression rationnelle résultante 0 répétition où plus de l'expression qui précède.

#### `+` : Fait valider par l'expression rationnelle résultante *1 répétition où plus* de l'expression qui précède.

#### `?` : Fait valider par l'expression rationnelle résultante *0 ou 1* repétition de l'expression qui précède.

#### `*?` , `+?`, `??`

Les quantificateurs `*`, `+`, `?` sont tous greedy(gourmands) au sens où il valide le texte le plus long possible. Ajouter un `?` derrière (`*?` , `+?`, `??`) fait valider au sens minimal.

#### `{m}` : Fait valider l'expression rationnelle résultante m répétition(s) de l'expression qui précède

#### `{m,n}` : Fait valider l'expression rationnelle résultante entre m et n répétition(s) de l'expression qui précède et *cherchant à valider le moins possible*

#### `\` : Fait échapper les carractères spéciaux ou signale une séquence spéciale (décrite en dessous)

*Note :*  Il est hautement recommandé d'utiliser des chaînes brutes (`r'texte'`) pour tout sauf les expressions les plus simpes 

#### `[]` : Utiliser pour indiquer un esemble de caractères.

*Note :* des intervales de caractère peuvent être indiqués

*Note :* Les caractères spéciaux perdent leurs sens à l'intérieur d'un ensembe

*Note :* Les classes de caractères (`\w` ou `\S`) sont accepté à l'intérieur d'un ensemble

*Note :* Les caractères qui ne sont pas dans un ensembles peuvent être trouvés dans un ensemble ensemble complémentaire. Cette ensemble est précédé par `^`

*Note :* Pour insérer le littéral `]` il faut le faie précédé d'un blacslash ou le placer au début de l'ensemble

#### `|` : Corespond à un 'OU'

#### `()`: Permet d'indiquer un groupe

*Note :* Le contenue d'un groupe peux être réutiliser plus loin dans la chaine avec une séquence spécial `\number` décrite en dessous.

## Les extensions `(?...)`

Les extensions ne crée en général pas de nouveau groupe; 
`(?P<name>...)` est la seule exception à la règle.

*Note :* Un `'?'` suivant une `'('` n'a pas de sens autrement.

#### `(?P<name>...)`

#### `(?P=name)`

#### `(?#...)` : Valide un commentaire

#### `(?=...)`

#### `(?:pattern)` treat "pattern" as a group, but not make re.findall only return the content in the group

#### `(?!...)`

#### `(?<=...)`

#### `(?<!...)`

#### `(?(id/name)yes-pattern|no-pattern)`

## Les séquences spéciales

Il sont composées de `'\'` suivis par des caractères de la liste (`'number'`, `'A'`, `'b'`, `'B'`, `'d'`, `'D'`, `'s'`, `'S'`, `'w'`, `'W'`, `'Z'`)

#### `\w` : Any lowercase or uppercase letter, or underscore

## La pluspart des échapements standard supportés par les chaines littérales sont aussi acceptés par l'annalyseur d'expressions rationnel.

```
\a      \b      \f      \n
\N      \r      \t      \u
\U      \v      \x      \\
```

# Exemples

#### **Problem 1 of 5**
Capture words that start with a vowel letter (aeiou), but ends with a non-vowel letter. There can be 0 or more letters in between. \
Also, it is not allowed to have other characters besides letter in between. \
e.g. your regular expression should match unicorn, element, but should not match: banana, apple. All letters are lowercase.

In [9]:
pattern = r'^([aeiou])([a-z])*([^aeiou])$'

#### **Problem 2 of 5**
Capture numbers in octal or hexadecimal representation in Python.\
Octal numbers start with a prefix "0o" (number zero followed by lowercase letter o), and are followed by one or more numbers in the range of 0 to 7. E.g. 0o112, 0o237, 0o07.\
Hexadecimal numbers start with a prefix "0x", and are followed by one or more numbers in the range of 0 to 9 or lowercase letters in the range of a to f. E.g. 0xf3, 0x1d, 0x072.

In [15]:
pattern = r'(^(0o)[0-7]+)|(^(0x)([0-9a-f]+))'
print(re.fullmatch(pattern, '0o117'))
print(re.fullmatch(pattern, '0xf3'))
print(re.fullmatch(pattern, '1233'))
print(re.fullmatch(pattern, '0o12f'))

<re.Match object; span=(0, 5), match='0o117'>
<re.Match object; span=(0, 4), match='0xf3'>
None
None


#### **Problem 3 of 5**

Capture a "Firstname Lastname" **at the beginning of each line.** \
e.g. for sentence
**Jane Doe is eating breakfast.** \
Your regex should capture "Jane Doe". \
But in sentence \
**Today is John Doe's birthday.** \
Your regex should NOT capture the name in the sentence as it does not start from the beginning of the string. \
Notice that the name should consist of two words. Each word should start with a capital letter and has zero or more lowercase letters followed. No other symbols are allowed in the name. \
Some valid names are: **Issac Newton**, **L Zhang**; \
Some invalid names are: **john doe**, **Ling-Ling Li**.

In [24]:
pattern = r'^([A-Z][a-z]* [A-Z][a-z]*) .*'
print(re.fullmatch(pattern, 'Jane Doe is eating breakfast.'))
print(re.fullmatch(pattern, 'L Zhang is a great Broadway actor.'))
print(re.fullmatch(pattern, 'Ling-Ling practices violin 40 hours a day.'))
print(re.fullmatch(pattern, 'Today is John Doe\'s birthday.'))

<re.Match object; span=(0, 29), match='Jane Doe is eating breakfast.'>
<re.Match object; span=(0, 34), match='L Zhang is a great Broadway actor.'>
None
None


#### **Problem 4 of 5** 
**In this problem, we are using `re.findall`. Notice that if you use normal parentheses for grouping, re.findall only returns the value in the group but does not return the complete matched string.** \
Match any price in the form \\$3.45 or \\$23.32 or \\$400. Your regex should capture strings meeting the following requirements:
Start with a "\\$" sign;
The price should be an integer, or have exactly two digits after the decimal point.

In [57]:
pattern = r'[$]\d+(?:$|[.]\d{2})'
print(re.findall(pattern, '$3.45'))
print(re.findall(pattern, '$23.32'))
print(re.findall(pattern, '$40'))
print(re.findall(pattern, '$.23'))
print(re.findall(pattern, '$400.1'))

['$3.45']
['$23.32']
['$40']
[]
[]


#### Problem 5 of 5
Capture email address with letters, numbers, underscore and dots. A valid email address defined in this problem must meet the following requirements: 
* Has an "@" symbol;
* Before the "@" symbol, there can be one or more strings made of letters, numbers and underscores, separated by a single dot.
* After the "@" symbol, there can two or more strings made of letters, numbers and underscores, separated by a single dot.
* No other characters besides letters, numbers, underscores, dots, and the "@" symbol should appear in the email address.

For example, your regular expression should match email addresses like: abc\@umich.edu, 8ab.c_def9\@example.regex.com;
But your regex should not match: abc\@ def., ab..abc\@def.com, abc\@def

In [60]:
pattern = r'([A-Za-z0-9_]+([.][A-Za-z0-9_]+)*)@([A-Za-z0-9_]+([.][A-Za-z0-9_]+)+)'
print(re.fullmatch(pattern, 'abc@umich.edu'))
print(re.fullmatch(pattern, '8ab.c_def9@example.regex.com'))
print(re.fullmatch(pattern, 'abc@ def.'))
print(re.fullmatch(pattern, 'ab..abc@def.com'))
print(re.fullmatch(pattern, 'abc@def'))

<re.Match object; span=(0, 13), match='abc@umich.edu'>
<re.Match object; span=(0, 28), match='8ab.c_def9@example.regex.com'>
None
None
None
