# À propos des groupes de capture

L’intérêt des groupes de capture est de subdiviser une chaîne de caractères en plusieurs morceaux qui répondraient ou non à des spécificités différentes.

Importons tout d’abord le module *re* et instancions la chaîne de caractères à analyser :

In [None]:
import re

text = 'Eugène Poubelle n’est pas l’inventeur des poubelles.'

## Les parenthèses capturantes

L’objectif ici est de récupérer les deux noms propres. Il s’agit de sous-chaînes de longueurs variables, composées de caractères alphabétique dont le premier est une majuscule et qui sont séparées l’une de l’autre par une espace. On peut traduire ces contraintes par la *regex* suivante :

In [None]:
pattern = r'([A-Z]\w+\b)\s([A-Z]\w+\b)'

La compilation se passe ensuite de manière classique :

In [None]:
prog = re.compile(pattern)
result = prog.match(text)

Dans cet exemple, nous avons rajouté des parenthèses autour des deux groupes à capturer. Ces parenthèses sont des métacaractères qui vont isoler les résultats et les mettre à disposition dans un groupe numéroté :

In [None]:
print(result.group(1))
print(result.group(2))

**Remarque :** en l’occurrence, le résultat aurait été plus simple à obtenir avec la méthode `findall()` :

In [None]:
pattern = r'[A-Z]\w+\b'
prog = re.compile(pattern)
results = prog.findall(text)
print(results)

### Les renvois

Comme ils sont numérotés, il est possible, dans une même *regex*, de faire référence à un groupe de capture grâce à la notation `\x` où `x` est le numéro du groupe. Cette facilité est notamment très utile dans le cadre de substitutions :

In [None]:
filenames = [
    'S01E01-heat.txt',
    'S03E99-la-dispute-1ere-et-2eme-partie.txt',
    'S02E97-la-conscience-d-arthur.txt'
]

pattern = r'S([0-9]{2})E([0-9]{2,3})-(.+).txt'

prog = re.compile(pattern)

print([prog.sub(r'\1%\2%\3', filename) for filename in filenames])

Les renvois peuvent également s’écrire sous forme de groupes nommés :

In [None]:
pattern = r'S(?P<season>[0-9]{2})E(?P<episode>[0-9]{2,3})-(?P<title>.+).txt'

prog = re.compile(pattern)

for filename in filenames:
    results = prog.match(filename)
    print(results.group('title'), results.group('season'), results.group('episode'))

Une méthode `groupdict()` permet de récupérer le résultat obtenu sous forme de dictionnaire :

In [None]:
print(results.groupdict())