# Agrupamento e Alternadores

Aprenderemos como agrupar diferentes padrões usando parênteses, usar alternadores para alternar entre diferentes padrões, bem como usar prefixos e sufixos.

## Agrupamento

Você já deve ter sentido a necessidade de quantificar uma série inteira de padrões em uma expressão regular, e não apenas um. Por exemplo, digamos que você queira corresponder às palavras "Real" e "Realidade". Poderíamos agrupar os literais `idade` entre parênteses com um quantificador opcional `(idade)?`.

In [None]:
from re import fullmatch

fullmatch(pattern="Real(idade)?", string="Real") != None

In [None]:
fullmatch(pattern="Real(idade)?", string="Realidade") != None

In [None]:
fullmatch(pattern="Real(idade)?", string="Realização") != None

E se quiséssemos corresponder a qualquer sequência de uma letra alfabética seguida por um dígito, mas repetir esse padrão um número indefinido de vezes? Podemos fazer isso usando parênteses seguidos de `+` para quantificar essa expressão uma ou mais vezes.

In [None]:
fullmatch(pattern="([A-Z][0-9])+", string="A2") != None

In [None]:
fullmatch(pattern="([A-Z][0-9])+", string="F4W9F3W6") != None

Aqui está um exemplo final de correspondência de um número de telefone dos EUA com 10 dígitos com hifens opcionais, sendo o DDD (os três primeiros dígitos) opcional.

In [None]:
fullmatch(pattern="([0-9]{3}-?)?[0-9]{3}-?[0-9]{4}", string="4803718745") != None

In [None]:
fullmatch(pattern="([0-9]{3}-?)?[0-9]{3}-?[0-9]{4}", string="371-8745") != None

In [None]:
fullmatch(pattern="([0-9]{3}-?)?[0-9]{3}-?[0-9]{4}", string="480-371-8745") != None

Lembre-se de sempre ler uma expressão regular da esquerda para a direita e preste atenção aos agrupamentos de padrões entre parênteses para perceber que um quantificador provavelmente seguirá a sequência inteira de padrões.

## Alternadores

Outro operador útil é o alternador `|`, que nos permite alternar entre dois padrões. Pense nele como um `OR` em uma expressão regular. Abaixo, combinamos strings literais simples "ALPHA", "BETA", "GAMMA" e "DELTA" usando o alternador `|`. A expressão regular corresponderá apenas a essas quatro strings.

In [None]:
fullmatch(pattern="ALPHA|BETA|GAMMA|DELTA", string="ALPHA") != None

In [None]:
fullmatch(pattern="ALPHA|BETA|GAMMA|DELTA", string="DELTA") != None

In [None]:
fullmatch(pattern="ALPHA|BETA|GAMMA|DELTA", string="EPSILON") != None

Aqui está outro exemplo em que combinamos qualquer string seguida por dois dígitos ou "ZZ", um hífen e, em seguida, a string "FOXTROT".

In [None]:
fullmatch(pattern="([0-9]{2}|ZZ)-FOXTROT", string="12-FOXTROT") != None

In [None]:
fullmatch(pattern="([0-9]{2}|ZZ)-FOXTROT", string="ZZ-FOXTROT") != None

Você verá que alternadores são frequentemente usados ​​dentro de um grupo porque é comum alternar entre dois ou mais padrões em um determinado ponto da expressão regular.

## Prefixo e Sufixo

Especialmente ao digitalizar documentos, pode ser útil capturar um padrão de expressão regular, mas não incluir uma parte específica do padrão. É aqui que prefixos e sufixos podem ser úteis.

Digamos que eu queira corresponder a uma sequência de dígitos, mas somente se eles forem precedidos por uma letra maiúscula. Eu especificaria a letra maiúscula dentro de um prefixo `(?<=[A-Z])`, que não seria retornado. No entanto, o `[0-9]+` que o segue seria, mas somente se esse prefixo fosse encontrado.

In [None]:
from re import search

result = search(pattern="(?<=[A-Z])[0-9]+", string="A23")
if result: 
    print(result[0])
else:
    print("Não Correspondeu!")

In [None]:
result = search(pattern="(?<=[A-Z])[0-9]+", string="23")
if result: 
    print(result[0])
else:
    print("Não Correspondeu!")

Observe como o `23` é o único resultado retornado, mesmo que ele qualifique a letra maiúscula que o precede. O `?<=` que inicia um grupo `(?<=` é o que define um prefixo (também chamado de look-behind), e tudo o que o segue é o padrão de prefixo.

Você também pode usar um sufixo para fazer um look-ahead, qualificando um padrão que está à frente, mas não o incluindo. Abaixo, eu correspondo uma sequência de dígitos, mas somente se eles forem seguidos por uma letra maiúscula.

In [None]:
result = search(pattern="[0-9]+(?=[A-Z])", string="23")
if result: 
    print(result[0])
else:
    print("Não Correspondeu!")

In [None]:
result = search(pattern="[0-9]+(?=[A-Z])", string="23L")
if result: 
    print(result[0])
else:
    print("Não Correspondeu!")

Como aprenderemos, prefixos e sufixos podem ser úteis na divisão de strings com base em padrões mais complexos. A desvantagem do prefixo e do sufixo é que eles podem ficar confusos quando você não usa padrões de largura fixa. Portanto, não espere que a implementação de expressões regulares em Python permita quantificadores em prefixos e sufixos.

## Exercício

Escreva uma expressão regular que corresponda a um código postal dos Estados Unidos, com 5 dígitos, seguidos de um hífen opcional e, em seguida, uma sequência de 4 dígitos.

Substitua o ponto de interrogação `?` abaixo.

In [None]:
fullmatch(pattern=?, string="75035-3821") != None

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

In [None]:
fullmatch(pattern="[0-9]{5}(-[0-9]{4})?", string="75035-3821") != None

In [None]:
fullmatch(pattern="[0-9]{5}(-[0-9]{4})?", string="75035") != None