# Padrões de Repetição com Quantificadores

A esta altura, você já deve estar um pouco cansado de escrever `[A-z0-9][A-z0-9][A-z0-9]` só para corresponder a três caracteres alfanuméricos maiúsculos. Agora imagine se você tivesse que corresponder a 20 caracteres alfanuméricos 😱? Não parece horrível?

```
[A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9][A-z0-9]
```

Bem, não se preocupe. Os quantificadores vieram para o resgate! Podemos consolidar tudo isso aqui. 😂

```
[A-z0-9]{20}
```

E podemos fazer muito, muito mais.

## Quantificadores Fixos

Esta regex que você viu, `[A-z0-9]{20}`, tem um número entre colchetes `{20}`, que especifica quantas vezes o padrão anterior deve ser repetido. Podemos ver que ele corresponde exatamente a 20 caracteres alfanuméricos `[A-z0-9]`.

In [None]:
from re import fullmatch 

fullmatch(pattern="[A-z0-9]{20}", string="Achd46") != None

In [None]:
fullmatch(pattern="[A-z0-9]{20}", string="hgbjh734hgfhsabfghhf") != None

Como você pode imaginar, um **quantificador** repete um padrão de regex e o exemplo acima é um quantificador fixo.

## Quantificadores Mín./Máx.

Usando dois números separados por vírgula, podemos especificar um **quantificador mín./máx.** para repetir um padrão um número mín./máx. de vezes.

```
pattern{min,max}
```

Por exemplo, podemos corresponder a códigos de companhias aéreas e aeroportos que tenham dois ou três caracteres alfabéticos, respectivamente.

In [None]:
fullmatch(pattern="[A-Z]{2,3}", string="DL") != None 

In [None]:
fullmatch(pattern="[A-Z]{2,3}", string="JFK") != None 

In [None]:
fullmatch(pattern="[A-Z]{2,3}", string="ALPHA") != None 

Podemos corresponder de 1 a 100 dígitos numéricos.

In [None]:
fullmatch(pattern="[0-9]{1,100}", string="25482") != None 

In [None]:
fullmatch(pattern="[0-9]{1,100}", string="98465462164984335498465649849463574546325775455") != None 

Se deixarmos o `máx.` em branco, podemos capturar um número ilimitado de dígitos. Abaixo, correspondemos a pelo menos 3 dígitos com um máximo ilimitado.

In [None]:
fullmatch(pattern="[0-9]{3,}", string="98") != None 

In [None]:
fullmatch(pattern="[0-9]{3,}", string="98465462164984335498465649849463574546325775455") != None 

Também podemos ter um mínimo de 0, o que torna a presença desse padrão completamente opcional. Abaixo, correspondemos a um `x` e uma letra maiúscula, mas podem existir de 0 a 3 dígitos entre eles.

In [None]:
fullmatch(pattern="x[0-9]{0,3}[A-Z]", string="xZ") != None 

In [None]:
fullmatch(pattern="x[0-9]{0,3}[A-Z]", string="x75Z") != None 

## Quantificadores Abreviados

Certos quantificadores mínimo/máximo, especificamente `{1,}`, `{0,}` e `{0,1}`, são tão comuns que recebem suas abreviações: `+`, `*` e `?`, respectivamente.

|Abreviado|Equivalente|Descrição|
|---------|-----------|---------|
|`+`      |`{1,}`     |Corresponde a uma ou mais instâncias de um padrão|
|`*`      |`{0,}`     |Corresponde a 0 ou mais instâncias de um padrãon|
|`?`      |`{0,1}`    |Corresponde a apenas 0 ou 1 instância de um padrão|

Abaixo, correspondemos a qualquer sequência de dígitos e, em seguida, a uma sequência de letras maiúsculas.

In [None]:
fullmatch(pattern="[0-9]+[A-Z]+", string="746234WHISKEY") != None 

Novamente, o `+` é equivalente a `{1,}`, portanto, a mesma tarefa poderia ter sido realizada dessa forma. Ele especifica que "pelo menos uma instância deste padrão deve existir, e eu capturarei todas as que existirem depois disso".

In [None]:
fullmatch(pattern="[0-9]{1,}[A-Z]{1,}", string="746234WHISKEY") != None 

Também podemos tornar a sequência de dígitos completamente opcional usando `*` em vez de `+`, o que equivale a usar `{0,}` em vez de `{1,}`.

In [None]:
fullmatch(pattern="[0-9]*[A-Z]{1,}", string="746234WHISKEY") != None 

In [None]:
fullmatch(pattern="[0-9]*[A-Z]{1,}", string="WHISKEY") != None 

In [None]:
fullmatch(pattern="[0-9]*[A-Z]{1,}", string="746234") != None 

O `?` é outra abreviação comum, que é o mesmo que `{0,1}`. É frequentemente chamado de **opcional**, pois indica que uma instância de um padrão pode estar presente, mas não necessariamente. Abaixo, combinamos duas letras do alfabeto, mas elas podem ser precedidas por um único dígito.

In [None]:
fullmatch(pattern="[0-9]?[A-Z]{2}", string="AZ") != None 

In [None]:
fullmatch(pattern="[0-9]?[A-Z]{2}", string="4AZ") != None 

## Quantificadores Ganancioso contra Preguiçosos

Mudando para um contexto de correspondência parcial usando `search()`, observe o que acontece quando procuro por uma sequência de letras. Também mostrarei que você pode acessar as correspondências por índice usando colchetes `[ ]` no objeto `Match`. Usaremos o índice `[0]` para obter a primeira correspondência.

In [None]:
from re import search 

search(pattern="[XY0-9]+", string="XXYY9637ALPHA")[0]

Sem surpresas. Capturou tudo até o `7`. Mas pergunte a si mesmo: por que não parou no primeiro `X`? Isso satisfaria a expressão regular `[XY0-9]+`, certo? O motivo é que as expressões regulares são, por padrão, **gananciosas**, o que significa que elas capturam o máximo de texto possível para um determinado padrão até que o padrão não possa mais ser correspondido. Se você quiser tornar a expressão regular **preguiçosa** ou parar o mais cedo possível assim que o padrão for satisfeito, adicione um ponto de interrogação após o quantificador `+?`.

In [None]:
search(pattern="[XY0-9]+?", string="XXYY9637ALPHA")[0]

Não confunda o ponto de interrogação sendo usado em um contexto diferente. Anteriormente, o usávamos como uma abreviação para um quantificador `{0,1}`, mas se estiver depois de outro quantificador, será um modificador preguiçoso. Eu, pessoalmente, não uso modificadores preguiçosos com frequência, e esses exemplos simples podem não fazer sentido para sua utilidade. Afinal, você pode obter o mesmo comportamento apenas procurando por uma instância neste caso.

In [None]:
search(pattern="[XY0-9]", string="XXYY9637ALPHA")[0]

Mas quando aprendemos a construir expressões regulares mais complexas e se você estiver percorrendo documentos, elas podem ser úteis. Elas também são uma ferramenta útil quando sua regex está capturando mais do que o esperado e a modificação preguiçosa é mais simples do que uma expressão regular mais complexa.

## Exercício

Escreva uma expressão regular que corresponda a uma série de dígitos, depois a um espaço, depois a uma série de letras maiúsculas, depois a outro espaço e, por fim, à palavra "FIM". Coloque a string da expressão regular no ponto de interrogação `?` abaixo.

DICA: lembre-se de que `\s` é um padrão de expressão regular para um espaço e não se esqueça de usar uma string bruta `r"minha expressão regular"`, pois haverá uma barra invertida.

In [None]:
from re import fullmatch 

fullmatch(pattern=?, string="5766264 TANGO FIM") != None

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

In [None]:
from re import fullmatch 

fullmatch(pattern=r"[0-9]+\s[A-Z]+\sFIM", string="5766264 TANGO FIM") != None