# Correspondendo Literais e Intervalos de Caracteres

Possivelmente, os dois blocos básicos de construção de expressões regulares são literais e intervalos. Literais são caracteres que não têm nenhuma função além de representar aquele caractere *literalmente*. Por exemplo, caracteres alfanuméricos como "a" e "4" representam "a" e "4" em uma expressão regular. Eles não têm nenhuma função especial. Intervalos de caracteres nos permitem qualificar vários caracteres em uma determinada posição. Também aprenderemos como usar o operador de escape `\` para acessar outros caracteres, como espaços em branco.

Para simplificar um pouco as coisas, importaremos a função `fullmatch` diretamente.

In [None]:
from re import fullmatch 

## Literais

Há um array de caracteres que não possui nenhuma função especial em expressões regulares além dos próprios caracteres literais. Os literais mais comuns, é claro, são os caracteres alfabéticos.

```
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
0123456789
```

Portanto, se fornecermos uma expressão regular "Anaconda" e a compararmos com a string "Anaconda", isso, obviamente, fornecerá uma correspondência.

In [None]:
fullmatch(pattern="Anaconda", string="Anaconda")

Observe que isso não retornou um valor `True` ou `False`, como você poderia esperar. Em vez disso, retorna um objeto `Match`. Se não houver correspondência, a função `fullmatch()` retornará `None`, como neste exemplo, mostrando que a string "Python" não corresponde à expressão regular "Anaconda".

Como os notebooks não fornecem saída para `None`, a revelaremos usando `print()`.

In [None]:
print(fullmatch(pattern="Anaconda", string="Python"))

Se quisermos um simples `True` ou `False`, podemos criar uma operação `if-then` ou simplesmente comparar se a saída de `fullmatch()` for diferente de None. Usaremos essa abordagem para o restante do notebook.

In [None]:
fullmatch(pattern="Anaconda", string="Python") != None

### Metacaracteres

Existem alguns caracteres que possuem funcionalidades especiais em expressões regulares, sobre as quais aprenderemos neste curso. Esses metacaracteres são os seguintes:

```
.[](){}\^$|*+?
```

A única maneira de usar as contrapartes literais desses caracteres (suponha que eu quisesse corresponder a um cifrão `\$`) seria precedê-lo com uma barra invertida de escape `\`. Veja o que acontece quando tento corresponder a string "\\$151" com uma expressão regular "$151".

In [None]:
fullmatch(pattern="$151", string="$151") != None

In [None]:
fullmatch(pattern="\$151", string="$151") != None

Isso ocorre porque o Python tem seu próprio sistema de escape com a barra invertida fora da expressão regular. Incrivelmente irritante! Em vez de ter que usar uma barra invertida assim...

In [None]:
fullmatch(pattern="\\$151", string="$151") != None

Eu recomendo fortemente que você use uma string bruta em Python, que trata a barra invertida como uma barra invertida literal e não como um caractere de escape para o compilador Python.

In [None]:
fullmatch(pattern=r"\$151", string="$151") != None

Assim é bem melhor! Coloque `r` antes da string de expressão regular ao usar barras invertidas `\`, e isso evitará conflitos com o tratamento de strings do Python.

## Intervalos de Caracteres

Literais correspondentes não são tão interessantes. Afinal, poderíamos usar verificações de igualdade do Python para isso e não ter que nos preocupar com aqueles escapes irritantes. Mas é aqui que as coisas começam a ficar interessantes com expressões regulares.

Um **intervalo de caracteres** é um colchete contendo uma lista de caracteres válidos para uma única posição. Por exemplo, aqui está uma expressão regular que corresponde apenas aos caracteres `7`, `8`, `9`, `D` e `J`.

```
[789DJ]
```

Ela corresponderá a uma string contendo apenas um desses caracteres.

In [None]:
fullmatch(pattern="[789DJ]", string="7") != None

In [None]:
fullmatch(pattern="[789DJ]", string="A") != None

Digamos que eu queira corresponder a códigos de produtos com 5 caracteres. O primeiro, o terceiro e o quinto caracteres devem ser `T`, `A` e `B`, respectivamente. No entanto, a segunda posição pode ser `H`, `B` ou `Z`. A quarta posição pode ser `7` ou `9`. Isso pode ser tedioso de fazer com operações de substring, mas é simples com uma expressão regular.

```
T[HBZ]A[79]B
```

In [None]:
fullmatch(pattern="T[HBZ]A[79]B", string="THA7B") != None

In [None]:
fullmatch(pattern="T[HBZ]A[79]B", string="THA2B") != None

Intervalos de caracteres também podem ser expressos com um intervalo de caracteres, como `[A-Z]` para corresponder a qualquer caractere alfabético maiúsculo. Abaixo, correspondemos a códigos de aeroportos que têm três letras maiúsculas.

```
[A-Z][A-Z][A-Z]
```

In [None]:
fullmatch(pattern="[A-Z][A-Z][A-Z]", string="ABQ") != None

In [None]:
fullmatch(pattern="[A-Z][A-Z][A-Z]", string="DFW") != None

In [None]:
fullmatch(pattern="[A-Z][A-Z][A-Z]", string="JFK") != None

In [None]:
fullmatch(pattern="[A-Z][A-Z][A-Z]", string="9DK") != None

In [None]:
fullmatch(pattern="[A-Z][A-Z][A-Z]", string="KDAL") != None

Se escrever `[A-Z]` três vezes parecer repetitivo, aprenderemos sobre quantificadores mais tarde. Também podemos usá-lo para especificar números. Abaixo, correspondemos a todos os códigos de companhias aéreas em que o primeiro caractere é alfabético e o segundo é um dígito numérico.

In [None]:
fullmatch(pattern="[A-Z][0-9]", string="F9") != None

In [None]:
fullmatch(pattern="[A-Z][0-9]", string="DL") != None

In [None]:
fullmatch(pattern="[A-Z][0-9]", string="WN") != None

Também podemos especificar intervalos arbitrários e letras minúsculas, como `[g-j]` e `[4-7]`.

In [None]:
fullmatch(pattern="[g-j][4-7]", string="i6") != None

In [None]:
fullmatch(pattern="[g-j][4-7]", string="c4") != None

In [None]:
fullmatch(pattern="[g-j][4-7]", string="j3") != None

Também podemos mesclar vários intervalos como válidos em um intervalo de caracteres, como `[A-Za-z0-3]`.

In [None]:
fullmatch(pattern="[A-Za-z0-3]", string="j") != None

In [None]:
fullmatch(pattern="[A-Za-z0-3]", string="4") != None

In [None]:
fullmatch(pattern="[A-Za-z0-3]", string="2") != None

Você também pode combinar letras maiúsculas e minúsculas usando `[A-z]`.

In [None]:
fullmatch(pattern="[A-z]", string="d") != None

In [None]:
fullmatch(pattern="[A-z]", string="D") != None

Muitos metacaracteres podem ser colocados dentro de um intervalo de caracteres, onde serão tratados como literais. Para tratar um hífen `-` como um hífen `-`, basta torná-lo o primeiro caractere no intervalo de caracteres, conforme mostrado abaixo. Também incluímos um cifrão como um caractere válido.

In [None]:
fullmatch(pattern="[-$A-z][0-9]", string="-5") != None

In [None]:
fullmatch(pattern="[-$A-z][0-9]", string="$5") != None

In [None]:
fullmatch(pattern="[-$A-z][0-9]", string="V5") != None

Finalmente, você pode negar um conjunto de caracteres que correspondam a qualquer coisa, EXCETO aos caracteres especificados, começando com um símbolo `^`. Para corresponder a qualquer coisa, exceto vogais, você usaria a expressão regular `[^AEIOU]`.

In [None]:
fullmatch(pattern="[^AEIOU]", string="I") != None

In [None]:
fullmatch(pattern="[^AEIOU]", string="C") != None

Se você quiser corresponder literalmente a um símbolo `-` no intervalo de caracteres, simplesmente não o coloque no início do intervalo, conforme mostrado abaixo.

In [None]:
fullmatch(pattern="[AEIOU^]", string="^") != None

## Dígitos, Palavras e Espaço em Branco

Existem alguns caracteres especiais que são habilitados com uma barra invertida `\` seguida por uma letra.

|Padrão|Descrição|
|------|-----------|
|`\s` |Espaço em branco (espaço, nova linha, tabulação)|
|`\S` |Não é espaço em branco (não é espaço)|
|`\d` |Dígito 0-9|
|`\D` |Não é um dígito 0-9|
|`\w` |Caracteres de palavra (alfas, dígitos e sublinhado)|
|`\W` |Não é um caractere de palavra (alfas, dígitos e sublinhado)|

Não sou exatamente fã dos últimos quatro, pois prefiro usar intervalos de caracteres que, na minha opinião, são mais fáceis de ler. Eu poderia encontrar uma letra seguida de dois dígitos usando intervalos como este.

```
[A-z][0-9][0-9]
```

In [None]:
fullmatch(pattern="[A-z][0-9][0-9]", string="A15") != None

In [None]:
fullmatch(pattern="[A-z][0-9][0-9]", string="115") != None

Mas você pode ver pessoas usando `\w` para a letra e `\d` para os dígitos. Não se esqueça de usar strings brutas, pois estamos usando barras invertidas!

```
\w\d\d
```

In [None]:
fullmatch(pattern=r"\w\d\d", string="A15") != None

In [None]:
fullmatch(pattern=r"\w\d\d", string="115") != None

Estranhamente, você pode notar que `\w` também corresponde a dígitos e não apenas a letras do alfabeto. Eles também correspondem a sublinhados. É assim que funcionam. `¯\_(ツ)_/¯`

In [None]:
fullmatch(pattern=r"\w\d\d", string="_15") != None

Como eu disse, eu pessoalmente não gosto de usar `\d` e `\w` e suas contrapartes negadas `\D` e `\W`. Prefiro usar intervalos de caracteres, pois os acho mais fáceis de ler e interpretar. Mas não se surpreenda com eles quando os encontrar.

Acho `\s` e `\S` úteis. Podemos usá-los para corresponder a espaços em branco, incluindo espaços, tabulações e quebras de linha. Abaixo, combinamos uma letra minúscula e um dígito separados por um espaço.

In [None]:
fullmatch(pattern=r"[a-z]\s[0-9]", string="a 3") != None

In [None]:
fullmatch(pattern=r"[a-z]\s[0-9]", string="2 3") != None

Você também pode usar um espaço para combinar um espaço. Só não combina tabulações ou quebras de linha.

In [None]:
fullmatch(pattern=r"[a-z] [0-9]", string="a 3") != None

## Exercício

Um aeroporto nos Estados Unidos deve ter um código ICAO que comece com "K" e normalmente seja seguido por três letras maiúsculas. Crie uma expressão regular que qualifique um código de aeroporto com base nessa convenção, completando o código (substituindo o ponto de interrogação "?") abaixo.

In [None]:
fullmatch(pattern=?, string="KDFW") != None 

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

Use o padrão `K[A-Z][A-Z][A-Z]` para corresponder à convenção de aeroportos da ICAO.

In [None]:
fullmatch(pattern="K[A-Z][A-Z][A-Z]", string="KDFW") != None 